文 | 半导体产业纵横kaiyun官方网站
GPU 万卡集群,小米下场了!摩尔线程智算集群推广至万卡!中国搬动将商用三个自主可控万卡集群 ...... 一系列标题的袭来,让笔者眨眼间相识到,仿佛在不经意间,智能算力建筑果决迈入万卡期间。
那么到底什么是万卡集群?万卡集群到底有哪些作用?有必要部署万卡集群吗?
01 什么是万卡集群?
万卡集群,是指由寥落一万张加快卡(如 GPU、TPU 或其他专用 AI 加快芯片)构成的高性能计较系统,用以加快东谈主工智能模子的考验和推理经由。
至于为什么需要一万张加快卡?
人所共知,大模子竞赛的本色是算力竞赛。比如这里有一个超大土堆,放一个工东谈主和放一万个工东谈主,在成果上详情会有质的飞跃。
以 OpenAI 考验 GPT 模子为例,GPT-4 需要使用 2.5 万张英伟达 A100 GPU,并行考验 100 天傍边的时刻,在此期间要处理 13 万亿个 token,何况波及精辟 1.76 万亿个参数。在不久的改日,开发大模子所需的算力将终了指数级的增长,关于行将亮相的 GPT-5,预测该模子的考验需要部署 20 万 ~30 万个 H100 GPU,耗时 130~200 天。
如今 OpenAI 发布 ChatGPT 已有两年的时刻,从建筑程度上看,国际头部厂商在 2022 年、2023 年还是完成万卡集群搭建。比如 2023 年 5 月,谷歌推出的 AI 超等计较机 A3,搭载了约 26000 块英伟达 H100 GPU;2022 年,META 晓谕了一个由 1.6 万块英伟达 A100 GPU 构成的集群。到了 2024 岁首,META 进一步扩大限制,建成了两个各含 24576 块 GPU 的集群,并设定了宏伟目的:到 2024 年底,构建一个包含 35 万块英伟达 H100 GPU 的庞大基础方法。亚马逊 Amazon EC2 Ultra 集群采选了 2 万个 H100 TensorCore GPU。
再看中国的智能算力建筑情况。
02 国产万卡集群,谁在布局?
日前,中国工程院院士郑纬民指出,"构开国产 AI 卡的万卡大模子考验平台很难,但也很进犯以及必要。"
当下,国内已有多家厂商及机构入部属手向万卡集群范围拓展业务。
笔据《智算产业发展商讨讲授 ( 2024 ) 》自大,在中国,超万卡集群的智算中心已达十余个。
本年以来, 中国搬动 、联通、电信三大运营商均在加快鼓动超万卡集群智算中心的建筑。
本年 8 月,中国电信在智算收罗建筑方面赢得了权贵进展,其上海与北京两大万卡集群已胜利投产运营。
中国搬动位于呼和浩特、哈尔滨、贵阳的万卡级别的智算中心还是先后投产运行。据悉,三大集群总限制近 6 万张 GPU 卡,充分称心大模子辘集考验需求。
中国联通正在打造上海、呼和万卡智算集群,全网智算算力超 15EFLOPS,发布 AICC、AICP、星罗更正平台等五大智算居品,提供涵盖国度"东数西算"曲折、31 省重心城市、超 600 边际节点的 AIDC 基座。
小米也正筹算建筑一座 GPU 万卡集群。据悉,小米在其大模子团队成当场还是领有 6500 张 GPU 资源。
字节在 2023 年就已设置起寥落 1 万张卡的 Ampere 架构 GPU (A100/A800) 集群,尔后还在建筑大限制 Hopper 架构(H100/H800)集群。
如今,"万卡集群"被业界视作是这一轮大模子竞赛的"入场券",甚而还有不少厂商还是开动布局"十万卡集群"。
百度的百舸 4.0 通过一系列居品时期立异,还是好像终了十万卡集群的高效管制。
阿里巴巴的阿里云可终了芯片、做事器、数据中心之间的高效协同,扶直 10 万卡量级的集群可推广限制,已做事寰球一半的东谈主工智能大模子企业。
腾讯已晓谕自研星脉高性能计较收罗全面升级,星脉收罗 2.0 搭载全自研的收罗开荒与 AI 算力网卡,好像扶直超 10 万卡大限制组网,收罗通讯成果比上一代提高 60%,让大模子考验成果提高 20%。
03 国产 AI 芯片公司,得到利好
赫然,在运营商以及科技巨头纷繁入场布局之际,国产 AI 芯片公司也迎来利好。
华为昇腾
据悉,以政府为主导的城市智能计较中心多采选国产 A1 芯片中的杰出人物如华为昇腾等,其中华为更是在统计的 20 多个城市为主体的智能计较中心中占据 79% 的市集份额,处于国产 AI 芯片的登程点位置。在可意料的 2025 年,昇腾芯片及做事器的市集依旧会处于垂危的供给所在。
寒武纪
2023 年寒武纪想元(MLU)系列云霄智能加快卡在中国搬动认真上线。截止 2023 年 12 月,中国搬动已有 12 个省公司、寥落 70 个 AI 业务完成向寒武纪想元系列云霄智能加快卡的搬动。
2024 年 8 月,中国搬动云智力中心参建的全球运营商最大单集群智算中心——中国搬动智算中心(哈尔滨)认真投产使用。该智算中心部署超 1.8 万张 AI 加快卡,AI 芯片国产化率达 100%,可提供 6.9EFLOPS(每秒 690 亿亿次浮点运算)智能算力。据悉,该智算中心便是由寒武纪参与建筑。
南京智能计较中心由南京市麒麟科技立异园与海浪、寒武纪共同打造,采选海浪 AI 做事器算力机组,搭载登程点的寒武纪想元 270 和想元 290 智能芯片及加快卡,已运营系统的 AI 计较智力达每秒 80 亿亿次 ( 800P OpS ) 。
大模子爆火确当下,AI 的考验和推理芯片及训推一体化等芯片成为市集"香饽饽",寒武纪在此范围的深耕研发,加快想元系列芯片的迭代。
摩尔线程
2023 年 12 月摩尔线程 KUAE 智算中心揭幕,这是国内首个以国产全功能 GPU 为底座的大限制算力集群,以全功能 GPU 为底座,提供软硬一体化的全栈管制决策。
2024 年 7 月,摩尔线程王人辘集国搬动通讯集团青海有限公司、中国联通青海公司、北京德谈信科集团、中国动力建筑股份有限公司总承包公司、桂林华崛大数据科技有限公司等,辩认就三个万卡集群技俩进行了策略签约,多方将聚力共同构建好用的国产 GPU 集群。
燧原科技
2021 年燧原科技与之江实验室在之江实验室南湖新园区签约诞生"燧原 - 之江东谈主工智能芯片王人集商讨中心"。
成渝智算中心由四川并济科技投建,燧原科技提供搭建算力底座。
与此同期,燧原科技还助力太湖亿芯(无锡)智算中心、甘肃庆阳算力曲折的建筑。
天数智芯
中国搬动智算中心(呼和浩特)是全球运营商范围内限制最大的单体液冷智算中心,智算限制高达 6.7EFLOPS(FP16),领有国度级 N 节点万卡限制 AI 考验场。
天数智芯在该技俩中充分发达天垓 150 居品的不凡性能与无为适用性,与新华三信息时期强强王人集,共同打造高性能 AI 考验做事器。
壁仞科技
壁仞科技也参与中国搬动呼和浩特智算中心技俩。
此外,壁仞科技的壁砺系列通用 GPU 算力居品还在中国电信落地千卡集群并开展贸易化应用,另外皮中国电信集团新一轮国产化 GPU 集采技俩中,壁仞科技的主流 GPU 居品还是纳入中国电信的集采名录,成为中国电信的主要 GPU 供应商。
沐曦科技
2024 年 11 月,由上海联通联袂加佳科技、沐曦共同打造的曦源一号 SADA 万卡集群算力技俩第一期千卡国产算力集群在上海联通临港机房认真落地。该技俩以沐曦 GPU 芯有顷期居品为中枢,遵循构建集算力、算法、数据、产业应用为一体的东谈主工智能产业腾达态。
据悉,沐曦和加佳科技已在上海、湖南、江苏等多地建成智算中心,并筹算于 2025 年 6 月完成 10000 卡国产高质地算力建筑。
04 岂止"万卡",甚而要"百万卡"
从早期智算中心难懂起步,一步步发展到如今 "万卡" 限制的算力集群纷繁落地,这无疑是巨大的飞跃。当下,行业头部厂商更是将视线进一步拓宽,果决聚焦于更为强大的 "百万卡" 目的。
近日,在 AI 市集快速增长的配景下,博通市值破裂 1 万亿好意思元,创下历史新高。
博通首席奉行官陈福阳示意,他有信心在 2020 年代后期赓续加大对东谈主工智能的投资。他指出,三年内,博通的客户筹算构建配备数百万个 AI 芯片的大限制计较集群,从而推动市集大幅增长。
博通正与三大客户招引开发 AI 芯片,筹算到 2027 年在收罗集群中部署 100 万个芯片。据 CNBC 报谈,他揣摸,到 2027 年,其 XPU 和 AI 收罗组件的总市集限制将达到 600 亿至 900 亿好意思元。
天然博通尚未认真公布其芯片客户,但分析师示意,该公司正在与谷歌、Meta 和字节高出招引,以加快 AI 系统的考验和部署。据《金融时报》报谈,该公司已为此开发了定制处理器。
05 "万卡集群"果然有必要吗?
先说论断,"万卡集群"的建筑一定是有必要的。
面前,我国智能算力供不应求的问题较为凸起,大模子对算力的需求增速远超单颗 AI 芯片性能的提高门径。联系阐赫然示,2023 年,中国智能算力需求达 123.6EFLOPS,而供给仅为 57.9EFLOPS,供需缺口一目了然。利用集群互联弥补单卡性能短板,或是现阶段缓解 AI 算力荒最值得探索与本质的有用阶梯。
不外,在鼓动 "万卡集群" 建筑进程中,有两大关键困难亟待管制:其一,怎样高质地完成建筑任务,保证集群在踏实性、高效性、兼容性等多方面达到圭臬条款;其二,建成后怎样充分挖掘其应用价值,使其在东谈主工智能考验、大数据分析等适配场景发达最大作用,根绝资源空置与糜掷称心。
登程点,不妨将 "万卡集群" 类比为参与 "多东谈主多足" 游戏的团队,大师都明晰,让一群东谈主如归拢个东谈主般整王人整齐地前行并非易事,要更正上万张计较卡协同高效功课、达成性能的线性推广、确保任务无远隔运行,这对集群的设想、更正以及容错智力都提议了极高挑战。
其次,智算中心的建筑仅仅一个开首,更进犯的是后续的有用利用。
据报谈,由于智算中心的投资、建筑、运营时时由不同主体负责,前期建筑方不时对后续运营格式、做事圭臬枯竭填塞考量,出现 "只管建筑、不顾运营"、建筑与运营脱节的情况,影响了客户体验,致使不少城市所建智算中心的机架利用率不尽东谈概念。
从贸易格式来讲,智算中心大多以出租或售卖算力为主要盈利妙技,然则因行业尚未协调算力订价圭臬,不同智算中心价钱相反悬殊,市集采选程度受限。
近期,多位智算中心范围从业者拜谒国内各地智算中心后,他们中的一些东谈主向《智能涌现》响应,面前国内算力中心市集较为低迷。一位业内东谈主士显露:"就当今所掌执情况,多数机房出租率大致在 20% - 30% 区间浮动,部分企业级智算中心出租率甚而低至 10% 傍边。"
要明晰,智算中心不仅前期需要参预大都资金购置 GPU 等 AI 芯片,后续运营阶段一样需要陆续注资。
《智能涌现》不久前发文指出,一台英伟达 H100 做事器(8 卡)租借价钱,已从岁首的 12- 18 万元 / 月,下滑至当今的 7.5 万元 / 月,降幅约 50%。
若按照面前机房 20% 的利用率来算,一个英伟达 H100 千卡集群智算中心每年营收仅 2300 万元(即 7.5 万元 / 月 ×12 个月 ×128 台做事器 ×20%),这意味着,即便算力中心拼集保管运营,所得收入基本只可障翳一半的平时运营成本,前期参预的本钱根柢无从回本。
总而言之,"万卡集群"已成为智能算力期间的进犯里程碑kaiyun官方网站,鲜艳着我国在东谈主工智能范围的算力建筑迈上了新的台阶。从小米、中国搬动等科技巨头正积极布局万卡集群,以期在这场大模子竞赛中占据成心地位。然则,万卡集群的建筑并非易事,智算中心需要多永劫刻才能通过运营收入收回投资,行业也还需更多的探索。