马斯克宣布启动全球最大AI集群,集成10万个英伟达H100 GPU
创始人
2024-07-23 13:37:47
0

7月23日,据国外媒体报道,马斯克在其社交媒体上宣布,旗下AI初创公司xAI已开始在位于田纳西州的所谓孟菲斯超级集群(training cluster)上进行训练,号称这是"全球最强大的AI训练集群"。

马斯克在X平台的宣布截图华尔街见闻

据马斯克介绍,这个集群由100,000个液冷H100 GPU组成,这些芯片是英伟达去年开始提供的。

马斯克还表示,该集群在单个RDMA结构(即远程直接数据存取结构)上运行。据思科介绍,这种结构可以在计算节点之间提供更高效、更低延迟的数据传输,而不会给中央处理器(CPU)带来负担。

马斯克今年5月曾透露这一计划 ,将英伟达H100串联到一台巨型的超级计算机中,并称其为"算力超级工厂"。

当时,马斯克匆匆忙忙地开始了Supercluster的工作,需要购买英伟达"Hopper"H100 GPU。这似乎表明,当时这位科技大亨没有耐心等待 H200 芯片推出,更不用说即将推出的基于 Blackwell 的 B100 和 B200 GPU。尽管预计较新的 Nvidia Blackwell 数据中心 GPU 将在 2024 年底之前发货。

马斯克新浪科技

xAI的目标是到2024年12月训练出"按每项指标衡量都是全球最强大的AI"。马斯克表示,孟菲斯超级集群将为实现这一目标提供"显著优势"。

不过,据外媒表示,不要对这一时间节点报太大期望,因为马斯克以公开提出并错过许多项目(如全自动驾驶汽车、无人驾驶出租车产品Robotaxi和将人类送往火星)的最后期限而闻名。

马斯克周一还表示,特斯拉将在明年小规模生产用于内部使用的Optimus机器人,并希望到2026年能大规模生产供其他公司使用。这比他之前承诺的时间表晚了。之前马斯克宣称到2024年底将在特斯拉工厂使用Optimus机器人,并在2025年交付给其他公司。

另外,Microsoft正在与OpenAI首席执行官Sam Altman(阿尔特曼)合作开发一个价值1000亿美元的AI训练超级计算机,代号为Stargate。如果这一项目取得成功,xAI的孟菲斯超级集群可能不会长期保持全球最强大的AI训练集群地位。

心智观察所研究员潘攻愚认为,马斯克一直标榜特斯拉是一家人工智能和机器人公司。特斯拉大型工厂三班倒一刻不停地进行数据搜集用于AI训练,马斯克需要近10万块H100用于特斯拉FSD自动驾驶服务,为下半年推出Robotaxi做准备。不过如此大量的采购有两个挑战,一个是能耗。目前H100全年总能耗已经超过了格鲁吉亚等小国全年所有的电量;一个是从训练到推理的跳跃,毕竟H100用于推理的性价比并不高,会造成很多算力的"通货膨胀"。

目前,英伟达的股价正在走出另一波调整,马斯克的最新言论为其注入一针强心剂。截至当地时间22日美股收盘,英伟达上涨4.76%,特斯拉则上涨5.15%。

心智观察所研究员吕栋指出,AI既是"暴力美学",也是工程比拼,需要算力、算法、数据的深度融合与经验积累。

一方面,随着计算量不断攀升,单卡算力角色弱化,大模型训练亟需一个超级工厂,即"大且通用"的加速计算平台,以缩短训练时间,实现模型能力的快速迭代。随着大模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,万卡甚至超万卡集群已成为竞赛入场券。

另一方面,建设万卡或超万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的系统工程。算力集群不是一个计算GPU,怎么把它组织成算力网络,相互之间通讯效率怎么提高,怎么实现MFU(算力利用率)达到60%的最优目标,这些都要靠网络通讯、计算、存储一起来解决。只有软硬件结合,把整个集群算力发挥到最高,才能实现1+1>2的效果。

另外值得注意的是,在比拼算力和算法之外,如何将人工智能基础设施化,赋能全行业,中国正在做人工智能赋能实体经济的道路探索。

中国工程院院士、中国科学院计算技术研究所所长孙凝晖认为,算力基础设施的中国方案需要具备"两低一高",即在供给侧,大幅度降低算力器件、算力设备、网络连接、数据获取、算法模型调用、电力消耗、运营维护、开发部署的总成本,让广大中小企业都消费得起高品质的算力服务,有积极性开发算力网应用;在消费侧,大幅度降低广大用户的算力使用门槛,面向大众的公共服务必须做到易获取、易使用,像水电一样即开即用,像编写网页一样轻松定制算力服务,开发算力网应用。在服务效率侧,中国的算力服务要实现低熵高通量,其中高通量是指在实现高并发度服务的同时,端到端服务的响应时间可满足率高;低熵是指在高并发负载中出现资源无序竞争的情况下,保障系统通量不急剧下降。保障"算得多"对中国尤其重要。

当前,中国也正在掀起建设万卡集群的热潮,像华为、中国移动、摩尔线程等厂商都在布局万卡集群。

相关内容

热门资讯

中央财政统筹安排12.5亿元支... 为积极应对冬小麦晚播、苗情偏弱的生产形势,近日,财政部会同农业农村部统筹安排中央财政资金12.5亿元...
暖意升级!正月初一至初三山东天... 今天6时,山东省气象局发布最新天气预报,正月初一至初三山东天气以晴为主,最高气温可达18℃。具体天气...
中欧班列“中通道”今年通行量突... 大年初一凌晨,一列满载货物的中欧班列从内蒙古二连浩特铁路口岸启程,缓缓驶出国门,这是该口岸农历马年发...
特朗普称他将间接参与美国和伊朗... 当地时间2月16日晚,美国总统特朗普表示,他会“间接”参与2月17日在日内瓦举行的美国与伊朗新一轮间...
驻日本使馆发言人就日方所谓交涉... 问:日本外务省发表新闻稿称,针对中方在慕尼黑安全会议上就日本安保政策作出的“不恰当发言”,日方已向中...
《武BOT》如何惊艳全场?王兴... 2月16日晚,总台马年春晚舞台上,一群练武的机器人燃爆全场。由宇树科技机器人与河南塔沟武术学校的小朋...
美国空军向中东增派18架F-3... F-35A“闪电II”战斗机(资料图)当地时间2月16日,央视记者获悉,美军驻扎在英国皇家空军莱肯希...
2026春节档票房破7亿 据网络平台数据,2026年春节档电影票房已突破7亿元。
今晚见!中央广播电视总台《20... 2月16日晚8点,中央广播电视总台《2026年春节联欢晚会》将在央视综合频道、综艺频道、中文国际频道...
伊朗革命卫队海军在霍尔木兹海峡... 当地时间16日,伊朗伊斯兰革命卫队海军在霍尔木兹海峡举行军事演习。本次演习名为“智能管控霍尔木兹海峡...
澳大利亚邦迪海滩恐怖袭击枪手被... △资料图总台记者获悉,当地时间16日,澳大利亚悉尼邦迪海滩恐怖袭击案的枪手纳维德·阿克拉姆在被捕后首...
应急管理部派出工作组赶赴江苏东... 2月15日晚,应急管理部紧急召开应急、消防系统调度会,通报江苏连云港东海县烟花零售店发生爆炸的情况,...
美官员称超千名移民执法人员已撤... 明尼苏达州央视记者当地时间2月15日获悉,美国政府边境事务主管汤姆·霍曼表示,超过1000名移民执法...
美国防部称在印度洋拦截一艘油轮 △美国防部公布的画面美国国防部当地时间15日在社交媒体上发文称,美军在印度洋拦截一艘油轮并登船检查。
中国警察参加第七届阿联酋世界特... 2月7日至11日,第七届阿联酋世界特警挑战赛在迪拜举行,来自48个国家的109支(含10支女子队)军...
2月15日全社会跨区域人员流动... 记者从交通运输部获悉,预计2026年2月15日(春运第14天,农历腊月二十八),全社会跨区域人员流动...
单板滑雪坡障预赛提前 米兰冬奥... 米兰-科尔蒂纳冬奥会开幕后第九比赛日,单板滑雪坡障预赛提前,花滑双人短节目“隋韩”登场。
多国政要向中国人民致以新春祝福 新春佳节将至,全球多位政要向中国人民致以美好的新春祝福。乌拉圭总统 奥尔西:祝愿中国侨民以及全体中国...
高铁上哪些能吃?哪些禁带?实用... 乘坐高铁时,如何让携带的食物既符合规定,保障安全,又能兼顾自身舒适与公共文明呢?结合相关规定,梳理了...
跨大西洋关系裂痕加剧 欧洲高调... 第62届慕尼黑安全会议(慕安会)2月13日到15日在德国慕尼黑举行,跨大西洋关系裂痕成为各方关注焦点...