马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

全球首个吉瓦级训练集群!

马斯克一早激动官宣,专为训下一代Grok打造的「超算巨兽」Colossus 2,今天正式上线。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

它可是全球首个,达到吉瓦级的AI训练集群。这是什么概念?

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

Colossus 2的用电,要比旧金山全市用电峰值还要高。

预计在今年4月,升级到1.5GW,约等于一座大型核电站的输出。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

OpenAI、Anthropic在内的很多劲敌还在规划2027年路线图,xAI这边直接把「城市级」算力搞定了。

更夸张的,是他们的执行速度:

  • Colossus 1:从零到全面上线,只用了122天
  • Colossus 2:刚突破1GW门槛,目标直接冲着总共2GW去

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

Epoch AI此前一份报告称,Colossus 2将拥有相当于140万块H100 GPU等效算力

暴力出奇迹,依旧是马斯克坚信的路线——Scaling算力对于快速逼近「奇点」那一刻至关重要。

毕竟,在马斯克的叙事中,未来全球最强的AI玩家中,只有谷歌和xAI。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

全球首个GW级超算:55万GPU

xAI展现出的惊人速度,连老黄都为之惊叹。他曾这样高度评价道——

马斯克对工程学的理解是独一无二的。别人需要1年完成的事情,xAI仅用19天就搞定了。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

外界对于Colossus 1的了解,要比Colossus 2系统得多。

从0开始仅用122天就拔地而起,拥有大约20万张H100/H200,以及约3万张GB200 NVL72。

去年,SemiAnalysis高级分析师一篇文章,曾深度分析了Colossus 2工程设计和所取得的成就。

接下来,就扒一下其背后的细节。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

六个月,从0到200MW

Colossus 2项目,于2025年3月7日启动。

它将配备55万块芯片,由GB200和GB300 GPU组成,最终未来扩展到百万GPU。

当时xAI在孟菲斯(Memphis)收购了一个100万平方英尺的仓库,以及两个总计100英亩的相邻地块。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

不到六个月的时间,SemiAnalysis统计了现场已部署119台风冷冷水机组,即大约200MW的冷却能力。

这就足以驱动,大约11万张GB200 NVL72。

而且,这个巨大的超算,全部采用的是液冷设计。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

马斯克一条推文显示,一些机架在7月份就已经安装好了

令人惊叹的是,xAI只用了6个月就完成了甲骨文、OpenAI花了15个月才完成的工作

据介绍, Colossus 2造价高达数百亿美元。而xAI现在基本没外部收入,主要靠母公司X输血。

而且,报告里特意提了一嘴——

马斯克跟中东几个「土豪」关系很铁,沙特、阿联酋、卡塔尔的主权基金,都是潜在的金主。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

Grok 5在训,奇点更近了

Colossus 2的全面上线,也意味着「全球首个吉瓦级大模型」——Grok即将出世。

马斯克曾坚定地表示,xAI有机会通过Grok 5实现AGI。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

此前,在一期采访中,马斯克还表示Grok 5拥有高达6万亿参数,而且智能密度更高,预计将在上半年发布。

不仅如此,它还原生支持视频理解。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

可以预见,在首个吉瓦级超算上训出的Grok 5,实力一定超乎想象。

爆冲2GW,今年上线

去年12月底,马斯克斥资超200亿美元,买下了孟菲斯第三栋建筑,计划将Colossus总容量扩展至2GW。

这栋新建筑——MACROHARDRR,延续了Macrohard命名,位于Colossus 2旁,占地面积超80万平方英尺。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

Grok估计,在2025年中,按AI算力排名前10中,Colossus 2和特斯拉Dojo位居第一和第7:

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

在AI算力上,马斯克疯狂加码,甚至他「已经在规划10GW甚至更高的算力」。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

狂飙吉瓦级超算,硅谷巨头乱战

如今,全世界AI巨头们,正掀起一场前所未有的算力军备赛。

除了马斯克xAI之外,OpenAI、Meta、Anthropic也在纷纷加码,目标直指吉瓦(GW)级,甚至更大规模的AI超算。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

2022年GPT发布以来,OpenAI、xAI、Anthropic、Meta Superintelligence等AI训练算力飙升

OpenAI:星际之门

「星际之门」,便是众所周知的典型代表之一。

2025年1月初,OpenAI联合软银、甲骨文等伙伴正式启动了名为「星际之门」(Stargate)的宏大计划。

这项「AI曼哈顿计划」,要在未来4年砸5000亿美金,建设总容量达到10GW的集群。

首期立即部署1000亿美元,如今进展迅猛。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

去年9月,OpenAI公布了五个新站点,要在未来三年,实现7GW算力规模。

这样的规模相当于同时为数百万家庭供电,却全部用于驱动AI训练与推理。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

Meta:普罗米修斯

Meta同样在加速狂奔。

早在去年,小扎就公开了资金代号Prometheus(普罗米修斯)的GW级AI超算项目,目标在2026年上半年上线。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

不仅如此,Meta正在建设多个吉瓦级集群:

  • Prometheus预计2026年率先达到1GW+
  • 后续的Hyperion项目,计划逐步扩展到5GW规模,占地堪比曼哈顿相当一部分区域

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

几天前,小扎再次重磅宣布启动全新顶级计划——Meta Compute。

计划明确表示,将在本十年内建设数十吉瓦AI超算,长期目标甚至指向数百吉瓦级别。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

为此,Meta内部已组建专责团队,并与核电企业签订长期协议,确保能源供应跟得上疯狂扩张的步伐。

Anthropic:百万TPU下单,GPU也要

Anthropic选择了一条更聚焦的路线:深度绑定Google Cloud的TPU。

去年10月官宣,将把Google Cloud TPU扩展到最多100万颗TPU,合同价值数百亿美元。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

而且,预计在2026年上线远超1GW的容量。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

而且,Anthropic采用多平台策略,同时使用谷歌TPU、亚马逊Trainium和英伟达GPU。

如今,AI竞赛的胜负手,正从模型参数本身向基础设施倾斜。

硅谷巨头们狂建超算,原因很简单:下一代前沿模型所需的算力远超想象。

这场吉瓦级超算的全球军备赛,才刚刚拉开帷幕。

6千亿算力投资,AI榨干美国人钱包?

网友直呼,马斯克的算力赌注「太疯狂了。AGI最难的部分已不再是数学,而是字面意义上的能不能找到足够多的电源插座」。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

2026年,这一趋势只会愈演愈烈——

亚马逊AWS、微软、谷歌、Meta、甲骨文(Oracle)等超级云计算巨头正加速扩张。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

它们的资本支出预计将超过6000亿美元,重点已全面转向AI专用基础设施建设,边缘服务成为次要关注点。

独立的市场研究和分析公司Dell’Oro分析师Baron Fung指出:「预计在未来2至3年内,这些部署将新增数十GW总电力容量,反映出加速计算对算力规模和密度提出了极高要求。」

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

Baron Fung是戴尔奥罗集团(Dell’Oro Group)的高级研究总监,负责数据中心IT资本支出、半导体与组件,以及以太网适配器与智能网卡研究项目

虽然整体趋势是「全面转向AI」,但各家打法并不相同:

  • 亚马逊与谷歌聚焦自研AI加速器,围绕内部芯片构建数据中心;
  • 微软则持续重金押注OpenAI以及自己的AI平台战略;
  • Oracle借Stargate项目强势崛起,迅速构建新一代AI算力园区;
  • Meta正在打造当前全球最庞大的AI数据中心项目,代表作包括Prometheus与Hyperion。

Baron Fung表示,这类新一代数据中心将集成大规模AI集群、高密度加速卡机架、先进网络连接与支持型存储系统。

「预计未来2到3年内,数十GW级的新超级数据中心产能将陆续上线,服务对象既包括内部AI平台,也涵盖大客户的关键AI工作负载。」Fung总结道。

但与此同时,电力短缺、设备交付周期拉长以及地方政府与社区的反对,也让扩张变得日益困难。

那些AI数据中心年入千万美元,而且零交通压力,零学区负担,看起来只会带来现金流。

这番说辞深得美国政界青睐——白宫如此,各州政府亦如此。

但对数据中心附近的居民而言,「根本没有好处可言」。

因为这些算力设施全天候24小时运转,内部部署着数以千计的服务器,而服务器需要大量电力与水来保持冷却。

一方面,数据中心建设热潮助推了AI革命;另一方面,AI热潮可能耗尽美国电网资源、榨干普通人的钱包。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

AI正在推高电价,而没有人对此感到满意。甚至有媒体称:

美国对数据中心的「战争」即将到来。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

2025年12月1日,密歇根州塞林(Saline)的居民集会,反对一座耗资70亿美元的「星际之门」(Stargate)数据中心。

根据美国能源信息署(EIA)的数据,自2022年以来,全美几乎所有地区的居民零售电价涨幅均超过通胀率,且这一现象很可能持续至2026年。

比如,去年,新泽西州的电费账单上涨了约 20%。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

美国电价飙升的深层矛盾源于积弊数十年的结构性问题:老化的基础设施亟待更新,而过时的商业模式与法规体系拖慢了电网升级的步伐。

而数据中心建设浪潮,给美国的电力供应体系前所未有的难题。

据《Data Center Watch》统计,反对数据中心建设的浪潮正在加速:

2025年仅第二季度就有980亿美元的在建项目受到阻碍或严重拖延。

去年上半年,美国已有36个项目涉及投资高达1620亿美元的AI算力项目受到阻碍或严重拖延。

马斯克点火全球最大超算,首个1GW狂飙奇点!6万亿Grok 5在训

如果说AI热潮给全世界带了硬件短缺,那给美国带来的更严重的问题将是电力短缺。

保算力,还是保电力,成了美国不得不考虑的问题。

要支持数十GW级的新超级数据中心产能,电力而非算力卡了美国AI的脖子。

参考资料:

https://x.com/elonmusk/status/2012500968571637891?s=20 

https://x.com/MobofJoggers/status/1947708915958870344?s=20  

https://x.com/mark_k/status/2012510296485618078 

https://x.com/elonmusk/status/2012500968571637891 

https://x.com/XFreeze/status/2012493620331610607

文章来自于微信公众号 “新智元”,作者 “新智元”

给TA充电
共{{data.count}}人
人已充电
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
搜索