设为首页|收藏本站|
开启左侧

[科技] 全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼

[复制链接]
啊潘 发表于 2024-9-5 12:21:48 | 显示全部楼层
 
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第1张图片





  新智元报道  



【新智元导读】两天前,马斯克自得自曝:团队仅用122天,就建成了10万张H100的Colossus集群,未来还会扩大到15万张H100和5万张H200。此消息一出,奥特曼都被吓到了:xAI的算力已经跨越OpenAI了,还给员工许诺了代价2亿期权,这是要上天?


马斯克的xAI一路狂飙突进,把Sam Altman都整怕了!
就在9月3日,马斯克在推上自得自曝:
团队仅仅用了122天时候,就建成了有10万张H100的Colossus集群,是天下上最强大的AI练习系统。
而且,未来几个月范围还要翻一倍,扩大到15万张H100+5万张H200。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第2张图片


最初,马斯克感激了英伟达和很多其他合作伙伴、供给商。据悉,是戴尔开辟、组装了Colossus系统。
马斯克的xAI,已经让几大AI巨头感遭到了激烈的威胁。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第3张图片

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第4张图片

按照内幕消息,Sam Altman就曾暗示,自己是怕了马斯克了!
现在的xAI,不但算力有超越OpenAI之势,还对员工非常风雅。有说法指出,对于xAI的研讨者,马老板曾许诺过代价2亿美圆的期权。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第5张图片


马斯克,尽力进军超算


相信大师都已经发现:马斯克的超算野心,是愈发藏不住了!
隔三岔五的,就会有劲爆消息曝出。
7月底,xAI启动了位于孟菲斯的超级AI集群的练习,该集群由十万个液冷H100 GPU组成。
十万个H100 GPU消耗的电力大约在70兆瓦,是以这个超算最少会消耗150兆瓦的电力。
8月底,特斯拉公布了Cortex AI集群,包括5万个英伟达H100 GPU,和2万个特斯拉的Dojo AI晶圆级芯片
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第6张图片

现在看来,这些集群极能够都正式投入运转,甚至已经在练习AI模子了。不外,马斯克真的有才能让它们全数在线吗?重要题目是,要调试和优化这些集群的设备,需要一按时候。其次,xAI还得确保它们获得充足的电力。我们晓得,虽然马斯克的公司一向在用14台独立发机电为其供电,但要为十万块H100 GPU供电,这些电力明显不够。练习xAI的Grok 2,需要两万块H100;而马斯克猜测,要练习Grok 3,能够会需要十万块H100。所以,xAI的数据中心,建得怎样庞大都不外分。扶植速度太快,猜测是「部分上线」


122天,也就是4个月的时候,建成10万张H100组成的超算集群,这是个什么速度?有业内助士暗示,凡是完成这样一个集群能够需要一年时候。这个速度,这个范围,很马斯克。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第7张图片

但也有人猜测,他能够有夸大其词的偏向,高估了在单一集群中现实运转的GPU数目。囤足10万张芯片、放在一路配合运转,并不意味着就是单一集群。论GPU数目,Meta在今年1月就已经计划采购35万张H100,但现实运转时是分红了分歧集群。之所以还没有其他公司能造出10万GPU范围的集群,很难说是由于缺钱,更重要的身分是收集处理计划。串联起一切GPU的收集,需要保证充足的高带宽、低提早和牢靠性,才能让10万张芯片协同起来像一台计较机一样工作。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第8张图片

Colossus是二战时代第一台可编程计较机,也曾在科幻电影里退场除了收集,还有电力题目。马斯克此前暗示,Colossus在6月底已经启动运转,那时,电力公司供给的最高功率只要几兆瓦,仅能供给数千个GPU同时运转。电力公司暗示,到8月,xAI将获得大约50兆瓦的电力,但这只能供给大约5万个芯片。与此同时,现场行将建成的另一个发电站将供给别的150兆瓦,可以满足10万个或更多芯片的电力需求,但要到明年才能实现。马斯克似乎找到了一个短期处理计划:引入化石能源发机电。Colossus地点地,田纳西州孟菲斯的环保构造头几天刚刚写信控诉马斯克,指责他在没有答应的情况下安装了最少18台涡轮机(能够更多),加重了当地的空气净化。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第9张图片

出于收集和电力两方面的限制身分,The Information指出,马斯克的这个集群能够只是「部分完成」除了Colossus和微软在凤凰城为OpenAI建造的超算集群,多个类似的集群也正处在研发和扶植进程中。奥特曼:微软爸爸,我们的算力不够了
虽然如此,马斯克这个超大集群的停顿,还是让一些合作对手极端担忧!
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第10张图片

其中一位,就是OpenAI的CEO Sam Altman。按照内部消息,奥特曼已经向一些微软高管流露了自己的担忧——他非常管忧,xAI很快就具有比OpenAI更多的算力!
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第11张图片

虽然为OpenAI供给算力的微软老年老,资金气力很是薄弱,但作为上市公司,微软在花费资金时,还需要对公众股东负责。但马斯克则完全没有这样的限制,虽然他的资金不如微软。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第12张图片

甭管马斯克有几多吹嘘的成份,即使能部分完成Colossus集群的建成,也是一件使人印象深入的事。外媒The Information猜测,马斯克这类奇异的赶工速度,能否放弃了传统的例行平安检查?究竟,假如按例检查的话,能够会让数据中心项目标完工提早数月。而且,The Information还发现了一个「华点」:Colossus位于之前的制造工场内,这可不是合适高性能计较的理想场所。微软和英伟达的高管流露,这是他们最不愿意放置高贵硬件的地址之一。由于这些地方很难革新,来顺应办事器花费的庞大电量,和数据中心装备需要的冷却技术。我们都晓得,马老板一向喜好冲破鸿沟,而在质疑声接连不断时,他又经常被证实是正确的。比来在xAI的姊妹公司X,马斯克又有了一个惊人之举:封闭了一个数据中心。那时大师都担忧,X会是以而解体。成果谁也没想到,X运转得很好,马斯克居然有如此先见之明。而此次,马斯克在田纳西州的超算,也一样能够会对AI开辟者振聋发聩——也许他们会发现,传统的干事方式现在已经过期了。两家奥秘AI巨头,正计划打造1250亿美圆超算


现在,数据中心之战,合作还在炽热加重!最少有六大巨头,已经了局了。按照北达科他州官员的表露,除了微软、OpenAI和xAI,还有两家AI巨头也正在酝酿建造「巨型AI数据中心」。这两家公司找到了商务专员Josh Teigen和州长Doug Burgum,商讨建立巨型AI数据中心。除了技术研发,这类数据中心也对资本和根本设备提出了很高的要求。不但需要采购充足的芯片和相关装备,还要留出数万英亩的地盘、扶植新的发电设备。马斯克的Colossus要自建发电站才能弄出200兆瓦,而这两家公司能够是由于间接找上了州长,他们的初始电力就能到达500~1000兆瓦,并计划在几年内扩增至5k~1w兆瓦。这些项目标范围将比现有的任何数据中心,包括Colossus都扩大几个数目级。100兆瓦可以为7万至10万个家庭供电;客岁微软Azure的全球数据中心总共利用了大约5吉瓦(5k兆瓦)的电力。这就意味着,一个数据中心,能够和全部Azure云办事平台的耗电量相当。按照会议的音频记录,这类范围的项目耗资能够跨越1250亿美圆。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第13张图片


在对外会议上,商务专员Teigen没有流露这两家奥秘AI巨头的名字,但他暗示市值到达了「一万亿美圆」。这就将潜伏名单缩小到了美国的大约6家公司,七巨头之六——英伟达、亚马逊、微软、谷歌、Meta和苹果。微软此前就和OpenAI会商过建造代价1000亿美圆的「星际之门」(Stargate),而且北达科他州长Doug Burgum曾是微软的高管,在2001年以11亿美圆向微软出售过自己的一家软件公司。但我们也晓得,谷歌和亚马逊等其他公司也在积极提升其AI计较才能。揭开美国AI超算的奥秘面纱


AI巨头一向对尖端技术严酷保密,但他们对开辟数据中心所需的技术,保密水平有过之而无不及。The Information列出了在美国7个州运营或计划中的17个超算数据中心,触及微软、OpenAI、Meta和xAI等公司。总的来说,仍在开辟或计划阶段的设备扶植本钱能够跨越500亿美圆,其中包括约350亿美圆的英伟达芯片,以及运营所需的额外数十亿美圆。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第14张图片

这些超算估量在数年时候内完工,并需要大量的芯片、地盘和电力。ChatGPT问世前,GPU集群凡是只包括几千个芯片。现在,一些最大的GPU集群具有跨越3万个芯片,上面提到的这些超算更是到达了史无前例的范围。要为一切计划中的数据中心供电,美国能源部估计会出现电力不敷的情况,是以比来提出了一些处理计划,例如帮助研讨使AI计较更高效。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第15张图片

争取「下一个高地」

现在,数据中心比赛的焦点,集合到了英伟达CEO黄仁勋的身上。就在上周,老黄颁发了以下谈吐,好像在业内投入一颗炸弹。
率先到达超算集群下一个高地的人,将实现反动性的AI水平。
此言一出,英伟达的GPU,谁敢不买?即使已经和博通配合设想出了TPU的谷歌,比来也为英伟达行将推出的Blackwell下了大单。
全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第16张图片

对GPU的争取,已经激发了AI开辟者及其云供给商之间的严严重势,甚至,偶然还会激发它们和英伟达的磨擦。比如,马斯克就曾斟酌和甲骨文告竣一项大范围协议,按照他的计划,xAI将在未来几年内,花费跨越100亿美圆租赁英伟达的GPU。而这项谈判终极破裂了,部分缘由在于,马斯克以为甲骨文没法充足快地建起超算,而甲骨文则担忧,他会把GPU集群放在一个供电不敷的地方。芯片多多,题目多多

很多超大的GPU集群都位于地盘广宽、空间丰裕且电力充沛的地域。例如,马斯克的Colossus特地选址在田纳西州孟菲斯,亚马逊、Meta和微软都在亚利桑那州的凤凰城地域运营AI办事器。但随着更大的GPU集群需要更多的电力,AI巨头们正计划在非传统数据中心关键的地域建造这些集群。例如,亚马逊比来在宾夕法尼亚州中部的一座核电站旁边购买了地盘,计划供给约一吉瓦(1000兆瓦)的电力。这足以为全部旧金山供电,大概构建多达100万张GPU的集群。另一个应战是若何停止装备冷却。传统上,数据中心一般采用风冷,但GPU办事器发生的热量远远跨越传统办事器。为了更佳的冷却结果,微软在威斯康星州为OpenAI扶植的数据中心估计将利用液冷而非风冷。究竟,竞家都All In了,你能不上吗?六巨头盘据,群雄逐鹿,谁将夺得下一个超算高地?

全球最大,马斯克4个月建成10万张H100超算集群!xAI算力超越OpenAI,奥特曼 第17张图片



上一篇:林依晨高兴自称“我是成都人”遭进犯,多方发声
下一篇:国足vs日本18强赛前瞻:虽气力不济,也不成未战先降!
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-9-14 13:11