沙巴体育(中国)官方网站 xAI坐拥55万张GPU加快卡, 但算力专揽率仅11%

各人AI竞赛的早已从“谁能抢到更多GPU”悄然转向“谁能把GPU确凿用起来”。关联词,坐拥约55万块英伟达GPU,实验专揽率仅有11%,这一“打脸”般的数字,正将埃隆·马斯克(Elon Musk)旗下的东说念主工智能公司xAI推优势口浪尖。
据外媒《The Information》取得的xAI里面备忘录泄露,xAI公司总裁迈克尔·尼科尔斯(Michael Nicolls)向团队坦承,公司现在的模子浮点运算专揽率(MFU)约为11%。这个数字意味着,表面上能输出100份检会算力的硬件,实验仅产出了11份。
xAI现在领有约55万颗NVIDIA GPU,其中包括H100和H200系列。尽管这些GPU比最新的Blackwell产物逾期了一个世代,但xAI部署的GPU限制之大令市集印象潜入。
关于这一近况,Michael Nicolls在里面备忘录中给出了直白的评价:“低得无语”。他已为团队设定了在将来几个月内将专揽率拉升至50% 的标的。
“11%”这个数字,并非指89%的GPU在透顶闲置,而是揣度有用检会朦拢占硬件表面峰值算力比例的严苛见地。
从行业基准来看,坐蓐级大模子检会的MFU时时落在35%至45%之间。Meta和谷歌凭借深厚的软件堆栈积聚,其GPU专揽率差异可达约43%和46%。即便以“低效”著称的GPT-3检会时代,MFU也在21%-26%之间。比拟之下,xAI的11%不仅远低于现时主活水平,以至低于AI算力发展史上的“古早”无语时代。
坐拥算力“金山”却难有用武之地,要道出在何处?谜底指向软件堆栈与并行战略的滞后。
xAI在业内以“透顶按照英伟达推选格式部署GPU”的范例生作念法著称。范例生却跑出低分,诠释问题不在圭臬的硬件或收罗拓扑层面。根源在于,检会栈、并行战略和模子工程等软件优化速率,远跟不上其激进的硬件膨大措施。
业界粗造计议的“存储墙”气候成为主要瓶颈——HBM显存读取速率远慢于计较芯片,沙巴体育中国官网入口导致芯片无数时刻空转恭候数据;收罗拓扑中的任何一处瓶颈,在数万张卡的同步条款下,齐会被急剧放大。此外,Lambda等机构的分析指出,显存压力、过度的激活重计较和张量并行带来的跨GPU通讯支出等,齐是遭殃MFU的系统性身分。
xAI的算力基础体式确立速率本人便是一个“外传”:其孟菲斯Colossus超算集群从动工到参加运营仅用了122天,从10万张GPU扩展到20万张仅用了92天。黄仁勋曾评价此类工程“时时需要四年”。

△xAI孟菲斯Colossus超算集群
关联词,惊东说念主的速率似乎也让xAI“欠下”了手艺债。膨大越快,撑捏大限制并行检会的软件系统复杂度就越大。当企业试图将GPU限制从数千张推向数十万张时,通讯、诊疗、容错和并行战略的挑战会呈指数级增长。xAI的11%的算力专揽率,恰是这一矛盾的和谐体现。
把问题透顶报怨于xAI一家也并叛逆允。《The Information》的报说念征引一位匿名连络员的话称:“跑过40%对xAI的大多数竞争敌手来说也很难”。这标明,超大限制集群下的低效问题,是隐敝所有这个词AI行业的暗影。
报说念还揭示了一个行业里面的污蔑气候:由于记念GPU被调走或承受压力,一些连络员以至通过反复重跑检会来东说念主为“好意思化”自家MFU数据。囤而毋庸的算力糜费,成为行业心照不宣的玄机。
靠近效果困局,xAI正多措并举。一方面,公司筹划通过基础体式和软件栈优化来贬责专揽率问题。另一方面,据媒体报说念,xAI已开动将部分闲置算力对出门租,AI编程创业公司Cursor已筹划使用其“数万张GPU”来检会新模子。
AI算力之争已过“装备竞赛”阶段,说明进入“效果竞赛”的深水区。11%的低专揽率如消释面镜子沙巴体育(中国)官方网站,照出AI行业下半场的中枢命题:怎样将“买得到”的硬件,滚动为确凿“用得好”的竞争壁垒。
米乐体育(M6Sports)官网入口