
这个问题并非 xAI 独有。
如何高效运行数十万块 GPU,已经成为当下 AI 行业最难的工程挑战之一。随着集群规模不断扩大,闲置时间会迅速累积,软件栈也越来越难跟上硬件扩张速度。
Meta 和 Google 在软件优化上投入很深,因此 GPU 利用率分别达到 43% 和 46%。
相比之下,xAI 的分布式训练网络和软件栈仍在成熟过程中,导致更长的空闲时间,以及数据管道中的瓶颈。
xAI 的目标是通过后续基础设施和软件升级,将 GPU 利用率提高到 50%。随着部分工作负载转向更适合智能体 AI 任务的硬件,xAI 未来也可能开始对外出租其 GPU 算力。
除此之外,Elon Musk 还在加码 Terafab 项目,计划自研芯片,并采用 Intel 的 14A 工艺,为下一代 xAI、SpaceX 和 Tesla 的计算需求提供支持。


网友留言2