SpaceX对外出租AI算力内幕曝光：硬件瓶颈致自家AI训练受阻

6月13日，据彭博社报道，知情人士称，SpaceX在利用其孟菲斯Colossus 1数据中心开发和运行Grok AI模型时遇到技术挑战，随后决定将该数据中心的全部容量租给Anthropic。

SpaceX的Colossus 1数据中心

据知情人士透露，SpaceX原本计划利用三个数据中心园区组成的计算集群提供的海量算力，训练其最先进的AI模型。然而，在将Colossus 1与另外两个距离超过10英里(约合16公里)的数据中心连接时，公司遇到了网络延迟问题，而老化的网络基础设施又让这一情况雪上加霜。

需要说明的是，训练规模更大、性能更强的AI模型需要超高速网络连接。如果数据中心之间的连接线路较为老旧或带宽不足，就会产生延迟，从而拖慢整个数据中心集群的运行效率。

知情人士称，SpaceX认为，与其继续投入资源解决这些基础设施瓶颈，将Colossus 1的数据中心容量出租给外部客户更具经济价值，这样还能创造新的收入来源。

SpaceX在今年早些时候收购了马斯克旗下AI公司xAI，在其重磅IPO路演期间已将数据中心的建设作为向投资者推介的关键卖点之一。Anthropic和谷歌已分别与SpaceX达成了可能为期数年、价值数百亿美元的算力合作协议，这进一步推动了这家火箭制造商向AI基础设施提供商转型的步伐。

然而，Colossus 1计划的调整，也从侧面反映出马斯克大举投入AI基础设施建设所面临的挑战。为了支持AI发展，马斯克一直试图快速建设一个由多个大型数据中心组成、配备先进芯片的庞大网络，而这一计划既雄心勃勃，也耗资巨大。SpaceX长期以来一直强调，其首个Colossus数据中心仅用122天便建成投运，不仅超过公司自身预期，也快于行业平均水平。

知情人士表示，除了网络延迟问题之外，将Colossus 1与其他数据中心整合的工作还因硬件配置差异而变得更加复杂。该设施内混用了多代英伟达公司的芯片，包括Hopper和Blackwell系统，以及一些较旧的AI加速器。相比之下，Colossus 2和Colossus 3则更统一地围绕英伟达Blackwell芯片构建。

在数据中心集群中，工作负载会分布在许多需要保持同步的机器上。如果某个设施使用较旧的芯片，就会迫使性能更快的加速器等待，从而对其他站点造成瓶颈。结果就是，整个集群的实际运行速度更接近最慢的硬件，而非最快的硬件。

通过出租该设施的算力容量，SpaceX得以将内部未能充分利用的基础设施变现，同时将较新的设施保留用于AI开发。SpaceX CFO布雷特·约翰森(Bret Johnsen)最近表示，公司并未放弃自有的AI服务，例如Grok。

马斯克已表示，SpaceX保留提前终止与Anthropic算力合作协议的权利，只要事先向对方发出充分通知即可。“如果算力变得极度紧张，我说过我们可能在某个时候需要把它拿回来。”他表示。

截至发稿，SpaceX尚未就此置评。