NVIDIA计算卡被华为取代过程扰乱了训练导致DeepSeek R2模型推迟发布

中国坚持要求企业使用国产AI芯片而非英伟达芯片，这会不会付出一些代价？据一份新报告称，北京方面曾敦促DeepSeek放弃英伟达硬件，转而在其R2型号中使用华为芯片，但训练过程中不断出现技术问题，导致发布推迟，并被迫重新转向NVIDIA进行训练，而推理部分则使用了华为芯片。

今年 1 月，DeepSeek 的 R1 模型发布时震惊了整个人工智能行业。据称，该模型在 2048 块英伟达 H800 上进行了训练，耗资 557.6 万美元，与其他人工智能公司数十亿美元的投入相比只是零头。但后来有消息称，DeepSeek 使用了大约 5 万块 Hopper GPU，其中包括 1 万块 H800 和 1 万块 H100，以及 3 万块 HGX H20 单元。

据《金融时报》援引三位知情人士的话称，对于 R2 的后续型号，中国当局“鼓励”DeepSeek 放弃 NVIDIA 技术，转而使用国产硬件。

DeepSeek 采纳了这一建议（或者说需求），转而使用华为基于昇腾平台进行 R2 版本的训练。然而，这带来了性能不稳定、互联速度变慢以及华为 CANN 软件工具包限制等问题。

华为派出了一个工程师团队前往DeepSeek的数据中心，希望解决这些问题。尽管他们已经到位，但在Ascend平台上进行的训练从未成功过，不过使R2与Ascend兼容推理的工作仍在继续。

R2 原定于 5 月推出，但由于华为交换机故障而推迟了其发布——目前预计该型号将在几周后上市。

加剧延误的是中国高端英伟达GPU的短缺。本月早些时候，美国政府与英伟达和AMD达成协议，根据协议，这两家科技巨头将向华盛顿提供在中国销售的人工智能芯片（包括H20芯片）15%的销售额。作为交换，这两家公司将获得向中国客户销售产品所需的许可证。

然而，中国官方媒体此前报道称，H20 GPU 不安全、过时且对环境有害。中国监管机构约谈英伟达，讨论与该芯片相关的国家安全问题，导致该公司向用户保证其产品中没有后门、终止开关或间谍软件。

北京试图阻止英伟达收购DeepSeek并不令人意外。本周有报道称，中国当局一直在敦促几家大型企业避免使用H20芯片。他们还要求企业提供订购这些芯片的合理性，并解释为什么这些芯片比国产芯片更受欢迎。