DeepSeek登《Nature》封面 梁文锋带队首次回应争议

摘要:

2025年9月17日,属于中国人工智能的又一个高光时刻来到了。DeepSeek-AI团队梁文锋及其同事在《自然》杂志发表了关于开源模型 DeepSeek-R1 的研究成果,并登上当期封面。


图|来源于网络

论文指出,大语言模型(LLM)的推理能力可以通过纯强化学习显著提升,从而减少对人工标注的依赖。与传统训练方式相比,这一方法培养出的模型在数学解题、编程竞赛以及涉及STEM领域研究生水平的问题上,均展现出更优的表现。

在此,DeepSeek也首次回应“蒸馏”争议,在与审稿人的交流中,DeepSeek明确表示,R1并非通过复制OpenAI模型生成的推理示例来学习。只是和大多数其他大语言模型一样,R1的基础模型是在网络上训练的,因此它会吸收互联网上已有的AI生成的内容。

“低成本奇迹”:从29万美元到世界舞台

在AI世界,有一个残酷的共识:顶尖大模型的门槛,从来不是算法,而是成本。OpenAI训练GPT-4,外界估算其花费在1亿美元以上;Google、Anthropic、Meta也在数千万美元级别的预算上展开竞赛。资金与算力,成了决定话语权的核心。

然而,DeepSeek打破了这一“潜规则”。根据研究团队在论文补充材料披露的细节,DeepSeek-R1的推理成本仅为29.4万美元,低到惊人。即便加上约600万美元的基础模型训练开销,整体成本依然远低于国外巨头。

DeepSeek-R1的真正突破,不仅体现在成本,更在于方法论上的创新。

研究团队在《Nature》发表的论文中指出,他们采用了纯强化学习(RL)框架,并引入组相对策略优化(GRPO)算法,仅依据最终答案的正确与否给予奖励,而非让模型模仿人类推理路径。


令人意外的是,这种看似“粗放”的训练方式,却让模型在实践中自然涌现出自我反思(reflection)、自我验证(self-verification)以及生成更长推理链条(long chains of thought)等高级行为,有时甚至会生成成百上千个token来反复推敲一个问题。

这一点在数学测试中尤为明显。论文数据显示,在美国数学邀请赛(AIME 2024)中,DeepSeek-R1-Zero的准确率从15.6%跃升至77.9%,在使用自洽解码(self-consistency decoding)后更达到86.7%,超过了人类平均水平。

《Nature》评论称,这表明模型能够在没有人类推理示范的情况下,通过强化学习自主形成复杂的思维模式。

在后续的多阶段优化中(包括RL、拒绝采样、监督微调及二次RL),最终版本的DeepSeek-R1不仅在数学和编程等硬核任务上表现突出,还在写作、问答等通用任务上展现了流畅性和一致性。这意味着,DeepSeek并不是在“教AI思考”,而是在“让AI学会自己思考”。

梁文锋的十年长跑

除了技术层面的突破,DeepSeek-R1的成功背后,更有一段鲜为人知的奋斗故事。梁文锋,1985年出生于广东湛江一个普通家庭,父亲是小学老师。他的成长轨迹虽不为大众熟知,却在细节中显露出早期的求知与坚韧。


2002年,17岁的梁文锋考入浙江大学电子信息工程专业;五年后,他继续攻读信息与通信工程硕士,师从项志宇,专注机器视觉研究。正是在硕士阶段,他与同学尝试将机器学习应用于金融市场,探索全自动量化交易——那一年,全球金融危机正在席卷世界。尽管机会很多,像大疆创始人汪滔曾邀请他共同创业,梁文锋却选择了一条少有人走的路:坚信人工智能将改变世界,他决定独立创业。

硕士毕业后,梁文锋先是将人工智能技术与量化交易结合,创办雅克比投资及幻方科技,并在十余年间稳步发展。直到2023年,他将目光转向通用人工智能,创办DeepSeek,开启了AI大模型研发之路。凭借对算法和成本效率的双重关注,DeepSeek在短短两年内连续发布V2、V3模型,不仅拉低了国产大模型的推理成本,更以惊人的性价比震撼了全球市场。

梁文锋对团队建设的理念同样非同寻常。他坚持“能力为先”,核心岗位多由应届毕业生和经验仅一两年的年轻人组成,“我们或许不是在中国找到前50名顶尖人才,但我们可以自己培养。”这种信念,也正是DeepSeek能够在低成本下实现高推理能力的关键。

现在来看,DeepSeek的这项研究,其价值远不止于一个性能强大的模型。它更像是一份“方法论宣言”,向世界展示了一条不依赖天量标注数据、更具可持续性的AI进化之路。它打破了“资金即壁垒”的魔咒,将AI发展的主动权交还给了科学创新本身。

这不仅仅是中国AI的高光时刻,更是全球AI迈向“推理革命”的一个重要里程碑。Nature审稿人、Hugging Face机器学习工程师Lewis Tunstall认为,“R1开启了一场革命”。越来越多正在应用R1的方法论改善现有的大语言模型。

未来的AI竞争,很可能将从“数据与算力的军备竞赛”,转向“算法与智慧的创新竞赛”。而DeepSeek-R1,已经为这场新竞赛吹响了号角。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看评论
created by ceallan