DeepSeek登《Nature》封面梁文锋带队首次回应争议

0 凤凰网科技 2025-09-18 14:02:07

摘要：

2025年9月17日，属于中国人工智能的又一个高光时刻来到了。DeepSeek-AI团队梁文锋及其同事在《自然》杂志发表了关于开源模型 DeepSeek-R1 的研究成果，并登上当期封面。

图｜来源于网络

论文指出，大语言模型（LLM）的推理能力可以通过纯强化学习显著提升，从而减少对人工标注的依赖。与传统训练方式相比，这一方法培养出的模型在数学解题、编程竞赛以及涉及STEM领域研究生水平的问题上，均展现出更优的表现。

在此，DeepSeek也首次回应“蒸馏”争议，在与审稿人的交流中，DeepSeek明确表示，R1并非通过复制OpenAI模型生成的推理示例来学习。只是和大多数其他大语言模型一样，R1的基础模型是在网络上训练的，因此它会吸收互联网上已有的AI生成的内容。

“低成本奇迹”：从29万美元到世界舞台

在AI世界，有一个残酷的共识：顶尖大模型的门槛，从来不是算法，而是成本。OpenAI训练GPT-4，外界估算其花费在1亿美元以上；Google、Anthropic、Meta也在数千万美元级别的预算上展开竞赛。资金与算力，成了决定话语权的核心。

然而，DeepSeek打破了这一“潜规则”。根据研究团队在论文补充材料披露的细节，DeepSeek-R1的推理成本仅为29.4万美元，低到惊人。即便加上约600万美元的基础模型训练开销，整体成本依然远低于国外巨头。

DeepSeek-R1的真正突破，不仅体现在成本，更在于方法论上的创新。

研究团队在《Nature》发表的论文中指出，他们采用了纯强化学习（RL）框架，并引入组相对策略优化（GRPO）算法，仅依据最终答案的正确与否给予奖励，而非让模型模仿人类推理路径。

令人意外的是，这种看似“粗放”的训练方式，却让模型在实践中自然涌现出自我反思（reflection）、自我验证（self-verification）以及生成更长推理链条（long chains of thought）等高级行为，有时甚至会生成成百上千个token来反复推敲一个问题。

这一点在数学测试中尤为明显。论文数据显示，在美国数学邀请赛（AIME 2024）中，DeepSeek-R1-Zero的准确率从15.6%跃升至77.9%，在使用自洽解码（self-consistency decoding）后更达到86.7%，超过了人类平均水平。

《Nature》评论称，这表明模型能够在没有人类推理示范的情况下，通过强化学习自主形成复杂的思维模式。

在后续的多阶段优化中（包括RL、拒绝采样、监督微调及二次RL），最终版本的DeepSeek-R1不仅在数学和编程等硬核任务上表现突出，还在写作、问答等通用任务上展现了流畅性和一致性。这意味着，DeepSeek并不是在“教AI思考”，而是在“让AI学会自己思考”。

梁文锋的十年长跑

除了技术层面的突破，DeepSeek-R1的成功背后，更有一段鲜为人知的奋斗故事。梁文锋，1985年出生于广东湛江一个普通家庭，父亲是小学老师。他的成长轨迹虽不为大众熟知，却在细节中显露出早期的求知与坚韧。

2002年，17岁的梁文锋考入浙江大学电子信息工程专业；五年后，他继续攻读信息与通信工程硕士，师从项志宇，专注机器视觉研究。正是在硕士阶段，他与同学尝试将机器学习应用于金融市场，探索全自动量化交易——那一年，全球金融危机正在席卷世界。尽管机会很多，像大疆创始人汪滔曾邀请他共同创业，梁文锋却选择了一条少有人走的路：坚信人工智能将改变世界，他决定独立创业。

硕士毕业后，梁文锋先是将人工智能技术与量化交易结合，创办雅克比投资及幻方科技，并在十余年间稳步发展。直到2023年，他将目光转向通用人工智能，创办DeepSeek，开启了AI大模型研发之路。凭借对算法和成本效率的双重关注，DeepSeek在短短两年内连续发布V2、V3模型，不仅拉低了国产大模型的推理成本，更以惊人的性价比震撼了全球市场。

梁文锋对团队建设的理念同样非同寻常。他坚持“能力为先”，核心岗位多由应届毕业生和经验仅一两年的年轻人组成，“我们或许不是在中国找到前50名顶尖人才，但我们可以自己培养。”这种信念，也正是DeepSeek能够在低成本下实现高推理能力的关键。

现在来看，DeepSeek的这项研究，其价值远不止于一个性能强大的模型。它更像是一份“方法论宣言”，向世界展示了一条不依赖天量标注数据、更具可持续性的AI进化之路。它打破了“资金即壁垒”的魔咒，将AI发展的主动权交还给了科学创新本身。

这不仅仅是中国AI的高光时刻，更是全球AI迈向“推理革命”的一个重要里程碑。Nature审稿人、Hugging Face机器学习工程师Lewis Tunstall认为，“R1开启了一场革命”。越来越多正在应用R1的方法论改善现有的大语言模型。

未来的AI竞争，很可能将从“数据与算力的军备竞赛”，转向“算法与智慧的创新竞赛”。而DeepSeek-R1，已经为这场新竞赛吹响了号角。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道，更好阅读体验，更及时更新提醒，欢迎前来阅览和打赏。