IA al Día
高效了解 AI 的方式
返回归档
解释文章 2026年6月2日 分析 3 分钟阅读

DeepSeek R1:当纯强化学习解锁AI自我反思能力

2025年1月,DeepSeek发表了一篇撼动AI行业根基的论文。这并非夸大其词:他们证明了一个语言模型可以学会推理——反思自己的步骤、验证答案、纠正方向——而无需任何人类示范如何做到。秘诀就是:纯强化学习,仅此而已。结果如此令人信服,以至于学术界最终将这项研究发表在《自然》杂志上。

DeepSeek R1:当纯强化学习解锁AI自我反思能力
作者 IA al Día

2025年1月,DeepSeek发表了一篇撼动AI行业根基的论文。这并非夸大其词:他们证明了一个语言模型可以学会推理——反思自己的步骤、验证答案、纠正方向——而无需任何人类示范如何做到。秘诀就是:纯强化学习,仅此而已。结果如此令人信服,以至于学术界最终将这项研究发表在《自然》杂志上。

DeepSeek实际上发布了两个模型,理解它们之间的区别很重要。第一个模型,DeepSeek-R1-Zero,完全通过强化学习训练——使用一种名为GRPO(Group Relative Policy Optimization,群体相对策略优化)的算法——没有任何监督微调。它在要求严苛的AIME 2024基准测试中起步时正确率仅为15.6%。经过数千次RL迭代后,达到了71%。通过多数投票(majority voting),进一步提升到86.7%。所有这一切都是在没有见过任何人类推理示例的情况下实现的。

最令人着迷的不是数字,而是训练过程中展现的现象。模型开始表现出没人教过的行为:停下来重新评估自己的方法、检查计算过程、纠正错误。论文中称之为”自我反思”、“自我验证”和”动态策略调整”。用更简单的话说:机器学会了在回答之前进行思考,这是因为奖励机制的要求,而不是因为人类曾经展示过如何这样做。

然而,完整的故事有其复杂性。DeepSeek-R1-Zero存在严重问题:可读性差、无限重复、语言混杂。因此第二个模型——DeepSeek-R1,也就是真正出名的那一个——采用了多阶段pipeline,包括数千个带有人类监督的”冷启动”示例,随后进行更多轮RL。DeepSeek-R1并非”纯RL”。但R1-Zero是,而这正是真正的突破所在。

DeepSeek-R1的基准测试成绩令人印象深刻。在AIME 2024上,它以微弱优势超越了OpenAI o1-1217(79.8%对79.2%)。在MATH-500上达到97.3%,而o1为96.4%。在LiveCodeBench上,65.9%对63.4%。在SWE-bench Verified上,49.2%对48.9%。在Codeforces上,它处于第96.3百分位——Elo评级2029——与精英程序员水平相当。所有这些都是以基于MIT许可证的开源模型实现的。

DeepSeek还将模型蒸馏到基于Qwen2.5和Llama3的更小版本中,参数量从1.5B到70B不等。蒸馏后的32B版本超越了o1-mini。14B版本则显著超越了QwQ-32B-Preview。这有着巨大的意义:任何拥有不错GPU的人都可以运行一个推理能力接近前沿水平的模型。

为什么这一切如此重要?因为多年来,行业一直假设高级推理需要人类数据——人类编写的思维展示、推理链、精细监督。DeepSeek证明,纯强化学习可以产生比人类能够明确展示的更加复杂的推理能力。这是一种范式转变:如果RL能够比监督微调产生更好的推理能力,那么AI训练的可扩展性将发生根本性变化。

当然,并非一切完美。OpenAI o1-1217在GPQA Diamond(75.7%对71.5%)和SimpleQA上仍然领先。DeepSeek-R1-Zero,这个纯RL模型,由于其质量问题无法投入生产使用。而DeepSeek没有透露他们具体使用了多少冷启动数据(仅说”数千个样本”),这使得完整复制其过程变得困难。

但核心信息依然成立:推理能力源于强化,而非模仿。这改变了我们对AI训练未来方向的思考。


主要来源:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

同分类更多文章