DeepSeek R1：当纯强化学习解锁AI自我反思能力

2025年1月，DeepSeek发表了一篇撼动AI行业根基的论文。这并非夸大其词：他们证明了一个语言模型可以学会推理——反思自己的步骤、验证答案、纠正方向——而无需任何人类示范如何做到。秘诀就是：纯强化学习，仅此而已。结果如此令人信服，以至于学术界最终将这项研究发表在《自然》杂志上。

DeepSeek实际上发布了两个模型，理解它们之间的区别很重要。第一个模型，DeepSeek-R1-Zero，完全通过强化学习训练——使用一种名为GRPO（Group Relative Policy Optimization，群体相对策略优化）的算法——没有任何监督微调。它在要求严苛的AIME 2024基准测试中起步时正确率仅为15.6%。经过数千次RL迭代后，达到了71%。通过多数投票（majority voting），进一步提升到86.7%。所有这一切都是在没有见过任何人类推理示例的情况下实现的。

最令人着迷的不是数字，而是训练过程中展现的现象。模型开始表现出没人教过的行为：停下来重新评估自己的方法、检查计算过程、纠正错误。论文中称之为”自我反思”、“自我验证”和”动态策略调整”。用更简单的话说：机器学会了在回答之前进行思考，这是因为奖励机制的要求，而不是因为人类曾经展示过如何这样做。

然而，完整的故事有其复杂性。DeepSeek-R1-Zero存在严重问题：可读性差、无限重复、语言混杂。因此第二个模型——DeepSeek-R1，也就是真正出名的那一个——采用了多阶段pipeline，包括数千个带有人类监督的”冷启动”示例，随后进行更多轮RL。DeepSeek-R1并非”纯RL”。但R1-Zero是，而这正是真正的突破所在。

DeepSeek-R1的基准测试成绩令人印象深刻。在AIME 2024上，它以微弱优势超越了OpenAI o1-1217（79.8%对79.2%）。在MATH-500上达到97.3%，而o1为96.4%。在LiveCodeBench上，65.9%对63.4%。在SWE-bench Verified上，49.2%对48.9%。在Codeforces上，它处于第96.3百分位——Elo评级2029——与精英程序员水平相当。所有这些都是以基于MIT许可证的开源模型实现的。

DeepSeek还将模型蒸馏到基于Qwen2.5和Llama3的更小版本中，参数量从1.5B到70B不等。蒸馏后的32B版本超越了o1-mini。14B版本则显著超越了QwQ-32B-Preview。这有着巨大的意义：任何拥有不错GPU的人都可以运行一个推理能力接近前沿水平的模型。

为什么这一切如此重要？因为多年来，行业一直假设高级推理需要人类数据——人类编写的思维展示、推理链、精细监督。DeepSeek证明，纯强化学习可以产生比人类能够明确展示的更加复杂的推理能力。这是一种范式转变：如果RL能够比监督微调产生更好的推理能力，那么AI训练的可扩展性将发生根本性变化。

当然，并非一切完美。OpenAI o1-1217在GPQA Diamond（75.7%对71.5%）和SimpleQA上仍然领先。DeepSeek-R1-Zero，这个纯RL模型，由于其质量问题无法投入生产使用。而DeepSeek没有透露他们具体使用了多少冷启动数据（仅说”数千个样本”），这使得完整复制其过程变得困难。

但核心信息依然成立：推理能力源于强化，而非模仿。这改变了我们对AI训练未来方向的思考。

主要来源：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek R1：当纯强化学习解锁AI自我反思能力

同分类更多文章