DeepSeek R1: Cuando el refuerzo puro desbloqueó la autoreflexión en IA

Un modelo de lenguaje aprendió a razonar sin que un solo humano le mostrara cómo hacerlo. DeepSeek R1 demostró que el refuerzo puro —sin ejemplos, sin fine-tuning supervisado— podía enseñar a una máquina a reflexionar sobre sus propios pasos, verificar sus respuestas y corregir su rumbo. Cuando el paper se publicó en enero de 2025, sacudió los cimientos de la industria. Y los resultados hablaron tan fuerte que la comunidad académica terminó publicando el trabajo en Nature.

DeepSeek en realidad lanzó dos modelos, y vale la pena entender la diferencia. El primero, DeepSeek-R1-Zero, se entrenó exclusivamente con aprendizaje por refuerzo —con un algoritmo llamado GRPO (Group Relative Policy Optimization)— sin ningún tipo de fine-tuning supervisado. Partió de un 15.6% de efectividad en el exigente benchmark AIME 2024. Después de miles de iteraciones de RL, alcanzó un 71%. Con majority voting, subió a 86.7%. Todo eso sin ver un solo ejemplo humano de razonamiento.

Lo más fascinante no fueron los números, sino lo que ocurrió durante el entrenamiento. El modelo empezó a mostrar comportamientos que nadie le enseñó: se detenía a reevaluar su enfoque, verificaba sus cálculos, corregía errores. En el paper lo llaman “self-reflection”, “self-verification” y “dynamic strategy adaptation”. En palabras más simples: la máquina aprendió a pensar antes de responder, y lo hizo porque la recompensa se lo exigía, no porque un humano se lo hubiera mostrado.

Ahora, la historia completa tiene matices. DeepSeek-R1-Zero tenía problemas serios: legibilidad pobre, repeticiones infinitas, mezcla de idiomas. Por eso el segundo modelo —DeepSeek-R1, el que realmente se volvió famoso— usó un pipeline multietapa que incluía unos miles de ejemplos de “cold-start” con supervisión humana, seguido de más RL. DeepSeek-R1 no es “RL puro”. Pero el R1-Zero sí lo es, y es ahí donde está el verdadero breakthrough.

Los benchmarks de DeepSeek-R1 son impresionantes. En AIME 2024 superó por un pelo a OpenAI o1-1217 (79.8% vs 79.2%). En MATH-500 alcanzó 97.3% frente al 96.4% de o1. En LiveCodeBench, 65.9% contra 63.4%. En SWE-bench Verified, 49.2% contra 48.9%. En Codeforces, se ubicó en el percentil 96.3 —rating Elo 2029— compitiendo al nivel de programadores de élite. Todo esto con un modelo de código abierto, bajo licencia MIT.

DeepSeek también destiló el modelo en versiones más pequeñas basadas en Qwen2.5 y Llama3, desde 1.5B hasta 70B parámetros. La versión destilada de 32B supera a o1-mini. La de 14B destroza a QwQ-32B-Preview. Esto tiene implicaciones enormes: cualquier persona con una GPU decente puede ejecutar un modelo con capacidades de razonamiento cercanas a las de los frontier.

¿Por qué importa todo esto? Porque durante años la industria asumió que el razonamiento avanzado requería datos humanos —demostraciones de pensamiento, cadenas de razonamiento escritas por personas, supervisión fina. DeepSeek demostró que el refuerzo puro puede generar habilidades de razonamiento más sofisticadas que las que los humanos podemos demostrar explícitamente. Es un cambio de paradigma: si la RL puede producir mejores razonadores que el fine-tuning supervisado, la escalabilidad del entrenamiento de IA cambia radicalmente.

Eso sí, no todo es perfecto. OpenAI o1-1217 todavía lidera en GPQA Diamond (75.7% vs 71.5%) y SimpleQA. DeepSeek-R1-Zero, el modelo puro de RL, no era usable en producción por sus problemas de calidad. Y DeepSeek no reveló exactamente cuántos datos de cold-start usó (solo dicen “miles de muestras”), lo que hace difícil replicar el proceso completo.

Pero el mensaje central se mantiene: el razonamiento emergió del refuerzo, no de la imitación. Y eso cambia cómo pensamos sobre el futuro del entrenamiento de IA.

Fuente principal: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning