Em janeiro de 2025, a DeepSeek publicou um artigo que sacudiu as bases da indústria de IA. Não era para menos: eles demonstraram que um modelo de linguagem podia aprender a raciocinar — a refletir sobre seus próprios passos, verificar suas respostas e corrigir seu rumo — sem que um único humano lhe mostrasse como fazer. A receita: reforço puro, nada mais. E os resultados falaram tão alto que a comunidade acadêmica acabou publicando o trabalho na Nature.
A DeepSeek na realidade lançou dois modelos, e vale a pena entender a diferença. O primeiro, DeepSeek-R1-Zero, foi treinado exclusivamente com aprendizado por reforço — com um algoritmo chamado GRPO (Group Relative Policy Optimization) — sem nenhum tipo de fine-tuning supervisionado. Partiu de 15,6% de eficácia no exigente benchmark AIME 2024. Depois de milhares de iterações de RL, alcançou 71%. Com majority voting, subiu para 86,7%. Tudo isso sem ver um único exemplo humano de raciocínio.
O mais fascinante não foram os números, mas o que ocorreu durante o treinamento. O modelo começou a mostrar comportamentos que ninguém lhe ensinou: ele parava para reavaliar sua abordagem, verificava seus cálculos, corrigia erros. No artigo, chamam isso de “self-reflection”, “self-verification” e “dynamic strategy adaptation”. Em palavras mais simples: a máquina aprendeu a pensar antes de responder, e fez isso porque a recompensa exigia, não porque um humano tivesse mostrado.
Agora, a história completa tem nuances. O DeepSeek-R1-Zero tinha problemas sérios: legibilidade pobre, repetições infinitas, mistura de idiomas. Por isso o segundo modelo — DeepSeek-R1, o que realmente ficou famoso — usou um pipeline multiestágio que incluía alguns milhares de exemplos de “cold-start” com supervisão humana, seguido de mais RL. O DeepSeek-R1 não é “RL puro”. Mas o R1-Zero é, e é aí que está o verdadeiro breakthrough.
Os benchmarks do DeepSeek-R1 são impressionantes. No AIME 2024 superou por pouco o OpenAI o1-1217 (79,8% vs 79,2%). No MATH-500 alcançou 97,3% contra 96,4% do o1. No LiveCodeBench, 65,9% contra 63,4%. No SWE-bench Verified, 49,2% contra 48,9%. No Codeforces, ficou no percentil 96,3 — rating Elo 2029 — competindo ao nível de programadores de elite. Tudo isso com um modelo de código aberto, sob licença MIT.
A DeepSeek também destilou o modelo em versões menores baseadas em Qwen2.5 e Llama3, de 1,5B até 70B parâmetros. A versão destilada de 32B supera o o1-mini. A de 14B destrói o QwQ-32B-Preview. Isso tem implicações enormes: qualquer pessoa com uma GPU decente pode executar um modelo com capacidades de raciocínio próximas às dos frontier.
Por que tudo isso importa? Porque durante anos a indústria assumiu que o raciocínio avançado exigia dados humanos — demonstrações de pensamento, cadeias de raciocínio escritas por pessoas, supervisão refinada. A DeepSeek demonstrou que o reforço puro pode gerar habilidades de raciocínio mais sofisticadas do que aquelas que os humanos conseguem demonstrar explicitamente. É uma mudança de paradigma: se o RL pode produzir melhores raciocinadores do que o fine-tuning supervisionado, a escalabilidade do treinamento de IA muda radicalmente.
Isto posto, nem tudo é perfeito. O OpenAI o1-1217 ainda lidera no GPQA Diamond (75,7% vs 71,5%) e no SimpleQA. O DeepSeek-R1-Zero, o modelo puro de RL, não era utilizável em produção por seus problemas de qualidade. E a DeepSeek não revelou exatamente quantos dados de cold-start usou (eles só dizem “milhares de amostras”), o que torna difícil replicar o processo completo.
Mas a mensagem central se mantém: o raciocínio emergiu do reforço, não da imitação. E isso muda como pensamos sobre o futuro do treinamento de IA.
Fonte principal: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning