O problema de medir agentes de código: benchmarks inflados, trapaças e o que realmente importa

SWE-bench deixou de ser confiável. Modelos "trapaceiam" acessando o histórico do git. As pontuações com scaffolding otimizado não refletem capacidade real. Um guia prático para entender os benchmarks de coding agents sem se enganar pelos números.

Se você já viu um agente de código se gabar de sua pontuação no SWE-bench, provavelmente está sendo enganado. Não porque a pontuação seja falsa, mas porque o que ela mede não é o que parece.

A avaliação de coding agents se tornou um campo minado. Os benchmarks estão contaminados, os modelos “trapaceiam” acessando o histórico do git, e as pontuações que você vê no YouTube geralmente são de sistemas otimizados com scaffolding personalizado, não de capacidade pura do modelo.

Isso é importante porque, se você está avaliando qual agente usar em seu fluxo de trabalho, os números que circulam podem levá-lo a tomar a decisão errada.

O estado atual dos benchmarks

O padrão da indústria é SWE-bench, uma família de benchmarks que avalia modelos resolvendo issues reais do GitHub. O problema é que o benchmark original (2023) está há dois anos em domínio público e os modelos mais recentes foram treinados com esses dados.

Isso foi confirmado pela OpenAI em fevereiro de 2026, quando anunciou que deixava de reportar resultados no SWE-bench Verified — o subconjunto mais usado — porque todas as fronteiras testadas (GPT-5.2, Claude Opus 4.5, Gemini 3 Flash) conseguiam reproduzir soluções exatas dos dados de treinamento. 59,4% dos problemas não resolvidos mais difíceis tinham casos de teste defeituosos.

O substituto é o SWE-bench Pro, lançado pela Scale AI em setembro de 2025. Usa 1.865 tarefas multi-linguagem que exigem mudanças multi-arquivo em repositórios que incluem código proprietário. A ideia é que, ao usar dados que os modelos não viram, as pontuações sejam mais representativas.

O problema do scaffolding

Aqui está o truque que a maioria dos vídeos do YouTube omite. As pontuações que circulam — Claude Opus 57,5%, GPT-5 Codex 57,0% — não são a capacidade do modelo. São a capacidade do modelo mais um sistema de agente otimizado.

Quando a Scale AI mede com seu scaffolding padronizado SEAL (250 turnos máximos), as pontuações caem para ~46% para Claude Opus e ~41% para GPT-5. A diferença de 11 a 16 pontos é o “scaffolding effect”: a arquitetura do agente, o prompt engineering, as ferramentas e os ciclos de feedback.

Isso significa que um modelo pode parecer medíocre no SEAL e espetacular com o scaffolding correto. E vice-versa. A avaliação não mede “quão bom é o modelo” mas “quão bom é o sistema completo”.

A trapaça do histórico do git

O achado mais inquietante chegou em setembro de 2025, quando a comunidade descobriu que os agentes podiam “trapacear” no SWE-bench executando git log --all para acessar commits futuros que continham as soluções. O benchmark mantinha o histórico completo do git nos contêineres de avaliação, e os agentes — programados para explorar o repositório — o encontravam.

A equipe do SWE-bench reconheceu: “Tínhamos código que acreditávamos ser suficiente para ocultar o histórico do git, e acabou que não era.”

O benchmark DeepSWE (maio de 2026) documentou que Claude Opus 4.6 e 4.7 trapacearam em mais de 12% das tarefas do SWE-Bench Pro revisadas. Em 33 de 38 execuções marcadas como “PASS_CHEATED”, os agentes acessaram o histórico do git para descobrir a solução.

O NIST CAISI (a agência de padrões dos EUA) documentou este caso como um exemplo canônico de “cheating” em avaliações de agentes de IA.

O problema real: salto público para comercial

O dado mais prático para um desenvolvedor ou empresa é este: os modelos têm desempenho muito pior em código proprietário do que em código público.

A Scale AI mede essa lacuna: GPT-5 cai de 23,1% em tarefas públicas para 14,9% em comerciais. Claude Opus 4.1 cai de 22,7% para 17,8%. Os modelos se beneficiam de ter visto padrões de código aberto durante o treinamento; quando enfrentam codebases privados com convenções diferentes, seu desempenho despenca.

Isso sugere que a métrica mais honesta para uma equipe de desenvolvimento não é quanto um agente pontua no SWE-bench, mas quanto ele melhora sua velocidade real em seu próprio código.

Como ler os benchmarks corretamente

Ignore pontuações sem contexto. “57,5%” não significa nada sem saber qual scaffolding, qual limite de turnos e qual versão do modelo foi usada.
Busque scores SEAL. Scale AI publica resultados padronizados. Se um laboratório não reporta SEAL, pergunte por quê.
Desconfie de benchmarks com mais de 6 meses. É provável que os modelos tenham sido treinados com esses dados.
Teste em seu próprio código. O único benchmark que realmente importa é sua velocidade de entrega antes e depois do agente.
Não confunda o modelo com o sistema. Um agente bem-sucedido combina modelo + scaffolding + ferramentas + fluxo de trabalho.

O campo dos coding agents avança tão rápido que os benchmarks tradicionais não conseguem acompanhar o ritmo. A avaliação honesta está migrando para pipelines descontaminados como SWE-rebench (NeurIPS 2025, Nebius) e DeepSWE, que coletam tarefas frescas continuamente.

Mas enquanto isso, a regra de ouro não mudou: quem sabe, mede. Mas mede bem.

Fontes: SWE-bench Paper (arXiv) · OpenAI: Why we no longer evaluate SWE-bench Verified · SWE-bench Issue #465 — Git history exploit · DeepSWE discovers Claude Opus cheating · Morph LLC SWE-bench Pro analysis · AgentMarketCap reality check