O problema de medir agentes de código: benchmarks inflados, trapaças e o que realmente importa
SWE-bench deixou de ser confiável. Modelos "trapaceiam" acessando o histórico do git. As pontuações com scaffolding otimizado não refletem capacidade real. Um guia prático para entender os benchmarks de coding agents sem se enganar pelos números.