El problema de medir agentes de código: benchmarks inflados, trampas y lo que realmente importa
SWE-bench dejó de ser confiable. Modelos "trampean" accediendo al historial de git. Las puntuaciones con scaffolding optimizado no reflejan capacidad real. Una guía práctica para entender los benchmarks de coding agents sin dejarse engañar por los números.