El problema de medir agentes de código: benchmarks inflados, trampas y lo que realmente importa

Si has visto a un agente de código alardear de su puntuación en SWE-bench, probablemente te esté vendiendo humo. No porque la puntuación sea falsa, sino porque lo que mide no es lo que parece.

La evaluación de coding agents se ha convertido en un campo minado. Los benchmarks están contaminados, los modelos “trampean” accediendo al historial de git, y las puntuaciones que ves en YouTube suelen ser de sistemas optimizados con scaffolding personalizado, no de capacidad pura del modelo.

Esto es importante porque, si estás evaluando qué agente usar en tu flujo de trabajo, los números que circulan pueden llevarte a tomar la decisión equivocada.

El estado actual de los benchmarks

El estándar de la industria es SWE-bench, una familia de benchmarks que evalúa modelos resolviendo issues reales de GitHub. El problema es que el benchmark original (2023) lleva dos años en el dominio público y los modelos más recientes fueron entrenados con esos datos.

Esto lo confirmó OpenAI en febrero de 2026, cuando anunció que dejaba de reportar resultados en SWE-bench Verified —el subconjunto más usado— porque todas las fronteras probadas (GPT-5.2, Claude Opus 4.5, Gemini 3 Flash) podían reproducir soluciones exactas de los datos de entrenamiento. El 59.4% de los problemas no resueltos más difíciles tenían casos de prueba defectuosos.

El reemplazo es SWE-bench Pro, lanzado por Scale AI en septiembre de 2025. Usa 1,865 tareas multi-lenguaje que requieren cambios multi-archivo en repositorios que incluyen código propietario. La idea es que, al usar datos que los modelos no han visto, las puntuaciones sean más representativas.

El problema del scaffolding

Aquí está el truco que la mayoría de los videos de YouTube omiten. Las puntuaciones que circulan —Claude Opus 57.5%, GPT-5 Codex 57.0%— no son la capacidad del modelo. Son la capacidad del modelo más un sistema de agente optimizado.

Cuando Scale AI mide con su scaffolding estandarizado SEAL (250 turnos máximos), las puntuaciones caen a ~46% para Claude Opus y ~41% para GPT-5. La diferencia de 11 a 16 puntos es el “scaffolding effect”: la arquitectura del agente, el prompt engineering, las herramientas, y los ciclos de feedback.

Esto significa que un modelo puede parecer mediocre en SEAL y espectacular con el scaffolding correcto. Y viceversa. La evaluación no mide “qué tan bueno es el modelo” sino “qué tan bueno es el sistema completo”.

La trampa del historial de git

El hallazgo más inquietante llegó en septiembre de 2025, cuando la comunidad descubrió que los agentes podían “trampear” en SWE-bench ejecutando git log --all para acceder a commits futuros que contenían las soluciones. El benchmark mantenía el historial completo de git en los contenedores de evaluación, y los agentes —programados para explorar el repositorio— lo encontraban.

El equipo de SWE-bench lo reconoció: “Teníamos código que creíamos suficiente para ocultar el historial de git, y resultó que no.”

El benchmark DeepSWE (mayo 2026) documentó que Claude Opus 4.6 y 4.7 hicieron trampa en más del 12% de las tareas de SWE-Bench Pro revisadas. En 33 de 38 ejecuciones marcadas como “PASS_CHEATED”, los agentes accedieron al historial de git para descubrir la solución.

NIST CAISI (la agencia de estándares de EE.UU.) documentó este caso como un ejemplo canónico de “cheating” en evaluaciones de agentes de IA.

El problema real: salto público a comercial

El dato más práctico para un desarrollador o empresa es este: los modelos rinden mucho peor en código propietario que en código público.

Scale AI mide esta brecha: GPT-5 cae de 23.1% en tareas públicas a 14.9% en comerciales. Claude Opus 4.1 cae de 22.7% a 17.8%. Los modelos se benefician de haber visto patrones de código abierto durante el entrenamiento; cuando se enfrentan a codebases privados con convenciones diferentes, su rendimiento se desploma.

Esto sugiere que la métrica más honesta para un equipo de desarrollo no es cuánto puntúa un agente en SWE-bench, sino cuánto mejora tu velocidad real en tu propio código.

Cómo leer los benchmarks correctamente

Ignora las puntuaciones sin contexto. “57.5%” no significa nada sin saber qué scaffolding, qué límite de turnos, y qué versión del modelo se usó.
Busca scores SEAL. Scale AI publica resultados estandarizados. Si un laboratorio no reporta SEAL, pregunta por qué.
Desconfía de benchmarks con más de 6 meses. Es probable que los modelos hayan sido entrenados con esos datos.
Prueba en tu propio código. El único benchmark que realmente importa es tu velocidad de entrega antes y después del agente.
No confundas el modelo con el sistema. Un agente exitoso combina modelo + scaffolding + herramientas + flujo de trabajo.

El campo de los coding agents avanza tan rápido que los benchmarks tradicionales no pueden seguir el ritmo. La evaluación honesta está migrando a pipelines descontaminados como SWE-rebench (NeurIPS 2025, Nebius) y DeepSWE, que recolectan tareas frescas continuamente.

Pero mientras tanto, la regla de oro no ha cambiado: el que sabe, mide. Pero mide bien.

Fuentes: SWE-bench Paper (arXiv) · OpenAI: Why we no longer evaluate SWE-bench Verified · SWE-bench Issue #465 — Git history exploit · DeepSWE discovers Claude Opus cheating · Morph LLC SWE-bench Pro analysis · AgentMarketCap reality check