La era de escasez de tokens

Durante 2023 y 2024, la industria de la IA te vendió la idea de que podías tener acceso ilimitado a los modelos más avanzados por una tarifa plana. Era mentira, claro —pero funcionó. Millones de desarrolladores se engancharon a GitHub Copilot, Claude y ChatGPT con suscripciones de $10, $20 o $30 al mes. Se sentía como un buffet libre. El problema es que los buffets libres siempre terminan cuando los clientes aprenden a comer mucho.

Y los clientes aprendieron. Los agentes autónomos de código —Claude Code, Cursor, los agentes de Copilot— descubrieron que podían consumir 10, 50, 100 veces más tokens que un humano conversando. Y los costos de inferencia se dispararon.

En cuestión de meses, toda la industria giró 180 grados. GitHub Copilot, que durante años tuvo un modelo de suscripción plana sin límites, migró el 1 de junio de 2026 a un sistema de créditos basado en tokens. Los llaman “GitHub AI Credits”: 1 crédito = $0.01 USD, y cada modelo consume una cantidad distinta por token. El plan Pro de $10 mensuales da 1,500 créditos; el Pro+ de $39 da 7,000; el Max de $100 da 20,000. Las autocompletaciones de código siguen siendo ilimitadas, pero todo lo demás —chat, terminal, agentes en la nube— se mide y se cobra.

Anthropic venía haciendo lo mismo desde antes. Empezó a migrar a sus clientes empresariales de Claude de un modelo por-asiento a precios por token desde noviembre de 2025. Para abril de 2026, el cambio estaba completo. A partir del 15 de junio de 2026, las herramientas de agente de Claude y los integradores de terceros se facturan a tarifas API completas. El subsidio se acabó.

El caso que mejor ilustra el terremoto es Uber. En febrero de 2026, el 32% de sus ingenieros usaba Claude Code. En marzo, 84%. Para cuando llegó abril, casi el 95% usaba herramientas de IA mensualmente y el 70% del código commitado era generado por IA. Eso suena a éxito de productividad, excepto que el costo se comió todo el presupuesto de IA de 2026 en solo cuatro meses. El CTO Praveen Neppalli Naga lo confirmó a The Information. El COO Andrew Macdonald fue más directo: en una entrevista con Fortune dijo que el vínculo entre el gasto en IA y las características visibles para el usuario “todavía no está ahí”. Los costos mensuales por ingeniero oscilaban entre $500 y $2,000. Los power users corrían 10 o más worktrees en paralelo, cada uno consumiendo tokens de Claude sin parar.

Microsoft también sintió el golpe. En mayo de 2026, empezó a cancelar licencias de Claude Code para sus ingenieros de Windows, Teams, Outlook y Surface, redirigiéndolos a GitHub Copilot CLI. El motivo no era técnico —era de costos. El modelo de tokens hacía que las herramientas de Anthropic fueran significativamente más caras que las propias de Microsoft. Hasta el 30 de junio se corta el acceso.

Todo esto es la paradoja de Jevrons aplicada a la IA: a medida que los precios por token bajan —Anthropic redujo Opus de $15/$75 a $5/$25 por millón de tokens; Nvidia promete mejoras de 50x con su plataforma Vera Rubin— el volumen de consumo crece más rápido de lo que caen los precios. El resultado: facturas totales que suben aunque el precio unitario baje. Jensen Huang, CEO de Nvidia, lo resumió en GTC 2026 describiendo los centros de datos como “Fábricas de Tokens”. Ya no son almacenes de archivos; son plantas de producción de inferencia.

El golpe no es solo para las empresas. OpenAI pierde aproximadamente $1.35 por cada dólar que ingresa. Sus proyecciones internas, reportadas por Yahoo Finance, anticipan $14 mil millones en pérdidas para 2026 y un acumulado de $44 mil millones entre 2023 y 2028 antes de volverse rentable en 2029. Deloitte predice que la inferencia representará dos tercios de todo el cómputo de IA en 2026, frente a un tercio en 2023. Gartner proyecta $401 mil millones solo en infraestructura de IA este año.

Y sin embargo, hay un matiz incómodo. VentureBeat reporta que la utilización de GPUs en empresas promedia solo el 5%. Las empresas compraron más hardware del que necesitan, lo infrautilizan, y ahora enfrentan ciclos de depreciación de 3 a 5 años. El problema no es tanto que falten tokens —es que la arquitectura de consumo actual es terriblemente ineficiente y el mercado está migrando de un modelo subsidiado a uno que refleja los costos reales.

Por qué importa

La era de las suscripción plana con acceso ilimitado ha terminado. Para las startups y desarrolladores individuales, esto significa que el costo de usar herramientas de IA ahora es variable y puede escalar de forma impredecible. Para las empresas, implica que la adopción de IA ya no es solo una decisión de productividad —es una decisión financiera que requiere presupuesto, monitoreo y optimización.

Los beneficiarios de esta transición son los proveedores de infraestructura (Nvidia, nubes), las plataformas de optimización y los modelos que logren inferencia eficiente a escala. El resto —empresas, desarrolladores, startups— tendrá que aprender a vivir en un mundo donde cada token cuenta.

El buffet libre se acabó. Bienvenidos a la era de escasez.

Fuente principal: Uber burned through its entire 2026 AI budget in four months — Fortune