A era de escassez de tokens

Durante 2023 e 2024, a indústria da IA te vendeu a ideia de que você poderia ter acesso ilimitado aos modelos mais avançados por uma tarifa fixa. Era mentira, claro — mas funcionou.

Durante 2023 e 2024, a indústria da IA te vendeu a ideia de que você poderia ter acesso ilimitado aos modelos mais avançados por uma tarifa fixa. Era mentira, claro — mas funcionou. Milhões de desenvolvedores se engancharam ao GitHub Copilot, Claude e ChatGPT com assinaturas de $10, $20 ou $30 por mês. Parecia um buffet livre. O problema é que os buffets livres sempre terminam quando os clientes aprendem a comer muito.

E os clientes aprenderam. Os agentes autônomos de código — Claude Code, Cursor, os agentes do Copilot — descobriram que podiam consumir 10, 50, 100 vezes mais tokens que um humano conversando. E os custos de inferência dispararam.

Em questão de meses, toda a indústria girou 180 graus. O GitHub Copilot, que durante anos teve um modelo de assinatura fixa sem limites, migrou em 1º de junho de 2026 para um sistema de créditos baseado em tokens. Eles chamam de “GitHub AI Credits”: 1 crédito = $0,01 USD, e cada modelo consome uma quantidade diferente por token. O plano Pro de $10 mensais dá 1.500 créditos; o Pro+ de $39 dá 7.000; o Max de $100 dá 20.000. As autocompletações de código continuam ilimitadas, mas todo o resto — chat, terminal, agentes na nuvem — é medido e cobrado.

A Anthropic vinha fazendo o mesmo desde antes. Começou a migrar seus clientes empresariais do Claude de um modelo por assento para preços por token desde novembro de 2025. Para abril de 2026, a mudança estava completa. A partir de 15 de junho de 2026, as ferramentas de agente do Claude e os integradores de terceiros são faturados a tarifas API completas. O subsídio acabou.

O caso que melhor ilustra o terremoto é a Uber. Em fevereiro de 2026, 32% de seus engenheiros usavam Claude Code. Em março, 84%. Quando chegou abril, quase 95% usavam ferramentas de IA mensalmente e 70% do código commitado era gerado por IA. Isso parece sucesso de produtividade, exceto que o custo comeu todo o orçamento de IA de 2026 em apenas quatro meses. O CTO Praveen Neppalli Naga confirmou isso ao The Information. O COO Andrew Macdonald foi mais direto: em uma entrevista à Fortune disse que o vínculo entre o gasto em IA e as características visíveis para o usuário “ainda não está lá”. Os custos mensais por engenheiro oscilavam entre $500 e $2.000. Os power users rodavam 10 ou mais worktrees em paralelo, cada um consumindo tokens do Claude sem parar.

A Microsoft também sentiu o golpe. Em maio de 2026, começou a cancelar licenças do Claude Code para seus engenheiros do Windows, Teams, Outlook e Surface, redirecionando-os para o GitHub Copilot CLI. O motivo não era técnico — era de custos. O modelo de tokens fazia com que as ferramentas da Anthropic fossem significativamente mais caras que as próprias da Microsoft. Até 30 de junho o acesso é cortado.

Tudo isso é a paradoxo de Jevons aplicada à IA: à medida que os preços por token caem — a Anthropic reduziu Opus de $15/$75 para $5/$25 por milhão de tokens; a Nvidia promete melhorias de 50x com sua plataforma Vera Rubin — o volume de consumo cresce mais rápido do que os preços caem. O resultado: faturas totais que sobem embora o preço unitário caia. Jensen Huang, CEO da Nvidia, resumiu isso no GTC 2026 descrevendo os centros de dados como “Fábricas de Tokens”. Já não são armazéns de arquivos; são plantas de produção de inferência.

O golpe não é apenas para as empresas. A OpenAI perde aproximadamente $1,35 para cada dólar que fatura. Suas projeções internas, reportadas pelo Yahoo Finance, antecipam $14 bilhões em perdas para 2026 e um acumulado de $44 bilhões entre 2023 e 2028 antes de se tornar rentável em 2029. A Deloitte prevê que a inferência representará dois terços de toda a computação de IA em 2026, contra um terço em 2023. A Gartner projeta $401 bilhões apenas em infraestrutura de IA este ano.

E no entanto, há uma nuance incômoda. A VentureBeat reporta que a utilização de GPUs em empresas tem média de apenas 5%. As empresas compraram mais hardware do que necessitam, subutilizam-no, e agora enfrentam ciclos de depreciação de 3 a 5 anos. O problema não é tanto que faltem tokens — é que a arquitetura de consumo atual é terrivelmente ineficiente e o mercado está migrando de um modelo subsidiado para um que reflete os custos reais.

Por que importa

A era da assinatura fixa com acesso ilimitado terminou. Para as startups e desenvolvedores individuais, isso significa que o custo de usar ferramentas de IA agora é variável e pode escalar de forma imprevisível. Para as empresas, implica que a adoção de IA já não é apenas uma decisão de produtividade — é uma decisão financeira que requer orçamento, monitoramento e otimização.

Os beneficiários desta transição são os provedores de infraestrutura (Nvidia, nuvens), as plataformas de otimização e os modelos que consigam inferência eficiente em escala. O resto — empresas, desenvolvedores, startups — terá que aprender a viver em um mundo onde cada token conta.

O buffet livre acabou. Bem-vindos à era de escassez.

Fonte principal: Uber burned through its entire 2026 AI budget in four months — Fortune

A era de escassez de tokens

Por que importa

Mais nesta categoria