Quando um único agente de IA não é suficiente, o próximo passo lógico é usar vários. Mas colocar dois agentes para trabalhar na mesma base de código não é como colocar dois desenvolvedores para colaborar — é mais como colocar dois assistentes que não se falam na mesma sala e esperar que não quebrem nada.
A orquestração multi-agente se tornou um dos temas mais ativos do ecossistema de IA em 2026. Seis frameworks competem para definir como os agentes se coordenam. Novas ferramentas como Sandcastle resolvem o problema do isolamento de ambientes. E os custos ocultos da paralelização começam a se tornar visíveis.
Sandcastle: isolamento por contêiner
Sandcastle é uma biblioteca TypeScript criada por Matt Pocock (@ai-hero/sandcastle no npm) que permite executar múltiplos coding agents em paralelo, cada um em seu próprio contêiner Docker com seu próprio branch do git.
Cada agente é lançado com sandcastle.run(), recebe sua própria cópia do repositório em um branch isolado dentro de um contêiner e, ao terminar, o Sandcastle mescla as alterações. Suporta backends Docker, Podman e Vercel Firecracker (microVMs). A metáfora é simples: tratar cada agente como um desenvolvedor temporário com sua própria máquina virtual.
O vídeo do YouTube que originou esta pesquisa o chama de “Docker Worktrees” — um portmanteau que combina Docker (contêineres) com git worktrees (branches paralelos). Não é exatamente git worktree no sentido nativo, mas a ideia é a mesma: isolamento total para que nenhum agente contamine o trabalho do outro.
Minimax Agent Teams: Leader, Worker, Verifier
Em 27 de maio de 2026, a MiniMax anunciou sua arquitetura de equipes de agentes como parte da atualização Mavis. O design é explícito e estruturado:
- Leader: traduz objetivos do usuário em uma estrutura de tarefas, decide quais Workers executar e em que ordem.
- Workers: executam subtarefas específicas com ferramentas e contexto especializados. Podem rodar em paralelo.
- Verifiers: revisam o trabalho dos Workers de forma independente, em um loop adversarial — similar ao controle de qualidade frente ao desenvolvimento.
O sistema usa uma máquina de estados (Team Engine) com ciclo produce → verify → done. Se a verificação falha, o nó produtor é ativado para refazer o trabalho. É lógica determinista, não baseada em prompts.
A MiniMax é honesta sobre os custos: identifica três tipos — custo de handoff (reorganizar informações entre agentes), custo de sharing (dar visibilidade a todos os agentes) e custo de agregação (mesclar saídas paralelas). Citam o paper “Cost of Consensus” que mostra 2,1-3,4x consumo de tokens em configurações homogêneas sem melhora de precisão.
O panorama de frameworks
A orquestração multi-agente tem pelo menos seis abordagens competindo, cada uma com um modelo de coordenação diferente:
| Framework | Modelo | Editor |
|---|---|---|
| LangGraph | Baseado em grafos (supervisor) | LangChain |
| OpenAI Agents SDK | Handoff (transferência entre agentes) | OpenAI |
| CrewAI | Baseado em papéis | CrewAI |
| AutoGen/AG2 | Conversacional | Microsoft |
| Google ADK | Hierárquico (protocolo A2A) | |
| Claude Agent SDK | Tool-use + MCP | Anthropic |
Claude Code também tem seu próprio Agent Teams experimental, onde um Lead Agent cria uma equipe, atribui tarefas a Teammates com contextos isolados, supervisiona o progresso e mescla os resultados. Cada Teammate é uma instância completa do Claude Code com sua própria janela de contexto.
Os problemas que ninguém resolveu ainda
1. Custo de paralelização. Executar N agentes em paralelo não custa N vezes mais — frequentemente custa mais pela sobrecarga de coordenação, verificação e mesclagem. A promessa de “paralelismo grátis” não existe na prática.
2. Conflitos semânticos. Sandcastle e git worktrees resolvem conflitos textuais (dois agentes modificando a mesma linha), mas não os semânticos (dois agentes alterando a mesma função de formas incompatíveis em arquivos diferentes). A mesclagem do git detecta o primeiro, mas o segundo requer revisão humana.
3. Estado compartilhado. Como compartilhar contexto entre agentes sem saturar suas janelas de contexto? Como garantir que um agente saiba o que o outro fez sem triplicar os tokens? Cada framework tem uma resposta diferente, e nenhuma é universal.
4. Avaliação multi-agente. Se é difícil avaliar um único agente (como vimos no artigo anterior sobre benchmarks), avaliar um sistema de múltiplos agentes é uma ordem de magnitude mais complexo. Não existem benchmarks multi-agente aceitos.
Para que serve hoje
A orquestração multi-agente não é para todos os projetos. Faz sentido quando:
- Você precisa que um agente pesquise enquanto outro escreve código e um terceiro revisa.
- Você trabalha com codebases grandes onde um único agente perde contexto.
- Você quer paralelizar tarefas independentes (testes, documentação, refactors isolados).
Para um desenvolvedor individual com um projeto pequeno, um único agente bem configurado provavelmente é mais eficiente. Mas à medida que as equipes e os projetos crescem, a orquestração multi-agente está se tornando uma necessidade de infraestrutura, não um luxo experimental.
Fontes: Sandcastle GitHub · MiniMax Agent Team Blog · GuruSup: Multi-Agent Frameworks 2026 · Claude Code Agent Teams · Addy Osmani: Code Agent Orchestra