当一个 AI 智能体不够用时,合乎逻辑的下一步是使用多个。但让两个智能体在同一个代码库上工作,不像让两个开发者协作——更像把两个互相不交流的助手放在同一个房间里,然后期望它们不会破坏任何东西。
多智能体编排已成为 2026 年 AI 生态中最活跃的话题之一。六个框架正在竞争定义智能体如何协调。Sandcastle 等新工具解决了环境隔离问题。并行化的隐藏成本也开始显现。
Sandcastle:通过容器实现隔离
Sandcastle 是由 Matt Pocock 创建的 TypeScript 库(npm 上的 @ai-hero/sandcastle),它允许多个代码智能体并行运行,每个智能体在自己的 Docker 容器和自己的 git 分支中运行。
每个智能体通过 sandcastle.run() 启动,在容器内的隔离分支中获得仓库的独立副本,完成后 Sandcastle 合并更改。支持 Docker、Podman 和 Vercel Firecracker(微 VM)后端。比喻很简单:把每个智能体当作一个拥有自己虚拟机的临时开发者。
引发这项研究的 YouTube 视频将其称为 “Docker Worktrees”——一个将 Docker(容器)与 git worktrees(并行分支)结合的组合词。严格来说它并非原生的 git worktree,但理念相同:完全隔离,确保没有智能体污染其他智能体的工作。
MiniMax Agent Teams:Leader、Worker、Verifier
2026 年 5 月 27 日,MiniMax 宣布了其智能体团队架构,作为 Mavis 更新的一部分。其设计明确且结构化:
- Leader(领导):将用户目标转化为任务结构,决定执行哪些 Worker 以及执行顺序。
- Workers(工作者):使用专门的工具和上下文执行特定的子任务。可以并行运行。
- Verifiers(验证者):独立审查 Worker 的工作,形成对抗性循环——类似于质量控制与开发的关系。
该系统使用状态机(Team Engine),循环为 produce → verify → done。如果验证失败,生产者节点被唤醒重新执行工作。这是确定性逻辑,而非基于提示的。
MiniMax 诚实地说明了成本:他们识别出三种类型——交接成本(在智能体之间重组信息)、共享成本(让所有智能体可见)和聚合成本(合并并行输出)。他们引用了 “Cost of Consensus” 论文,该论文显示同构配置下 token 消耗增加 2.1-3.4 倍,而精度没有提升。
框架全景
多智能体编排至少有六种竞争方法,每种采用不同的协调模型:
| 框架 | 模型 | 开发方 |
|---|---|---|
| LangGraph | 基于图(监督者) | LangChain |
| OpenAI Agents SDK | Handoff(智能体间转移) | OpenAI |
| CrewAI | 基于角色 | CrewAI |
| AutoGen/AG2 | 对话式 | Microsoft |
| Google ADK | 层级式(A2A 协议) | |
| Claude Agent SDK | Tool-use + MCP | Anthropic |
Claude Code 也有自己的实验性 Agent Teams,其中 Lead Agent 创建团队、向具有隔离上下文的 Teammates 分配任务、监督进度并合并结果。每个 Teammate 是完整的 Claude Code 实例,拥有自己的上下文窗口。
尚未解决的问题
1. 并行化成本。 并行运行 N 个智能体的成本不是 N 倍——由于协调、验证和合并的开销,通常成本更高。“免费并行”的承诺在实践中并不存在。
2. 语义冲突。 Sandcastle 和 git worktrees 解决了文本冲突(两个智能体修改同一行),但解决不了语义冲突(两个智能体在不同文件中以不兼容的方式更改同一函数)。Git 合并能检测前者,但后者需要人工审查。
3. 共享状态。 如何在智能体之间共享上下文而不撑爆它们的上下文窗口?如何确保一个智能体知道另一个做了什么,而不使 token 量翻三倍?每个框架都有不同的答案,但没有一个是通用的。
4. 多智能体评估。 如果评估单个智能体已经很难(如我们在上一篇基准测试文章中所见),那么评估多智能体系统的难度会高一个数量级。目前还没有公认的多智能体基准测试。
今天的用武之地
多智能体编排并不适用于所有项目。它在以下情况下有意义:
- 你需要一个智能体做研究,同时另一个写代码,第三个进行审查。
- 你处理大型代码库,单个智能体会丢失上下文。
- 你想要并行化独立任务(测试、文档、隔离的重构)。
对于拥有小项目的个人开发者来说,一个配置良好的智能体可能更高效。但随着团队和项目的增长,多智能体编排正成为一种基础设施需求,而非实验性的奢侈品。
来源:Sandcastle GitHub · MiniMax Agent Team Blog · GuruSup: Multi-Agent Frameworks 2026 · Claude Code Agent Teams · Addy Osmani: Code Agent Orchestra