IA al Día
高效了解 AI 的方式
返回归档
工具 2026年6月5日 分析 4 分钟阅读

多智能体编排:如何让代码智能体并行工作而不相互干扰

Sandcastle、MiniMax Agent Teams、Claude Code Teams 和六个框架在同一个问题上竞争:如何让多个 AI 智能体协同工作而不互相干扰。多智能体编排的架构、成本和陷阱全面解析。

多智能体编排:如何让代码智能体并行工作而不相互干扰
作者 IA al Día

当一个 AI 智能体不够用时,合乎逻辑的下一步是使用多个。但让两个智能体在同一个代码库上工作,不像让两个开发者协作——更像把两个互相不交流的助手放在同一个房间里,然后期望它们不会破坏任何东西。

多智能体编排已成为 2026 年 AI 生态中最活跃的话题之一。六个框架正在竞争定义智能体如何协调。Sandcastle 等新工具解决了环境隔离问题。并行化的隐藏成本也开始显现。

Sandcastle:通过容器实现隔离

Sandcastle 是由 Matt Pocock 创建的 TypeScript 库(npm 上的 @ai-hero/sandcastle),它允许多个代码智能体并行运行,每个智能体在自己的 Docker 容器和自己的 git 分支中运行。

每个智能体通过 sandcastle.run() 启动,在容器内的隔离分支中获得仓库的独立副本,完成后 Sandcastle 合并更改。支持 Docker、Podman 和 Vercel Firecracker(微 VM)后端。比喻很简单:把每个智能体当作一个拥有自己虚拟机的临时开发者。

引发这项研究的 YouTube 视频将其称为 “Docker Worktrees”——一个将 Docker(容器)与 git worktrees(并行分支)结合的组合词。严格来说它并非原生的 git worktree,但理念相同:完全隔离,确保没有智能体污染其他智能体的工作。

MiniMax Agent Teams:Leader、Worker、Verifier

2026 年 5 月 27 日,MiniMax 宣布了其智能体团队架构,作为 Mavis 更新的一部分。其设计明确且结构化:

  • Leader(领导):将用户目标转化为任务结构,决定执行哪些 Worker 以及执行顺序。
  • Workers(工作者):使用专门的工具和上下文执行特定的子任务。可以并行运行。
  • Verifiers(验证者):独立审查 Worker 的工作,形成对抗性循环——类似于质量控制与开发的关系。

该系统使用状态机(Team Engine),循环为 produce → verify → done。如果验证失败,生产者节点被唤醒重新执行工作。这是确定性逻辑,而非基于提示的。

MiniMax 诚实地说明了成本:他们识别出三种类型——交接成本(在智能体之间重组信息)、共享成本(让所有智能体可见)和聚合成本(合并并行输出)。他们引用了 “Cost of Consensus” 论文,该论文显示同构配置下 token 消耗增加 2.1-3.4 倍,而精度没有提升。

框架全景

多智能体编排至少有六种竞争方法,每种采用不同的协调模型:

框架模型开发方
LangGraph基于图(监督者)LangChain
OpenAI Agents SDKHandoff(智能体间转移)OpenAI
CrewAI基于角色CrewAI
AutoGen/AG2对话式Microsoft
Google ADK层级式(A2A 协议)Google
Claude Agent SDKTool-use + MCPAnthropic

Claude Code 也有自己的实验性 Agent Teams,其中 Lead Agent 创建团队、向具有隔离上下文的 Teammates 分配任务、监督进度并合并结果。每个 Teammate 是完整的 Claude Code 实例,拥有自己的上下文窗口。

尚未解决的问题

1. 并行化成本。 并行运行 N 个智能体的成本不是 N 倍——由于协调、验证和合并的开销,通常成本更高。“免费并行”的承诺在实践中并不存在。

2. 语义冲突。 Sandcastle 和 git worktrees 解决了文本冲突(两个智能体修改同一行),但解决不了语义冲突(两个智能体在不同文件中以不兼容的方式更改同一函数)。Git 合并能检测前者,但后者需要人工审查。

3. 共享状态。 如何在智能体之间共享上下文而不撑爆它们的上下文窗口?如何确保一个智能体知道另一个做了什么,而不使 token 量翻三倍?每个框架都有不同的答案,但没有一个是通用的。

4. 多智能体评估。 如果评估单个智能体已经很难(如我们在上一篇基准测试文章中所见),那么评估多智能体系统的难度会高一个数量级。目前还没有公认的多智能体基准测试。

今天的用武之地

多智能体编排并不适用于所有项目。它在以下情况下有意义:

  • 你需要一个智能体做研究,同时另一个写代码,第三个进行审查。
  • 你处理大型代码库,单个智能体会丢失上下文。
  • 你想要并行化独立任务(测试、文档、隔离的重构)。

对于拥有小项目的个人开发者来说,一个配置良好的智能体可能更高效。但随着团队和项目的增长,多智能体编排正成为一种基础设施需求,而非实验性的奢侈品。


来源:Sandcastle GitHub · MiniMax Agent Team Blog · GuruSup: Multi-Agent Frameworks 2026 · Claude Code Agent Teams · Addy Osmani: Code Agent Orchestra

同分类更多文章