使用相同的模型、相同的基础提示词、相同的工具。一个团队构建了一个聊天机器人,逐条回答问题,却完全不记得之前对话的任何内容。另一个团队构建了一个智能体,它能自行规划、调用工具、验证结果并纠正错误。差异不在于大脑——而在于骨架。
过去两年,整个行业面临着一个令人不安的现实:语言模型正在以惊人的速度进步,但 AI 系统的表现并不完全取决于底层运行的是哪个模型,而是取决于该模型如何与外部世界连接——它记住了什么、如何决定每一步、何时调用工具、以及如何察觉自己犯了错。这一无形的层次就是智能体架构(agent architecture),它已然成为 AI 工程真正的战场。
转折点出现在 2024 年 12 月,当时 Anthropic 发布了其指南 Building effective agents。该团队并未提出某种单一的万能架构,而是识别出五种任何开发者均可实施的编排模式。最具启发性的细节在于,这些模式中没有一个需要更大或更智能的模型,它们需要的是更好的架构。
第一种是提示链接(prompt chaining):将复杂任务分解为顺序步骤,每一步的输出作为下一步的输入——相当于编写一个调用另一个函数的函数。第二种是路由(routing),对用户输入进行分类并将其导向合适的专家——当一个系统需要同时处理客服咨询和技术分析等截然不同的请求时,这一模式尤为实用。第三种是并行化(parallelization),同时执行多个模型调用并合并结果,非常适合从多个维度同时审阅一份文档这类任务。
第四种模式——编排器-工作者(orchestrator-workers)——值得特别关注。一个编排智能体接收任务,对其进行分析,然后将子任务委派给专业的工作者智能体。每个工作者返回其结果,编排器则整合出最终答案。这种设计正是当前在生产环境中日益普及的多智能体系统的基石。第五种模式——评估器-优化器(evaluator-optimizer)——引入了一个质量循环:一个智能体生成回答,另一个对其进行评估,如果未达到阈值,前者则根据收到的反馈重新尝试。
Anthropic 的这一分类法并非纸上谈兵。LangChain 的编排框架 LangGraph 正是通过其 StateGraph 精确实现了这些模式——StateGraph 是一个有向图,其中节点代表模型调用,边代表状态转换。关键在于”状态”一词:使用 StateGraph 编排的智能体不会丢失对话线索,也不会忽略已经执行过的工具。它会记忆、迭代,并在出现问题时回退。
从无状态(stateless)到有状态(stateful)的跃迁,很可能是智能体开发中最被低估的变革。无状态的聊天机器人可以在单轮对话中保持连贯的回答,但有状态的智能体则维持着一个活生生的上下文——它知道自己调用了哪些工具、获得了哪些结果、还有哪些步骤未完成。正是这种运行时的记忆,区分了一场演示和一个真正的生产系统。这绝非细枝末节:没有状态,就没有迭代;没有迭代,就没有纠错;没有纠错,智能体不过是一个被美化的提示词而已。
学术研究也为这一方向提供了支撑。AgentVerse(arXiv:2308.10848)证明,智能体群体在复杂任务上系统性地优于单个智能体,但同时也揭示了智能体之间的协作并非自然而然就会发生:合作和冲突等涌现性的社会行为需要被明确地管理。单个智能体是可预测的,多智能体系统则是有生命力的,而有生命力的事物需要精心的编排。一篇较新的关于多智能体系统的综述(arXiv:2605.14892)提出了 LIFE 框架——层级能力(Layer capability)、整合(Integrate)、发现故障(Find faults)、进化(Evolve)——并指出智能体之间的错误传播仍然是一个悬而未决的问题。
由此引出一个实际问题:何时值得编排多个智能体,何时仅需一个就足够?Anthropic 的回答出人意料地保守:从简单开始。一个配备了良好工具、记忆和验证能力的单一智能体足以解决大多数用例。多智能体架构应当是对具体瓶颈的回应——例如决策瓶颈、专业化的需求、或者单个智能体无法处理所有输出格式的情况。
Microsoft Copilot Studio 很好地诠释了这一理念。该平台允许构建专门的子智能体(child agent),它们继承父智能体的配置,与 MCP(模型上下文协议,Model Context Protocol)集成,并安全地执行代码。这并不是一种全新的架构——而是对 Anthropic 所描述模式的工业化实现。
过度设计的诱惑是真实存在的。当一位工程师发现了 LangGraph 和 Anthropic 的模式后,自然的冲动是将每项任务都建模为一个包含七个节点和三个验证循环的图。然而,真正的纪律在于:从单个节点开始,测量它在哪里出错,然后只在能带来价值的地方增加复杂性。一个可靠运行的三状态状态机,远比一个没人能调试的二十节点图更有价值。
智能体架构正在走向成熟。关键不再是谁的模型跑得更快或者答得更细腻,而是系统如何记忆、决策、验证和自我纠正。对于今天正在构建 AI 产品的开发者来说,这是一个令人鼓舞的消息:模型固然重要,但架构才真正定义了你能构建什么的上限。在一个模型日益商品化的生态系统中,竞争优势不在于选择最新的 LLM(大语言模型),而在于设计能将其用得最好的系统。这正是智能体工程刚刚开始在生产中证明的命题。