AI Engineer Conference · 18:30

瓶颈不再是智能,
而是 人类的注意力。

如果由人决定"做什么",由系统决定"怎么做",让 Agent 自主工作数小时甚至数天,会是什么样? Factory 把所有多智能体通信归纳为五种基础模式,并以此构建出可以连续运行 16 天的 Missions 架构。

Speaker
Luke Alvoeiro
Core Agent Harness · Factory
Longest Mission
16 days / continuous
超过一个完整 Sprint
Test Coverage
90% / at delivery
测试代码 ≈ 总行数 50%
§ 01 — Taxonomy

五种基础通信模式

整个领域框架繁多、术语混乱。讲者提出一个简洁的分类法:所有多智能体通信都可归约为下面五种之一。点击查看动态示意。
§ 02 — Factory's Answer

Missions:四种模式合奏的三角色架构

Mission 不是一个单一的 Agent 会话,而是由多个 Agent 通过结构化交接和共享状态进行通信的生态系统 —— 组合了委派、创建者-验证者、广播与协商。
i.

Orchestrator

编排者 — Planning

扮演用户的思想伙伴,提出战略性问题,澄清模糊需求。最终产出一个包含特性、里程碑以及验证契约的计划 —— 在任何代码动手前,"完成"的标准就已经被定义。

strategic slow reasoning careful
ii.

Workers

工人 — Implementation

每个被分配特性的 Worker 拥有干净的上下文,没有累积的历史包袱,没有衰减的注意力。读规格 → 实现 → git 提交。下一个 Worker 在干净的工作代码库上接力。

fluent code creative fast
iii.

Validators

验证者 — Verification

不仅跑 lint、类型检查、测试和 code review,更关键的是验证行为 —— 不只问"代码看起来对吗",而是问"端到端真的能工作吗"。这是 Mission 多天不漂移的关键。

adversarial precise behavior-first

Mission Lifecycle

01
用户描述目标
02
对话细化范围
03
批准计划 + 验证契约
04
自主执行(数小时-数天)
05
里程碑边界自愈
§ 03 — The Core Mechanism

Validation Contract:写代码之前先定义"正确"

实现后写的测试不抓 Bug,只是确认决策。 验证契约在规划阶段就独立于实现被定义 —— 一个复杂项目可能包含数百条断言。
VALIDATOR · 01

Scrutiny Validator

审查验证者

相对传统的一类 —— 跑测试套件、类型检查、lint,并且为每个完成的特性派生专门的 code review agent。

  • 运行完整测试套件
  • 类型与静态检查
  • 为每个特性派生 code review agent
  • 无实现包袱的干净上下文
VALIDATOR · 02

User Testing Validator

用户测试验证者

扮演 QA 工程师 —— 启动应用,通过 Computer Use 真实交互:填表、检查渲染、点按钮,确保功能流端到端工作。

  • Computer Use 真实点击交互
  • 填表 + 检查页面渲染
  • 端到端功能流验证
  • Mission 大部分挂钟时间花在这里
关键设计

两个验证者都没有看过代码

对实现没有任何投入 —— 因此验证在设计上就是对抗性的(adversarial by design)。 结构化交接强制 Worker 写下完成了什么、未完成什么、跑了哪些命令及退出码、发现哪些问题、是否遵循了 Orchestrator 定义的程序。

系统的自愈机制依赖于此:错误在里程碑边界被捕获,修正工作被界定范围,Mission 自己把自己拉回正轨。
§ 04 — A Counterintuitive Choice

串行优于并行 —— 反直觉但被生产数据验证

10 个 Agent 并行不等于 10 倍吞吐。Factory 试过:Agent 会互相冲突、覆盖修改、重复工作。协调开销吃掉速度收益,同时还在烧 token。
Naive Parallel

10 Agents × 1 = chaos

Agent 互相冲突、覆盖彼此的修改、做出不一致的架构决策。表面看更快,实际上正确性下降,token 浪费严重。

Missions' Way

Serial with directed parallelism

特性级别串行 —— 任何时刻只有一个 Worker 或 Validator 在跑。但在特性内部对只读操作(搜索、研究)做定向并行。正确性会复利累积。

§ 05 — Production Data

来自构建 Slack 克隆的真实数据

验证几乎从不在第一次就通过 —— 几乎总要创造跟进特性来修复问题。这恰恰证明了 QA 循环的价值。
0%
实现阶段占用的
时间与 token 比例
0%
测试代码占
总行数的比例
0%
最终交付的
测试覆盖率
0
所有编排逻辑的
prompt 总长度
§ 06 — Beyond the Patterns

配套设计 —— 让系统随每代模型变强

策略本身不够,还需要"结缔组织":结构化交接、模型选型、随模型升级变强而非变脆的架构。
i.

Structured Handoffs

Worker 完成特性时不能只说"我完成了"。必须填写一份结构化交接:完成了什么、未完成什么、跑了哪些命令及退出码、发现了哪些问题、是否遵循了程序。

不是靠期待 Agent "记住"过去发生的事,而是强制它们写下来并真正去处理。
ii.

Droid Whispering

没有任何一个模型在规划/实现/验证三方面都是最强的。需要心里有数不同 LLM 如何交互、它们在哪里失败,并有意识地选择哪个模型坐哪把椅子。

验证可以特意用完全不同厂商的模型,避免被相同训练数据带偏。
iii.

Mission Control

传统聊天界面不适合数天任务。专用视图展示当前活跃 Worker 在做什么、交接摘要发现了什么、计划如何调整 —— 用户像项目经理一样介入,或者直接去和朋友玩。

iv.

The Bitter Lesson

几乎所有编排逻辑都定义在 prompts 和 skills 中,而不是硬编码的状态机。约 700 行文字 —— 其中四句话就能显著改变执行策略。

Missions 提供纪律,模型提供智能。
以前 5 个工程师能同时推进 10 条工作流,
现在用 Missions 也许能推进 30 条。
— Luke Alvoeiro, Factory · AI Engineer Conference