AI Engineer Conference · 18:30

瓶颈不再是智能，
而是人类的注意力。

如果由人决定"做什么"，由系统决定"怎么做"，让 Agent 自主工作数小时甚至数天，会是什么样？ Factory 把所有多智能体通信归纳为五种基础模式，并以此构建出可以连续运行 16 天的 Missions 架构。

Speaker

Luke Alvoeiro

Core Agent Harness · Factory

Longest Mission

16 days / continuous

超过一个完整 Sprint

Test Coverage

90% / at delivery

测试代码 ≈ 总行数 50%

§ 01 — Taxonomy

五种基础通信模式

整个领域框架繁多、术语混乱。讲者提出一个简洁的分类法：所有多智能体通信都可归约为下面五种之一。点击查看动态示意。

§ 02 — Factory's Answer

Missions：四种模式合奏的三角色架构

Mission 不是一个单一的 Agent 会话，而是由多个 Agent 通过结构化交接和共享状态进行通信的生态系统 —— 组合了委派、创建者-验证者、广播与协商。

Orchestrator

编排者 — Planning

扮演用户的思想伙伴，提出战略性问题，澄清模糊需求。最终产出一个包含特性、里程碑以及验证契约的计划 —— 在任何代码动手前，"完成"的标准就已经被定义。

strategic slow reasoning careful

ii.

Workers

工人 — Implementation

每个被分配特性的 Worker 拥有干净的上下文，没有累积的历史包袱，没有衰减的注意力。读规格 → 实现 → git 提交。下一个 Worker 在干净的工作代码库上接力。

fluent code creative fast

iii.

Validators

验证者 — Verification

不仅跑 lint、类型检查、测试和 code review，更关键的是验证行为 —— 不只问"代码看起来对吗"，而是问"端到端真的能工作吗"。这是 Mission 多天不漂移的关键。

adversarial precise behavior-first

Mission Lifecycle

用户描述目标

→

对话细化范围

→

批准计划 + 验证契约

→

自主执行（数小时-数天）

→

里程碑边界自愈

§ 03 — The Core Mechanism

Validation Contract：写代码之前先定义"正确"

实现后写的测试不抓 Bug，只是确认决策。 验证契约在规划阶段就独立于实现被定义 —— 一个复杂项目可能包含数百条断言。

VALIDATOR · 01

Scrutiny Validator

审查验证者

相对传统的一类 —— 跑测试套件、类型检查、lint，并且为每个完成的特性派生专门的 code review agent。

运行完整测试套件
类型与静态检查
为每个特性派生 code review agent
无实现包袱的干净上下文

VALIDATOR · 02

User Testing Validator

用户测试验证者

扮演 QA 工程师 —— 启动应用，通过 Computer Use 真实交互：填表、检查渲染、点按钮，确保功能流端到端工作。

Computer Use 真实点击交互
填表 + 检查页面渲染
端到端功能流验证
Mission 大部分挂钟时间花在这里

关键设计

两个验证者都没有看过代码

对实现没有任何投入 —— 因此验证在设计上就是对抗性的（adversarial by design）。结构化交接强制 Worker 写下完成了什么、未完成什么、跑了哪些命令及退出码、发现哪些问题、是否遵循了 Orchestrator 定义的程序。

系统的自愈机制依赖于此：错误在里程碑边界被捕获，修正工作被界定范围，Mission 自己把自己拉回正轨。

§ 04 — A Counterintuitive Choice

串行优于并行 —— 反直觉但被生产数据验证

10 个 Agent 并行不等于 10 倍吞吐。Factory 试过：Agent 会互相冲突、覆盖修改、重复工作。协调开销吃掉速度收益，同时还在烧 token。

Naive Parallel

10 Agents × 1 = chaos

Agent 互相冲突、覆盖彼此的修改、做出不一致的架构决策。表面看更快，实际上正确性下降，token 浪费严重。

Missions' Way

Serial with directed parallelism

特性级别串行 —— 任何时刻只有一个 Worker 或 Validator 在跑。但在特性内部对只读操作（搜索、研究）做定向并行。正确性会复利累积。

§ 05 — Production Data

来自构建 Slack 克隆的真实数据

验证几乎从不在第一次就通过 —— 几乎总要创造跟进特性来修复问题。这恰恰证明了 QA 循环的价值。

实现阶段占用的
时间与 token 比例

测试代码占
总行数的比例

最终交付的
测试覆盖率

0行

所有编排逻辑的
prompt 总长度

§ 06 — Beyond the Patterns

配套设计 —— 让系统随每代模型变强

策略本身不够，还需要"结缔组织"：结构化交接、模型选型、随模型升级变强而非变脆的架构。

Structured Handoffs

Worker 完成特性时不能只说"我完成了"。必须填写一份结构化交接：完成了什么、未完成什么、跑了哪些命令及退出码、发现了哪些问题、是否遵循了程序。

不是靠期待 Agent "记住"过去发生的事，而是强制它们写下来并真正去处理。

ii.

Droid Whispering

没有任何一个模型在规划/实现/验证三方面都是最强的。需要心里有数不同 LLM 如何交互、它们在哪里失败，并有意识地选择哪个模型坐哪把椅子。

验证可以特意用完全不同厂商的模型，避免被相同训练数据带偏。