01 / 15
INTRO · 00
你做 AI 产品,
走过这条路了吗?
一段注定要被打脸三次的旅程。
每一次打脸,都让你更接近真相。
Prompt Engineering Context Engineering Harness Engineering
第一阶段 · 01
Prompt Engineering
以为调好 prompt 就够了
你研究 few-shot,研究思维链,研究各种"咒语"。
相信只要 prompt 够精妙,模型就能给出完美答案。
那时候的你,真的很可爱。
"Prompt Engineering 关心的是单次推理的输入——「我这一次怎么问」。"
撞墙时刻 · ①
第一个耳光
你精心设计的 PROMPT
请你扮演资深律师,
用专业严谨的语气,
分析合同第七条的法律风险,
并给出可操作的建议……
模型的回答
当然!作为经验丰富的法律顾问,我很高兴为您提供专业意见。请注意,以下仅供参考……
(一堆正确的废话)
模型根本不知道「第七条」在哪,你的数据在哪,业务上下文在哪。
问题不在 prompt 本身。
第二阶段 · 02
Context Engineering
开始管理模型能看到什么
RAG、向量检索、记忆文件、动态上下文压缩……
你发现 context 才是 LLM 的"工作记忆"。
这阶段你做得风生水起,直到——
RAG 检索 向量数据库 记忆文件 动态压缩
撞墙时刻 · ②
第二个耳光
$ agent run --task "分析Q3财报并生成摘要"
上下文管理是必要的,但面对这些,远远不够。
第三阶段 · 03
你正在经历,
但还没意识到
工具权限管理 重试逻辑 子 Agent 协调 长任务记忆 人在回路审批 多租户隔离 评测体系 可观测性 成本治理
每天都在做这些事,
但你说不清它们是同一件事
命名时刻 · ★
它们就是同一件事。
这件事,有一个名字——
Harness Engineering
核心等式 · ★★
一个反直觉的等式
Agent
=
Model
+
Harness
你要么是模型,要么是 Harness——没有中间地带。
所有的"agent 框架"、"prompt 工程"、"工具调用",
拆开看,都是 Harness 的一部分。
隐喻 · 马与挽具
Harness = 将力量转化为有用功的装置
🐎 裸马 = 裸 LLM
💭 🔥
有推理能力,但方向随机
每次对话独立,无记忆
无法自主调用工具
智能 ≠ 有用功
+
Harness
=
🐎🔗🚗 Agent = 能做事的AI
→→→
感知环境,定向行动
记忆历史,跨会话持续
调用工具,完成真实任务
智能 + 方向 = 价值
马没有变,但有了挽具,同样的力量完成了实际工作。 模型没变,但 Harness 让它从"会说话"变成"会干活"。
核心机制 · Dumb Loop
Harness 的心脏:「笨循环」
Anthropic 称它为 dumb loop—— 所有智能在模型里,循环只管调度。
📥
用户输入
📋
组装 messages[]
🧠
LLM 推理
🔍
检查 stop_reason
tool_use ↓
🔧
执行工具
↓ 结果 append
🔄
回到顶部
end_turn ↓
📤
返回用户
案例 · 2026.03
Claude Code
源码意外泄露
0
行 TypeScript 源码
0
个文件
0
颗 Star(数小时内)
让所有人震惊的,不是它用了什么神奇的模型——
用的就是大家天天在用的那个 Claude
对比 · 同一个模型
同一个 Claude,
两种截然不同的世界
普通 Chat 界面
一次对话,无记忆
无工具,只能说话
复杂任务容易失控
无法操作真实环境
Claude Code Harness
4.6万行 Query 引擎
40个权限门控工具
自动上下文压缩
Session 持久化 + 回滚
模型差距正在被 Harness 差距追平,甚至超越。
本质 · Harness 解决4件事
Harness 在为模型解决4个根本问题
① 感知-行动闭环
工具调用 = 行动 · 工具返回 = 感知
模型本是"单次预测机器",Harness 给它装上感知循环,让每次行动的结果都成为下次的输入。
调用工具 → 环境执行 → 返回结果 ↑_______模型重新感知_______↑
客服Bot:查订单→得结果→精准回复
② 认知时间连续性
记忆 · 检查点 · 上下文压缩
模型天生"失忆",每次对话从零开始。Harness 注入检查点和压缩摘要,让任务有历史、有上下文。
Day1 ─●─ Day2 ─●─ 今天 压缩 压缩 ↑接上昨天进度
代码 Agent:昨天的PR审查今天接着改
③ 有限理性应对
上下文有限 · 注意力有限 · 如何最大化智能?
Context Window 就是模型的"工作台",越乱越小越失效。Harness 负责让有限空间装下最有用的信息。
128K tokens ≠ 无限注意力 渐进披露 → 只给当前必要的工具+知识 生成→评估 → 错了重来,不污染上下文
注意力=黄金,Harness是守门人
④ 领域智能注入
Skill + Ontology + CLI
不用重新训练模型。一份精心设计的 Skill 文件,就能把通用模型变成特定领域专家,这是成本最低的杠杆。
通用Claude + [skills/tax.md] = 税务专家 同一模型 + [skills/law.md] = 法律顾问
一个MD文件,胜过微调百万参数
深探 ① · 感知-行动闭环
模型 × 工具 = 持续进化的 Agent
没有闭环时
输入 模型 输出
一次性 · 不感知环境
有了 Harness 闭环
输入 模型 调用工具
↓ 行动
环境反馈 重新感知
持续迭代 · 自我修正
🛒 真实案例:电商退款 Agent
1用户说"我要退款"
2调工具查订单状态 → 超过退款期
3感知到约束,切换策略
4调工具创建人工审核单
5回复用户并给出预期时间
没有闭环,第2步拿到"超时"就卡死了
深探 ② · 认知时间连续性
模型天生失忆,Harness 给它装上记忆
任务跨越 3 天的代码重构
Day 1
拆分模块 A, B · 新增15个测试
💾 存检查点
⚡ 压缩:仅保留关键决策 + 待办
Day 2
重构 C 模块 · 修复循环依赖
💾 存检查点
⚡ 压缩:仅保留关键决策 + 待办
Day 3
🔄 加载昨日摘要 → 继续 D 模块
✅ 完成
🔑 Harness 的3种记忆策略
A检查点:状态序列化,可随时恢复
B上下文压缩:关键信息提炼,节省 token
C外部记忆库:向量检索,突破 Context 上限
没有这三层,Agent 每次都从零开始
深探 ③ · 有限理性应对
128K tokens 是黄金,不是垃圾桶
Context Window 的使用效率
❌ 未经 Harness
无关历史
冗余工具×80
重复内容
有效20%
✅ Harness 管控
压缩历史
工具×3
有效内容 65%
渐进式技能披露 · 权限门控 · 生成→评估分离
⚡ 注意力 = 黄金,Harness 是守门人
1渐进披露:只给当前步骤需要的工具
2权限门控:财务AI只看财务数据
3生成-评估:草稿不污染主上下文
4上下文压缩:过时信息定期清理
满上下文的模型 ≈ 头脑混乱的员工
深探 ④ · 领域智能注入
不用训练,用 Skill 文件注入专业智慧
🧠 通用 Claude
↓ + Skill文件注入
skills/tax.md
税法规则 + 申报流程 + 风险点
skills/law.md
合同条款审查 + 风险标注
skills/code-review.md
安全规范 + 性能反模式检测
= 税务顾问 / 法律助手 / 代码审计师
📄 一个 Skill 文件长什么样?
# skills/tax-cn.md
## 适用场景
中国企业所得税季度申报审查
## 关键规则
- 研发费用加计扣除比例:75%~100%
- 小微企业:应纳税所得额≤300万享优惠
## 输出格式
风险项 + 优化建议 + 申报核查清单
这比微调便宜100倍,可随时更新
架构 · 7层 Harness
企业级 Harness 从底向上构建
L7
交付层 企微机器人 · 钉钉 · Web Workbench · OpenAPI 用户触点多渠道
📱 业务方直接用,不感知底层
L6
编排层 Supervisor 调度 · Generator-Evaluator · 多 Agent 协作 任务拆解质量审查
🧩 财报分析:拆子任务→并行→汇总
L5
能力层 ★ 护城河 Skill Library · 领域本体 · 确定性 CLI 工具 最高价值密度可积累
💎 这层越厚,竞争对手越难复制
L4
推理运行时 Agent Loop · Context 管理 · Memory · 感知器 闭环执行记忆管理
⚙️ 单次任务最多跑50轮循环
L3
集成层 ERP 适配 · MCP Servers · 数据库连接器 数据桥接协议转换
🔌 SAP/Salesforce/内部系统通通接入
L2
执行基座 隔离沙箱 · 工具网关 · 权限执行引擎 安全隔离权限门控
🔐 代码沙箱确保 Agent 不越权
L1
模型路由 Multi-LLM Gateway · 成本路由 · 降级 Fallback 模型无关成本优化
💰 复杂任务用Opus,简单任务用Haiku
结语 · ★★★
Agent
=
Model
+
Harness
" If you're not the model, you are the Harness. "
— Thoughtworks 内部分享泄露
今天
写你的第一个 Skill 文件
把你最擅长的领域知识,装进一个 Markdown,测试它能让 Claude 做什么。
这周
给你的 AI 产品画七层图
哪层最薄?哪层根本没有?找到最需要加固的位置。
长期
让 Skill Library 成为护城河
模型人人都能用,但你的 Harness 是你独有的。积累它,它会随时间增值。
模型是引擎,Harness 是赛车。
而真正的比赛,属于会造赛车的人。
点击播放,或等待自动开始
0:00
← → 键切换 · 空格键暂停
Harness Engineering
什么是 AI Agent 的真正引擎?
19张幻灯片 · 自动播放 · 带讲解配音