Agent = Model + Harness | Harness Engineering 科普

INTRO · 00

你做 AI 产品，
走过这条路了吗？

一段注定要被打脸三次的旅程。
每一次打脸，都让你更接近真相。

Prompt Engineering Context Engineering Harness Engineering

第一阶段 · 01

Prompt Engineering
以为调好 prompt 就够了

你研究 few-shot，研究思维链，研究各种"咒语"。
相信只要 prompt 够精妙，模型就能给出完美答案。
那时候的你，真的很可爱。

"Prompt Engineering 关心的是单次推理的输入——「我这一次怎么问」。"

撞墙时刻 · ①

第一个耳光 · 指令遵循是祈祷，不是契约

你精心设计的 PROMPT

// 业务需求：合同信息自动提取入库你是专业的合同信息抽取助手。请严格按 JSON 返回，不要输出任何其他内容： { "party_a": 甲方全称, "party_b": 乙方全称, "amount": 合同金额（数字）, "sign_date": "YYYY-MM-DD" } 【合同】{contract_text}

📄 200份/天 💰 自动入库 ✨ 感觉稳了

实际输出 · 模型的花样

```json
{"party_a":"..."}
```

🚩 多了代码块

好的，我为您提取如下：{...}🚩 加废话

{"甲方":"...","乙方":"..."}🚩 字段名中文化

"party_a":"张三（以下简称甲方）"🚩 带注释入库

"amount":"人民币壹佰万元整"🚩 字符串而非 number

"sign_date":"2024年3月15日"🚩 非 ISO 格式

{甲乙方互换 · 10份里有2份}🚩 语义错位

你开始加"咒语"："字段必须英文" · "绝对不要说明" · "必须是 number"
加 3 个 Few-shot → 好点；加 8 个 → Prompt 膨胀 5000 字，成本翻倍、响应变慢
Prompt 是请求，不是契约 ——你在和一个"很会闲聊的天才实习生"博弈。

第二阶段 · 02

Context Engineering
开始管理模型能看到什么

RAG、向量检索、记忆文件、动态上下文压缩……
你发现 context 才是 LLM 的"工作记忆"。
这阶段你做得风生水起，直到——

RAG 检索向量数据库记忆文件动态压缩

撞墙时刻 · ②

第二个耳光

$ agent run --task "分析Q3财报并生成摘要"

上下文管理是必要的，但面对这些，远远不够。

第三阶段 · 03

你正在经历，
但还没意识到

工具权限管理重试逻辑子 Agent 协调长任务记忆人在回路审批多租户隔离评测体系可观测性成本治理

每天都在做这些事，
但你说不清它们是同一件事。

命名时刻 · ★

它们就是同一件事。
这件事，有一个名字——

Harness Engineering

核心等式 · ★★

一个反直觉的等式

Agent

=

Model

+

Harness

你要么是模型，要么是 Harness——没有中间地带。
所有的"agent 框架"、"prompt 工程"、"工具调用"，
拆开看，都是 Harness 的一部分。

隐喻 · 马与挽具

Harness = 将力量转化为有用功的装置

🐎 裸马＝裸 LLM

⚡ 💭 🔥 ⚡

有推理能力，但方向随机

每次对话独立，无记忆

无法自主调用工具

智能 ≠ 有用功

+
Harness
=

🐎🔗🚗 Agent = 能做事的AI

→→→

感知环境，定向行动

记忆历史，跨会话持续

调用工具，完成真实任务

智能 + 方向 = 价值

马没有变，但有了挽具，同样的力量完成了实际工作。模型没变，但 Harness 让它从"会说话"变成"会干活"。

核心机制 · Dumb Loop

Harness 的心脏：「笨循环」

Anthropic 称它为 dumb loop—— 所有智能在模型里，循环只管调度。

📥
用户输入

→

📋
组装 messages[]

→

🧠
LLM 推理

→

🔍
检查 stop_reason

tool_use ↓

🔧
执行工具

↓ 结果 append

🔄
回到顶部

end_turn ↓

📤
返回用户

案例 · 2026.03

Claude Code
源码意外泄露

0

行 TypeScript 源码

0

个文件

0

颗 Star（数小时内）

让所有人震惊的，不是它用了什么神奇的模型——
用的就是大家天天在用的那个 Claude。

对比 · 同一个模型

同一个 Claude，
两种截然不同的世界

普通 Chat 界面

一次对话，无记忆

无工具，只能说话

复杂任务容易失控

无法操作真实环境

Claude Code Harness

4.6万行 Query 引擎

40个权限门控工具

自动上下文压缩

Session 持久化 + 回滚

模型差距正在被 Harness 差距追平，甚至超越。

本质 · Harness 解决4件事

Harness 在为模型解决4个根本问题

① 感知-行动闭环

工具调用 = 行动 · 工具返回 = 感知

模型本是"单次预测机器"，Harness 给它装上感知循环，让每次行动的结果都成为下次的输入。

调用工具 → 环境执行 → 返回结果 ↑_______模型重新感知_______↑

客服Bot：查订单→得结果→精准回复

② 认知时间连续性

记忆 · 检查点 · 上下文压缩

模型天生"失忆"，每次对话从零开始。Harness 注入检查点和压缩摘要，让任务有历史、有上下文。

Day1 ─●─ Day2 ─●─ 今天压缩压缩 ↑接上昨天进度

代码 Agent：昨天的PR审查今天接着改

③ 有限理性应对

上下文有限 · 注意力有限 · 如何最大化智能？

Context Window 就是模型的"工作台"，越乱越小越失效。Harness 负责让有限空间装下最有用的信息。

128K tokens ≠ 无限注意力渐进披露 → 只给当前必要的工具+知识生成→评估 → 错了重来，不污染上下文

注意力=黄金，Harness是守门人

④ 领域智能注入

Skill + Ontology + CLI

不用重新训练模型。一份精心设计的 Skill 文件，就能把通用模型变成特定领域专家，这是成本最低的杠杆。

通用Claude + [skills/tax.md] = 税务专家同一模型 + [skills/law.md] = 法律顾问

一个MD文件，胜过微调百万参数

深探 ① · 感知-行动闭环

模型 × 工具 = 持续进化的 Agent

没有闭环时

输入→ 模型→ 输出

一次性 · 不感知环境

有了 Harness 闭环

输入→ 模型→ 调用工具
↓ 行动
环境反馈→ 重新感知

持续迭代 · 自我修正

🛒 真实案例：电商退款 Agent

1用户说"我要退款"

2调工具查订单状态 → 超过退款期

3感知到约束，切换策略

4调工具创建人工审核单

5回复用户并给出预期时间

没有闭环，第2步拿到"超时"就卡死了

深探 ② · 认知时间连续性

模型天生失忆，Harness 给它装上记忆

任务跨越 3 天的代码重构

Day 1

拆分模块 A, B · 新增15个测试

💾 存检查点

⚡ 压缩：仅保留关键决策 + 待办

Day 2

重构 C 模块 · 修复循环依赖

💾 存检查点

⚡ 压缩：仅保留关键决策 + 待办

Day 3

🔄 加载昨日摘要 → 继续 D 模块

✅ 完成

🔑 Harness 的3种记忆策略

A检查点：状态序列化，可随时恢复

B上下文压缩：关键信息提炼，节省 token

C外部记忆库：向量检索，突破 Context 上限

没有这三层，Agent 每次都从零开始

深探 ③ · 有限理性应对

128K tokens 是黄金，不是垃圾桶

Context Window 的使用效率

❌ 未经 Harness

无关历史

冗余工具×80

重复内容

有效20%

✅ Harness 管控

压缩历史

工具×3

有效内容 65%

渐进式技能披露 · 权限门控 · 生成→评估分离

⚡ 注意力 = 黄金，Harness 是守门人

1渐进披露：只给当前步骤需要的工具

2权限门控：财务AI只看财务数据

3生成-评估：草稿不污染主上下文

4上下文压缩：过时信息定期清理

满上下文的模型 ≈ 头脑混乱的员工

深探 ④ · 领域智能注入

不用训练，用 Skill 文件注入专业智慧

🧠 通用 Claude

↓ + Skill文件注入

skills/tax.md
税法规则 + 申报流程 + 风险点

skills/law.md
合同条款审查 + 风险标注

skills/code-review.md
安全规范 + 性能反模式检测

= 税务顾问 / 法律助手 / 代码审计师

📄 一个 Skill 文件长什么样？

# skills/tax-cn.md

## 适用场景

中国企业所得税季度申报审查

## 关键规则

- 研发费用加计扣除比例：75%~100%

- 小微企业：应纳税所得额≤300万享优惠

## 输出格式

风险项 + 优化建议 + 申报核查清单

这比微调便宜100倍，可随时更新

架构 · 7层 Harness

企业级 Harness 从底向上构建

L7

交付层企微机器人 · 钉钉 · Web Workbench · OpenAPI 用户触点多渠道

📱 业务方直接用，不感知底层

L6

编排层 Supervisor 调度 · Generator-Evaluator · 多 Agent 协作任务拆解质量审查

🧩 财报分析：拆子任务→并行→汇总

L5

能力层 ★ 护城河 Skill Library · 领域本体 · 确定性 CLI 工具最高价值密度可积累

💎 这层越厚，竞争对手越难复制

L4

推理运行时 Agent Loop · Context 管理 · Memory · 感知器闭环执行记忆管理

⚙️ 单次任务最多跑50轮循环

L3

集成层 ERP 适配 · MCP Servers · 数据库连接器数据桥接协议转换

🔌 SAP/Salesforce/内部系统通通接入

L2

执行基座隔离沙箱 · 工具网关 · 权限执行引擎安全隔离权限门控

🔐 代码沙箱确保 Agent 不越权

L1

模型路由 Multi-LLM Gateway · 成本路由 · 降级 Fallback 模型无关成本优化

💰 复杂任务用Opus，简单任务用Haiku

结语 · ★★★

Agent

=

Model

+

Harness

" If you're not the model, you are the Harness. "

— Thoughtworks 内部分享泄露

今天

写你的第一个 Skill 文件

把你最擅长的领域知识，装进一个 Markdown，测试它能让 Claude 做什么。

这周

给你的 AI 产品画七层图

哪层最薄？哪层根本没有？找到最需要加固的位置。

长期

让 Skill Library 成为护城河

模型人人都能用，但你的 Harness 是你独有的。积累它，它会随时间增值。

模型是引擎，Harness 是赛车。
而真正的比赛，属于会造赛车的人。