在这里插入图片描述

系列导读:这是一个 8 篇的 CSDN 重量档连载,总量约 56000 字,围绕 “Harness Engineering” 这个 2025-2026 年 AI 工程圈正在形成的新范式,展开方法论梳理 + 一手项目实证。

所有实例都来自我真实运行了 6 个月的两个项目:OpenClaw(AI native 工作流引擎)和 DocCenter(本地 HTML 文档中心)。每篇都附完整可运行的代码片段。


为什么要写这个系列

过去两年我踩过的坑几乎都可以归结为一句话:以为自己买了个模型,其实需要的是一整套操作系统

错觉 真相
“模型强到一定程度就够了” 模型只是 CPU,还需要内存、磁盘、中断、进程调度
“Prompt 写好就行” Prompt 只是系统调用,上面还有用户态、内核态
“上下文越长越好” 上下文不是内存是注意力预算
“Agent = LLM + 工具” Agent = Model × Harness,缺一个都跑不起来

Harness Engineering 正在变成这套"操作系统"的统称。它解决的不是单点 Trick,而是整套工程框架:如何让非确定性模型在确定性系统里可靠跑起来。


全系列地图

# 标题 核心概念 我的实例 字数
01 Agent = Model + Harness:为什么你的 Demo 活不过一周 Harness 定义与三阶段演进 CodeBuddy 装完就丢到 Skill 体系的进化 ~6000
02 确定性外壳 × 非确定性内核:我凌晨 3 点补的那道护栏 状态机 + 概率模型的混合架构 git push 红线 / Skill 校验 / 禁令清单 ~7000
03 Checkpoint 不是为了续跑,是为了让大脑 fsync Checkpoint 与幂等性 daily-dream 完整源码 + MEMORY.md 精炼 ~8000
04 Task Loop:为什么我把心跳拆成三层 Task Loop 五大机制 哨兵/学习/做梦 三层心跳架构 ~8000
05 上下文不是内存,是注意力预算 Context Engineering 四大模式 CLAUDE.md 自动注入 + Token 统计 ~7000
06 独立 Evaluator:为什么模型不能自己给自己打分 三 Agent 架构 + 自评泡泡 classroom-article-writer-v2 自检机制 ~6500
07 五大反模式:我踩过的坑和爬出来的路 反模式与陷阱 MckEngine Inches / Playwright / AI Slop 五大事故 ~7500
08 Big Model vs Big Harness:我赌 Harness 不会消失 路线之争与未来演化 Claude Design / Hermes / OpenClaw 三家对比 ~6000

读者画像与阅读建议

你适合读这个系列吗?

✅ 你适合:

  • 做过 Agent Demo 但上线后天天救火
  • 对 Prompt Engineering 已经吃透,想看下一层
  • 读过 Anthropic Constitutional AI / OpenAI Cookbook,但觉得还缺一层结构
  • 正在自研 Agent 产品,苦于没有可复用的工程脚手架

❌ 你不适合:

  • 只想抄 Prompt 模板快速出活
  • 把 LLM 当黑盒调用,不想碰工程侧
  • 纯研究背景,不关心生产环境稳定性

阅读路径推荐

  • 只有 1 小时:读 01 + 08,掌握框架 + 未来判断
  • 有半天:读 01 + 03 + 04 + 07,这是硬货四件套
  • 能读一周:按顺序通读,并 fork 每篇配套代码跑一遍
  • 工程团队培训:以 01 开场,03/04 深讲,06 做设计复盘教材

我的承诺

  1. 不讲你可以 Google 到的话:Harness 原文已经够好,我只讲 “原文之外 + 我踩过的坑”
  2. 所有代码真实可跑:不是伪代码,不是示意,是我本机跑了 6 个月的生产脚本
  3. 所有观点可被反驳:每篇末尾我自己攻击自己 3 条,欢迎读者继续攻击

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐