大模型术语：小白程序员必备的六层工程分层架构（收藏版）

EnjoyEDU

39人浏览 · 2026-07-05 13:15:00

EnjoyEDU · 2026-07-05 13:15:00 发布

本文通过构建AI Agent的六层工程分层架构，深入解析了Token、LLM API、幻觉缺陷、RAG、Function Calling、MCP、Agent核心、ReAct循环、反思机制、Skill、SDD和Harness等关键术语的工程本质。从物理原子层Token到环境操作系统层Harness，为开发者提供了一套清晰的AI应用落地框架，旨在消除术语焦虑，提升大模型应用开发能力。

工程拆解：AI 术语的工程分层架构

在前两期中，我们梳理了大模型从象牙塔到平民基建的十年范式更迭，也解构了为什么命令行终端正在成为 AI 编程的终局战场。

基建有了，操控界面也有了。但摆在大多数开发者面前的现实障碍，不是技术能力不够，而是 AI 领域满天飞的术语构成了一道高昂的“认知税”。

从 2024 年的 RAG、Function Calling，到 2025 年百花齐放的 Agent，再到 2026 年突然火热的 MCP、SDD、Skill 和 Harness。大量新名词不断涌现，许多开发者陷入了名词焦虑：这些概念之间到底是什么关系？哪些是底座，哪些是外挂？是颠覆性的新发明，还是老技术换了一层皮？

本篇的目标是为开发者画一张概念知识地图。我们拒绝抽象的哲学定义，而是将这些名词整理进一套六层工程分层架构中。从最底层的物理 Token，到顶层的 Harness 操作系统，一次性把所有核心术语的工程本质讲清楚。

AI Agent 的六层工程分层架构

正如现代软件工程有 OSI 七层网络模型和经典的系统分层架构，AI 应用的落地在工程上也已经分化出了清晰的六层架构。

我们将所有的核心术语映射到这六层架构中：

AI Agent 六层工程架构分层图

下面，我们由底向上，逐层剥离这些概念的学术外衣，还原它们的工程本质。

第一层：物理原子层 —— Token（词元）

一切大模型推理与计算的物理终点，都是 Token。

对于大语言模型来说，它根本不认识中文，也不认识英文，它只认识数字。因此，要让大模型处理输入，必须有一种方式把原始文本转换为数字。

这就是分词器（Tokenizer）所做的事情。分词器按照特定的分词算法（如 BPE 算法）把输入的文本切分为多个最小语义单元（即 Token），然后用一个数字 ID 来表示这个 Token。后续大模型的矩阵计算与推理，都是基于这些数字 ID 来进行的。

Token 分词与数字 ID 转换

从工程视角看，Token 带来了三个极其显眼的工程约束：

Token 经济学：大模型 API 的输入（Prompt）和输出（Completion）是按 Token 数量计费的。类比于网络带宽按字节流量收费，请求体越庞大、响应体越长，费用就呈线性或指数级上升。
上下文窗口（Context Window）限制：每个模型能接收的最大数字 ID 序列是有限的（如 8K、128K 或 1M）。一旦超过这个物理限制，模型就会发生内存溢出（OOM）或者直接遗忘最早的输入。
分词退化隐形灾难：在代码生成或处理多语言文本时，Tokenizer 常常会发生分词退化。例如，代码中的泛型符号 List、多重转义符 /n/t 或不常见的中文生僻词，分词器无法将其识别为完整语义词，而是切碎成一堆单字符或乱码 Token。这不仅会导致 Token 消耗量暴增数倍，还会使得模型的推理准确度发生断崖式下跌。

第二层：模型底座层 —— LLM API 与幻觉缺陷

在 Token 之上，是提供核心推理能力的模型底座。

对于工程开发而言，LLM API 本质上就是一个“无状态的远程文本转换服务”。你发一段数字 ID 序列（Token）过去，它经过复杂的注意力机制计算，以流式（SSE）或一次性的方式，返回另一段数字 ID 序列出来。

理解大模型的“无状态性”是构建 AI 系统的核心前提。大模型在服务端没有任何记忆，它不会记住你上一秒对它说了什么。你在聊天界面看到的流畅多轮对话，全部是由客户端把所有历史上下文拼接在一起，在下一次请求时完整重新发送过去的。

在这一层，有两个大模型训练阶段的概念经常被提及：

预训练（Pre-training）：这是大模型的“通识教育”。在数万亿 Token 的海量通用数据上进行自监督训练，核心任务非常单纯：根据前文不断预测下一个 Token。这训练出了模型的基座（Base Model）。

微调（Fine-Tuning）：这是模型的“岗前业务培训”。在已经受过通识教育的基座模型上，使用规模较小（如几千条）的高质量针对性数据继续训练，调整部分权重参数，使模型在特定任务格式、敏感词过滤或垂直领域黑话（如医疗、金融术语）上输出概率更加符合预期。

大模型 API 与微调机制

工程红线：不可消灭的“幻觉”

无论微调得多么完美，大模型在本质上都只是基于统计概率输出下一个 Token，这决定了它天生自带一个致命 Bug：幻觉（Hallucination）。它会在置信度完全不足时，以极度自信、一本正经的语气编造事实。

后续所有高层工程方案（RAG、Function Calling、Agent、Harness 等）的统一出发点，不是为了消灭幻觉，而是为了约束、控制并增强这个有幻觉的无状态接口。

第三层：数据与接口外挂层 —— RAG、Function Calling 与 MCP

由于底座模型具有无状态和幻觉缺陷，且训练数据具有截止日期，我们必须在 API 之外为其挂载辅助系统。这就是外挂层。

1. RAG（检索增强生成）—— 开卷考试

RAG（Retrieval-Augmented Generation）的工程本质极其朴素：先查库，再回答。

既然大模型不知道你的私有数据，那我们就不让它凭空脑补。在调用 LLM 之前，先去你的私有知识库检索出与用户问题最相关的背景资料，拼进 Prompt 发给模型，强迫它“根据以下参考资料回答问题”。

RAG 检索增强流水线架构

经典的 RAG 包含四个核心阶段：

切片（Chunking）：将海量文档切成小文本块，相邻块保留重叠区以防止信息被切断。

向量化（Embedding）：把切片通过 Embedding 模型转为向量，存入向量数据库（如 pgvector、Milvus）。

检索与重排（Retrieve & Rerank）：根据用户提问的向量相似度，召回最相关的 Top-K 切片，并用 Rerank 模型进行精准的二次排序。

生成（Generate）：将最相关的文本拼入 Prompt，交给大模型做总结和格式化输出。

2. Function Calling（函数调用）—— 动态路由器

如果说 RAG 给了大模型看资料的“眼睛”，Function Calling 则给了大模型做事情的“双手”。

一个极其重要的工程事实：大模型自己不执行任何代码，它只负责输出结构化的 JSON 描述。

大模型在 Function Calling 中扮演的是“意图解析器”和“接口路由器”。开发者向模型注册可用工具列表，用户输入指令后，大模型自动判断应该调用哪个函数、需要哪些参数，并输出一个包含函数名和参数值的 JSON 对象。最后，由开发者编写的后端代码去执行真实操作。

Function Calling 交互时序

安全警示：由于幻觉存在，大模型完全可能输出带有注入攻击字符或完全非法的 JSON 参数。后端服务必须对大模型生成的 JSON 进行严格的参数校验、类型拦截，并把涉及文件读写、数据库修改的操作放进受限沙箱中运行，严禁直接执行。

3. MCP（模型上下文协议）—— AI 应用的“Type-C 接口”

在 2025 年末，Anthropic 提出了 MCP（Model Context Protocol，模型上下文协议），迅速成为行业标准。

在 MCP 出现前，如果你有三个不同的 Agent（写代码的、查数据库的、管日程的），你必须为每个 Agent 重复编写读取本地文件、查询 Slack 或操作 GitHub 的接口代码。Agent 数量和工具数量呈 M * N 的网状复杂度。

MCP 协议的核心本质是解耦了 AI 应用与外部数据/工具的连接，将复杂度降为 M + N。

MCP 采用了类似客户端-服务端（Client-Server）的经典架构：

MCP Server：数据和工具的提供者（如 Postgres-Server、Git-Server、Filesystem-Server），通过统一的 JSON-RPC 2.0 协议向外暴露 Resources（数据源）、Prompts（提示词模板）和 Tools（可调用函数）。

MCP Client：大模型 Agent 应用。它只需要实现一个 MCP Client 接口，就能无缝连接世界上任何一个现成的 MCP Server。

MCP 就像是 AI 时代的 Type-C 接口标准。只要双方都遵循这个协议，大模型就能随时插拔任何外部工具与数据源。

第四层：自循环决策层 —— Agent 核心、ReAct 与反思机制

在拥有了外挂数据和标准化工具后，大模型终于可以摆脱“一问一答”的被动响应模式，晋升为能够自主推进任务的 Agent（智能体）。

从工程定义上看，Agent 是以大模型为核心，具备规划（Planning）、记忆（Memory）和工具调用能力，能够自主拆解复杂任务并持续运行直至任务闭环的计算实体。

Agent 与 Function Calling 的层级关系一目了然：Function Calling 是 Agent 的“双手”，Agent 是 Function Calling 的“大脑”。

Agent 与 Function Calling 的层级关系

1. ReAct 自循环

Agent 驱动任务的核心机制是 ReAct 循环（Reasoning + Acting）：

[开始] ──> Observe (观察环境/输入) ──> Think (推理下一步) ──> Act (调用工具) ──> Observe (拿回结果) ──> [判断是否闭环]

当用户输入一个模糊的指令（如“修复项目中的 NPE 异常”），Agent 会进入 ReAct 循环：

Think：我需要定位异常发生的位置。
Act：调用 grep 查找 NPE 关键字。
Observe：拿到文件路径和行号。
Think：我需要查看该文件的代码内容。
Act：调用 read_file 读取对应代码段。
Observe：发现变量未做非空校验。
Think：我需要编写补丁并验证。
Act：调用 modify_file 修改代码并执行 Maven 测试。
Observe：测试通过，任务完成。

2. 记忆系统（Memory）

为了在多轮 ReAct 中保持状态，Agent 的记忆系统在工程上通常被分为两层：

短期记忆（Short-term Memory）：用于当前会话。由于上下文窗口限制，通常采用滑动窗口截断或历史对话摘要（Summary）的方式，在保留语义连贯性的前提下，主动压缩 Prompt 长度。

长期记忆（Long-term Memory）：用于跨会话场景。Agent 会自动将历史会话的关键决策、用户习惯转化为知识摘要存入向量库。在新会话启动时，根据当前意图做向量检索召回，按需注入上下文。

3. 反思与反馈机制（Self-Reflection）

反思是 Agent 摆脱盲目循环、实现自我纠错的关键。反思机制在本质上就是“生成后再评估，根据反馈修正结果”。工程上主要分为两类：

自我反馈（Self-Feedback）：大模型自己充当裁判，审查自己刚刚输出的文本或代码。例如：检查是否满足字数限制、是否遵循了格式约束、有没有意外改动不该改的内容。

外部反馈（External Feedback）：不相信模型的自我审查，而是把结果放入真实物理环境中运行。例如：直接调用编译器编译生成的代码，运行单元测试查看结果，或者使用 JSON Schema 校验生成的 JSON 是否合规。外部事实反馈是防范 Agent 逻辑死锁与幻觉滑坡的终极防线。

4. 三道安全熔断机制

由于 Agent 具有自我循环能力，一旦发生异常很容易陷入无休止的“思考-行动”黑洞，导致费用失控。工程上必须在自循环决策层强制安装三道保险：

最大迭代次数（Max Iterations）：例如强制限制单次任务最大循环 30 次，超出则必须暂停并向人类请求协助。

Token 费用熔断：单次任务累计消耗 Token 金额达到阈值（如 $5），立即触发硬熔断。

死锁与无用功检测：如果 Agent 连续 3 轮执行完全相同的 Action 且返回相同的 Error，或者在两个状态间反复横跳，判定为逻辑死锁，强制退出。

第五层：经验沉淀层 —— Skill（技能包）与 SDD（规格驱动开发）

当大模型具备了自主循环的能力后，企业在实际工业落地中很快遇到了新的挑战：如何让 Agent 的行为变得规范、可控，并能沉淀为企业的数字资产？

这促成了经验沉淀层的诞生。

1. Skill（技能包）—— 结构化任务经验包

正如前文提到的，Anthropic 研究员在 2026 年提出了一个变革性的观点：与其为每一个任务单独写一个 Agent，不如打造一个通用的 Agent，并为它装载不同的 Skill。

通用 Agent 提供基础的 ReAct 循环、文件操作、终端访问等底层 Harness 能力；而 Skill 则决定了 Agent 会做什么。

Skill 与 Harness 的关系：Agent 的两翼

在工程实现上，一个 Skill 本质上就是一个结构化的本地文件夹。它将特定领域的 SOP（标准作业程序）和最佳实践进行了显式封装：

skill.md（主说明文件）：告诉通用 Agent 遇到这类任务时该遵循什么逻辑。

rules/（流程与规则约束）：细化的执行边界与安全红线。

examples/（One-shot/Few-shot 示例）：告诉 Agent 好的输出长什么样，坏的输出长什么样。

scripts/（辅助小工具）：提升 Agent 执行效率的本地脚本。

例如，一个企业可以拥有“SQL 注入漏洞修复 Skill”、“bug 修复处理Skill”等。遇到不同任务，Agent 挂载不同的 Skill 目录，就能立即以极高的标准执行任务。这使得 AI 的能力可以随着 Skill 的不断迭代而持续沉淀。

2. SDD（规格驱动开发）—— 契约化上下文管理

SDD（Spec-Driven Development，规格驱动开发）是在正式编码之前，将模糊的用户意图彻底转化为稳定、具体工程上下文的一种设计模式。

如果你直接对 Agent 说“帮我把项目重构一下”，大模型会因为上下文太空泛而开始猜测需求，接着开始大面积修改代码，最后导致大量 Regression（回归 Bug）。

在 SDD 模式下：

在编码前，人与 AI 协作，先写出一份极其详细的 Specification（规格文档），明确写清楚：变更的目标、变更的范围、系统交互行为的改变、修改哪些具体文件、必须保留的历史逻辑以及任务的具体拆分步骤。
规格文档定稿后，再让 AI 严格按照这份规格去写代码。

通过这一契约，模糊的“自然语言意图”在第五层被过滤并固化为“规格上下文”。AI 只需要按图索骥去编码，极大地避免了实现跑偏、引入意外 Bug 或改坏历史代码的问题。

第六层：环境操作系统层 —— Harness 工程（驾驭工程）

在最顶层，是包容并控制一切的 Harness 工程。

业界在 2026 年达成了一个广泛的共识：

If you’re not the model, you’re the harness.（在 Agent 应用中，除了大模型本身，剩下的一切工作都是 Harness。）

Harness（驾驭工程/运行控制框架）是 Agent 真正能够运行的操作系统。模型提供了推理，但 Harness 提供了生存的物理世界与控制律。

一个标准的 Harness 工程必须为 Agent 提供以下系统级支持：

Harness 组件	物理实现与作用
Tool Execution	提供运行 Shell 命令的终端、隔离的 Docker 沙箱、Git 版本库、浏览器等物理环境。
Context Management	自动向模型注入必要的环境背景信息（如 README、AGENTS.md 约束、当前目录树结构）。
State Tracking	追踪任务进度的状态机。即使程序崩溃或网络中断，也能重新加载状态继续执行，而不是重新开始。
Permission Gate	权限门禁。敏感操作（如 git push、rm -rf、写大文件、网络请求）必须拦截并等待人类输入 Y/N 确认。
Verification Loop	验证回路。当 Agent 宣称完成任务时，Harness 自动运行 Maven Clean Build / Linter / Unit Test 检验真伪。
Observer Logging	日志观测。完整记录 Agent 的思考过程（Thought）、行动（Action）及报错，用于事后回溯与重放。

为什么 Harness 在 2026 年成为了竞争焦点？因为行业逐渐发现：拼模型参数的红利期正在过去，在相同模型底座下，Harness 做得差，Agent 成功率不到 20%；Harness 做到极致，成功率可以飙升到 80% 以上。决定 AI 能否在真实生产环境中落地的，正是这套“操作系统”的工程质量。

Harness 运行操作系统组件

六层架构全局速查表

我们将这六个层次及其代表的术语，用一张全景映射表做一次最终的工程脱水：

分层	术语	一句话本质	工程实践意义与边界
第一层：物理原子	Token	数字 ID 词元	推理和计费的物理原子单元；警惕代码转义带来的分词退化灾难。
第二层：模型底座	LLM API	无状态远程 RPC	文本转换服务，天生自带幻觉 Bug；后续所有工程都是为了对其进行约束和增强。
	Fine-Tuning	岗前格式微调	调整权重使其输出更符合特定格式/风格；大部分场景 Prompt+RAG 表现更优。
第三层：数据接口	RAG	开卷检索生成	先用向量/全文检索查资料，再拼接成 Prompt 提交；解决私有数据盲区。
	Function Calling	动态接口路由	大模型扮演网关路由器，输出 JSON 指令；后端必须设立严格的沙箱与校验红线。
	MCP	AI 版 Type-C 接口	标准化的模型上下文协议，实现 Agent 应用与外部工具/数据源的插拔解耦。
第四层：自循环决策	Agent	自循环 Worker	具备规划、记忆与工具调用的自主闭环运行实体。
	ReAct	推理-行动循环	Think-Act-Observe 的状态机自循环，直至满足任务退出条件。
	反思机制	生成后评估修正	分为自我反馈与外部反馈；外部编译和测试反馈是防范逻辑失控的硬核防线。
第五层：经验沉淀	Skill	结构化经验包	文件夹形式的领域 SOP 封装，让通用 Agent 快速装备并化身为专业领域专家。
	SDD	规格契约开发	在编码前用规格文档锁定任务边界和拆分，防止 AI 因上下文模糊而盲目猜需求。
第六层：环境系统	Harness	Agent 操作系统	除了模型外的一切，包括沙箱环境、权限拦截、状态追踪与自动测试校验。

结语

从物理原子的 Token，到作为操作系统的 Harness，这六层架构画出了当前 AI 应用从底层推理到上层系统工程的完整坐标系。

消除名词焦虑的最好方法是看清其物理本质。你会发现，AI 工程的落地，并不是一门全新的玄学，其核心难点依然是我们熟悉的那套东西：接口的安全防线如何构建、网络通信的开销如何降低、复杂的状态机如何维护、系统的权限与沙箱如何隔离、SOP 与设计契约如何落地。

大模型提供了一个有幻觉的大脑，而我们后端工程师真正的舞台，恰恰是为这个大脑穿上盔甲、接入神经，构建一个坚固、安全且规范的 Harness 物理世界。

最后

如果说程序员已经是高薪职业，那么干AI的程序员，就是高薪中的高薪。

现在的市场，已经用数据给程序员指明了方向：学AI大模型，就是冲刺高薪的最优解！

看着身边越来越多的同行转型大模型、拿到高薪offer，很多人心里都动了心，但真正的难题来了：零基础小白不知道从哪入门？有基础的程序员找不到系统学习路径？实战项目练手无门？面试不知道考什么？

别慌！今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包，覆盖从入门到实战、从理论到面试、从基础到进阶的全流程，所有资料均已整理归档，无冗余、无套路，免费分享给每一位想抓住AI风口的程序员和小白！

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

1、大模型系统化学习路线

在这里插入图片描述

2、大模型学习书籍&文档

在这里插入图片描述

3、AI大模型最新行业报告

在这里插入图片描述

4、大模型项目实战&配套源码

5、大模型大厂面试真题

四阶段精细化学习规划（附时间节点，可直接照做）

结合上述资源，给大家整理了一份可直接落地的四阶段学习规划，总时长约2个月，小白可循序渐进，程序员可根据自身基础调整节奏，高效掌握大模型核心能力，快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

6、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

离散数学知识点

openEuler 社区

Java IO流详解

读文件、写文件FileReaderFileWriter缺点：字符基础流使用电脑系统默认编码，Windows是GBK，读取UTF-8中文文件会乱码，新手不推荐直接用。FileReader中文乱码底层原因FileReader默认使用操作系统的系统编码（Windows GBK），解码规则和文件UTF-8二进制不匹配，翻译文字出错；必须使用转换流手动指定UTF-8编码。相对路径找不到文件程序启动的基准工作

openEuler 社区

【QT】国产化编译指南9

银河麒麟高级服务器操作系统 V10（Kylin Linux Advanced Server V10）一般基于 rpm 包管理，没有基于 deb 的版本。在Kylin Linux Advanced Server V10 有x86基于rmp 和基于deb之分。一般来说，银河麒麟操作系统主要分为桌面版和服务器版。x86银河麒麟有基于deb和rmp之分。