结论先行:Claude 的变化不是“多了一个写代码工具”,而是从聊天模型演进成了 Agent 操作系统

如果只看单次问答,Claude Code 确实像“更强的代码助手”;但如果按 Anthropic/Claude 官方博客的时间线看,会发现它真正的变化是:

Claude 正在从 对话模型工具使用模型代码 Agent通用 Agent Harness多 Agent/托管 Agent 平台企业级 Agent 网络 演进。

也就是说,Claude Code 不是孤立产品,而是 Anthropic 用来验证 Agent 架构的第一块“硬骨头”:代码环境天然有文件、命令、测试、版本控制、可验证结果,所以它最适合训练和产品化“会自己行动、会验证、会迭代”的 Agent。


1. 整体进展脉络

2024:从“模型能力”进入“Agent 架构”阶段

2024-06:Claude 3.5 Sonnet 证明“模型可以做 agentic coding”

Anthropic 在 Claude 3.5 Sonnet 发布时强调,它在内部 agentic coding evaluation 中表现显著提升:当模型被提供相关工具后,可以独立写代码、编辑代码、执行代码,并进行推理和排错[1]

这一步的重要性是:

  • Agent 不再只是“prompt 工程”;
  • 模型开始具备 规划、工具调用、错误恢复、代码修改 的基础能力;
  • 但此时还缺一个标准化的“连接外部世界”的方式。
2024-11:MCP 发布,解决 Agent 接入外部系统的问题

Anthropic 开源 Model Context Protocol,目标是给 AI 助手连接数据源、业务工具、开发环境提供统一标准[2]

MCP 的意义很大:

  • 过去每接一个系统都要做一套 custom integration;
  • MCP 把外部系统抽象为标准 server/client;
  • Agent 可以通过 MCP 接 GitHub、Slack、Google Drive、Postgres、浏览器等;
  • 这让“Agent 网络”有了基础协议层。

你可以把 MCP 理解成:

Agent 世界里的 USB-C / HTTP / Plugin Protocol。

没有 MCP,Agent 很难规模化接入企业系统;有了 MCP,Agent 才能真正进入生产工作流。

2024-12:Anthropic 明确提出 Agent 设计原则

在《Building effective agents》中,Anthropic 把 agentic systems 分成两类:workflowsagents。Workflows 是预定义代码路径里的 LLM + tools;Agents 则是 LLM 动态决定流程和工具使用[3]

这篇文章其实是 Anthropic 后续所有 Agent 产品的设计底座。它提出了几个关键模式:

  • Prompt chaining:链式分解任务;
  • Routing:按类型路由到不同处理路径;
  • Parallelization:并行处理/投票;
  • Orchestrator-workers:一个主 Agent 分解任务,多个 worker 执行;
  • Evaluator-optimizer:生成器 + 评估器循环优化;
  • Autonomous agents:模型在环境反馈中多轮行动。

这篇文章还强调一句非常关键的话:成功的 Agent 不是越复杂越好,而是要用最简单、可组合的模式解决问题


2. Claude Code 线:从 CLI 编码助手到工程 Agent

2025-02:Claude 3.7 Sonnet + Claude Code 研究预览

2025 年 2 月,Anthropic 发布 Claude 3.7 Sonnet,同时推出 Claude Code。官方定义很明确:Claude Code 是一个命令行 agentic coding 工具,允许开发者直接从终端把实质性工程任务委托给 Claude[4]

Claude Code 当时已经可以:

  • 搜索和读取代码;
  • 编辑文件;
  • 写测试、运行测试;
  • 使用命令行工具;
  • commit / push 到 GitHub;
  • 在过程中让人类保持介入。

这里最关键的不是“它会写代码”,而是它形成了一个闭环:

读环境 → 改环境 → 执行验证 → 根据结果再改。

这和 ChatGPT 式“生成一段代码”是不同物种。

Claude Code 的特殊性:代码是最适合 Agent 的训练场

代码场景有几个天然优势:

  1. 环境清晰:文件系统、依赖、命令、测试、git。
  2. 反馈明确:测试过/不过,编译成/不成。
  3. 任务可拆解:找文件、理解逻辑、改代码、写测试。
  4. 可回滚:git diff、commit、checkpoint。
  5. 可并行:不同分支、不同 worktree、不同任务。

所以 Claude Code 本质上是 Anthropic 的 Agent 原型场:先在代码里把“自主行动 + 工具调用 + 环境反馈 + 验证闭环”跑通。


3. Agent 设计线:从单 Agent 到多 Agent

2025-06:多 Agent Research 系统

Anthropic 在《How we built our multi-agent research system》中公开了 Claude Research 的多 Agent 架构:一个 lead agent 规划研究过程,再创建多个 subagents 并行搜索信息,最后综合结果[5]

这个架构非常关键:

Lead Agent = orchestrator
Subagents = workers
每个 subagent 有自己的 context window
最终只把压缩后的关键结果返回给 lead agent

它解决的是单 Agent 的三个瓶颈:

  1. 上下文瓶颈:一个 Agent 的上下文窗口会爆。
  2. 速度瓶颈:单线程搜索太慢。
  3. 路径依赖:一个 Agent 搜错方向后容易越走越偏。

多 Agent 的收益来自并行、隔离、压缩。Anthropic 的内部评估显示,多 Agent research 系统在某些宽度优先研究任务上比单 Agent Opus 4 高 90.2% 表现[5]

但它也指出代价:多 Agent 系统消耗 token 很快,multi-agent systems 大约是普通 chat 的 15 倍 token 消耗。因此适合高价值、强并行、信息量超单窗口的任务。

这就是“Agent 网络”的雏形。


4. Claude Agent SDK 线:Claude Code 的 harness 被抽象成通用 Agent 框架

2025-09:Claude Code SDK 更名为 Claude Agent SDK

Anthropic 后来明确说:Claude Code 背后的 agent harness 不只适合 coding,也可以驱动其他类型 Agent,因此 Claude Code SDK 更名为 Claude Agent SDK[6]

这篇文章给出了一个非常重要的设计原则:

Give your agents a computer.

也就是说,不只是给模型 API,而是给它一个可以操作的计算环境:

  • 文件系统;
  • Bash;
  • 脚本执行;
  • 搜索;
  • MCP;
  • subagents;
  • compaction;
  • verification loop。

Anthropic 把 Agent loop 总结为:

gather context → take action → verify work → repeat

这就是 Claude Code 的底层循环,也成为通用 Agent SDK 的设计模板。

所以 Claude Code 的真正价值不是“代码助手产品”,而是:

它证明了一套 Agent Harness 可以把 Claude 变成可执行数字工作的通用 Agent。


5. Claude Code 产品线:从本地终端到云端并行

2025-10:Claude Code on the web

Claude Code on the web 允许用户从浏览器直接委托多个 coding tasks,这些任务运行在 Anthropic-managed cloud infrastructure 上,每个 session 在隔离环境中执行,并支持自动 PR 创建和变更摘要[7]

这一步的意义是:

  • Claude Code 不再只是本地 CLI;
  • 它变成云端异步执行器;
  • 用户可以同时发起多个任务;
  • 每个任务有隔离 sandbox;
  • 结果可以直接进入 GitHub PR 流程。

这其实已经接近“软件工程任务队列 + Agent worker pool”。

2026-04:Claude Code Desktop 为并行 Agent 重新设计

Claude 官方博客显示,桌面版 Claude Code 重新设计为支持 parallel agents:新 sidebar 管理多个 session,支持拖拽布局、集成 terminal 和 file editor[8]

官方描述很直白:现在 agentic coding 的真实体验是:

many things in flight, and you in the orchestrator seat.

也就是说,人类开发者的角色开始变化:

  • 过去:人写代码,AI 辅助;
  • 后来:AI 写一段,人审一段;
  • 现在:人像 PM/tech lead 一样调度多个 coding agents。

2026-05:Agent view in Claude Code

Agent view 进一步把多个 Claude Code session 统一管理起来:可以启动新 agents、把它们放到后台、只在 Claude 需要输入时跳进去[9]

这说明 Claude Code 的产品重心已经从“一个终端里的助手”转向:

多个后台 Agent 的控制台。

这就是你说的“Agent 网络”的产品化入口。


6. Managed Agents 线:从工具到平台

2026-04:Claude Managed Agents

Claude 博客中出现 Claude Managed Agents:目标是让开发者更快把 Agent 上生产环境。到 2026 年 5 月,Managed Agents 加入了 memory、dreaming、outcomes、multiagent orchestration、webhooks、自托管 sandbox、MCP tunnels 等能力。

其中几个概念很关键:

Built-in memory

Managed Agents 有内置 memory,让 Agent 在多次 session 之间保留上下文,而不是每次从零开始。

Dreaming

Dreaming 是一个定期过程:回顾过去的 agent sessions 和 memory stores,抽取模式,整理记忆,让 Agent 随时间自我改进[10]

这很像“组织级经验沉淀”:

  • 哪些错误反复出现;
  • 哪些 workflow 最有效;
  • 团队共享偏好是什么;
  • Agent 应该如何修正长期行为。
Outcomes

Outcomes 允许开发者写一个 rubric,描述“成功长什么样”,Agent 会围绕这个 outcome 工作[10]

这比传统 prompt 更像任务契约。

Multiagent orchestration

Managed Agents 开始提供多 Agent 编排能力,意味着 Anthropic 不只是让你手动开多个 Claude Code session,而是在平台层支持 Agent 之间协作。

Self-hosted sandboxes + MCP tunnels

2026 年 5 月,Claude Managed Agents 支持 self-hosted sandboxes 和 MCP tunnels。官方说明是:agent loop 仍在 Anthropic 基础设施上处理 orchestration、context management 和 error recovery,但 tool execution 可以移动到用户自己的配置环境中[11]

这一步非常企业化:

  • Agent 的“脑”在 Anthropic;
  • 工具执行环境可以在企业自己基础设施;
  • 通过 MCP tunnels 接入私有系统;
  • 兼顾能力、隔离、安全、合规。

7. Skills 线:从 prompt 到可复用专业能力包

2025 年 10 月,Claude 发布 Agent Skills。Skills 是包含 instructions、scripts、resources 的文件夹,Claude 会在相关任务中按需加载[12]

Skills 的几个关键词:

  • Composable:多个 skills 可以组合;
  • Portable:同一格式可用于 Claude apps、Claude Code、API;
  • Efficient:只在需要时加载,避免污染上下文;
  • Powerful:可以包含可执行代码。

这解决了一个长期问题:如果把所有团队规范、业务知识、工具说明都塞进 system prompt 或 CLAUDE.md,上下文会爆,而且模型会忽略重点。Skills 的思路是:

专业知识不常驻上下文,而是按任务动态加载。

这其实是 Agent 走向企业级部署的关键,因为企业 Agent 不可能只靠一个超长 prompt,而需要模块化能力包。


8. 大型代码库实践线:Agent 如何真正进入复杂工程

Claude Code 在大型代码库中的最佳实践强调几件事:CLAUDE.md、hooks、skills、plugins、subagents、context 管理、verification[13]

这些看似琐碎,但本质上是 Agent 工程化的核心:

CLAUDE.md:项目长期记忆

告诉 Agent:

  • 如何 build;
  • 如何 test;
  • 代码风格;
  • repo 特殊约定;
  • 常见坑。

Hooks:确定性约束

比如每次编辑后必须跑 eslint,或者禁止写 migrations 文件夹。Hooks 比 prompt 更强,因为它是确定性执行,不靠模型“记得”。

Skills:按需专业知识

例如 API 规范、发布流程、设计系统、特定业务域知识。

Subagents:隔离探索

让一个 subagent 去读大量文件、调查问题,然后只返回总结,避免主上下文被污染。

Verification:让 Agent 自证

官方最佳实践说,给 Claude 一个验证方式是最高杠杆:测试、截图、预期输出、lint、build command[14]

这其实就是 Agent 和普通 chatbot 的分水岭:

Chatbot 给答案;Agent 必须能验证答案。


9. “三条主线”

A. Agent 设计主线

从 2024 到 2026,Anthropic 的 Agent 设计逐渐清晰:

  1. Augmented LLM:LLM + retrieval + tools + memory。
  2. Workflow patterns:chain、route、parallel、orchestrator、evaluator。
  3. Autonomous agent loop:环境反馈中的多轮工具使用。
  4. Context engineering:文件系统、memory、compaction、subagents。
  5. Multi-agent orchestration:lead agent + worker agents。
  6. Production harness:sandbox、checkpoint、observability、权限、webhooks。
  7. Self-improvement:memory + dreaming + outcomes。

B. Claude Code 主线

Claude Code 的演进是:

  1. 2025-02:CLI research preview
    从终端委托工程任务。

  2. Best practices 阶段
    探索 → 计划 → 实现 → 验证;CLAUDE.md、hooks、permissions、skills。

  3. SDK 抽象阶段
    Claude Code SDK 变成 Claude Agent SDK,说明 coding harness 被泛化。

  4. Web/cloud 阶段
    从浏览器委托多个任务,云端 sandbox 执行,自动 PR。

  5. Desktop/Agent view 阶段
    多个 parallel agents 的工作台,人类成为 orchestrator。

C. Agent 网络/企业平台主线

这条线从 MCP 开始:

  1. MCP:统一连接外部系统。
  2. Integrations / Connectors:Claude 连接工作应用。
  3. Skills:专业能力模块化。
  4. Managed Agents:托管 agent loop、memory、outcomes、webhooks。
  5. Self-hosted sandboxes:企业自己控制工具执行环境。
  6. MCP tunnels:安全接入内部工具。
  7. Multiagent orchestration:平台层编排多个 Agent。

这就是 Agent 网络的基本形态:

模型 + 工具协议 + 能力包 + 运行环境 + 记忆 + 编排 + 企业管控。


10. 为什么这比“会写代码”特殊?

如果只看“Claude 给我写了一个函数”,确实没什么特殊。但 Claude Code / Claude Agent SDK 特殊在 6 个层面。

1. 它有环境

普通模型只在文本里工作。Claude Code 在真实工程环境里工作:

  • 文件;
  • shell;
  • git;
  • tests;
  • package manager;
  • logs;
  • browser/computer;
  • MCP tools。

2. 它有行动闭环

不是一次性输出,而是:

读 → 改 → 跑 → 报错 → 修 → 再跑。

这就是 Agent。

3. 它有验证机制

代码任务可以被测试验证,UI 可以截图验证,数据任务可以脚本验证。验证让 Agent 从“看起来对”变成“可证明更接近对”。

4. 它有上下文工程

通过 CLAUDE.md、Skills、memory、subagents、compaction、filesystem,把上下文变成可管理资源。

5. 它能并行

从 subagents 到 Claude Code on the web,到 Agent view、Desktop parallel agents,再到 Managed Agents multiagent orchestration,Anthropic 明确在把单 Agent 变成 Agent 群。

6. 它正在企业化

权限、sandbox、self-hosted execution、MCP tunnels、admin controls、observability,这些不是 demo,而是企业级 Agent 平台需要的底座。


11. 一张简化时间线

时间 关键节点 本质变化
2024-06 Claude 3.5 Sonnet 强化 agentic coding 模型具备更强代码推理和工具使用基础
2024-11 MCP 发布 Agent 连接外部系统有了标准协议
2024-12 Building effective agents Anthropic 明确 Agent 架构模式
2025-02 Claude 3.7 Sonnet + Claude Code 从模型能力进入 CLI coding Agent
2025-06 Multi-agent Research 从单 Agent 进入 orchestrator-workers 多 Agent
2025-09 Claude Agent SDK Claude Code harness 泛化为通用 Agent SDK
2025-10 Skills 专业能力模块化、按需加载
2025-10 Claude Code on the web Coding Agent 云端化、并行化、PR 化
2026-04 Claude Code desktop parallel agents 人类成为多个 coding agents 的 orchestrator
2026-05 Agent view in Claude Code 多 session / 后台 Agent 控制台
2026-05 Managed Agents memory/dreaming/outcomes/orchestration Agent 平台具备长期记忆、自我改进、成功标准、多 Agent 编排
2026-05 Self-hosted sandboxes + MCP tunnels 企业级 Agent 执行环境和内部系统接入

12. Anthropic 的真实战略

Anthropic 不是单纯在做 Claude Code,而是在做一套 Agent Runtime / Agent OS

Claude Code 是第一个成熟场景,因为代码最可验证;MCP 是连接协议;Skills 是能力包;Agent SDK 是开发框架;Managed Agents 是托管运行时;Claude Code Web/Desktop/Agent view 是人类调度 Agent 的交互层。

可以抽象成:

用户 / 企业任务
  ↓
Claude App / Claude Code / Cowork / API
  ↓
Agent Harness
  - context management
  - tool use
  - planning
  - memory
  - compaction
  - subagents
  - verification
  - checkpoints
  ↓
Tools / MCP / Skills / Files / Browser / Shell
  ↓
Sandbox / Enterprise infra / GitHub / SaaS / internal systems
  ↓
Artifacts
  - PR
  - report
  - dashboard
  - document
  - automation result

所以“特殊能力”不在模型单点,而在系统组合:

Claude Code = Claude + 工具 + 文件系统 + shell + git + 测试 + 权限 + 上下文管理 + 子代理 + sandbox + PR 工作流。

这就是从“AI 会回答”到“AI 能完成任务”的分界线。

References

  1. Introducing Claude 3.5 Sonnet - Anthropic
  2. Introducing the Model Context Protocol - Anthropic
  3. Building Effective AI Agents - Anthropic
  4. Claude 3.7 Sonnet and Claude Code - Anthropic
  5. How we built our multi-agent research system - Anthropic
  6. Building agents with the Claude Agent SDK
  7. Claude Code on the web | Claude
  8. Redesigning Claude Code on desktop for parallel agents | Claude
  9. Agent view in Claude Code
  10. New in Claude Managed Agents: dreaming, outcomes, and …
  11. New in Claude Managed Agents: self-hosted sandboxes and MCP …
  12. Introducing Agent Skills | Claude
  13. How Claude Code works in large codebases: Best practices and …
  14. Best practices for Claude Code
Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐