【Agent智能体22 | 构建AI工作流的技巧-延迟、成本优化】

本文总结了优化AI智能体工作流延迟和成本的实用技巧。针对延迟优化，建议通过基准测试识别瓶颈环节，采用并行处理或更换更快的小模型/服务商。成本优化则聚焦三类计费点：按Token计费的LLM调用（可精简提示词）、按次收费的API工具（寻找廉价替代方案）以及服务器计算资源。核心思路是通过测量各环节指标，优先优化高开销组件。文章源自吴恩达智能体教程的实践总结，为开发者提供了可落地的性能优化方法论。

DdigitalNomad

18人浏览 · 2026-06-07 17:28:14

DdigitalNomad · 2026-06-07 17:28:14 发布

声明：本篇博客是以吴恩达的【Agent智能体】教程为基础，并对其中的内容做了笔记整理以及个人收获的总结。

在这里插入图片描述

延迟、成本优化的优先级一般较低。下面展示一下相关的思路：

降低延迟

在这里插入图片描述

如果你想优化智能体工作流的延迟，常用的方法是对工作流进行基准测试或计时，通过查看整体时间线我可以判断哪些环节有最大优化空间，可以加快速度，常用的方法如下：

考虑并行处理 (Consider parallelism?)
- 如果有些步骤还没并行处理，比如网页抓取，可以考虑将部分操作并行执行，而不是排队挨个抓取，从而大幅缩短总运行时间。
LLM 步骤耗时过长？ (LLM steps too long?)
- 或者发现某些大语言模型步骤耗时过长，尝试使用规模较小/稍弱但速度更快的模型 (smaller/less intelligent model)，或者更换响应速度更快的 LLM 服务提供商 (faster LLM provider)。

通过这种计时分析你能判断哪些环节最值得优化

减少成本

在这里插入图片描述

在构建和运行 AI 工作流时，通常需要为以下三类操作付费：

LLM 步骤 (LLM steps - pay per token)： 调用大语言模型（如 GPT-4、Gemini 等）的费用。这是基于输入（Prompt）和输出（生成的文本）的词块数量 (Token) 来计费的。处理的文本越长，费用越高。
API 调用工具 (Any API-calling tools - pay per API call)： 当代理使用外部工具（如谷歌搜索 API、天气 API、数据库查询等）时，通常是按调用次数 (per API call) 固定计费的。
计算步骤 (Compute steps - based on server capacity/cost)： 在本地或云服务器上执行普通代码、数据处理或运行脚本的成本。这取决于所消耗的服务器计算资源和时长。

在优化成本方面，同样可以对每一步的成本进行计算从而基准测试并决定哪些步骤需要优化，重点关注优化哪些环节。

有时候优化提示词减少无效长文本，或者寻找更便宜的替代 API 工具，能大幅降低整体工作流的运行费用。

总结：

所以发现当成本或延迟成为问题时，只需测量每一步的成本或延迟这通常能为你提供依据判断该优先优化哪些组件

到此，构建AI工作流的技巧相关的知识就介绍完了，下面该介绍“规划”这个涉及模式了！

如果这篇文章对你有帮助，欢迎点赞、评论、关注、收藏。你们的支持是我前进的动力！

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

项目生命周期，重点是：构建、打包、发布分别是什么意思？

你听到的说法准确含义产出的东西在哪常用命令构建项目编译 + 测试 + 打包的统称项目target目录下打包项目只做“将class文件归档为JAR/WAR”这一步项目target目录下安装到本地打包后，把JAR放到本地的.m2仓库本地发布到远程打包后，把JAR上传到团队/公共的仓库服务器远程Nexus/Central仓库mvn deploy部署到服务器把WAR/JAR放到应用服务器上并启动运行中的服

openEuler 社区

网规笔记真题解析：2024年11月软考网规案例分析

所以，48个25G接口（用于下联服务器）与配置的N个100G接口（用于上联spine）的比值是3：1，即48*25/n*100=3:1,得到n=4,需配置4个100Gj接口连接Spine交换机。在Spine-Leaf架构中，存储节点服务器将前端（业务流量）和后端（存储数据流量）的接口分别连接到不同的EAF交换机，这种设计主要基于流量隔离与业务优先级控制，避免流量混合拥塞。173*2（每台2个25G