CPU+GPU:开启AI推理新时代
《AI推理新趋势:CPU与GPU协同架构的崛起》 文章探讨了AI推理系统从依赖GPU到CPU-GPU协同架构的转变。随着AI应用场景复杂化,传统GPU推理面临显存瓶颈、调度效率低、成本高昂三大挑战。作者指出,现代AI推理已演变为包含路由、缓存、Agent编排等环节的系统工程,其中GPU仅承担核心计算,而CPU负责请求调度、内存管理等运行时任务。 新架构将CPU作为"AI操作系统",通过动态批处理、


大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。
我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案,
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。
技术方向:前端 / 跨端 / 小程序 / 移动端工程化
内容平台:掘金、知乎、CSDN、简书
创作特点:实战导向、源码拆解、少空谈多落地
文章状态:长期稳定更新,大量原创输出
我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。
子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取 11 类前端进阶学习资源(工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学“明白”,也用“到位”
持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱
文章目录
引言
过去几年,AI 推理有一个很明显的变化:
最早大家关注的是“模型有多大”,后来开始关注“训练有多贵”,再后来问题慢慢变成一句更现实的话:
模型真正上线以后,怎么跑得动?
因为真正进入生产环境后,AI 系统面对的不是 benchmark,而是:
- 海量并发;
- 长上下文;
- 多模态输入;
- 实时响应;
- 推理成本;
- GPU 资源争抢;
- 显存瓶颈;
- latency SLA;
- agent 多轮调用;
- tool chaining;
- 用户等待时间。
很多团队第一次上线大模型时都会有一种错觉:
训练都做完了,
推理应该只是“调用一下模型”。
结果真正上线后才发现:
推理阶段,才是 AI 工程真正开始烧钱、烧架构、烧系统能力的地方。
于是一个新的方向开始越来越重要:CPU + GPU 协同推理。
它不是“GPU 不够用了拿 CPU 凑”,而是一种新的 AI 系统架构思路:
让 CPU 和 GPU 不再各干各的,而是一起组成 AI 推理系统。
这篇文章,我们就来聊聊:
- 为什么 AI 推理越来越依赖 CPU + GPU 协同;
- GPU 为什么开始“带不动”;
- CPU 在 AI 推理里到底重新承担了什么角色;
- 为什么未来 AI Infra 不再只是“堆 GPU”;
- Agent、多模态、长上下文时代,为什么必须重新设计推理架构。
一、AI 推理,已经不是“跑个模型”了
很多人对 AI 推理的理解还停留在:
输入 prompt
↓
GPU 算一下
↓
输出 token
但真实的大模型线上系统远比这个复杂,一次完整 AI 请求,往往包含:
用户请求
↓
路由与鉴权
↓
上下文拼接
↓
memory 检索
↓
RAG 查询
↓
tool 选择
↓
prompt 构建
↓
KV cache 管理
↓
GPU 推理
↓
stream 输出
↓
状态保存
↓
trace / logging
这里真正完全依赖 GPU 的,其实只有:
Transformer Forward
而剩下的大量工作:
- 调度;
- IO;
- cache;
- tokenization;
- 请求管理;
- batch 合并;
- session 管理;
- context 拼接;
- agent orchestration;
本质上都更偏 CPU,所以现在 AI Infra 最大的变化之一就是:
GPU 不再是整个系统,GPU 只是系统中的“计算核心”。
真正的 AI 推理系统,开始越来越像:
CPU = AI 操作系统
GPU = AI 计算核心
二、GPU 为什么越来越“吃不消”
大模型刚爆发的时候,行业的核心逻辑很简单:
模型越大
→ GPU 越多
→ 能力越强
于是大家疯狂堆 GPU,但问题是:
GPU 并不是无限扩展的。
尤其在推理阶段,GPU 正在遇到三个越来越严重的问题。
三、第一个瓶颈:显存
很多人第一次部署 70B 模型时都会发现:
不是算力不够,
而是显存先炸了。
因为推理阶段真正昂贵的,很多时候不是参数,而是:KV Cache。
Transformer 推理里,每生成一个 token,都要保存 attention 的 key/value。
上下文越长:
KV cache 越大
并发越高:
KV cache 爆炸越快
Agent 越复杂:
session 保留越久
于是现在 AI 系统里一个越来越现实的问题是:
GPU 算得动,但存不下。
尤其:
- 长上下文;
- 多轮 agent;
- 多用户 session;
- 多模态 embedding;
- streaming generation;
都会疯狂消耗显存,这也是为什么现在越来越多系统开始:
- KV cache offloading;
- paged attention;
- unified memory;
- CPU memory spill;
- hierarchical cache。
也就是说:
GPU 开始只保留“热点计算数据”,剩下的数据交给 CPU 内存体系。
四、第二个瓶颈:GPU 不擅长“系统调度”
GPU 特别擅长:
超大规模并行矩阵计算
但 GPU 不擅长:
- 动态调度;
- 复杂状态机;
- 高 IO;
- 分支逻辑;
- 多任务 orchestration;
- 大量小任务切换。
问题是:
Agent 系统恰恰全是这些东西。
比如一次 AI Agent run:
用户问题
↓
Planner
↓
Tool Selection
↓
RAG
↓
Code Interpreter
↓
Memory Retrieve
↓
Browser Tool
↓
多轮反思
↓
最终输出
这里真正适合 GPU 的只有:
LLM forward
而 orchestration 更像:
分布式系统 + 工作流系统
于是 CPU 又重新变得重要,因为:CPU 更适合“控制”,GPU 更适合“计算”。
五、第三个瓶颈:GPU 太贵了
这个问题其实最现实,GPU 推理真正的问题从来不只是技术,而是:成本。
尤其 AI 产品进入真实商业化后,团队会很快发现:
用户增长 ≠ 利润增长
因为:
token 越多
→ GPU 消耗越高
→ 推理成本越高
于是越来越多公司开始研究:
- CPU 推理;
- Hybrid inference;
- heterogeneous computing;
- GPU sharing;
- speculative decoding;
- CPU prefill;
- low-bit quantization。
本质目标只有一个:
尽量减少 GPU 占用时间。
因为 GPU 已经不是“计算资源”这么简单了,它现在是:
AI 时代最昂贵的基础设施。
六、CPU 在 AI 推理里重新崛起
很多人误以为:
AI 时代 = CPU 没用了
实际上恰恰相反,AI 时代 CPU 的角色不是消失,而是升级。
以前:
CPU 是主计算核心
GPU 是加速卡
现在开始变成:
GPU 负责 dense compute
CPU 负责整个 AI runtime
尤其在推理系统里,CPU 正在承担越来越多工作。
七、CPU 开始负责“AI Runtime”
现在很多 AI Infra,本质都在做一件事:AI Runtime。
比如:
- request scheduling;
- token batching;
- session lifecycle;
- KV cache 管理;
- model routing;
- memory orchestration;
- context compression;
- agent state;
- retry;
- fallback;
- trace;
- observability。
这些都不是 GPU 擅长的。于是现代 AI 推理越来越像:
CPU:
负责“系统”
GPU:
负责“算子”
这个趋势其实和数据库、操作系统、浏览器的发展非常像。
最早大家拼的是:
谁算得快
后来发现真正决定系统能力的是:
谁更会调度。
八、推理时代真正重要的是“吞吐”
训练时代大家拼 FLOPS,推理时代大家开始拼:
TPS(tokens per second)
以及:
TPOT(time per output token)
问题是:
GPU utilization 很难始终拉满。
因为线上请求天然是:
- 动态的;
- 碎片化的;
- 长短不一的;
- session 化的;
- 不可预测的。
于是 CPU 开始负责:
- dynamic batching;
- queue merging;
- request packing;
- token scheduling;
- prefill/decode 分离。
因为:真正浪费 GPU 的不是计算,而是等待。
九、Prefill 和 Decode 正在被拆开
这是现在 AI 推理里非常重要的趋势,Transformer 推理实际上分两阶段:
1、Prefill
处理输入上下文特点:
- 并行度高;
- 计算密集;
- 吃 GPU。
2、Decode
逐 token 生成特点:
- sequential;
- latency 敏感;
- GPU 利用率反而没那么高。
于是现在越来越多系统开始:
CPU + GPU 分工
例如:
- CPU 管理 prefill queue;
- GPU 专注 decode;
- 多 GPU 分离阶段;
- CPU 负责 token 调度。
因为:
decode 阶段越来越像“实时系统”。
十、Agent 时代,CPU 更重要了
传统 ChatBot:
一次输入
→ 一次输出
但 Agent 完全不同,Agent 是:
状态机
它包含:
- planning;
- tool use;
- memory;
- retries;
- branching;
- interrupts;
- checkpoints;
- reflection;
- human approval。
这些东西本质上都更偏:
runtime orchestration
而不是:
matrix multiplication
所以未来 Agent 系统很可能变成:
CPU-heavy
GPU-accelerated
而不是:
GPU-only
十一、长上下文正在改变推理架构
长上下文是另一个关键变量,当 context 从:
4K
→ 32K
→ 128K
→ 1M
系统结构会完全变化,因为:attention complexity 太高。
于是:
- sliding window;
- context compression;
- retrieval memory;
- KV eviction;
- hierarchical cache;
开始越来越重要,而这些机制大量依赖:
CPU memory + runtime scheduling
因为:
GPU 显存不可能无限增长。
十二、AI 推理正在变成“分层系统”
以前:
模型 = 系统
现在越来越变成:
模型
只是系统中的一个组件
真正的 AI Infra 开始分层:
Application Layer
Agent Layer
Runtime Layer
Scheduler Layer
KV Cache Layer
Inference Engine
GPU Kernel
Hardware
而 CPU 正在承担:
Runtime + Scheduler
GPU 承担:
Kernel + Tensor Compute
于是未来真正强的 AI 公司,可能不是:
“谁模型最大”
而是:
“谁 runtime 最强”。
十三、AI Infra 开始像“云计算”
这个趋势其实越来越明显,过去几年 AI Infra 很像:
超级计算
未来会越来越像:
云操作系统
因为真正困难的问题开始变成:
- GPU 如何共享;
- session 如何迁移;
- KV cache 如何复用;
- inference 如何弹性扩缩;
- agent state 如何恢复;
- 多模型如何路由;
- 如何降低 cold start;
- 如何控制成本;
- 如何提高 utilization。
这些问题本质已经不是:
模型问题
而是:
系统工程问题
十四、CPU + GPU,不是过渡方案
很多人以为:
CPU + GPU
只是 GPU 不够时的临时方案
其实不是,它更像:AI 系统开始成熟的标志。
因为任何真正大规模系统,最终都会:
分层
调度
缓存
协同
资源管理
状态管理
数据库如此、浏览器如此、Kubernetes 如此、AI Runtime 也一样。
十五、 AI 推理真正进入“系统时代”
过去几年:
AI 的核心竞争
= 模型能力
接下来会越来越变成:
AI 的核心竞争
= 推理系统能力
包括:
- runtime;
- scheduler;
- observability;
- memory;
- orchestration;
- cache;
- infra;
- agent execution;
- heterogeneous computing。
所以 CPU + GPU 本质上不是硬件组合,而是:
AI 系统从“模型时代”进入“系统时代”的开始。
总结
AI 推理正在发生一次非常深的架构变化,过去:
GPU 是主角
未来:
GPU 负责计算
CPU 负责系统
AI 系统会越来越像:
一个新的操作系统。
它需要:
- 调度;
- memory;
- cache;
- state;
- runtime;
- orchestration;
- recovery;
- observability;
- heterogeneous computing。
而真正困难的问题,也会越来越从:
“模型会不会”
变成:
“系统能不能稳定、高效、低成本地运行”
所以 CPU + GPU 的意义,从来不只是:
两种芯片一起工作
而是:
AI 推理,正式进入工程化、系统化、运行时化的新阶段。
openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐

所有评论(0)