CPU+GPU：开启AI推理新时代

《AI推理新趋势：CPU与GPU协同架构的崛起》文章探讨了AI推理系统从依赖GPU到CPU-GPU协同架构的转变。随着AI应用场景复杂化，传统GPU推理面临显存瓶颈、调度效率低、成本高昂三大挑战。作者指出，现代AI推理已演变为包含路由、缓存、Agent编排等环节的系统工程，其中GPU仅承担核心计算，而CPU负责请求调度、内存管理等运行时任务。新架构将CPU作为"AI操作系统"，通过动态批处理、

前端不太难

105人浏览 · 2026-05-20 12:35:53

前端不太难 · 2026-05-20 12:35:53 发布

在这里插入图片描述

子玥酱 （掘金 / 知乎 / CSDN / 简书同名）

大家好，我是子玥酱，一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂，目前在某国企负责前端软件研发相关工作，主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验，日常关注并分享的技术方向包括前端工程化、小程序、React / RN、Flutter、跨端方案，
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向：前端 / 跨端 / 小程序 / 移动端工程化
内容平台：掘金、知乎、CSDN、简书
创作特点：实战导向、源码拆解、少空谈多落地
文章状态：长期稳定更新，大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在“API 怎么用”，而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍，希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端，或准备长期走前端这条路
📚 关注我，第一时间获取前端行业趋势与实践总结
🎁 可领取 11 类前端进阶学习资源（工程化 / 框架 / 跨端 / 面试 / 架构）
💡 一起把技术学“明白”，也用“到位”

持续写作，持续进阶。
愿我们都能在代码和生活里，走得更稳一点 🌱

文章目录

引言

过去几年，AI 推理有一个很明显的变化：

最早大家关注的是“模型有多大”，后来开始关注“训练有多贵”，再后来问题慢慢变成一句更现实的话：

模型真正上线以后，怎么跑得动？

因为真正进入生产环境后，AI 系统面对的不是 benchmark，而是：

海量并发；
长上下文；
多模态输入；
实时响应；
推理成本；
GPU 资源争抢；
显存瓶颈；
latency SLA；
agent 多轮调用；
tool chaining；
用户等待时间。

很多团队第一次上线大模型时都会有一种错觉：

训练都做完了，
推理应该只是“调用一下模型”。

结果真正上线后才发现：

推理阶段，才是 AI 工程真正开始烧钱、烧架构、烧系统能力的地方。

于是一个新的方向开始越来越重要：CPU + GPU 协同推理。

它不是“GPU 不够用了拿 CPU 凑”，而是一种新的 AI 系统架构思路：

让 CPU 和 GPU 不再各干各的，而是一起组成 AI 推理系统。

这篇文章，我们就来聊聊：

为什么 AI 推理越来越依赖 CPU + GPU 协同；
GPU 为什么开始“带不动”；
CPU 在 AI 推理里到底重新承担了什么角色；
为什么未来 AI Infra 不再只是“堆 GPU”；
Agent、多模态、长上下文时代，为什么必须重新设计推理架构。

一、AI 推理，已经不是“跑个模型”了

很多人对 AI 推理的理解还停留在：

输入 prompt
    ↓
GPU 算一下
    ↓
输出 token

但真实的大模型线上系统远比这个复杂，一次完整 AI 请求，往往包含：

用户请求
    ↓
路由与鉴权
    ↓
上下文拼接
    ↓
memory 检索
    ↓
RAG 查询
    ↓
tool 选择
    ↓
prompt 构建
    ↓
KV cache 管理
    ↓
GPU 推理
    ↓
stream 输出
    ↓
状态保存
    ↓
trace / logging

这里真正完全依赖 GPU 的，其实只有：

Transformer Forward

而剩下的大量工作：

调度；
IO；
cache；
tokenization；
请求管理；
batch 合并；
session 管理；
context 拼接；
agent orchestration；

本质上都更偏 CPU，所以现在 AI Infra 最大的变化之一就是：

GPU 不再是整个系统，GPU 只是系统中的“计算核心”。

真正的 AI 推理系统，开始越来越像：

CPU = AI 操作系统
GPU = AI 计算核心

二、GPU 为什么越来越“吃不消”

大模型刚爆发的时候，行业的核心逻辑很简单：

模型越大
→ GPU 越多
→ 能力越强

于是大家疯狂堆 GPU，但问题是：

GPU 并不是无限扩展的。

尤其在推理阶段，GPU 正在遇到三个越来越严重的问题。

三、第一个瓶颈：显存

很多人第一次部署 70B 模型时都会发现：

不是算力不够，
而是显存先炸了。

因为推理阶段真正昂贵的，很多时候不是参数，而是：KV Cache。

Transformer 推理里，每生成一个 token，都要保存 attention 的 key/value。

上下文越长：

KV cache 越大

并发越高：

KV cache 爆炸越快

Agent 越复杂：

session 保留越久

于是现在 AI 系统里一个越来越现实的问题是：

GPU 算得动，但存不下。

尤其：

长上下文；
多轮 agent；
多用户 session；
多模态 embedding；
streaming generation；

都会疯狂消耗显存，这也是为什么现在越来越多系统开始：

KV cache offloading；
paged attention；
unified memory；
CPU memory spill；
hierarchical cache。

也就是说：

GPU 开始只保留“热点计算数据”，剩下的数据交给 CPU 内存体系。

四、第二个瓶颈：GPU 不擅长“系统调度”

GPU 特别擅长：

超大规模并行矩阵计算

但 GPU 不擅长：

动态调度；
复杂状态机；
高 IO；
分支逻辑；
多任务 orchestration；
大量小任务切换。

问题是：

Agent 系统恰恰全是这些东西。

比如一次 AI Agent run：

用户问题
  ↓
Planner
  ↓
Tool Selection
  ↓
RAG
  ↓
Code Interpreter
  ↓
Memory Retrieve
  ↓
Browser Tool
  ↓
多轮反思
  ↓
最终输出

这里真正适合 GPU 的只有：

LLM forward

而 orchestration 更像：

分布式系统 + 工作流系统

于是 CPU 又重新变得重要，因为：CPU 更适合“控制”，GPU 更适合“计算”。

五、第三个瓶颈：GPU 太贵了

这个问题其实最现实，GPU 推理真正的问题从来不只是技术，而是：成本。

尤其 AI 产品进入真实商业化后，团队会很快发现：

用户增长 ≠ 利润增长

因为：

token 越多
→ GPU 消耗越高
→ 推理成本越高

于是越来越多公司开始研究：

CPU 推理；
Hybrid inference；
heterogeneous computing；
GPU sharing；
speculative decoding；
CPU prefill；
low-bit quantization。

本质目标只有一个：

尽量减少 GPU 占用时间。

因为 GPU 已经不是“计算资源”这么简单了，它现在是：

AI 时代最昂贵的基础设施。

六、CPU 在 AI 推理里重新崛起

很多人误以为：

AI 时代 = CPU 没用了

实际上恰恰相反，AI 时代 CPU 的角色不是消失，而是升级。

以前：

CPU 是主计算核心
GPU 是加速卡

现在开始变成：

GPU 负责 dense compute
CPU 负责整个 AI runtime

尤其在推理系统里，CPU 正在承担越来越多工作。

七、CPU 开始负责“AI Runtime”

现在很多 AI Infra，本质都在做一件事：AI Runtime。

比如：

request scheduling；
token batching；
session lifecycle；
KV cache 管理；
model routing；
memory orchestration；
context compression；
agent state；
retry；
fallback；
trace；
observability。

这些都不是 GPU 擅长的。于是现代 AI 推理越来越像：

CPU：
负责“系统”

GPU：
负责“算子”

这个趋势其实和数据库、操作系统、浏览器的发展非常像。

最早大家拼的是：

谁算得快

后来发现真正决定系统能力的是：

谁更会调度。

八、推理时代真正重要的是“吞吐”

训练时代大家拼 FLOPS，推理时代大家开始拼：

TPS（tokens per second）

以及：

TPOT（time per output token）

问题是：

GPU utilization 很难始终拉满。

因为线上请求天然是：

动态的；
碎片化的；
长短不一的；
session 化的；
不可预测的。

于是 CPU 开始负责：

dynamic batching；
queue merging；
request packing；
token scheduling；
prefill/decode 分离。

因为：真正浪费 GPU 的不是计算，而是等待。

九、Prefill 和 Decode 正在被拆开

这是现在 AI 推理里非常重要的趋势，Transformer 推理实际上分两阶段：

1、Prefill

处理输入上下文特点：

并行度高；
计算密集；
吃 GPU。

2、Decode

逐 token 生成特点：

sequential；
latency 敏感；
GPU 利用率反而没那么高。

于是现在越来越多系统开始：

CPU + GPU 分工

例如：

CPU 管理 prefill queue；
GPU 专注 decode；
多 GPU 分离阶段；
CPU 负责 token 调度。

因为：

decode 阶段越来越像“实时系统”。

十、Agent 时代，CPU 更重要了

传统 ChatBot：

一次输入
→ 一次输出

但 Agent 完全不同，Agent 是：

状态机

它包含：

planning；
tool use；
memory；
retries；
branching；
interrupts；
checkpoints；
reflection；
human approval。

这些东西本质上都更偏：

runtime orchestration

而不是：

matrix multiplication

所以未来 Agent 系统很可能变成：

CPU-heavy
GPU-accelerated

而不是：

GPU-only

十一、长上下文正在改变推理架构

长上下文是另一个关键变量，当 context 从：

4K
→ 32K
→ 128K
→ 1M

系统结构会完全变化，因为：attention complexity 太高。

于是：

sliding window；
context compression；
retrieval memory；
KV eviction；
hierarchical cache；

开始越来越重要，而这些机制大量依赖：

CPU memory + runtime scheduling

因为：

GPU 显存不可能无限增长。

十二、AI 推理正在变成“分层系统”

以前：

模型 = 系统

现在越来越变成：

模型
只是系统中的一个组件

真正的 AI Infra 开始分层：

Application Layer
Agent Layer
Runtime Layer
Scheduler Layer
KV Cache Layer
Inference Engine
GPU Kernel
Hardware

而 CPU 正在承担：

Runtime + Scheduler

GPU 承担：

Kernel + Tensor Compute

于是未来真正强的 AI 公司，可能不是：

“谁模型最大”

而是：

“谁 runtime 最强”。

十三、AI Infra 开始像“云计算”

这个趋势其实越来越明显，过去几年 AI Infra 很像：

超级计算

未来会越来越像：

云操作系统

因为真正困难的问题开始变成：

GPU 如何共享；
session 如何迁移；
KV cache 如何复用；
inference 如何弹性扩缩；
agent state 如何恢复；
多模型如何路由；
如何降低 cold start；
如何控制成本；
如何提高 utilization。

这些问题本质已经不是：

模型问题

而是：

系统工程问题

十四、CPU + GPU，不是过渡方案

很多人以为：

CPU + GPU
只是 GPU 不够时的临时方案

其实不是，它更像：AI 系统开始成熟的标志。

因为任何真正大规模系统，最终都会：

分层
调度
缓存
协同
资源管理
状态管理

数据库如此、浏览器如此、Kubernetes 如此、AI Runtime 也一样。

十五、 AI 推理真正进入“系统时代”

过去几年：

AI 的核心竞争
= 模型能力

接下来会越来越变成：

AI 的核心竞争
= 推理系统能力

包括：

runtime；
scheduler；
observability；
memory；
orchestration；
cache；
infra；
agent execution；
heterogeneous computing。

所以 CPU + GPU 本质上不是硬件组合，而是：

AI 系统从“模型时代”进入“系统时代”的开始。

总结

AI 推理正在发生一次非常深的架构变化，过去：

GPU 是主角

未来：

GPU 负责计算
CPU 负责系统

AI 系统会越来越像：

一个新的操作系统。

它需要：

调度；
memory；
cache；
state；
runtime；
orchestration；
recovery；
observability；
heterogeneous computing。

而真正困难的问题，也会越来越从：

“模型会不会”

变成：

“系统能不能稳定、高效、低成本地运行”

所以 CPU + GPU 的意义，从来不只是：

两种芯片一起工作

而是：

AI 推理，正式进入工程化、系统化、运行时化的新阶段。

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

操作系统之文件系统

本文章是基于《操作系统导论》的总结，如果大家想深入了解，很建议阅读这本书。

openEuler 社区

AMD Ryzen AI Strix Halo架构处理器：如何在笔记本上跑通原本属于服务器的模型？

openEuler 社区

构建企业级 AI 研发操作系统（AI-OS），集成 Matt Pocock 全套技能，实现零幻觉开发

本文提出了一种企业级AI研发操作系统（AI-OS）架构，旨在解决当前AI编程工具存在的规范失效、幻觉、复用困难和上下文爆炸等问题。该系统的核心创新在于采用"分层路由洋葱模型"，将规则拆分为全局资产与项目资产，包括L0全局规范层、L1全局SOP层、L2全局技能层（集成Matt Pocock 21个技能）、L3项目路由层和L4项目上下文层。通过物理工具校验和XML格式强制输出等机制，确保AI严格执行开