在这里插入图片描述

在这里插入图片描述

子玥酱 (掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向:前端 / 跨端 / 小程序 / 移动端工程化
内容平台:
掘金、知乎、CSDN、简书
创作特点:
实战导向、源码拆解、少空谈多落地
文章状态:
长期稳定更新,大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取 11 类前端进阶学习资源(工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学“明白”,也用“到位”

持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱

引言

过去几年,AI 推理有一个很明显的变化:

最早大家关注的是“模型有多大”,后来开始关注“训练有多贵”,再后来问题慢慢变成一句更现实的话:

模型真正上线以后,怎么跑得动?

因为真正进入生产环境后,AI 系统面对的不是 benchmark,而是:

  • 海量并发;
  • 长上下文;
  • 多模态输入;
  • 实时响应;
  • 推理成本;
  • GPU 资源争抢;
  • 显存瓶颈;
  • latency SLA;
  • agent 多轮调用;
  • tool chaining;
  • 用户等待时间。

很多团队第一次上线大模型时都会有一种错觉:

训练都做完了,
推理应该只是“调用一下模型”。

结果真正上线后才发现:

推理阶段,才是 AI 工程真正开始烧钱、烧架构、烧系统能力的地方。

于是一个新的方向开始越来越重要:CPU + GPU 协同推理。

它不是“GPU 不够用了拿 CPU 凑”,而是一种新的 AI 系统架构思路:

让 CPU 和 GPU 不再各干各的,而是一起组成 AI 推理系统。

这篇文章,我们就来聊聊:

  • 为什么 AI 推理越来越依赖 CPU + GPU 协同;
  • GPU 为什么开始“带不动”;
  • CPU 在 AI 推理里到底重新承担了什么角色;
  • 为什么未来 AI Infra 不再只是“堆 GPU”;
  • Agent、多模态、长上下文时代,为什么必须重新设计推理架构。

一、AI 推理,已经不是“跑个模型”了

很多人对 AI 推理的理解还停留在:

输入 prompt
    ↓
GPU 算一下
    ↓
输出 token

但真实的大模型线上系统远比这个复杂,一次完整 AI 请求,往往包含:

用户请求
    ↓
路由与鉴权
    ↓
上下文拼接
    ↓
memory 检索
    ↓
RAG 查询
    ↓
tool 选择
    ↓
prompt 构建
    ↓
KV cache 管理
    ↓
GPU 推理
    ↓
stream 输出
    ↓
状态保存
    ↓
trace / logging

这里真正完全依赖 GPU 的,其实只有:

Transformer Forward

而剩下的大量工作:

  • 调度;
  • IO;
  • cache;
  • tokenization;
  • 请求管理;
  • batch 合并;
  • session 管理;
  • context 拼接;
  • agent orchestration;

本质上都更偏 CPU,所以现在 AI Infra 最大的变化之一就是:

GPU 不再是整个系统,GPU 只是系统中的“计算核心”。

真正的 AI 推理系统,开始越来越像:

CPU = AI 操作系统
GPU = AI 计算核心

二、GPU 为什么越来越“吃不消”

大模型刚爆发的时候,行业的核心逻辑很简单:

模型越大
→ GPU 越多
→ 能力越强

于是大家疯狂堆 GPU,但问题是:

GPU 并不是无限扩展的。

尤其在推理阶段,GPU 正在遇到三个越来越严重的问题。

三、第一个瓶颈:显存

很多人第一次部署 70B 模型时都会发现:

不是算力不够,
而是显存先炸了。

因为推理阶段真正昂贵的,很多时候不是参数,而是:KV Cache。

Transformer 推理里,每生成一个 token,都要保存 attention 的 key/value。

上下文越长:

KV cache 越大

并发越高:

KV cache 爆炸越快

Agent 越复杂:

session 保留越久

于是现在 AI 系统里一个越来越现实的问题是:

GPU 算得动,但存不下。

尤其:

  • 长上下文;
  • 多轮 agent;
  • 多用户 session;
  • 多模态 embedding;
  • streaming generation;

都会疯狂消耗显存,这也是为什么现在越来越多系统开始:

  • KV cache offloading;
  • paged attention;
  • unified memory;
  • CPU memory spill;
  • hierarchical cache。

也就是说:

GPU 开始只保留“热点计算数据”,剩下的数据交给 CPU 内存体系。

四、第二个瓶颈:GPU 不擅长“系统调度”

GPU 特别擅长:

超大规模并行矩阵计算

但 GPU 不擅长:

  • 动态调度;
  • 复杂状态机;
  • 高 IO;
  • 分支逻辑;
  • 多任务 orchestration;
  • 大量小任务切换。

问题是:

Agent 系统恰恰全是这些东西。

比如一次 AI Agent run:

用户问题
  ↓
Planner
  ↓
Tool Selection
  ↓
RAG
  ↓
Code Interpreter
  ↓
Memory Retrieve
  ↓
Browser Tool
  ↓
多轮反思
  ↓
最终输出

这里真正适合 GPU 的只有:

LLM forward

而 orchestration 更像:

分布式系统 + 工作流系统

于是 CPU 又重新变得重要,因为:CPU 更适合“控制”,GPU 更适合“计算”。

五、第三个瓶颈:GPU 太贵了

这个问题其实最现实,GPU 推理真正的问题从来不只是技术,而是:成本。

尤其 AI 产品进入真实商业化后,团队会很快发现:

用户增长 ≠ 利润增长

因为:

token 越多
→ GPU 消耗越高
→ 推理成本越高

于是越来越多公司开始研究:

  • CPU 推理;
  • Hybrid inference;
  • heterogeneous computing;
  • GPU sharing;
  • speculative decoding;
  • CPU prefill;
  • low-bit quantization。

本质目标只有一个:

尽量减少 GPU 占用时间。

因为 GPU 已经不是“计算资源”这么简单了,它现在是:

AI 时代最昂贵的基础设施。

六、CPU 在 AI 推理里重新崛起

很多人误以为:

AI 时代 = CPU 没用了

实际上恰恰相反,AI 时代 CPU 的角色不是消失,而是升级。

以前:

CPU 是主计算核心
GPU 是加速卡

现在开始变成:

GPU 负责 dense compute
CPU 负责整个 AI runtime

尤其在推理系统里,CPU 正在承担越来越多工作。

七、CPU 开始负责“AI Runtime”

现在很多 AI Infra,本质都在做一件事:AI Runtime。

比如:

  • request scheduling;
  • token batching;
  • session lifecycle;
  • KV cache 管理;
  • model routing;
  • memory orchestration;
  • context compression;
  • agent state;
  • retry;
  • fallback;
  • trace;
  • observability。

这些都不是 GPU 擅长的。于是现代 AI 推理越来越像:

CPU:
负责“系统”

GPU:
负责“算子”

这个趋势其实和数据库、操作系统、浏览器的发展非常像。

最早大家拼的是:

谁算得快

后来发现真正决定系统能力的是:

谁更会调度。

八、推理时代真正重要的是“吞吐”

训练时代大家拼 FLOPS,推理时代大家开始拼:

TPS(tokens per second)

以及:

TPOT(time per output token)

问题是:

GPU utilization 很难始终拉满。

因为线上请求天然是:

  • 动态的;
  • 碎片化的;
  • 长短不一的;
  • session 化的;
  • 不可预测的。

于是 CPU 开始负责:

  • dynamic batching;
  • queue merging;
  • request packing;
  • token scheduling;
  • prefill/decode 分离。

因为:真正浪费 GPU 的不是计算,而是等待。

九、Prefill 和 Decode 正在被拆开

这是现在 AI 推理里非常重要的趋势,Transformer 推理实际上分两阶段:

1、Prefill

处理输入上下文特点:

  • 并行度高;
  • 计算密集;
  • 吃 GPU。

2、Decode

逐 token 生成特点:

  • sequential;
  • latency 敏感;
  • GPU 利用率反而没那么高。

于是现在越来越多系统开始:

CPU + GPU 分工

例如:

  • CPU 管理 prefill queue;
  • GPU 专注 decode;
  • 多 GPU 分离阶段;
  • CPU 负责 token 调度。

因为:

decode 阶段越来越像“实时系统”。

十、Agent 时代,CPU 更重要了

传统 ChatBot:

一次输入
→ 一次输出

但 Agent 完全不同,Agent 是:

状态机

它包含:

  • planning;
  • tool use;
  • memory;
  • retries;
  • branching;
  • interrupts;
  • checkpoints;
  • reflection;
  • human approval。

这些东西本质上都更偏:

runtime orchestration

而不是:

matrix multiplication

所以未来 Agent 系统很可能变成:

CPU-heavy
GPU-accelerated

而不是:

GPU-only

十一、长上下文正在改变推理架构

长上下文是另一个关键变量,当 context 从:

4K
→ 32K
→ 128K
→ 1M

系统结构会完全变化,因为:attention complexity 太高。

于是:

  • sliding window;
  • context compression;
  • retrieval memory;
  • KV eviction;
  • hierarchical cache;

开始越来越重要,而这些机制大量依赖:

CPU memory + runtime scheduling

因为:

GPU 显存不可能无限增长。

十二、AI 推理正在变成“分层系统”

以前:

模型 = 系统

现在越来越变成:

模型
只是系统中的一个组件

真正的 AI Infra 开始分层:

Application Layer
Agent Layer
Runtime Layer
Scheduler Layer
KV Cache Layer
Inference Engine
GPU Kernel
Hardware

而 CPU 正在承担:

Runtime + Scheduler

GPU 承担:

Kernel + Tensor Compute

于是未来真正强的 AI 公司,可能不是:

“谁模型最大”

而是:

“谁 runtime 最强”。

十三、AI Infra 开始像“云计算”

这个趋势其实越来越明显,过去几年 AI Infra 很像:

超级计算

未来会越来越像:

云操作系统

因为真正困难的问题开始变成:

  • GPU 如何共享;
  • session 如何迁移;
  • KV cache 如何复用;
  • inference 如何弹性扩缩;
  • agent state 如何恢复;
  • 多模型如何路由;
  • 如何降低 cold start;
  • 如何控制成本;
  • 如何提高 utilization。

这些问题本质已经不是:

模型问题

而是:

系统工程问题

十四、CPU + GPU,不是过渡方案

很多人以为:

CPU + GPU
只是 GPU 不够时的临时方案

其实不是,它更像:AI 系统开始成熟的标志。

因为任何真正大规模系统,最终都会:

分层
调度
缓存
协同
资源管理
状态管理

数据库如此、浏览器如此、Kubernetes 如此、AI Runtime 也一样。

十五、 AI 推理真正进入“系统时代”

过去几年:

AI 的核心竞争
= 模型能力

接下来会越来越变成:

AI 的核心竞争
= 推理系统能力

包括:

  • runtime;
  • scheduler;
  • observability;
  • memory;
  • orchestration;
  • cache;
  • infra;
  • agent execution;
  • heterogeneous computing。

所以 CPU + GPU 本质上不是硬件组合,而是:

AI 系统从“模型时代”进入“系统时代”的开始。

总结

AI 推理正在发生一次非常深的架构变化,过去:

GPU 是主角

未来:

GPU 负责计算
CPU 负责系统

AI 系统会越来越像:

一个新的操作系统。

它需要:

  • 调度;
  • memory;
  • cache;
  • state;
  • runtime;
  • orchestration;
  • recovery;
  • observability;
  • heterogeneous computing。

而真正困难的问题,也会越来越从:

“模型会不会”

变成:

“系统能不能稳定、高效、低成本地运行”

所以 CPU + GPU 的意义,从来不只是:

两种芯片一起工作

而是:

AI 推理,正式进入工程化、系统化、运行时化的新阶段。

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐