在这里插入图片描述

在这里插入图片描述

子玥酱 (掘金 / 知乎 / CSDN / 简书 同名)

大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩‍💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚焦于业务型系统的工程化建设与长期维护。

我持续输出和沉淀前端领域的实战经验,日常关注并分享的技术方向包括 前端工程化、小程序、React / RN、Flutter、跨端方案
在复杂业务落地、组件抽象、性能优化以及多端协作方面积累了大量真实项目经验。

技术方向:前端 / 跨端 / 小程序 / 移动端工程化
内容平台:
掘金、知乎、CSDN、简书
创作特点:
实战导向、源码拆解、少空谈多落地
文章状态:
长期稳定更新,大量原创输出

我的内容主要围绕 前端技术实战、真实业务踩坑总结、框架与方案选型思考、行业趋势解读 展开。文章不会停留在“API 怎么用”,而是更关注为什么这么设计、在什么场景下容易踩坑、真实项目中如何取舍,希望能帮你在实际工作中少走弯路。

子玥酱 · 前端成长记录官 ✨
👋 如果你正在做前端,或准备长期走前端这条路
📚 关注我,第一时间获取前端行业趋势与实践总结
🎁 可领取 11 类前端进阶学习资源(工程化 / 框架 / 跨端 / 面试 / 架构)
💡 一起把技术学“明白”,也用“到位”

持续写作,持续进阶。
愿我们都能在代码和生活里,走得更稳一点 🌱

引言

过去几年,大模型的发展几乎可以用一句话概括:

更大的模型
+
更多的GPU

从 GPT 到 DeepSeek;从 Claude 到 Gemini。整个行业的核心逻辑始终是:

参数规模扩大
↓
算力投入增加
↓
模型能力提升

于是很多人形成了一种认知:

AI 的未来,本质上就是 GPU 的未来。

因为在过去很长一段时间里:

训练模型
推理模型

本质上都是:

矩阵计算问题

而 GPU 恰恰最擅长:

并行计算

所以过去十年,GPU 几乎成为 AI 世界的绝对主角。

但随着 Agent、长上下文、多步推理以及复杂任务系统的出现,一个新的问题开始出现:

GPU 很擅长计算
却不擅长思考

或者更准确地说:

GPU 擅长预测下一个 Token,却不擅长管理一个持续运行的智能系统。

于是 AI 行业正在进入一个新的阶段:

Prediction AI
↓
Reasoning AI
↓
System AI

而这场变化背后最大的基础设施变革之一,就是:

AI 正在从 GPU 独角戏,进入 CPU+GPU 协同的新阶段。

一、为什么GPU统治了大模型时代

Transformer 的核心工作是什么?答案很简单:

矩阵乘法

例如:

import torch

q = torch.randn(4096, 4096).cuda()
k = torch.randn(4096, 4096).cuda()

result = torch.matmul(q, k)

这种计算特点非常明显:

数据量巨大
计算规则固定
可高度并行

而 GPU 天生适合:

SIMD
Massive Parallelism

因此:

GPU越多
模型训练越快

这也是过去几年 AI 行业疯狂采购 GPU 的原因,因为:

Transformer 本质上是一个计算密集型系统。

二、为什么推理能力提升后,问题开始变化

过去的大模型更像:

高级搜索引擎

输入:

问题

输出:

答案

整个过程只需要:

一次推理

即可完成,但现在情况不同。越来越多 AI 系统开始处理:

复杂规划
工具调用
长期任务
多Agent协作

例如:

帮我完成一次市场调研

背后可能涉及:

任务拆分
搜索信息
分析结果
生成报告
验证内容

此时 AI 已经不再只是:

预测一个答案

而是在:

解决一个问题

于是:

逻辑管理
任务管理
状态管理

的重要性开始迅速上升。

三、预测与思考,本质上是两种计算模式

GPU 擅长什么?

大量相同计算

CPU 擅长什么?

复杂控制逻辑

例如:

GPU擅长

for i in range(1000000):

    matrix_mul()

CPU擅长

if task_a_done:

    execute_task_b()

else:

    rollback()

两者最大的区别是,GPU关注:

计算吞吐

CPU关注:

逻辑控制

而未来 Agent 系统恰恰需要:

大量逻辑判断

例如:

是否继续执行?
是否需要回滚?
是否需要重新规划?
是否需要切换Agent?

这些问题更接近:

操作系统

而不是:

矩阵计算

四、Agent时代为什么需要CPU重新回到舞台中央

很多人第一次看 Agent 系统时会关注:

用了哪个模型

但实际上,真正复杂的部分往往不是模型。而是:

任务调度
状态恢复
流程编排
事件处理

例如一个简单 Agent:

class Agent:

    def plan(self):
        pass

    def execute(self):
        pass

    def recover(self):
        pass

这里最复杂的部分其实不是:

LLM调用

而是:

状态机管理

而状态机管理天然属于:

CPU工作

因此未来 Agent 系统会越来越呈现:

CPU负责思考流程
GPU负责执行推理

的新模式。

五、从Token生成到任务执行

过去评价 AI,大家看的是:

Token/s

例如:

200 Token/s

已经非常快,但未来用户真正关心的是:

任务完成时间

例如:

完成一个分析报告需要多久?
完成一次软件开发需要多久?
完成一次市场调研需要多久?

这时候:

Token速度

反而变得没那么重要,决定效率的是:

任务调度效率

而任务调度正是 CPU 最擅长的领域。因此未来 AI 性能指标可能会从:

Token Throughput

转向:

Task Throughput

六、AI Runtime正在成为CPU与GPU的桥梁

未来 AI 系统最关键的组件之一,很可能不是模型。而是:

AI Runtime

因为 Runtime 需要同时管理:

CPU资源
GPU资源
Memory资源
Agent资源

例如:

class Runtime:

    def allocate_gpu(self):
        pass

    def schedule_agent(self):
        pass

    def recover_state(self):
        pass

这里涉及:

资源调度
任务编排
状态管理

本质上已经非常接近:

操作系统

因此未来 Runtime 的地位会越来越重要,甚至可能成为:

AI OS

的核心组成部分。

七、为什么未来AI越来越像一个操作系统

过去的软件执行流程:

用户操作
↓
程序运行
↓
结果输出

未来 AI 系统更像:

用户目标
↓
AI规划
↓
Agent协作
↓
任务执行
↓
结果反馈
↓
持续优化

整个过程已经不再是:

一次推理

而是:

持续运行

于是 AI 面临的问题开始变成:

任务调度
资源调度
状态同步
权限控制
故障恢复

这些全部都是:

操作系统问题

所以未来 AI 平台越来越像:

AI Operating System

而不是:

单纯的大模型服务

八、CPU+GPU协同将成为下一代AI基础设施

未来 AI 系统很可能形成一种明确分工。

GPU 负责:

感知
生成
推理
预测

CPU 负责:

规划
控制
调度
治理

形成:

CPU
↓
负责决策流程

GPU
↓
负责智能计算

的双核心架构。这种模式其实非常像现实世界:

大脑负责思考
肌肉负责执行

未来 AI 基础设施也会逐渐演变为:

CPU = 大脑控制层

GPU = 智能执行层

九、从预测AI走向逻辑AI

过去十年,AI 最大的突破来自:

预测能力

模型学会了:

预测下一个Token

但未来十年,行业竞争重点会变成:

逻辑能力

因为真正复杂的问题不是:

回答一个问题

而是:

完成一个目标

而完成目标需要:

规划
执行
修正
反馈

这已经超出了单纯 GPU 推理的范畴。

总结

过去的大模型时代,行业核心公式是:

更多GPU
↓
更大模型
↓
更强预测能力

但随着:

Agent
长上下文
持续推理
自治系统

不断发展,AI 正在进入新的阶段:

Prediction AI
↓
Reasoning AI
↓
System AI

未来真正决定 AI 上限的,已经不只是:

GPU算力

而是:

CPU+GPU协同能力
Runtime能力
系统调度能力

因为当 AI 开始从“预测答案”走向“完成任务”,它需要的不再只是计算。

而是:

思考
规划
执行
治理

而这也意味着:

AI 的下一场革命,可能不是更大的 GPU 集群,而是 CPU 与 GPU 深度融合所构建的新一代智能基础设施。

从预测到逻辑思考,从模型到系统。一个属于 CPU+GPU 协同计算的 AI 新时代,正在开启。

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐