在这里插入图片描述

网罗开发 (小红书、快手、视频号同名)

  大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG

我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。


引言

过去两年,大模型行业有一个非常反直觉的现象:

模型越来越大
推理价格却越来越低

例如:

  • GPT 类 API 价格持续下降
  • 开源模型性能接近闭源
  • 70B / 100B / MoE 模型逐渐普及

但问题是:

GPU 没便宜多少
模型还更大了
上下文还更长了

那为什么推理成本反而下降?

答案只有一个:

AI 推理已经从“模型优化”阶段,进入“系统工程优化”阶段。

一、AI 推理成本到底花在哪?

很多人以为成本在模型计算,其实不是。

一次完整推理流程是这样的:

Request
 ↓
Tokenization
 ↓
Prefill(上下文计算)
 ↓
Decode(逐 token 生成)
 ↓
KV Cache 管理
 ↓
GPU 调度
 ↓
返回结果

真正的成本来自四块:

GPU 计算 + 显存
KV Cache
系统调度
吞吐浪费(GPU空转)

所以:

AI 推理本质不是模型问题,而是 Runtime 问题。

二、核心技术一:MoE —— 让模型“只用一部分大脑”

传统 Dense Model:

每个 Token → 激活全部参数

问题:

  • 计算量极大
  • 推理成本线性增长

MoE 的做法

输入 Token
   ↓
Router 选择 Expert
   ↓
只激活部分参数

例如:

671B 参数模型
实际只用 30B~40B

收益

  • 计算量大幅下降
  • GPU 利用率更高
  • 成本下降数倍

MoE = 用“稀疏计算”替代“全量计算”

三、核心技术二:KV Cache —— 推理加速的核心底座

如果没有 KV Cache:

每生成一个 Token
都要重新计算全部上下文

复杂度:

O(n²)

KV Cache 做了什么?

缓存历史 Token 的:

Key / Value

下一步只计算新 Token:

复用历史 Attention

结果

计算复杂度 → O(n)

本质

KV Cache = Transformer 的“运行时内存”

四、核心技术三:FlashAttention —— 提升 GPU 利用率

传统 Attention 问题:

  • HBM 频繁读写
  • GPU 大量时间在等内存

FlashAttention 优化:

分块计算(Tiling)
融合计算(Fusion)
减少显存访问

结果:

  • GPU 更“满负载”
  • Token 生成更快
  • 单位成本下降

核心不是算得更快,而是“少等内存”。

五、核心技术四:Continuous Batching —— 让 GPU 不再空转

传统方式:

请求 A → GPU → 完成
请求 B → GPU → 完成

问题:

GPU 空闲时间太多

Continuous Batching:

A + B + C 动态合并执行

效果:

  • GPU 利用率从 30% → 80%
  • 吞吐大幅提升
  • 成本直接下降

本质:提升“时间利用率”,不是算力。

六、核心技术五:PagedAttention —— KV Cache 的操作系统化

随着上下文变长:

KV Cache 变大
显存碎片化严重

PagedAttention 思想:

类似操作系统分页:

KV Cache → 分块存储(Page)

优点:

  • 不再需要连续显存
  • 支持超长上下文
  • 提高并发能力

KV Cache 从“数组”变成“虚拟内存”。

七、核心技术六:量化(Quantization)

模型精度从:

FP32 → FP16 → INT8 → INT4

核心变化:

显存 ↓↓↓
计算量 ↓↓↓
速度 ↑↑↑

举例:

70B 模型
FP16 → 140GB
INT4 → 35GB

用“低精度换成本”。

八、核心技术七:Speculative Decoding

传统生成:

1 Token → 1 次推理

新方法:

小模型先预测
大模型验证

如果预测正确:

一次生成多个 Token

收益:

  • Token/s 提升数倍
  • 延迟下降
  • GPU 利用率提高

九、核心变化:推理已经变成 Runtime 问题

过去:

优化模型

现在:

优化系统

新瓶颈变成:

  • KV Cache 管理
  • GPU 调度
  • Memory 管理
  • 请求合并
  • Context 生命周期

推理系统本质:

LLM + Runtime = AI 服务

十、AI 推理成本下降的完整路径

Transformer
   ↓
MoE(稀疏化)
   ↓
KV Cache(缓存化)
   ↓
FlashAttention(IO优化)
   ↓
Continuous Batching(并行优化)
   ↓
PagedAttention(内存虚拟化)
   ↓
Quantization(低精度)
   ↓
Speculative Decoding(加速生成)
   ↓
Inference Runtime(系统优化)

总结:成本下降的本质是什么?

一句话总结全文:

AI 推理成本下降,不是因为模型变简单,而是因为整个推理系统从“计算模型”演进成了“操作系统级 Runtime”。

核心结论:

  • MoE → 降计算
  • KV Cache → 降重复计算
  • FlashAttention → 提 GPU 利用率
  • Batching → 提吞吐
  • PagedAttention → 提内存效率
  • Quantization → 降显存
  • Speculative Decoding → 提生成速度
Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐