AI 推理成本下降的技术密码

Swift社区

46人浏览 · 2026-07-05 20:20:44

Swift社区 · 2026-07-05 20:20:44 发布

在这里插入图片描述

网罗开发 （小红书、快手、视频号同名）

大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。

图书作者：《ESP32-C3 物联网工程开发实战》
图书作者：《SwiftUI 入门，进阶与实战》
超级个体：COC上海社区主理人
特约讲师：大学讲师，谷歌亚马逊分享嘉宾
科技博主：华为HDE/HDG

我的博客内容涵盖广泛，主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告，同时也会提供产品优缺点分析、横向对比，并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。

展菲：您的前沿技术领航员
👋 大家好，我是展菲！
📱 全网搜索“展菲”，即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文，从新兴框架的剖析到运维实战的复盘，助您技术进阶之路畅通无阻。

文章目录

引言

过去两年，大模型行业有一个非常反直觉的现象：

模型越来越大
推理价格却越来越低

例如：

GPT 类 API 价格持续下降
开源模型性能接近闭源
70B / 100B / MoE 模型逐渐普及

但问题是：

GPU 没便宜多少
模型还更大了
上下文还更长了

那为什么推理成本反而下降？

答案只有一个：

AI 推理已经从“模型优化”阶段，进入“系统工程优化”阶段。

一、AI 推理成本到底花在哪？

很多人以为成本在模型计算，其实不是。

一次完整推理流程是这样的：

Request
 ↓
Tokenization
 ↓
Prefill（上下文计算）
 ↓
Decode（逐 token 生成）
 ↓
KV Cache 管理
 ↓
GPU 调度
 ↓
返回结果

真正的成本来自四块：

GPU 计算 + 显存
KV Cache
系统调度
吞吐浪费（GPU空转）

所以：

AI 推理本质不是模型问题，而是 Runtime 问题。

二、核心技术一：MoE —— 让模型“只用一部分大脑”

传统 Dense Model：

每个 Token → 激活全部参数

问题：

计算量极大
推理成本线性增长

MoE 的做法

输入 Token
   ↓
Router 选择 Expert
   ↓
只激活部分参数

例如：

671B 参数模型
实际只用 30B～40B

收益

计算量大幅下降
GPU 利用率更高
成本下降数倍

MoE = 用“稀疏计算”替代“全量计算”

三、核心技术二：KV Cache —— 推理加速的核心底座

如果没有 KV Cache：

每生成一个 Token
都要重新计算全部上下文

复杂度：

O(n²)

KV Cache 做了什么？

缓存历史 Token 的：

Key / Value

下一步只计算新 Token：

复用历史 Attention

结果

计算复杂度 → O(n)

本质

KV Cache = Transformer 的“运行时内存”

四、核心技术三：FlashAttention —— 提升 GPU 利用率

传统 Attention 问题：

HBM 频繁读写
GPU 大量时间在等内存

FlashAttention 优化：

分块计算（Tiling）
融合计算（Fusion）
减少显存访问

结果：

GPU 更“满负载”
Token 生成更快
单位成本下降

核心不是算得更快，而是“少等内存”。

五、核心技术四：Continuous Batching —— 让 GPU 不再空转

传统方式：

请求 A → GPU → 完成
请求 B → GPU → 完成

问题：

GPU 空闲时间太多

Continuous Batching：

A + B + C 动态合并执行

效果：

GPU 利用率从 30% → 80%
吞吐大幅提升
成本直接下降

本质：提升“时间利用率”，不是算力。

六、核心技术五：PagedAttention —— KV Cache 的操作系统化

随着上下文变长：

KV Cache 变大
显存碎片化严重

PagedAttention 思想：

类似操作系统分页：

KV Cache → 分块存储（Page）

优点：

不再需要连续显存
支持超长上下文
提高并发能力

KV Cache 从“数组”变成“虚拟内存”。

七、核心技术六：量化（Quantization）

模型精度从：

FP32 → FP16 → INT8 → INT4

核心变化：

显存 ↓↓↓
计算量 ↓↓↓
速度 ↑↑↑

举例：

70B 模型
FP16 → 140GB
INT4 → 35GB

用“低精度换成本”。

八、核心技术七：Speculative Decoding

传统生成：

1 Token → 1 次推理

新方法：

小模型先预测
大模型验证

如果预测正确：

一次生成多个 Token

收益：

Token/s 提升数倍
延迟下降
GPU 利用率提高

九、核心变化：推理已经变成 Runtime 问题

过去：

优化模型

现在：

优化系统

新瓶颈变成：

KV Cache 管理
GPU 调度
Memory 管理
请求合并
Context 生命周期

推理系统本质：

LLM + Runtime = AI 服务

十、AI 推理成本下降的完整路径

Transformer
   ↓
MoE（稀疏化）
   ↓
KV Cache（缓存化）
   ↓
FlashAttention（IO优化）
   ↓
Continuous Batching（并行优化）
   ↓
PagedAttention（内存虚拟化）
   ↓
Quantization（低精度）
   ↓
Speculative Decoding（加速生成）
   ↓
Inference Runtime（系统优化）

总结：成本下降的本质是什么？

一句话总结全文：

AI 推理成本下降，不是因为模型变简单，而是因为整个推理系统从“计算模型”演进成了“操作系统级 Runtime”。

核心结论：

MoE → 降计算
KV Cache → 降重复计算
FlashAttention → 提 GPU 利用率
Batching → 提吞吐
PagedAttention → 提内存效率
Quantization → 降显存
Speculative Decoding → 提生成速度

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

Anthropic 推出 Claude Science：专为科研人员打造的 AI 工作台，让科学发现加速十倍

openEuler 社区

Java IO流详解

读文件、写文件FileReaderFileWriter缺点：字符基础流使用电脑系统默认编码，Windows是GBK，读取UTF-8中文文件会乱码，新手不推荐直接用。FileReader中文乱码底层原因FileReader默认使用操作系统的系统编码（Windows GBK），解码规则和文件UTF-8二进制不匹配，翻译文字出错；必须使用转换流手动指定UTF-8编码。相对路径找不到文件程序启动的基准工作

openEuler 社区

总结 7.5

然后的话幂级数使用比值判定判断在哪点收敛，然后是把幂级数看成泰勒展开的题目，对幂级数下存在阶乘的大概率是泰勒展开，否则可能是等乘数列。还有幂级数注意角标。然后408学了操作系统的使用信号量通信，对这个信号量进行pv操作表示剩余资源量和等待进程数量，然后根基信号量的大小表示是否阻塞。然后是死锁，使用银行家算法进行死锁避免，然后通过消除死锁必要条件进行死锁预防，死锁检查则只检查不避免。然后计组看了一下