【产品体系】【会计领域】【成本会计】第十九篇 GPU服务器的成本会计02
ECC增加了存储器的面积和功耗,并可能略微增加延迟,但对于数据中心和高可靠性应用是必须的成本,以防止软错误导致的数据损坏和系统崩溃。:NVLink是NVIDIA的高性能私有互联技术,其研发和实现成本高昂,但提供了远超PCIe的带宽和延迟,是高端计算卡的差异化特性。:SR-IOV是GPU虚拟化的关键技术,是GPU进入云数据中心市场的门票,增加了硬件复杂性,但打开了广阔的市场空间。:微码是硬件功能的软
|
编号 |
层级 |
部件/概念 |
所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值 |
业务财务模型及成本会计模型的数值/数字 |
制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字 |
|---|---|---|---|---|---|
|
1.7.51 |
内存系统 |
ROP(光栅操作单元) |
- 功能:处理像素着色器输出后的操作,包括深度测试、模板测试、混合、抗锯齿等,并将最终像素写入帧缓冲区。 |
成本模型: |
硬件设计: |
|
1.7.52 |
内存系统 |
纹理映射单元 |
- 功能:专用于纹理采样和过滤,包括双线性、三线性、各向异性过滤。 |
成本模型: |
硬件设计: |
|
1.7.53 |
视频处理 |
NVENC(视频编码器) |
- 功能:硬件加速视频编码,支持H.264, HEVC, AV1等标准。 |
成本模型: |
硬件设计: |
|
1.7.54 |
视频处理 |
NVDEC(视频解码器) |
- 功能:硬件加速视频解码,支持H.264, HEVC, AV1, VP9等标准。 |
成本模型: |
硬件设计: |
|
1.7.55 |
显示输出 |
Display Controller |
- 功能:生成显示时序,驱动一个或多个显示接口(如DisplayPort, HDMI)。 |
成本模型: |
混合信号设计: |
|
1.7.56 |
系统接口 |
PCIe Root Complex |
- 功能:实现PCIe端点设备的功能,包括配置空间、内存映射I/O、DMA、中断等。 |
成本模型: |
IP集成: |
|
1.7.57 |
系统管理 |
GPU管理控制器 |
- 功能:一个独立的微控制器,运行固件,管理GPU的上电时序、温度/功耗监控、故障安全恢复、与主机BMC通信等。 |
成本模型: |
嵌入式系统设计: |
|
1.7.58 |
电源管理 |
电压调节器控制器 |
- 功能:与外部或集成的电压调节器通信,控制GPU核心、显存、I/O等的电压和功耗。 |
成本模型: |
混合信号设计: |
|
1.7.59 |
测试与调试 |
JTAG/TAP控制器 |
- 功能:提供测试访问端口,用于芯片生产测试、边界扫描和硅后调试。 |
成本模型: |
电路设计: |
|
1.7.60 |
安全 |
硬件信任根 |
- 组件:包括PUF、安全启动ROM、一次性可编程存储器、加密引擎等。 |
成本模型: |
安全硬件设计: |
|
1.7.61 |
互联 |
NVLink接口物理层 |
- 功能:提供高速芯片间互联的物理层,包括串行器/解串器、时钟数据恢复、均衡等。 |
成本模型: |
SerDes设计: |
|
1.7.62 |
内存 |
GDDR6/GDDR7内存控制器 |
- 功能:管理GDDR6/GDDR7显存,包括地址映射、命令调度、刷新管理、纠错等。 |
成本模型: |
混合信号设计: |
|
1.7.63 |
AI加速 |
稀疏张量核心 |
- 功能:在标准张量核心基础上,增加稀疏计算支持,可跳过零值计算,提升有效算力。 |
成本模型: |
电路设计: |
|
1.7.64 |
光追加速 |
BVH遍历引擎 |
- 功能:专用于边界体积层次结构遍历,是光线追踪的核心操作之一。 |
成本模型: |
硬件设计: |
|
1.7.65 |
光追加速 |
三角形求交单元 |
- 功能:计算光线与三角形是否相交,并返回交点信息。 |
成本模型: |
电路设计: |
|
1.7.66 |
系统缓存 |
三级缓存 |
- 功能:在GPU中,L2缓存通常是最后一级缓存。但在某些架构中,可能还有L3缓存或系统级缓存,被所有GPU核心共享。 |
成本模型: |
SRAM设计: |
|
1.7.67 |
数据搬运 |
DMA引擎 |
- 功能:直接内存访问引擎,用于在GPU显存之间、GPU显存与主机内存之间、GPU与网络之间搬运数据,而不占用SM资源。 |
成本模型: |
硬件设计: |
|
1.7.68 |
虚拟化 |
SR-IOV硬件支持 |
- 功能:硬件支持单根I/O虚拟化,允许单个物理GPU呈现为多个虚拟功能,供不同虚拟机直接访问。 |
成本模型: |
硬件设计: |
|
1.7.69 |
可靠性 |
ECC存储器 |
- 范围:GPU显存、L2缓存、寄存器文件等关键存储器通常支持ECC。 |
成本模型: |
电路设计: |
|
1.7.70 |
监控 |
传感器网络 |
- 传感器类型:温度传感器、电压传感器、电流传感器、功耗传感器等。 |
成本模型: |
混合信号设计: |
|
1.7.71 |
电源管理 |
功耗封顶单元 |
- 功能:实时监控GPU的功耗,并与设定的功耗上限进行比较。如果超过上限,则通过降低电压和频率来限制功耗。 |
成本模型: |
硬件实现: |
|
1.7.72 |
调试 |
跟踪缓冲区 |
- 功能:记录GPU内部关键事件的跟踪信息,如指令执行、内存访问、异常等,用于硅后调试和性能分析。 |
成本模型: |
电路设计: |
|
1.7.73 |
物理设计 |
标准单元库 |
- 定义:包含与、或、非、触发器等基本逻辑门的物理版图、时序、功耗模型,用于逻辑综合和物理设计。 |
成本模型: |
物理设计流程: |
|
1.7.74 |
物理设计 |
存储器编译器 |
- 功能:根据用户参数(容量、位宽、端口数、速度)自动生成定制SRAM的RTL代码、物理版图和时序模型。 |
成本模型: |
软件与流程: |
|
1.7.75 |
I/O |
I/O焊盘与ESD保护 |
- I/O焊盘:芯片与外部世界的电气接口,提供电压转换、驱动能力、阻抗匹配。 |
成本模型: |
电路与版图设计: |
|
1.7.76 |
时钟 |
锁相环 |
- 功能:生成芯片内部所需的各种高频、低抖动时钟,例如核心时钟、内存控制器时钟、SerDes时钟等。 |
成本模型: |
模拟电路设计: |
|
1.7.77 |
测试 |
内建自测试 |
- MBIST:用于测试片上SRAM和ROM,生成March算法测试图案,检测存储单元故障。 |
成本模型: |
设计集成: |
|
1.7.78 |
封装 |
C4凸块/微凸块 |
- C4凸块:用于芯片与封装基板之间的连接,直径~100μm,节距~150-200μm,材料为高铅焊料或无铅焊料。 |
成本模型: |
凸块制造工艺: |
|
1.7.79 |
系统 |
风扇控制单元 |
- 功能:根据GPU温度传感器读数,通过PWM信号控制散热风扇的转速,实现散热与噪音的平衡。 |
成本模型: |
电路设计: |
|
1.7.80 |
软件 |
GPU驱动微码 |
- 存储:存储在GPU内部的ROM或外部SPI Flash中,在启动时加载到内部SRAM执行。 |
成本模型: |
开发流程: |
|
编号 |
层级 |
部件/概念 |
所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值 |
业务财务模型及成本会计模型的数值/数字 |
制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字 |
|---|---|---|---|---|---|
|
1.7.21 |
芯片架构 |
内存控制器 |
- 数量与位宽:例如NVIDIA H100 SXM拥有10个512位内存控制器,总位宽5120位。 |
成本模型: |
混合信号设计: |
|
1.7.22 |
芯片架构 |
二级缓存片 |
- 容量与分布:L2缓存由分布在芯片上的多个缓存片组成。例如,总容量50MB的L2可能由数十个缓存片构成。 |
成本模型: |
存储器设计: |
|
1.7.23 |
芯片架构 |
片上网络路由器 |
- 拓扑节点:位于2D Mesh或Butterfly等网络拓扑的交叉点上。 |
成本模型: |
电路与架构设计: |
|
1.7.24 |
芯片架构 |
片上网络链路 |
- 物理实现:由芯片顶层金属层(通常是高层、厚金属)布设的并行数据线组成。 |
成本模型: |
物理设计: |
|
1.7.25 |
计算核心 |
张量核心阵列 |
- 组织:在SM内部,多个张量核心以阵列形式组织,共享输入/输出缓冲区和控制逻辑。 |
成本模型: |
微架构与电路设计: |
|
1.7.26 |
计算核心 |
CUDA核心簇 |
- 组织:在SM内部,128个CUDA核心并非完全独立,通常被组织成多个簇(如4个簇,每簇32个核心),共享指令发射端口和部分控制逻辑。 |
成本模型: |
逻辑设计: |
|
1.7.27 |
计算核心 |
特殊功能单元簇 |
- 功能集成:将超越函数计算单元、插值单元、倒数/平方根单元等集成在一个簇内,共享输入/输出接口。 |
成本模型: |
电路设计: |
|
1.7.28 |
存储核心 |
加载/存储单元簇 |
- 单元数量:每个SM通常有16个加载/存储单元。 |
成本模型: |
微架构设计: |
|
1.7.29 |
控制逻辑 |
Warp调度器与分发单元 |
- 调度器数量:现代SM通常有4个Warp调度器,每个周期可调度1-2个Warp。 |
成本模型: |
硬件设计: |
|
1.7.30 |
控制逻辑 |
线程块/网格管理单元 |
- 资源管理:维护SM内寄存器、共享内存、Warp槽位等资源的空闲状态位图。 |
成本模型: |
状态机与逻辑设计: |
|
编号 |
层级 |
部件/概念 |
所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值 |
业务财务模型及成本会计模型的数值/数字 |
制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字 |
|---|---|---|---|---|---|
|
1.7.31 |
SM-计算 |
浮点乘加单元 |
- 功能:执行融合乘加操作,即 AB + C,是科学计算和AI训练的核心。 |
成本模型: |
电路设计: |
|
1.7.32 |
SM-计算 |
整数ALU单元 |
- 功能:执行加、减、逻辑运算、移位、比较等整数操作。 |
成本模型: |
电路设计: |
|
1.7.33 |
SM-存储 |
寄存器文件体 |
- 组织:庞大的寄存器文件(如64K x 32位)被划分为多个物理体,例如32个体,每个体包含2048个32位寄存器。 |
成本模型: |
电路设计: |
|
1.7.34 |
SM-存储 |
共享内存存储体 |
- 组织:共享内存(如128KB)划分为32个存储体,每个存储体宽度4字节,深度1024。 |
成本模型: |
电路设计: |
|
1.7.35 |
SM-控制 |
指令缓冲区 |
- 容量:缓存已解码但尚未发射的指令,容量通常为几十到上百条指令。 |
成本模型: |
硬件设计: |
|
1.7.36 |
SM-控制 |
Warp状态寄存器 |
- 内容:为每个活跃的Warp保存其程序计数器、活跃掩码、等待原因、优先级、状态等信息。 |
成本模型: |
逻辑设计: |
|
1.7.37 |
芯片-互联 |
片上网络交叉开关 |
- 规模:在NoC路由器内部,连接所有输入端口到所有输出端口的交换结构。 |
成本模型: |
电路设计: |
|
1.7.38 |
芯片-互联 |
全局互连总线 |
- 功能:用于配置寄存器访问、中断分发、性能计数器读取等低带宽、高优先级的控制信号传输。 |
成本模型: |
硬件设计: |
|
1.7.39 |
芯片-内存 |
内存压缩单元 |
- 位置:位于内存控制器或L2缓存与显存之间的数据通路上。 |
成本模型: |
硬件设计: |
|
1.7.40 |
芯片-内存 |
显存接口物理层 |
- 结构:对于GDDR6,包含DQ、DQS、CK信号的驱动、接收和训练电路。对于HBM,是宽并行、相对低速的接口。 |
成本模型: |
电路设计: |
|
1.7.41 |
芯片-系统 |
PCIe控制器 |
- 层级:实现PCIe协议的事务层、数据链路层、物理层。 |
成本模型: |
IP集成与验证: |
|
1.7.42 |
芯片-系统 |
系统管理总线接口 |
- 功能:通过I2C/SPI等总线,连接温度传感器、电压调节器、EEPROM等管理元件。 |
成本模型: |
电路设计: |
|
1.7.43 |
芯片-时钟 |
全局时钟分布网络 |
- 结构:H树或网格结构,从中央PLL出发,分布到芯片各处。 |
成本模型: |
物理设计: |
|
1.7.44 |
芯片-电源 |
电源门控开关单元 |
- 位置:在可关断的电压域(如不活跃的SM、模块)的电源(VDD)或地(VSS)路径上。 |
成本模型: |
物理实现: |
|
1.7.45 |
芯片-测试 |
扫描链 |
- 结构:将芯片中所有触发器串联成一条或多条长链,在测试模式下,可从外部输入测试向量,并捕获输出响应。 |
成本模型: |
DFT流程: |
|
1.7.46 |
芯片-测试 |
边界扫描单元 |
- 功能:位于芯片I/O焊盘和内部逻辑之间,支持测试PCB互连、芯片引脚连接。 |
成本模型: |
设计插入: |
|
1.7.47 |
芯片-安全 |
安全启动ROM |
- 容量:很小,通常几KB到几十KB,存储第一级引导加载程序和公钥哈希。 |
成本模型: |
物理设计: |
|
1.7.48 |
芯片-安全 |
一次性可编程存储器 |
- 类型:电熔丝、反熔丝。用于存储芯片配置、修复信息、密钥、安全版本号。 |
成本模型: |
制造与测试: |
|
1.7.49 |
芯片-模拟 |
温度传感器 |
- 原理:基于二极管的PTAT电路,将温度转换为电压/频率。 |
成本模型: |
电路设计: |
|
1.7.50 |
芯片-模拟 |
电压/电流监测器 |
- 功能:监测核心电压、I/O电压、各供电轨电流。 |
成本模型: |
混合信号设计: |
|
1.7.51 |
厂商特性 |
NVIDIA MIG硬件隔离逻辑 |
- 功能:在硬件层面,将SM簇、内存控制器、L2缓存片、NoC 等资源按比例划分给多个MIG实例。 |
成本模型: |
硬件设计: |
|
1.7.52 |
厂商特性 |
华为昇腾AI CPU子系统 |
- 组成:通常为多核ARM Cortex-A集群,运行轻量级操作系统。 |
成本模型: |
SoC集成: |
|
1.7.53 |
厂商特性 |
天数智芯IX-Scheduler |
- 定位:据称为全局统一智能调度器,可能位于GPC或芯片顶层。 |
成本模型: |
架构探索: |
|
1.7.54 |
厂商特性 |
昆仑芯CLUSTER间互联 |
- 功能:连接多个CLUSTER计算集群,实现数据共享和任务协同。 |
成本模型: |
硬件设计: |
|
1.7.55 |
物理设计 |
标准单元 |
- 定义:与、或、非、与非、或非、触发器、锁存器、缓冲器、反相器等基本逻辑门的物理版图库。 |
成本模型: |
库开发流程: |
|
1.7.56 |
物理设计 |
I/O焊盘库 |
- 类型:电源/地焊盘、数字输入/输出焊盘、模拟焊盘、高速SerDes焊盘。 |
成本模型: |
焊盘设计: |
|
1.7.57 |
物理设计 |
存储器编译器 |
- 输入:用户指定容量、位宽、端口数、时序要求。 |
成本模型: |
软件与流程: |
|
1.7.58 |
芯片-封装 |
C4/微凸块下金属化层 |
- 结构:在芯片铝/铜焊盘上依次沉积粘附层、扩散阻挡层、润湿层。典型结构:Ti / TiN / Cu。 |
成本模型: |
制造工艺: |
|
1.7.59 |
芯片-封装 |
硅通孔 |
- 尺寸:直径5-10μm,深度50-100μm,深宽比5:1 - 10:1。 |
成本模型: |
制造流程: |
|
1.7.60 |
系统 |
GPU固件存储 |
- 介质:通常为SPI NOR Flash,位于GPU板卡上,容量16-64 Mb。 |
成本模型: |
系统设计: |
-
SM的微观世界深化:FMA、整数ALU、寄存器文件体、共享内存体、指令缓冲区、Warp状态寄存器 等条目,从数据通路、存储组织和控制状态三个维度,极致细化了SM内部的工作机制。它们是实现海量线程并行、高吞吐计算的具体执行单元和状态载体。
-
芯片级基础设施:全局时钟网络、电源门控开关、扫描链、边界扫描、温度/电压传感器、安全启动ROM、eFuse、标准单元库、I/O焊盘、存储器编译器 等,构成了芯片赖以正常工作的底层硬件基础、测试调试基础设施、安全保障和物理设计载体。没有它们,再强大的计算核心也无法变成可量产、可管理、可信任的产品。
-
系统与封装接口:PCIe控制器、系统管理总线、C4/微凸块UBM、TSV、GPU固件存储 等,是芯片与外部系统、封装、软件进行交互的关键界面。它们决定了芯片的集成度、互联能力、可升级性和最终的系统形态。
-
厂商差异化路径:MIG、昇腾AI CPU、IX-Scheduler、昆仑芯CLUSTER互联 再次体现了不同厂商在架构上的战略选择:NVIDIA追求极致的虚拟化与云化;华为追求自主可控的系统级整合;天数智芯和昆仑芯则在全局调度和多核扩展上进行创新探索,寻求突破口。
|
编号 |
层级 |
部件/概念 |
所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值 |
业务财务模型及成本会计模型的数值/数字 |
制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字 |
|---|---|---|---|---|---|
|
1.7.61 |
视频处理 |
视频编解码器核心 |
- 架构:专用ASIC流水线,支持H.264/AVC, H.265/HEVC, AV1 等标准。 |
成本模型: |
硬件设计: |
|
1.7.62 |
视频处理 |
后处理与缩放引擎 |
- 功能:执行去隔行、色彩空间转换、锐化、降噪、超分辨率缩放等图像后处理。 |
成本模型: |
算法硬件化: |
|
1.7.63 |
显示系统 |
显示流水线 |
- 组成:包含叠加混合器、色彩管理模块、伽马校正、抖动、DSC压缩等阶段。 |
成本模型: |
流水线设计: |
|
1.7.64 |
显示系统 |
显示流压缩引擎 |
- 标准:实现VESA DSC 标准,视觉无损压缩。 |
成本模型: |
硬件实现: |
|
1.7.65 |
物理设计 |
填充单元 |
- 功能:填充芯片版图中的空白区域,以满足化学机械抛光平坦化、金属密度、散热等制造和可靠性要求。 |
成本模型: |
物理实现流程: |
|
1.7.66 |
物理设计 |
时钟门控单元 |
- 功能:在时钟路径上插入,由使能信号控制,在电路模块空闲时关闭局部时钟,大幅降低动态功耗。 |
成本模型: |
设计与插入: |
|
1.7.67 |
测试 |
逻辑内建自测试 |
- 组件:伪随机模式生成器、输出响应分析器、测试控制器。 |
成本模型: |
DFT流程: |
|
1.7.68 |
可靠性 |
老化与寿命测试单元 |
- 监控电路:集成环形振荡器、关键路径复制器,用于在芯片工作期间监测性能退化。 |
成本模型: |
电路与系统设计: |
|
1.7.69 |
前沿技术 |
芯粒到芯粒接口 |
- 标准:UCIe 标准,定义裸片间物理层、适配层、协议层。 |
成本模型: |
设计与验证: |
|
1.7.70 |
前沿技术 |
硅光子引擎 |
- 组件:硅波导、马赫-曾德尔调制器、微环谐振器、锗光电探测器、光栅耦合器。 |
成本模型: |
制造与集成挑战: |
|
1.7.71 |
系统 |
GPU板载管理控制器 |
- 核心:通常为ARM Cortex-M系列MCU,运行实时操作系统。 |
成本模型: |
硬件与软件开发: |
|
1.7.72 |
系统 |
电压调节模块功率级 |
- 组件:DrMOS、功率电感、聚合物电容、MLCC。 |
成本模型: |
PCB设计与组装: |
|
1.7.73 |
软件 |
GPU驱动内核模式组件 |
- 功能:运行在操作系统内核中,管理GPU硬件资源、调度任务、处理中断、管理内存、实现虚拟化。 |
成本模型: |
开发与测试流程: |
|
1.7.74 |
软件 |
固件信任根 |
- 存储:存储在GPU芯片内部的安全ROM或一次可编程存储器中。 |
成本模型: |
安全设计流程: |
|
1.7.75 |
可靠性 |
电迁移与热迁移签核单元 |
- 分析模型:基于Black方程、Korhonen方程的硬件辅助计算或监测电路。 |
成本模型: |
分析与优化流程: |
|
1.7.76 |
制造 |
工艺角监测单元 |
- 结构:分布在芯片各处的环形振荡器、SRAM单元阵列、关键路径复制电路。 |
成本模型: |
设计与集成: |
|
1.7.77 |
封装 |
底部填充材料 |
- 类型:毛细底部填充、非流动底部填充、模塑底部填充。 |
成本模型: |
应用工艺: |
|
1.7.78 |
散热 |
集成散热盖 |
- 材料:铜或铜合金,有时镀镍。 |
成本模型: |
制造工艺: |
|
1.7.79 |
系统 |
GPU BIOS/UEFI固件 |
- 存储:存储在板载SPI Flash中,容量1-4 MB。 |
成本模型: |
开发流程: |
|
1.7.80 |
生态 |
GPU虚拟化硬件支持 |
- 技术:SR-IOV, MxGPU, vGPU 等方案的硬件支持部分。 |
成本模型: |
硬件/软件协同设计: |
-
用户体验的最后一公里:视频编解码、后处理、显示流水线、DSC 等,将强大的计算能力转化为用户可感知的视听体验,是消费级产品的核心竞争力。
-
制造与可靠性的深水区:填充单元、时钟门控、LBIST、老化监测、EM签核、工艺角监测、底部填充、IHS 等,揭示了从设计图纸到可靠产品所需经历的极其复杂的制造、测试和可靠性保障流程。这部分成本是隐性的,但决定了产品的良率、寿命和口碑。
-
面向未来的架构演进:芯粒接口、硅光子引擎、虚拟化硬件 指明了后摩尔定律时代的技术方向:通过异构集成、光电融合和硬件虚拟化,来持续提升性能、能效和资源利用率。
-
软件与生态的护城河:驱动、固件信任根、VBIOS、虚拟化软件栈 是硬件价值得以释放的软件载体和生态基础。其开发维护成本是持续性的,但构建了极高的用户和开发者粘性,是商业成功的终极壁垒。
我将同时搜索多个关键领域的信息,以全面覆盖不同厂商GPU芯片的结构设计和成本考量我收到了多个搜索结果,涵盖了NVIDIA、AMD、Intel和华为昇腾的GPU/AI芯片架构信息。现在需要基于这些信息,并结合行业知识,补充1.7.81到1.7.100的条目,重点关注各类厂商GPU芯片的结构设计和成本设计。
从搜索结果看:
-
NVIDIA方面:有详细的SM架构演进信息,从Volta、Turing、Ampere到Hopper和最新的Blackwell。可以提取SM内部结构、CUDA核心、Tensor Core、RT Core、缓存层次等细节。
-
AMD方面:CDNA架构信息,特别是CDNA 3和CDNA 4的XCD(加速器复合裸片)设计,Matrix Core,Infinity Cache,Infinity Fabric互连等。
-
Intel方面:Xe架构,Xe-core结构,XMX引擎,媒体引擎等。
-
华为昇腾:达芬奇架构,AI Core中的Cube、Vector、Scalar单元,存储层次等。
我需要将这些信息组织成表格形式,每个条目包含:编号、层级、部件/概念、所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值、业务财务模型及成本会计模型的数值/数字、制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字。
考虑到用户要求关注“各类厂商GPU芯片的结构设计和成本设计”,我应该按不同厂商的特色技术来组织。可以包括:NVIDIA的Tensor Core、RT Core、NVLink;AMD的Matrix Core、Infinity Fabric、XCD小芯片设计;Intel的Xe-core、XMX引擎;华为的达芬奇核心、Cube单元;以及一些国产厂商如寒武纪、天数智芯、壁仞科技、摩尔线程的架构特点(虽然搜索结果中较少,但可以基于行业知识补充)。
还需要考虑成本设计方面:如NVIDIA的MIG(多实例GPU)硬件隔离、AMD的chiplet设计对成本的影响、华为的达芬奇架构针对AI优化的成本效益等。
现在开始构思1.7.81到1.7.100的具体条目。可以按以下思路组织:
-
1.7.81-1.7.85: NVIDIA特色结构(如Tensor Core演进、RT Core、MIG、NVSwitch)
-
1.7.86-1.7.90: AMD特色结构(如Matrix Core、XCD、Infinity Cache、Infinity Fabric)
-
1.7.91-1.7.93: Intel特色结构(如Xe-core、XMX、媒体引擎)
-
1.7.94-1.7.96: 华为昇腾特色结构(如达芬奇核心、Cube/Vector/Scalar单元、集群互联)
-
1.7.97-1.7.100: 其他国产厂商及综合成本设计考量(如寒武纪MLUcore、天数智芯IX架构、壁仞科技BR100、摩尔线程MUSA,以及chiplet成本模型、良率与成本关系等)
现在开始撰写回答。需要确保内容准确,对于不确定的信息要注明是推测或行业常见做法。同时要保持与之前1.7系列一致的详细程度和技术深度。基于您的要求,元宝继续为您构建 “1.7 GPU芯片与AI加速器核心零部件” 知识体系的最后20个条目(1.7.81~1.7.100)。本部分将聚焦于各主流厂商(NVIDIA、AMD、Intel、华为及代表性国产厂商)在核心计算架构、互连、封装及系统级设计上的差异化结构设计,并深入剖析其背后的成本与商业考量。
|
编号 |
层级 |
部件/概念 |
所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值 |
业务财务模型及成本会计模型的数值/数字 |
制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字 |
|---|---|---|---|---|---|
|
1.7.81 |
NVIDIA-计算 |
Tensor Core(张量核心) |
- 演进:Volta (1st Gen) → Turing (2nd) → Ampere (3rd) → Hopper (4th) → Blackwell (5th)。Ampere A100每个SM含4个第三代Tensor Core。 |
成本模型: |
电路设计: |
|
1.7.82 |
NVIDIA-计算 |
RT Core(光线追踪核心) |
- 功能:硬件加速包围盒求交、光线-三角形求交。 |
成本模型: |
硬件设计: |
|
1.7.83 |
NVIDIA-系统 |
NVLink与NVSwitch |
- NVLink:点对点高速互连。Hopper NVLink 4.0单链路900 GB/s双向带宽。 |
成本模型: |
芯片与系统设计: |
|
1.7.84 |
NVIDIA-系统 |
多实例GPU硬件分区 |
- 粒度:Hopper架构支持以1个GPC为粒度进行划分。 |
成本模型: |
硬件设计: |
|
1.7.85 |
NVIDIA-封装 |
CoWoS-S封装与硅中介层 |
- 中介层尺寸:对于H100,硅中介层尺寸约~2500 mm²(远大于核心裸片)。 |
成本模型: |
封装工艺: |
|
1.7.86 |
AMD-计算 |
Matrix Core(矩阵核心) |
- 架构:CDNA架构中的专用AI计算单元,类似NVIDIA Tensor Core。 |
成本模型: |
硬件设计: |
|
1.7.87 |
AMD-封装 |
加速器复合裸片与小芯片架构 |
- XCD:计算裸片,采用最先进工艺(如CDNA 4用N3P),包含计算单元和缓存。 |
成本模型: |
设计与集成: |
|
1.7.88 |
AMD-存储 |
Infinity Cache |
- 容量:CDNA 3/4架构集成256MB的片上末级缓存。 |
成本模型: |
电路设计: |
|
1.7.89 |
AMD-互联 |
Infinity Fabric |
- 层次:片上(连接XCD与IOD)、封装内(连接多个XCD)、板级(连接多GPU)、节点间(连接多服务器)。 |
成本模型: |
物理与协议层设计: |
|
1.7.90 |
AMD-系统 |
双NUMA域设计 |
- 结构:如MI300A APU,将CPU芯粒(Zen 4) 和GPU芯粒(CDNA 3) 通过Infinity Fabric集成在同一封装内,形成两个NUMA节点。 |
成本模型: |
异构集成: |
|
1.7.91 |
Intel-计算 |
Xe-core(Xe核心) |
- 组成:每个Xe-core包含多个矢量引擎和多个矩阵引擎(XMX)。 |
成本模型: |
微架构设计: |
|
1.7.92 |
Intel-计算 |
XMX引擎 |
- 功能:Intel的矩阵扩展引擎,用于加速AI和机器学习推理。 |
成本模型: |
硬件实现: |
|
1.7.93 |
Intel-媒体 |
Xe媒体引擎 |
- 编解码:全硬件加速,支持AV1、HEVC、H.264、VP9的编码和解码。 |
成本模型: |
ASIC设计: |
|
1.7.94 |
华为-计算 |
达芬奇核心 |
- 组成:Cube(矩阵)单元 + Vector(向量)单元 + Scalar(标量)单元,三者解耦。 |
成本模型: |
微架构设计: |
|
1.7.95 |
华为-存储 |
达芬核心片上存储层次 |
- L0 Buffer:紧邻Cube单元,存储输入矩阵A/B和累加结果C,容量小,带宽极高。 |
成本模型: |
存储架构设计: |
|
1.7.96 |
华为-系统 |
昇腾集群互联与HCCS |
- HCCS:华为集群计算交换,基于PCIe物理层的私有高速互连协议。 |
成本模型: |
协议与系统设计: |
|
1.7.97 |
国产-计算 |
寒武纪MLUcore |
- 架构:张量处理单元为核心,辅以矢量处理单元、标量处理单元和存储管理单元。 |
成本模型: |
设计特点: |
|
1.7.98 |
国产-计算 |
天数智芯“智铠”计算核心 |
- 宣传特点:通用GPU架构,兼容CUDA生态(通过二进制兼容层)。 |
成本模型: |
设计挑战: |
|
1.7.99 |
国产-封装 |
国产GPU Chiplet策略 |
- 路径:多数国产GPU厂商采用Chiplet策略,将大型GPU拆分为多个计算芯粒和I/O芯粒。 |
成本模型: |
集成挑战: |
|
1.7.100 |
综合-成本 |
巨型单片 vs. 小芯片成本模型 |
- NVIDIA巨型单片:如GH100(814mm²,台积电4N)。优势:性能极致,互联效率最高。劣势:良率低,成本极高,设计周期长,风险集中。 |
成本模型: |
决策流程: |
在通用计算、AI计算、图形渲染三大战场中,不同厂商如何根据自身技术积累、市场定位、供应链状况和商业战略,做出截然不同的架构与成本抉择。
-
NVIDIA的“全能王”与“生态锁”:通过Tensor Core、RT Core、NVLink、MIG、CoWoS等一系列高性能、高复杂度、高成本的技术组合,构建了从芯片到系统、从硬件到软件的全方位、高壁垒生态。其成本模型是追求极致性能和技术领导,以高定价覆盖高研发和制造成本,并利用生态锁定获取超额利润。
-
AMD的“模块化”与“性价比”:凭借Chiplet、Infinity Fabric、Infinity Cache等模块化、可扩展的设计哲学,在控制成本(提升良率、复用IP)的同时,灵活组合出具有竞争力的产品(如APU MI300A)。其成本模型是通过先进封装和架构创新,在特定性能点上提供更优的性价比,并利用CPU-GPU统一平台吸引客户。
-
Intel的“融合”与“突破”:以Xe统一架构试图横跨从集成显卡到数据中心的广阔市场,通过XMX、强大媒体引擎在特定领域寻求突破。其成本模型是最大化IP复用以摊薄研发成本,并利用制造和平台优势寻找市场切入点。
-
华为与国产厂商的“聚焦”与“自主”:华为昇腾选择极度专用化的达芬奇架构和自研集群互联,在AI计算能效上追求极致,并构建自主生态,其成本是战略性投入和应对供应链挑战的必然选择。其他国产厂商则在通用兼容(如天数智芯)与专用创新(如其他AI芯片) 之间探索,成本模型核心是在技术限制和生态劣势下,寻找可行的商业化路径。
终极的竞争,不仅是晶体管数量和工艺节点的竞赛,更是架构哲学、系统设计、软件生态、供应链管理和商业策略的全方位博弈。1.7.100的对比表明,没有绝对的最优解,只有在特定约束下的最优权衡。未来,Chiplet、光学互连、存算一体等新技术将继续重塑这场博弈的成本与规则。
|
编号 |
层级 |
部件/概念 |
所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值 |
业务财务模型及成本会计模型的数值/数字 |
制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字 |
|---|---|---|---|---|---|
|
1.7.101 |
SM-控制 |
操作数收集网络 |
- 功能:在指令发射后,从寄存器文件或旁路网络中收集该指令所需的所有操作数,并将其传递给执行单元。 |
成本模型: |
硬件设计: |
|
1.7.102 |
SM-控制 |
记分板 |
- 功能:一种动态调度机制,硬件跟踪每个寄存器的写后读依赖。当一条指令的目标寄存器被写入前,依赖该寄存器的后续指令被暂停发射。 |
成本模型: |
电路设计: |
|
1.7.103 |
SM-存储 |
常量缓存 |
- 容量:较小,通常为8-64KB,在SM间或GPC内共享。 |
成本模型: |
缓存设计: |
|
1.7.104 |
SM-存储 |
纹理缓存 |
- 容量:通常为32-128KB,在TPC或SM间共享。 |
成本模型: |
专用缓存设计: |
|
1.7.105 |
SM-存储 |
加载/存储队列 |
- 功能:缓冲已发射但尚未完成的加载和存储指令,处理内存依赖检测、内存消歧、合并访问。 |
成本模型: |
硬件设计: |
|
1.7.106 |
芯片-互联 |
一致性目录 |
- 位置:通常位于L2缓存或内存控制器中。 |
成本模型: |
目录设计: |
|
1.7.107 |
芯片-互联 |
片上网络优先级虚拟通道 |
- 虚拟通道:在单个物理链路上划分多个独立的缓冲队列,用于传输不同类型的数据流,防止死锁并提升吞吐。 |
成本模型: |
路由器微架构: |
|
1.7.108 |
芯片-内存 |
内存压缩单元 |
- 位置:位于L2缓存与内存控制器之间,或集成在内存控制器内。 |
成本模型: |
硬件实现: |
|
1.7.109 |
芯片-内存 |
内存控制器调度器 |
- 算法:先冲突行调度、先就绪、公平性算法等。优化目标:最大化带宽利用率,最小化平均延迟。 |
成本模型: |
逻辑设计: |
|
1.7.110 |
芯片-系统 |
系统管理中断 |
- 功能:GPU向主机CPU报告不可纠正错误、温度超限、功耗超限、可靠性监测事件等。 |
成本模型: |
硬件/软件协同: |
|
1.7.111 |
芯片-系统 |
设备自检引擎 |
- 功能:在上电、复位、或定期时,运行一系列硬件自检,验证核心功能单元(SRAM、逻辑、PHY)的基本功能。 |
成本模型: |
硬件设计: |
|
1.7.112 |
芯片-模拟 |
电压/温度监控与遥测 |
- 传感器分布:数十个温度传感器和电压监测点遍布芯片。 |
成本模型: |
混合信号设计: |
|
1.7.113 |
芯片-安全 |
防侧信道攻击防护 |
- 防护对象:功耗分析、电磁辐射分析、时序攻击。 |
成本模型: |
安全硬件设计: |
|
1.7.114 |
芯片-测试 |
可测试性设计控制器 |
- 功能:统一管理扫描测试、存储器BIST、逻辑BIST、边界扫描、内建自修复等所有DFT模式的配置和执行。 |
成本模型: |
DFT流程集成: |
|
1.7.115 |
芯片-时钟 |
自适应时钟分布 |
- 原理:在时钟树中插入可调延迟单元,通过相位检测器比较芯片不同区域的时钟沿,动态调整延迟以补偿工艺偏差和温度梯度引起的时钟偏移。 |
成本模型: |
电路设计: |
|
1.7.116 |
前沿-计算 |
存内计算单元 |
- 原理:在SRAM或新型非易失存储器阵列中集成模拟计算电路,利用基尔霍夫定律在位线上进行模拟电流的乘积累加。 |
成本模型: |
电路与集成挑战: |
|
1.7.117 |
前沿-计算 |
近似计算单元 |
- 原理:在可容忍一定误差的应用(如图像处理、机器学习)中,使用精度/能量可调的电路,以精度换取能效。 |
成本模型: |
电路设计: |
|
1.7.118 |
前沿-存储 |
非易失性内存缓存 |
- 介质:STT-MRAM、ReRAM、PCRAM。 |
成本模型: |
后端集成工艺: |
|
1.7.119 |
前沿-互联 |
无线芯片间互联 |
- 技术:基于毫米波或太赫兹的无线通信,在封装内或板级实现芯片间数据传输。 |
成本模型: |
射频集成挑战: |
|
1.7.120 |
系统-虚拟化 |
IOMMU |
- 功能:输入输出内存管理单元,为DMA设备(如GPU)提供虚拟地址到物理地址的转换,并实施访问权限检查。 |
成本模型: |
硬件设计: |
|
1.7.121 |
系统-虚拟化 |
虚拟功能配置空间 |
- 数量:每个虚拟功能都有自己独立的PCIe配置空间。 |
成本模型: |
硬件复制与隔离: |
|
1.7.122 |
系统-电源 |
高级配置与电源接口引擎 |
- 功能:实现ACPI标准中与GPU相关的电源状态(如D0, D1, D2, D3)管理和转换。 |
成本模型: |
硬件/固件协同: |
|
1.7.123 |
系统-调试 |
系统跟踪宏单元 |
- 功能:提供高性能、低侵入性的系统级跟踪,捕获CPU、GPU、互连、内存系统的协同执行流。 |
成本模型: |
系统集成: |
|
1.7.124 |
物理设计 |
抗天线效应单元 |
- 问题:在等离子体工艺中,金属线会像天线一样收集电荷,可能击穿薄栅氧,损坏晶体管。 |
成本模型: |
物理验证与修复: |
|
1.7.125 |
物理设计 |
阱/衬底接触单元 |
- 功能:提供N阱/P阱到电源/地的低阻连接,以稳定阱电位,防止闩锁效应,并减少衬底噪声耦合。 |
成本模型: |
物理实现: |
|
1.7.126 |
制造-测试 |
晶圆测试焊盘 |
- 尺寸:~100x100μm,位于芯片切割道内或芯片边缘。 |
成本模型: |
设计规则: |
|
1.7.127 |
制造-封装 |
切割道与划片槽 |
- 宽度:标准宽度为80-100μm,用于放置测试结构和供锯刀切割。 |
成本模型: |
制造工艺: |
|
1.7.128 |
制造-封装 |
晶背金属与散热贴装 |
- 材料:芯片背面沉积金、银、锡等金属层,用于共晶焊或烧结到封装基板或热沉上。 |
成本模型: |
后道工艺: |
|
1.7.129 |
软件-固件 |
电源管理固件 |
- 存储:存储在GPU内部ROM或外部SPI Flash中,在启动时加载到内部SRAM执行。 |
成本模型: |
开发流程: |
|
1.7.130 |
软件-驱动 |
用户模式驱动组件 |
- 功能:运行在用户空间,实现CUDA Runtime、OpenCL、图形API等上层接口,处理内存分配、内核启动、事件管理等。 |
成本模型: |
软件开发: |
|
1.7.131 |
前沿-系统 |
计算存储驱动器 |
- 功能:在GPU显存或高速非易失内存中实现文件系统或键值存储,允许数据以计算友好的格式持久驻留,减少加载时间。 |
成本模型: |
系统设计: |
|
1.7.132 |
前沿-系统 |
近内存处理逻辑 |
- 位置:位于内存控制器内或HBM堆栈的逻辑基板上。 |
成本模型: |
硬件集成: |
|
1.7.133 |
安全-硬件 |
内存加密引擎 |
- 位置:位于内存控制器与物理内存之间。 |
成本模型: |
硬件设计: |
|
1.7.134 |
安全-硬件 |
安全调试与追踪 |
- 功能:在安全启动后,锁定或限制JTAG、边界扫描、跟踪端口等调试接口的访问,防止通过调试接口提取敏感信息或植入恶意代码。 |
成本模型: |
安全设计: |
|
1.7.135 |
验证-硬件 |
形式验证断言与覆盖点 |
- 断言:在RTL代码中插入的形式逻辑属性,描述设计必须满足的行为(如“FIFO不会上溢”)。 |
成本模型: |
验证流程: |
|
1.7.136 |
验证-硬件 |
硬件仿真加速器模型 |
- 模型:将部分RTL(如CPU、GPU、NoC)编译到专用硬件仿真器中,运行速度比软件仿真快1000-10000倍。 |
成本模型: |
模型构建与运行: |
|
1.7.137 |
可靠性-系统 |
错误注入与容错测试单元 |
- 功能:在硅后测试或系统运行中,硬件支持有选择地翻转指定内存位或寄存器位,以测试系统错误检测、纠正和恢复机制的有效性。 |
成本模型: |
设计实现: |
|
1.7.138 |
可靠性-系统 |
老化预测与寿命监控单元 |
- 传感器:监测环形振荡器频率、关键路径延迟、晶体管泄漏电流的变化。 |
成本模型: |
硬件/软件协同: |
|
1.7.139 |
物理设计 |
多阈值电压单元库 |
- 类型:低阈值电压、标准阈值电压、高阈值电压。LVT速度快但泄漏大,HVT泄漏小但速度慢。 |
成本模型: |
库开发与使用: |
|
1.7.140 |
物理设计 |
电压岛与电平移位器 |
- 电压岛:将芯片划分为多个可独立供电的电压域,每个域运行在不同电压以满足性能/功耗需求。 |
成本模型: |
多电压域设计流程: |
|
编号 |
领域 |
部件/概念 |
所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值 |
业务财务模型及成本会计模型的数值/数字 |
制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字 |
|---|---|---|---|---|---|
|
8.1 |
软件栈 |
统一计算软件平台 |
- 架构:分层的软件栈,包括底层驱动、编译器、运行时库、通信库、数学库、应用框架、工具链。例如NVIDIA CUDA, 华为CANN。 |
成本模型: |
开发与维护流程: |
|
8.2 |
软件栈 |
系统级验证与仿真环境 |
- 环境:包含硬件仿真、FPGA原型验证、软件仿真、虚拟平台。 |
成本模型: |
验证流程: |
|
8.3 |
供应链 |
产能保障与长期协议 |
- 内容:与晶圆厂、封装厂、内存供应商签订多年期、预付款的产能保障协议。 |
成本模型: |
协议执行与管理: |
|
8.4 |
部署 |
超大规模数据中心集成 |
- 规模:在拥有数十万台服务器的数据中心中,部署成千上万个GPU服务器机柜。 |
成本模型: |
集成流程: |
|
8.5 |
商业模式 |
硬件即服务与按需计费 |
- 模式:云服务商(如AWS, Azure, GCP)将GPU算力作为服务售卖,用户按使用时长、显存大小、算力类型付费。 |
成本模型 (云服务商视角): |
服务运营: |
|
8.6 |
商业模式 |
企业许可与订阅 |
- 模式:向企业客户销售永久软件许可或年度订阅,授权其使用专业驱动、企业版管理工具、特定行业应用套件。 |
成本模型 (GPU厂商视角): |
销售与交付: |
|
8.7 |
战略 |
专利组合与交叉许可 |
- 规模:领先的半导体公司拥有数万至数十万件有效专利。 |
成本模型: |
专利管理: |
|
8.8 |
战略 |
标准制定组织参与 |
- 组织:如JEDEC, PCI-SIG, Khronos Group, IEEE, ISO, 3GPP等。 |
成本模型: |
标准化流程: |
|
8.9 |
风险 |
地缘政治风险对冲 |
- 风险:出口管制、关税、技术脱钩、供应链中断、数据本地化。 |
成本模型: |
风险管理实施: |
|
8.10 |
可持续 |
产品碳足迹核算与抵消 |
- 核算:依据ISO 14040/14044标准,计算产品全生命周期(材料、制造、运输、使用、回收)的温室气体排放。 |
成本模型: |
实施流程: |
对补充(8.1-8.10)的终极总结:
这最后的10个条目,将我们之前构建的、令人叹为观止的技术巨塔,置于其真实运行的商业世界、生态系统和全球格局之中。它揭示了顶级科技产品的竞争,早已超越了单纯的性能比拼,而是软件生态、供应链掌控、商业模式创新、知识产权布局、地缘政治智慧和可持续发展承诺的全方位综合较量。
-
软件的“灵魂”:统一的软件平台和极致的系统验证,是将数百亿晶体管组成的精密硬件,转化为稳定、易用、高效的生产力工具的关键。其开发成本是隐性的,但构成了最深的护城河。
-
商业的“血脉”:产能保障、HaaS/订阅模式、专利与标准,构成了产品的货币化引擎和竞争规则。理解这些,才能理解为何一颗物理成本数千美元的芯片,能支撑起万亿市值的公司,以及其服务为何如此定价。
-
系统的“熔炉”:超大规模数据中心集成,是技术接受最终考验的场所。在这里,单点性能让位于规模、效率、可靠性与总拥有成本的残酷优化。
-
战略的“棋盘”:地缘政治风险对冲是当今时代任何全球性科技企业无法回避的课题。碳足迹管理则是面向未来的社会责任和合规要求。这两者正在从“可选项”变为“必选项”,深刻影响着技术路线、供应链布局和成本结构。
最终图景:一台2nm GPU服务器,不仅是物理学与工程学的奇迹,更是一个复杂的商业产品、一个生态系统中的节点、一份受法律保护的资产、一个全球供应链的产物,以及一个具有碳足迹的环境实体。其“成本”,是1.1至8.10所有条目中,物料、能源、人力、资本、风险、合规与战略投入的总和与复杂交织。理解其全部,便是理解现代高科技产业复杂性的终极缩影。
openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐



所有评论(0)