编号

层级

部件/概念

所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值

业务财务模型及成本会计模型的数值/数字

制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字

1.7.51

内存系统

ROP(光栅操作单元)

- 功能:处理像素着色器输出后的操作,包括深度测试、模板测试、混合、抗锯齿等,并将最终像素写入帧缓冲区。
- 数量:通常与内存控制器分区相关联,每个ROP分区包含一定数量的ROP单元。例如,NVIDIA GA102 GPU有112个ROP。
- 性能:每个ROP每周期可处理多个像素(如8个)。ROP的性能影响像素填充率。

成本模型
1. 图形专用硬件:ROP是图形渲染管线的必备固定功能单元,对于游戏和专业图形应用至关重要。在纯计算卡中,这部分硬件可能被精简或用于其他目的。
2. 面积与功耗:ROP单元占用一定的芯片面积,但相比SM来说很小。其功耗取决于像素着色器的负载和渲染设置。

硬件设计
1. 深度/模板测试单元:设计高速比较器和逻辑,执行深度和模板测试。
2. 混合单元:实现多种混合公式的硬件电路。
3. 抗锯齿逻辑:支持MSAA(多重采样抗锯齿)等技术的采样和解析逻辑。

1.7.52

内存系统

纹理映射单元

- 功能:专用于纹理采样和过滤,包括双线性、三线性、各向异性过滤
- 集成:通常与SM或TPC集成,每个TPC可能包含多个纹理单元。
- 缓存:拥有专用的纹理缓存,用于缓存纹理数据,减少对内存的访问。
- 性能:每个纹理单元每周期可处理多个纹理请求。

成本模型
1. 图形与计算兼用:纹理单元不仅用于图形,在计算中也可用于加速某些内存访问模式(如通过纹理内存)。
2. 面积与性能权衡:纹理单元和纹理缓存占用面积,但对于图形和某些计算应用,其带来的性能提升是值得的。

硬件设计
1. 地址生成:计算纹理坐标,处理Mipmap层级选择。
2. 过滤流水线:实现双线性、三线性等过滤算法的专用乘加电路。
3. 缓存设计:纹理缓存通常设计为面向2D局部性的特殊结构,以优化纹理访问。

1.7.53

视频处理

NVENC(视频编码器)

- 功能:硬件加速视频编码,支持H.264, HEVC, AV1等标准。
- 性能:可同时编码多个视频流,例如H.264 1080p @ 60 FPS。
- 质量:提供可调节的编码质量和压缩率。
- 集成:通常位于GPU芯片的某个角落,通过PCIe总线或内部互联与SM和其他单元通信。

成本模型
1. 专用媒体引擎:NVENC是NVIDIA的专用媒体编码引擎,其硬件设计复杂,但提供了极高的编码能效比。
2. 产品差异化:支持高质量实时编码,对于游戏直播、视频创作、云游戏等应用是重要卖点。

硬件设计
1. 运动估计:设计专用的运动搜索硬件,在参考帧中寻找最佳匹配块。
2. 变换与量化:实现DCT/整数变换和量化。
3. 熵编码:硬件加速CABAC/CAVLC等熵编码算法。

1.7.54

视频处理

NVDEC(视频解码器)

- 功能:硬件加速视频解码,支持H.264, HEVC, AV1, VP9等标准。
- 性能:可解码8K @ 60 FPS视频,占用极少CPU资源。
- 集成:与NVENC类似,位于芯片的媒体处理区域。

成本模型
1. 能效与体验:硬件解码大幅降低播放高清视频的功耗,并释放CPU和GPU资源,提升用户体验。
2. 流媒体与消费电子:对于消费级显卡和移动设备,强大的解码能力是必备功能。

硬件设计
1. 熵解码:硬件加速CABAC/CAVLC等熵解码。
2. 反量化与反变换:实现反量化和反DCT/整数变换。
3. 运动补偿:从参考帧中重建像素块。

1.7.55

显示输出

Display Controller

- 功能:生成显示时序,驱动一个或多个显示接口(如DisplayPort, HDMI)。
- 特性:支持多显示器、高分辨率、高刷新率、HDR、DSC等。
- 集成:通常包含RAMDAC(用于模拟VGA输出)和MST Hub(用于多流传输)。

成本模型
1. 显示输出必备:是GPU连接显示器的接口,其支持的接口版本和特性直接影响产品定位和用户连接体验。
2. 模拟电路:RAMDAC等模拟电路需要额外的设计注意和工艺支持。

混合信号设计
1. 时序生成器:产生符合VESA标准的行同步、场同步等时序信号。
2. PHY:集成DisplayPort/HDMI的物理层,包括串行器和驱动电路。
3. HDCP引擎:硬件实现HDCP内容保护协议。

1.7.56

系统接口

PCIe Root Complex

- 功能:实现PCIe端点设备的功能,包括配置空间、内存映射I/O、DMA、中断等。
- 版本:支持PCIe 4.0或5.0,通常为x16链路。
- 集成:作为GPU与主机通信的主要通道,集成在GPU芯片内。

成本模型
1. 标准接口:PCIe是行业标准,实现它需要支付IP费用或自研成本,但保证了与各种主板的兼容性。
2. 性能瓶颈:PCIe带宽是GPU与主机通信的瓶颈,因此高版本支持是高性能GPU的标配。

IP集成
1. 控制器集成:集成PCIe控制器IP,包括事务层、数据链路层和物理层。
2. 地址转换:实现设备侧的地址转换(ATS)以支持虚拟化。
3. 中断处理:处理MSI/MSI-X中断。

1.7.57

系统管理

GPU管理控制器

- 功能:一个独立的微控制器,运行固件,管理GPU的上电时序、温度/功耗监控、故障安全恢复、与主机BMC通信等。
- 核心:可能是ARM Cortex-M系列核心。
- 存储:内置ROM和SRAM,可能外接SPI Flash存储固件。

成本模型
1. 可靠性与管理性:GMC是GPU独立运行和管理的“大脑”,对于数据中心GPU的远程管理和高可用性至关重要,是产品成熟度的体现。
2. 额外的芯片面积:GMC及其存储占用一定的芯片面积,但相比SM很小。

嵌入式系统设计
1. 微控制器集成:选择或设计一个低功耗微控制器核心,并集成必要的外设(如I2C, SPI, UART, GPIO)。
2. 固件开发:开发管理固件,实现电源状态机、传感器轮询、错误处理等。
3. 安全启动:支持固件的安全启动和更新。

1.7.58

电源管理

电压调节器控制器

- 功能:与外部或集成的电压调节器通信,控制GPU核心、显存、I/O等的电压和功耗。
- 接口:通过I2C/PMBus与VRM通信。
- 策略:实现动态电压频率调节、功耗封顶、浪涌电流控制等。

成本模型
1. 能效关键:精细的电压调节是优化能效的关键,尤其是在移动和数据中心场景。
2. 系统集成:需要与主板VRM设计紧密配合,增加了系统设计的复杂性。

混合信号设计
1. ADC:集成模拟-数字转换器,读取电压、电流、温度传感器数据。
2. 控制环路:数字PID控制器,产生PWM信号控制外部VRM。
3. 通信接口:实现I2C/PMBus从机接口,与主机BMC通信。

1.7.59

测试与调试

JTAG/TAP控制器

- 功能:提供测试访问端口,用于芯片生产测试、边界扫描和硅后调试。
- 标准:遵循IEEE 1149.1标准。
- 集成:作为芯片的调试接口,通常与其他的调试逻辑(如跟踪缓冲区)相连。

成本模型
1. 测试与调试必备:JTAG是行业标准的测试和调试接口,其实现成本低,但带来的测试和调试便利性价值巨大。
2. 引脚开销:需要占用几个专用的芯片引脚。

电路设计
1. TAP控制器状态机:实现标准的JTAG状态机。
2. 指令和数据寄存器:设计边界扫描链和用户可访问的调试寄存器。
3. 与内部逻辑连接:将JTAG接口连接到内部扫描链、调试模块等。

1.7.60

安全

硬件信任根

- 组件:包括PUF、安全启动ROM、一次性可编程存储器、加密引擎等。
- 功能:提供设备唯一标识、安全密钥存储、安全启动、固件验证、防回滚等。
- 标准:可能符合TPM 2.0可信计算相关标准。

成本模型
1. 安全增值:硬件信任根是构建安全GPU的基础,对于企业级和云GPU是必备特性,增加了芯片复杂度和成本,但提升了产品安全性和信任度。
2. 对抗攻击:防止IP盗窃、设备克隆、恶意软件等,保护厂商和用户利益。

安全硬件设计
1. PUF集成:集成物理不可克隆函数电路,生成设备唯一密钥。
2. 安全存储:设计抗物理攻击的eFuse或安全Flash存储区域。
3. 加密引擎:集成AES、SHA、RSA等硬件加速器。

1.7.61

互联

NVLink接口物理层

- 功能:提供高速芯片间互联的物理层,包括串行器/解串器、时钟数据恢复、均衡等。
- 速率:NVLink 4.0的单个链路速率可达50 GB/s(双向)。
- 拓扑:支持点对点、交换机等多种拓扑。
- 封装:可能需要特殊的封装(如SXM)和更密集的引脚。

成本模型
1. 高性能互联:NVLink是NVIDIA的高性能私有互联技术,其研发和实现成本高昂,但提供了远超PCIe的带宽和延迟,是高端计算卡的差异化特性。
2. 系统成本:需要配套的NVSwitch芯片和定制线缆/光模块,增加了系统成本。

SerDes设计
1. 高速SerDes:设计运行在25 Gbps以上的高速串行器/解串器,支持NRZ或PAM4编码。
2. 信道均衡:实现连续时间线性均衡、判决反馈均衡等,以补偿封装和PCB的损耗。
3. 时钟网络:低抖动的时钟生成和分配网络。

1.7.62

内存

GDDR6/GDDR7内存控制器

- 功能:管理GDDR6/GDDR7显存,包括地址映射、命令调度、刷新管理、纠错等。
- 位宽:每个控制器通常管理32位通道,一个GPU可能集成8-12个控制器,总位宽256-384位
- 速率:GDDR6可达24 Gbps/pin,GDDR7预计达32 Gbps/pin

成本模型
1. 性价比选择:相比HBM,GDDR提供更高的性价比,是消费级显卡和部分计算卡的主流选择。
2. PCB设计复杂:GDDR接口需要复杂的PCB布线(fly-by拓扑),增加了主板设计和制造成本。

混合信号设计
1. PHY设计:设计支持GDDR高速并行接口的物理层,包括DQ、DQS、CK等信号的驱动和接收。
2. 训练与校准:实现上电时的写入均衡、读/写电平校准等训练序列。
3. 纠错:集成ECC逻辑,支持芯片内或芯片间纠错。

1.7.63

AI加速

稀疏张量核心

- 功能:在标准张量核心基础上,增加稀疏计算支持,可跳过零值计算,提升有效算力。
- 稀疏模式:通常支持2:4稀疏,即每4个元素中至少有2个为零。
- 性能:在稀疏模型上,理论上可提供2倍的吞吐。

成本模型
1. AI性能差异化:稀疏支持是应对AI模型稀疏化趋势的关键,能大幅提升能效,是AI芯片的重要竞争优势。
2. 硬件开销:需要增加零值检测和动态调度逻辑,增加了张量核心的设计复杂度。

电路设计
1. 零值检测:在数据加载时并行检测数据块中的零值模式,生成掩码。
2. 动态门控:根据掩码关闭对应计算单元的数据通路和时钟,节省功耗。
3. 压缩存储:支持权重/激活的压缩存储格式,节省内存带宽。

1.7.64

光追加速

BVH遍历引擎

- 功能:专用于边界体积层次结构遍历,是光线追踪的核心操作之一。
- 集成:通常作为RT Core的一部分。
- 性能:每周期可遍历多个BVH节点,并支持并行处理多条光线。

成本模型
1. 图形体验升级:BVH遍历引擎是实时光线追踪的硬件基础,是游戏显卡迈向电影级渲染的关键,是高端显卡的卖点。
2. 固定功能硬件:相比通用计算,专用硬件能效更高,但功能固定。

硬件设计
1. BVH节点缓存:设计专用缓存,存储BVH节点数据,减少内存访问。
2. 遍历状态机:实现高效的状态机,管理多条光线的遍历状态。
3. 与求交单元接口:将遍历结果(待测试的三角形)传递给求交单元。

1.7.65

光追加速

三角形求交单元

- 功能:计算光线与三角形是否相交,并返回交点信息。
- 精度:支持高精度浮点运算,减少伪影。
- 并行:可同时处理多条光线与多个三角形的求交。

成本模型
1. 求交性能:三角形求交是光线追踪中另一计算密集部分,专用硬件大幅加速此过程。
2. 面积与精度权衡:高精度求交需要更多的晶体管,但能提升渲染质量。

电路设计
1. Möller–Trumbore算法硬件化:将常用的求交算法用专用电路实现,优化关键路径。
2. 并行计算:设计多个并行的求交计算单元,提升吞吐量。
3. 结果合并:合并多条光线的求交结果,输出最近的交点。

1.7.66

系统缓存

三级缓存

- 功能:在GPU中,L2缓存通常是最后一级缓存。但在某些架构中,可能还有L3缓存系统级缓存,被所有GPU核心共享。
- 容量:L3缓存容量可能达到数十MB,例如AMD的Infinity Cache。
- 目标:进一步减少对高延迟显存的访问,提升有效带宽。

成本模型
1. 性能优化:大容量L3缓存能显著提升许多应用的性能,尤其是那些具有高空间局部性的应用。
2. 面积成本:大容量SRAM占用大量芯片面积,是成本与性能的权衡。

SRAM设计
1. 高密度SRAM:采用高密度SRAM位单元,在有限面积内实现更大容量。
2. 多体组织:划分为多个体,支持并行访问。
3. 一致性协议:如果被多个核心共享,需实现缓存一致性协议。

1.7.67

数据搬运

DMA引擎

- 功能直接内存访问引擎,用于在GPU显存之间、GPU显存与主机内存之间、GPU与网络之间搬运数据,而不占用SM资源。
- 并发:支持多个并发传输。
- 集成:可能集成在GMC或PCIe Root Complex中。

成本模型
1. 系统效率:DMA引擎解放了SM,使其专注于计算,同时提升了数据传输效率,是构建高效异构计算系统的关键组件。
2. 硬件资源:DMA控制器和缓冲区占用一定的芯片面积。

硬件设计
1. 描述符处理:设计硬件描述符解析和状态机,管理传输队列。
2. 地址转换:支持虚拟地址到物理地址的转换(IOMMU)。
3. 数据通路:设计高带宽数据通路连接到内存控制器和系统接口。

1.7.68

虚拟化

SR-IOV硬件支持

- 功能:硬件支持单根I/O虚拟化,允许单个物理GPU呈现为多个虚拟功能,供不同虚拟机直接访问。
- 组件:需要IOMMU、中断重映射、多个配置空间等硬件支持。
- 性能:VF的性能接近物理GPU,并具有良好的隔离性。

成本模型
1. 云计算必备:SR-IOV是GPU虚拟化的关键技术,是GPU进入云数据中心市场的门票,增加了硬件复杂性,但打开了广阔的市场空间。
2. 硬件开销:需要额外的配置空间、地址转换和隔离逻辑。

硬件设计
1. PF/VF架构:设计物理功能和多个虚拟功能的配置空间、BAR、中断等资源。
2. IOMMU集成:集成输入输出内存管理单元,为每个VF提供独立的地址转换和隔离。
3. 中断重映射:支持MSI-X中断的重映射,将中断路由到正确的虚拟机。

1.7.69

可靠性

ECC存储器

- 范围GPU显存、L2缓存、寄存器文件等关键存储器通常支持ECC。
- 类型SECDED(单错误纠正双错误检测)或更高级的Chipkill
- 开销:ECC需要额外的存储位(如每64位数据加8位校验位),增加约12.5%​ 的存储开销。

成本模型
1. 可靠性成本:ECC增加了存储器的面积和功耗,并可能略微增加延迟,但对于数据中心和高可靠性应用是必须的成本,以防止软错误导致的数据损坏和系统崩溃。
2. 市场区分:消费级显卡通常不带显存ECC,而专业卡和数据中心卡则标配,这也是价格差异的原因之一。

电路设计
1. 编解码器:在存储器的读写路径上集成ECC生成和校验电路。
2. 错误记录:记录可纠正和不可纠正错误的发生次数和地址,供驱动读取。
3. 系统响应:对于不可纠正错误,可能触发中断或中止当前任务。

1.7.70

监控

传感器网络

- 传感器类型温度传感器、电压传感器、电流传感器、功耗传感器等。
- 分布:传感器分布在芯片各处,尤其是热点区域(如SM、内存控制器)。
- 读取:通过I2C或类似总线定期轮询,数据可供驱动和BMC使用。

成本模型
1. 可观测性基础:传感器网络是监控GPU健康状态、实施动态调节和预测性维护的基础,成本低但价值高。
2. 模拟电路集成:传感器通常是模拟电路,需要额外的设计和工艺考虑。

混合信号设计
1. 传感器设计:设计基于二极管的温度传感器、基于电阻的电流传感器等。
2. ADC:集成多通道ADC,将模拟信号转换为数字读数。
3. 数字接口:通过I2C等总线将数据上报。

1.7.71

电源管理

功耗封顶单元

- 功能:实时监控GPU的功耗,并与设定的功耗上限进行比较。如果超过上限,则通过降低电压和频率来限制功耗。
- 精度:功耗测量精度需在±5%​ 以内。
- 响应:响应时间在微秒级,以防止瞬时功耗超标。

成本模型
1. 能效与散热:功耗封顶是数据中心电力容量管理和散热设计的关键,允许在固定的电源和散热预算内最大化部署密度。
2. 性能影响:激进的功耗封顶可能限制GPU的峰值性能,需要在设计时权衡。

硬件实现
1. 功耗估算模型:基于活动计数器(如SM活跃周期、内存访问次数)实时估算功耗,或直接通过电流传感器测量。
2. 控制环路:实现闭环控制,根据估算功耗调整电压频率点。
3. 与驱动交互:驱动可设置功耗上限和策略。

1.7.72

调试

跟踪缓冲区

- 功能:记录GPU内部关键事件的跟踪信息,如指令执行、内存访问、异常等,用于硅后调试和性能分析。
- 容量:通常为数MB的SRAM,以循环缓冲区方式工作。
- 触发:可配置触发条件,如特定地址访问、特定错误发生等。

成本模型
1. 调试利器:跟踪缓冲区是硅后调试和性能分析的“黑匣子”,能极大缩短问题定位时间,对于复杂芯片的开发至关重要,但占用芯片面积。
2. 生产禁用:在生产版本中,跟踪缓冲区可能被禁用或部分移除以节省面积。

电路设计
1. 事件选择器:可配置选择哪些事件被记录。
2. 时间戳:为每个记录的事件添加高精度时间戳。
3. 压缩:可能支持数据压缩以延长记录时间。

1.7.73

物理设计

标准单元库

- 定义:包含与、或、非、触发器等基本逻辑门的物理版图、时序、功耗模型,用于逻辑综合和物理设计。
- 工艺相关:针对特定工艺节点(如5nm、4nm)设计和优化。
- 类型高性能、高密度、低功耗等多种库,供设计者根据不同需求选择。

成本模型
1. 设计基石:标准单元库是数字芯片设计的“乐高积木”,其质量(速度、功耗、面积)直接决定最终芯片的PPA。库的开发是晶圆厂和EDA公司的重要投入。
2. NRE成本:每个工艺节点都需要重新设计和优化标准单元库,成本高昂。

物理设计流程
1. 电路设计:设计每个逻辑门的晶体管级电路,满足驱动能力和噪声容限要求。
2. 版图设计:绘制每个单元的物理版图,符合设计规则,并优化面积。
3. 特征提取:通过仿真提取每个单元的时序、功耗、噪声等参数,建立.lib和.lef文件。

1.7.74

物理设计

存储器编译器

- 功能:根据用户参数(容量、位宽、端口数、速度)自动生成定制SRAM的RTL代码、物理版图和时序模型。
- 支持类型:可生成寄存器文件、缓存、FIFO等各类存储结构。
- 优化:针对面积、功耗、速度进行优化。

成本模型
1. 设计效率:存储器编译器极大地提高了存储器的设计效率,避免了手工设计每个存储阵列的繁琐工作,缩短了设计周期。
2. IP价值:是晶圆厂或IP供应商提供的关键IP,授权费用不菲。

软件与流程
1. 参数化生成器:编写软件,根据输入参数生成存储器的阵列布局、外围电路(译码器、灵敏放大器、写入驱动器)的网表和版图。
2. 特征化:对生成的存储器进行自动化的仿真和特征提取,生成时序和功耗模型。

1.7.75

I/O

I/O焊盘与ESD保护

- I/O焊盘:芯片与外部世界的电气接口,提供电压转换、驱动能力、阻抗匹配
- ESD保护:每个I/O焊盘都集成了静电放电保护电路,通常采用二极管、GGNMOS、SCR等结构,以通过HBM/CDM等ESD标准测试。
- 类型:支持1.8V, 3.3V等多种电压标准。

成本模型
1. 可靠性必需:ESD保护是芯片可靠性的第一道防线,没有合格的ESD保护,芯片在制造、组装和使用中极易损坏。
2. 性能代价:ESD器件引入寄生电容,可能限制高速I/O的性能。
3. I/O面积:I/O焊盘占用芯片周边区域,其数量受芯片引脚数限制。

电路与版图设计
1. ESD器件设计:设计满足ESD鲁棒性要求的保护器件,确保在ESD事件中能均匀导通泄放电流。
2. 驱动电路设计:设计可配置驱动强度的输出缓冲器。
3. 接收电路设计:设计具有适当迟滞的输入接收器。

1.7.76

时钟

锁相环

- 功能:生成芯片内部所需的各种高频、低抖动时钟,例如核心时钟、内存控制器时钟、SerDes时钟等。
- 类型整数/小数分频PLL、扩频时钟PLL等。
- 性能:输出频率1-5 GHz,抖动<200 fs RMS

成本模型
1. 时钟品质:PLL的性能(抖动、锁定时间)直接影响系统的时序裕量和最高工作频率,是模拟设计的关键和难点。
2. 面积与功耗:PLL是模拟电路,占用一定面积,且功耗较高。

模拟电路设计
1. VCO设计:设计低相位噪声的LC振荡器或环形振荡器。
2. 环路滤波器:设计无源或有源环路滤波器,确定环路带宽和稳定性。
3. 布局隔离:使用保护环、深N阱等隔离技术,防止数字噪声干扰。

1.7.77

测试

内建自测试

- MBIST:用于测试片上SRAM和ROM,生成March算法测试图案,检测存储单元故障。
- LBIST:用于测试随机逻辑,集成伪随机图案生成器输出响应分析器
- BISR:内建自修复,与冗余行/列配合,修复存储器的缺陷。

成本模型
1. 测试成本节约:BIST能大幅降低对外部ATE的依赖,减少测试时间和成本,是提高测试覆盖率和良率的关键。
2. 面积开销:BIST控制器和测试电路占用芯片面积(通常<1%)。

设计集成
1. BIST控制器插入:在设计中插入可配置的BIST控制器,与存储器接口相连。
2. 测试点插入:在难以测试的逻辑节点插入可控制和观测点,提升故障覆盖率。
3. 修复逻辑:为存储器设计冗余行/列和修复熔丝编程电路。

1.7.78

封装

C4凸块/微凸块

- C4凸块:用于芯片与封装基板之间的连接,直径~100μm,节距~150-200μm,材料为高铅焊料或无铅焊料
- 微凸块:用于芯片与硅中介层之间的连接,直径~10-20μm,节距~40-55μm,结构为铜柱+锡银焊料帽
- 下填充:填充环氧树脂以增强机械可靠性。

成本模型
1. 封装成本:凸块制造是封装工艺的关键步骤,其尺寸和节距直接影响封装互连密度和成本。
2. 可靠性:凸块的质量和可靠性直接影响芯片的长期工作寿命。

凸块制造工艺
1. 凸块下金属化:在芯片焊盘上溅射粘附/阻挡/种子金属层。
2. 光刻与电镀:涂胶、曝光、电镀铜和焊料。
3. 回流:加热使焊料熔化形成球形凸块。
4. 键合:将芯片倒装,与基板或中介层对齐,回流焊接。

1.7.79

系统

风扇控制单元

- 功能:根据GPU温度传感器读数,通过PWM信号控制散热风扇的转速,实现散热与噪音的平衡。
- 策略:可编程的温度-转速曲线,支持零转速模式(低温停转)。
- 集成:可能集成在GMC或电源管理单元中。

成本模型
1. 用户体验:智能风扇控制直接影响显卡的噪音和散热表现,是消费级产品的重要体验指标。
2. 硬件成本:风扇控制电路简单,成本低。

电路设计
1. PWM生成器:产生可调占空比的PWM信号驱动风扇。
2. 转速反馈:检测风扇的转速反馈信号(TACH),实现闭环控制。
3. 故障检测:检测风扇是否堵转或故障。

1.7.80

软件

GPU驱动微码

- 存储:存储在GPU内部的ROM或外部SPI Flash中,在启动时加载到内部SRAM执行。
- 功能:实现GPU最底层的硬件初始化、电源管理、错误处理、性能监控等。
- 更新:可通过驱动更新固件,以修复错误或提升性能。

成本模型
1. 硬件软件协同:微码是硬件功能的软件抽象和扩展,其开发和维护是持续的NRE成本,但对于产品的功能、稳定性和性能优化至关重要。
2. 灵活性:微码允许在硬件流片后通过更新来修复问题和优化性能,降低了风险。

开发流程
1. 微码开发:使用专用语言或汇编编写,与硬件设计紧密协同。
2. 模拟验证:在RTL仿真环境中验证微码功能。
3. 安全签名与分发:对微码进行数字签名,通过驱动程序安全地更新到GPU。

编号

层级

部件/概念

所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值

业务财务模型及成本会计模型的数值/数字

制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字

1.7.21

芯片架构

内存控制器

- 数量与位宽:例如NVIDIA H100 SXM拥有10个512位内存控制器,总位宽5120位
- 类型:支持HBM3HBM2e标准,每个控制器管理一个HBM堆栈通道。
- 频率:支持数据速率高达~6.4 Gbps/pin(HBM3)。
- 功能:负责地址映射、命令调度、刷新管理、纠错(ECC)及与物理层(PHY)的接口。

成本模型
1. 面积与I/O大户:内存控制器及其PHY占用芯片边缘大量面积和宝贵的I/O资源,是芯片成本的重要组成部分。
2. 性能瓶颈关键:内存带宽是GPU性能的关键瓶颈。投资于更宽、更快的内存控制器是提升系统性能最直接有效的方式,直接关系到产品竞争力。

混合信号设计
1. 数字控制器:设计命令调度、地址映射、纠错(ECC)逻辑、仲裁逻辑等。
2. PHY设计:设计高速并行接口PHY,包括时钟数据恢复、均衡、驱动与接收电路,以应对高数据速率下的信号完整性挑战。
3. 与中介层集成:通过微凸块与HBM堆栈的硅通孔(TSV)直接连接,设计需考虑封装协同优化。

1.7.22

芯片架构

二级缓存片

- 容量与分布:L2缓存由分布在芯片上的多个缓存片组成。例如,总容量50MB的L2可能由数十个缓存片构成。
- 互联:每个缓存片通过片上网络与SM簇和内存控制器相连。
- 一致性:维护与所有SM的L1/共享缓存的一致性,通常采用基于目录的协议

成本模型
1. 巨大的硅面积:大容量SRAM占用高达芯片面积的30%以上,是除计算核心外最大的成本项之一。
2. 性能加速器:大容量、高带宽的L2能显著提升计算密集型和数据密集型应用的性能,其投资回报率高,是高端芯片的标配。

存储器设计
1. SRAM位单元设计:采用高密度、低泄漏的SRAM位单元,在面积、速度和功耗间取得平衡。
2. 缓存片划分:将总容量划分为多个较小的、独立的缓存片,以降低访问延迟、功耗和布线复杂度。
3. 目录逻辑:实现维护缓存一致性的目录结构,跟踪各缓存行的状态和所有者。

1.7.23

芯片架构

片上网络路由器

- 拓扑节点:位于2D MeshButterfly等网络拓扑的交叉点上。
- 端口:通常有5个端口(东、西、南、北和本地)。
- 缓冲:每个输入端口有虚拟通道缓冲,以避免死锁和提高吞吐量。
- 路由算法:采用维度顺序路由(如XY路由)或其他确定性/自适应算法。

成本模型
1. 芯片的“交通枢纽”:路由器的带宽和延迟决定了芯片内部数据流通的效率。设计不佳会成为性能瓶颈,限制多核协同计算能力。
2. 面积与功耗:NoC的布线占用大量高层金属资源,其路由器和链路也消耗可观的动态功耗。

电路与架构设计
1. 交叉开关设计:设计低延迟、高带宽的交叉开关,连接输入与输出端口。
2. 仲裁逻辑:设计公平高效的仲裁器,解决多个输入对同一输出端口的竞争。
3. 流控机制:实现基于信用的流控,防止缓冲区溢出。

1.7.24

芯片架构

片上网络链路

- 物理实现:由芯片顶层金属层(通常是高层、厚金属)布设的并行数据线组成。
- 位宽:每条链路的数据位宽可能为128位、256位或更宽
- 时钟:可能采用源同步时钟传输,以降低时序要求。
- 长度:链路长度从几百微米到几毫米不等,跨越整个芯片。

成本模型
1. 布线资源消耗:NoC链路消耗大量宝贵的全局布线资源,影响芯片的布线拥塞和可制造性。
2. 性能与功耗的权衡:更宽的链路提供更高带宽但增加面积和功耗;更长的链路增加延迟和功耗。

物理设计
1. 全局布线规划:在芯片规划阶段就确定NoC的主干道,预留布线通道。
2. 时序收敛:对长链路进行插入缓冲、优化驱动强度,以满足建立时间和保持时间要求。
3. 信号完整性分析:分析串扰、IR压降对高速NoC信号的影响。

1.7.25

计算核心

张量核心阵列

- 组织:在SM内部,多个张量核心以阵列形式组织,共享输入/输出缓冲区和控制逻辑。
- 数据流:支持从寄存器文件共享内存高效加载矩阵块,并将结果写回。
- 精度支持:硬件支持FP16, BF16, TF32, FP64, INT8, INT4FP8等多种数据格式的混合精度计算。

成本模型
1. AI算力的核心引擎:张量核心阵列是提供极致AI训练和推理算力的专用硬件,是产品在AI市场差异化和获取溢价的关键。
2. 专用电路成本:虽然面积效率远高于通用核心,但其复杂的脉动阵列和数据通路设计、验证成本极高,且需要极其复杂的软件栈支持。

微架构与电路设计
1. 脉动阵列设计:设计规则的计算单元网格,数据在网格中有节奏地流动,最大化数据复用。
2. 混合精度流水线:设计可配置的数据通路,支持不同精度数据的输入、计算和累加。
3. 稀疏加速集成:集成硬件逻辑,在数据加载时识别并跳过零值,直接进行压缩后的计算。

1.7.26

计算核心

CUDA核心簇

- 组织:在SM内部,128个CUDA核心并非完全独立,通常被组织成多个簇(如4个簇,每簇32个核心),共享指令发射端口和部分控制逻辑。
- 执行流水线:每个核心包含FP32和INT32流水线,在某些架构中可灵活配置。
- 调度粒度:Warp调度器以Warp(32个线程)​ 为粒度向CUDA核心簇发射指令。

成本模型
1. 通用算力的基础:CUDA核心簇提供灵活的通用并行计算能力,是支持广泛图形和计算应用的基石。
2. 面积与能效权衡:相比张量核心,其执行通用指令的面积效率和能效较低,但不可或缺。其微架构优化(如双发射、并发执行)是提升性能的关键。

逻辑设计
1. 簇内互联:设计簇内32个核心与共享寄存器文件端口、共享指令发射端口之间的低延迟数据通路。
2. 双发射流水线:设计支持每周期发射多条指令(如FP32和INT32指令并发)的流水线控制逻辑。
3. 旁路网络:设计复杂的操作数旁路网络,减少数据冒险导致的流水线停顿。

1.7.27

计算核心

特殊功能单元簇

- 功能集成:将超越函数计算单元、插值单元、倒数/平方根单元等集成在一个簇内,共享输入/输出接口。
- 精度:提供符合IEEE标准的高精度计算结果,用于图形渲染和科学计算。
- 流水线:采用深度专用流水线,延迟通常高于ALU但吞吐量高。

成本模型
1. 性能与精度保障:为图形渲染(如纹理过滤、光照计算)和科学计算提供高性能、高精度的数学函数硬件加速。其专用实现是保证图形质量和计算正确性的关键。
2. 专用硬件面积:占用特定面积,但相比用通用ALU通过微代码迭代计算,在性能和能效上有巨大优势。

电路设计
1. 函数逼近算法硬件化:将超越函数(如sin, cos, log, exp)的逼近算法(如CORDIC、多项式逼近)转化为专用流水线电路。
2. 查找表优化:设计面积和精度优化的查找表,存储多项式系数或初始近似值。
3. 乘加树复用:复用或设计专用的乘加树用于多项式求值。

1.7.28

存储核心

加载/存储单元簇

- 单元数量:每个SM通常有16个加载/存储单元
- 地址生成:每个单元负责为一个Warp内的部分线程计算内存地址
- 合并访问:硬件自动检测并合并访问连续地址的线程请求,形成一个高效的内存事务(如128字节的缓存行访问)。
- 一致性协议:负责维护与L1/L2缓存的一致性。

成本模型
1. 内存墙的突破口:LSU簇的效率是决定GPU有效内存带宽利用率的关键。优秀的地址合并和事务管理能极大缓解内存带宽瓶颈。
2. 控制逻辑复杂度:地址生成、合并、拆分、一致性协议处理等逻辑复杂,是SM控制逻辑的重要组成部分。

微架构设计
1. 地址计算与合并逻辑:并行计算多个线程的地址,并硬件检测连续地址模式,生成合并后的内存请求。
2. 事务拆分逻辑:当合并后的请求跨越缓存行或页面边界时,自动拆分为多个合法的事务。
3. Miss状态处理寄存器:管理未命中L1缓存的请求,跟踪其在内存子系统中的状态直至数据返回。

1.7.29

控制逻辑

Warp调度器与分发单元

- 调度器数量:现代SM通常有4个Warp调度器,每个周期可调度1-2个Warp。
- 分发单元:每个调度器连接到一个或多个指令分发单元,后者将指令发射到不同的执行端口(如CUDA核心、张量核心、LSU、SFU)。
- 策略:采用Greedy Then Oldest等策略,兼顾吞吐率和公平性。

成本模型
1. SM的“大脑”:调度器的智能程度直接决定了数万个线程的指令级并行效率昂贵计算单元的利用率。一个低效的调度器是性能的灾难。
2. 设计验证复杂度:调度逻辑是SM中最复杂的状态机之一,验证其正确性和性能极具挑战。

硬件设计
1. 就绪状态表:为每个驻留的Warp维护一个状态位,指示其操作数是否就绪、指令是否可发射。
2. 仲裁逻辑:在多个就绪Warp中选择优先级最高的进行发射,同时考虑执行端口的可用性。
3. 依赖跟踪:跟踪指令间的寄存器依赖、内存依赖,确保执行顺序。

1.7.30

控制逻辑

线程块/网格管理单元

- 资源管理:维护SM内寄存器、共享内存、Warp槽位等资源的空闲状态位图。
- 生命周期管理:负责线程块的加载、初始化、启动、上下文切换和完成清理
- 零开销切换:当一个线程块因内存访问而停顿时,硬件迅速切换到另一个就绪的线程块,实现延迟隐藏。

成本模型
1. 高吞吐的引擎核心:高效的线程块管理是实现GPU极致吞吐能力的核心机制。它决定了SM能同时容纳和快速切换的线程块数量,直接影响占用率和性能。
2. 控制逻辑的关键部分:与Warp调度器协同工作,是SM控制逻辑的主要组成部分。

状态机与逻辑设计
1. 资源分配算法:实现寄存器、共享内存的动态分配算法,最大化资源利用率。
2. 上下文状态存储:为每个活跃的线程块分配存储空间,保存其PC、寄存器映射、共享内存基址等上下文。
3. 与全局调度器接口:与GPC级别的全局线程块调度器通信,请求新的线程块并报告完成状态。

编号

层级

部件/概念

所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值

业务财务模型及成本会计模型的数值/数字

制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字

1.7.31

SM-计算

浮点乘加单元

- 功能:执行融合乘加操作,即 AB + C,是科学计算和AI训练的核心。
- 精度:支持
FP32、FP64、TF32、FP16、BF16。FP32 FMA单元面积约为~500μm²(7nm工艺)。
- 延迟:完全流水线化,延迟通常为
4-6个周期,吞吐率为每周期1个结果。
- 实现:基于
Booth编码的华莱士树并行乘法器+进位保留加法器*架构。

成本模型
1. 计算密度基石:FMA是提供浮点算力的最基础单元,其面积和能效直接影响芯片的峰值性能能效比
2. 工艺依赖性:在先进工艺下,其面积缩小、速度提升,是摩尔定律的直接受益者。

电路设计
1. 部分积生成:采用Booth编码减少部分积数量。
2. 压缩树:使用3:2或4:2压缩器(华莱士树或Dadda树)将部分积累加。
3. 最终加法:通过快速加法器(如Kogge-Stone)产生最终结果。

1.7.32

SM-计算

整数ALU单元

- 功能:执行加、减、逻辑运算、移位、比较等整数操作。
- 位宽:支持32位整数运算,部分支持64位。
- 延迟:通常为1-2个周期,吞吐率高。
- 集成:常与FPU共享前端(指令解码、发射),但执行流水线独立。

成本模型
1. 通用性必需:虽然AI负载以浮点为主,但地址计算、循环控制、数据搬移、整数运算仍需高效的整数ALU,是保证芯片通用性的基础。
2. 面积效率高:相比FMA,整数ALU面积小得多。

电路设计
1. 加法器:采用进位选择或超前进位加法器,优化关键路径。
2. 桶式移位器:实现多位移位操作。
3. 多功能整合:在单个ALU中整合多种逻辑功能,通过多路选择器输出。

1.7.33

SM-存储

寄存器文件体

- 组织:庞大的寄存器文件(如64K x 32位)被划分为多个物理体,例如32个体,每个体包含2048个32位寄存器
- 端口:每个体可能支持1读1写,通过体交叉访问满足大量线程的并发需求。
- 访问时间:目标访问时间 < 1 ns,是片上最快存储。
- 单元:使用20T或更多晶体管的SRAM单元以实现多端口访问。

成本模型
1. 面积与功耗的绝对大户:多端口寄存器文件占SM面积的~25-35%,其静态泄漏功耗也相当可观。是支撑GPU高线程并行的昂贵硬件代价
2. 性能生命线:其容量和带宽直接决定可驻留的线程数量和指令级并行度。

电路设计
1. 多端口单元设计:设计高稳定性、低面积的多端口SRAM单元。
2. 体冲突检测与仲裁:当多个Warp访问同一体时,硬件仲裁并序列化访问。
3. 读写缓冲:在访问端口设置缓冲,提高流水线效率。

1.7.34

SM-存储

共享内存存储体

- 组织:共享内存(如128KB)划分为32个存储体,每个存储体宽度4字节,深度1024
- 体冲突:如果同一Warp内的两个线程访问同一存储体的不同地址,将发生体冲突,导致访问串行化。
- 原子操作:在存储体层面支持原子加、比较交换等硬件操作。

成本模型
1. 可编程协作的关键:共享内存是线程块内显式通信和数据共享的唯一高效途径。其带宽和体冲突处理能力直接影响众多并行算法的性能。
2. 面积与设计复杂度:相比缓存,共享内存需要支持多端口随机访问和原子操作,设计更复杂。

电路设计
1. 存储体仲裁器:检测并仲裁对同一存储体的访问请求,决定服务顺序。
2. 原子操作逻辑:在存储体控制器中实现原子操作的读-改-写原子序列。
3. 广播机制:支持同一数据向多个线程的广播,减少重复访问。

1.7.35

SM-控制

指令缓冲区

- 容量:缓存已解码但尚未发射的指令,容量通常为几十到上百条指令。
- 组织:通常按Warp组织,为每个活跃Warp维护一个小的指令缓冲区。
- 作用:平滑指令获取的波动,为调度器提供稳定的指令流。

成本模型
1. 性能平滑器:指令缓冲区可以隐藏L1指令缓存未命中带来的停顿,提升调度器效率,成本(少量SRAM)低,收益高。
2. 控制复杂性:管理多个Warp的指令缓冲区状态需要额外的控制逻辑。

硬件设计
1. FIFO或循环缓冲区:为每个Warp分配一个小的缓冲区。
2. 依赖标记:在指令进入缓冲区时,可能预解码并标记操作数依赖。

1.7.36

SM-控制

Warp状态寄存器

- 内容:为每个活跃的Warp保存其程序计数器、活跃掩码、等待原因、优先级、状态等信息。
- 容量:SM通常支持同时驻留64个Warp,因此需要64套Warp状态寄存器。
- 更新:由调度器、执行单元、内存系统共同更新。

成本模型
1. 上下文管理核心:Warp状态寄存器是硬件实现零开销上下文切换的基础。其规模和访问速度直接影响Warp调度和切换的开销。
2. 寄存器开销:占用一定的寄存器资源,但相对于整个SM成本可忽略。

逻辑设计
1. 状态机实现:为每个Warp实现一个状态机,管理其从就绪、发射、执行、等待到完成的状态变迁。
2. 优先级队列:根据Warp状态和调度策略维护优先级信息。

1.7.37

芯片-互联

片上网络交叉开关

- 规模:在NoC路由器内部,连接所有输入端口到所有输出端口的交换结构。
- 实现:可以是基于多路选择器的交叉开关,在中小规模路由器中常用。
- 带宽:需支持链路位宽 x 端口数​ 的全带宽无阻塞交换。

成本模型
1. 路由器的核心:交叉开关的面积和功耗随端口数平方增长,是路由器成本的主要部分。其设计决定了路由器的吞吐量和延迟。
2. 性能瓶颈:如果交叉开关带宽不足,将成为NoC的瓶颈。

电路设计
1. 多路选择器阵列:设计高度优化的、驱动能力强的多路选择器。
2. 仲裁与选择:为每个输出端口设计仲裁器,解决多个输入对同一输出的竞争。

1.7.38

芯片-互联

全局互连总线

- 功能:用于配置寄存器访问、中断分发、性能计数器读取等低带宽、高优先级的控制信号传输。
- 特点低延迟、高优先级、广播/多播支持。可能与NoC分离,也可能复用NoC的虚拟通道。
- 协议:简单的地址-数据读写协议。

成本模型
1. 控制平面的必要开销:虽然不直接参与数据计算,但全局配置总线是芯片可管理、可调试的基础,其设计可靠性和延迟对系统稳定性很重要。
2. 面积小:通常位宽较窄(如32-64位),占用资源少。

硬件设计
1. 主从架构:设计中央主设备(如GMC)和多个从设备(如SM、内存控制器)。
2. 仲裁:处理多个主设备(如多个CPU核心)的访问请求。

1.7.39

芯片-内存

内存压缩单元

- 位置:位于内存控制器L2缓存显存之间的数据通路上。
- 算法:实时无损压缩,如基于块的Delta Color Compression,压缩比通常可达2:1
- 作用:减少写入显存的数据量,等效提升显存带宽和容量,降低功耗。

成本模型
1. 带宽的“倍增器”:以极小的硬件逻辑开销,换取显存有效带宽的显著提升,尤其在带宽受限的图形渲染中,投资回报率极高。
2. 延迟代价:压缩/解压缩增加少量固定延迟(通常1-2个周期)。

硬件设计
1. 压缩引擎:实现特定压缩算法(如查找重复模式、差分编码)的专用流水线。
2. 元数据管理:为每个压缩块存储压缩模式和解压信息。
3. 旁路逻辑:对不可压缩的数据进行快速旁路。

1.7.40

芯片-内存

显存接口物理层

- 结构:对于GDDR6,包含DQ、DQS、CK信号的驱动、接收和训练电路。对于HBM,是宽并行、相对低速的接口。
- 均衡:集成写入均衡、判决反馈均衡以适应高频信号在PCB上的损耗。
- 训练:上电时执行复杂的时序和电压校准序列,以补偿工艺、电压、温度变化。

成本模型
1. 混合信号设计难点:高速PHY设计是模拟/混合信号领域的挑战,需要资深工程师和大量仿真,是IP授权或自研的核心成本
2. 良率与可靠性:PHY对工艺变异敏感,其良率和长期可靠性直接影响芯片的可用性。

电路设计
1. 驱动器:可调强度的输出驱动器,以匹配传输线阻抗。
2. 接收器:带可调均衡的差分接收器。
3. 时钟数据恢复:从数据流中恢复出采样时钟。

1.7.41

芯片-系统

PCIe控制器

- 层级:实现PCIe协议的事务层、数据链路层、物理层
- 特性:支持SR-IOV、ATS、PASID、FLIT模式等高级功能。
- 带宽:PCIe 5.0 x16 提供单向~64 GB/s​ 带宽。

成本模型
1. 标准兼容性成本:必须符合PCI-SIG标准,需要支付IP授权费或承担自研的NRE和认证成本。
2. 系统互联基础:是GPU作为标准扩展卡与主机通信的唯一标准通道,其性能和稳定性至关重要。

IP集成与验证
1. 控制器集成:将数字控制器与PHY集成,连接到内部总线或NoC。
2. 地址转换:实现ATS,支持虚拟化环境下的高效DMA。
3. 兼容性测试:通过严格的PCI-SIG合规性测试套件。

1.7.42

芯片-系统

系统管理总线接口

- 功能:通过I2C/SPI等总线,连接温度传感器、电压调节器、EEPROM等管理元件。
- 集成:通常由GPU管理控制器BMC主导。
- 用途:配置、监控、故障上报。

成本模型
1. 基础管理设施:是构建完整硬件管理栈的低成本、标准化接口。其实现简单,但为系统级监控和控制提供了可能。
2. 可靠性:简单的总线协议,可靠性高。

电路设计
1. I2C/SPI PHY:实现标准的总线物理层和协议层。
2. 设备驱动:在GMC固件中编写各传感器/元件的驱动。

1.7.43

芯片-时钟

全局时钟分布网络

- 结构H树网格结构,从中央PLL出发,分布到芯片各处。
- 缓冲:插入多级时钟缓冲器以驱动巨大负载,并平衡各分支的延迟。
- 功耗:可占芯片总功耗的20-40%
- 偏移:目标全局时钟偏移 < 10 ps

成本模型
1. 时序收敛的基石:低偏移、低抖动的时钟网络是芯片达到高频、高性能的先决条件。其设计失败将导致时序违例,芯片无法工作。
2. 功耗优化的重点:时钟网络是动态功耗的主要来源之一,采用时钟门控等技术优化是必须的。

物理设计
1. 时钟树综合:EDA工具自动插入和优化时钟缓冲器,平衡负载和延迟。
2. 时钟网格:在局部(如SM内)使用网格结构进一步降低偏移。
3. 功耗分析:进行精细的时钟门控插入和验证。

1.7.44

芯片-电源

电源门控开关单元

- 位置:在可关断的电压域(如不活跃的SM、模块)的电源(VDD)或地(VSS)路径上。
- 晶体管:使用高阈值电压、厚氧层的PMOS(头部开关)或NMOS(脚部开关),尺寸巨大以降低导通电阻。
- 泄漏降低:有效关断时,可将模块泄漏功耗降低>1000倍

成本模型
1. 面积与设计开销:电源开关占用可观面积(特别是头部开关),并增加电源网络设计和验证的复杂性。
2. 静态功耗的“杀手”:对于移动设备和能效优先的数据中心芯片,电源门控是达成低待机功耗和能效目标的关键技术,其收益远超面积开销。

物理实现
1. 开关单元设计:设计满足电流密度和IR压降要求的巨型开关晶体管。
2. 电源域划分:在物理设计阶段明确划分可独立关断的电源域。
3. 状态保持:为需要保持状态的模块设计保持寄存器和保持电压

1.7.45

芯片-测试

扫描链

- 结构:将芯片中所有触发器串联成一条或多条长链,在测试模式下,可从外部输入测试向量,并捕获输出响应。
- 长度:单条扫描链可包含数十万至数百万个触发器
- 模式:支持移位捕获两种模式。

成本模型
1. 可测试性设计核心:扫描链是实现高故障覆盖率、保障出厂质量的基础。其插入是必须的DFT步骤,但不增加功能价值
2. 面积与时序开销:扫描多路选择器增加面积,并可能轻微影响关键路径时序。

DFT流程
1. 扫描替换:在综合阶段,将普通触发器替换为带扫描输入/输出的可扫描触发器。
2. 扫描链连接:将可扫描触发器连接成链。
3. ATPG:自动测试向量生成工具基于扫描链生成测试向量。

1.7.46

芯片-测试

边界扫描单元

- 功能:位于芯片I/O焊盘和内部逻辑之间,支持测试PCB互连、芯片引脚连接
- 标准:遵循IEEE 1149.1标准。
- 接口TDI, TDO, TMS, TCK, TRST​ 五个专用引脚。

成本模型
1. 板级测试与调试利器:边界扫描极大地简化了系统级(板卡)的制造缺陷检测和调试,降低了系统集成和维修成本。
2. 引脚与面积开销:占用几个I/O引脚和少量内部逻辑。

设计插入
1. BSC设计:设计边界扫描单元,包含捕获、移位、更新寄存器。
2. TAP控制器:实现JTAG状态机。
3. 与内部扫描集成:可连接内部扫描链,实现全芯片访问。

1.7.47

芯片-安全

安全启动ROM

- 容量:很小,通常几KB到几十KB,存储第一级引导加载程序公钥哈希
- 安全性:位于不可修改的掩模ROM中,防止被篡改。
- 功能:上电后首先执行,验证下一级引导程序(在SPI Flash中)的数字签名。

成本模型
1. 信任链的起点:安全ROM是硬件信任根的第一环,其代码的正确性和安全性是后续所有安全措施的前提。开发和安全审计成本高。
2. 一次性工程:掩模ROM制造成本高,但一旦流片不可更改,需确保万无一失。

物理设计
1. ROM位单元:设计高密度的掩模ROM位单元。
2. 物理安全加固:布局布线时考虑防探测、防篡改。
3. 代码灌注:在芯片制造的光罩阶段,将代码信息刻入。

1.7.48

芯片-安全

一次性可编程存储器

- 类型电熔丝、反熔丝。用于存储芯片配置、修复信息、密钥、安全版本号
- 容量:通常几千位
- 编程:在测试或配置时,通过施加高电压/电流脉冲永久性写入。

成本模型
1. 芯片“身份证”与“修复工具”:eFuse是实现芯片个性化、良率提升、生命周期管理的关键。其成本被良率提升和功能配置灵活性带来的巨大收益所覆盖。
2. 可靠性:eFuse编程的可靠性和读取稳定性是设计重点。

制造与测试
1. eFuse单元制造:在BEOL工艺中制造多晶硅或金属熔丝。
2. 编程电路:设计高压编程驱动器和敏感的读取电路。
3. 测试与修复流程:在CP测试后分析,编程修复信息。

1.7.49

芯片-模拟

温度传感器

- 原理:基于二极管PTAT电路,将温度转换为电压/频率。
- 精度±1-2°C​ 在全温度范围。
- 分布:在芯片热点区域(SM、内存控制器)周围分布,密度~1个/mm²
- 输出:通过ADC转换为数字值,经总线读取。

成本模型
1. 热管理的“眼睛”:精确的温度感知是动态热管理、防过热损坏、性能优化的基础。成本极低,价值巨大。
2. 模拟设计:需要精心的模拟电路设计和校准。

电路设计
1. PTAT核心:设计匹配的晶体管对,产生与绝对温度成正比的电压。
2. ADC接口:集成或连接一个Σ-Δ ADC进行数字化。
3. 校准:在封装测试阶段,进行单点或两点温度校准。

1.7.50

芯片-模拟

电压/电流监测器

- 功能:监测核心电压、I/O电压、各供电轨电流
- 实现:电流监测可通过串联检测电阻利用功率MOSFET的Rds(on)​ 实现。
- 精度:电压监测精度±1%,电流监测精度±5%

成本模型
1. 电源完整性与功耗管理的关键:实时监控电压和电流是实现精确功耗封顶、优化能效、诊断电源问题的前提。
2. 系统可靠性:防止过压、过流损坏芯片。

混合信号设计
1. 检测放大器:设计高共模抑制比的差动放大器,放大检测电阻两端的微小压降。
2. 多路选择与ADC:多路电压/电流信号共享一个高精度ADC。
3. 告警比较器:集成快速比较器,用于过压/过流快速保护。

1.7.51

厂商特性

NVIDIA MIG硬件隔离逻辑

- 功能:在硬件层面,将SM簇、内存控制器、L2缓存片、NoC​ 等资源按比例划分给多个MIG实例。
- 粒度:Hopper架构支持以1个GPC为粒度进行划分。
- 隔离:确保故障、性能、安全在实例间严格隔离。

成本模型
1. 云GPU虚拟化核心:MIG硬件是NVIDIA将高端GPU打入云服务市场的战略性技术。它使得单颗大芯片可被安全、高效地分租,极大提升了利用率和投资回报率,是重要的溢价点。
2. 硬件开销:分区配置、仲裁、性能隔离逻辑增加了芯片复杂度。

硬件设计
1. 资源划分寄存器:可编程寄存器定义每个实例的资源范围。
2. NoC过滤器:在NoC入口检查请求的MIG ID,确保其只能访问所属资源。
3. 性能监控隔离:为每个实例提供独立的性能计数器。

1.7.52

厂商特性

华为昇腾AI CPU子系统

- 组成:通常为多核ARM Cortex-A集群,运行轻量级操作系统
- 功能任务调度、设备管理、驱动运行、与主机通信,全面卸载主机CPU和AI Core的控制负载。
- 互联:通过片上总线或NoC与AI Core、DMA、外设紧密连接。

成本模型
1. 自主可控与系统优化:集成自主/可控的CPU核心,使昇腾芯片成为一个更独立、更易管理的系统,减少对主机x86生态的依赖,便于进行深度软硬件协同优化。
2. 额外的芯片面积:完整的CPU子系统占用可观面积,但换来了系统级灵活性。

SoC集成
1. CPU选型与集成:选择合适性能/功耗的ARM核心,集成其缓存、中断控制器、内存管理等。
2. 外设集成:连接UART、I2C、SPI、Ethernet等管理外设。
3. 软件栈开发:移植或开发BSP、驱动、中间件。

1.7.53

厂商特性

天数智芯IX-Scheduler

- 定位:据称为全局统一智能调度器,可能位于GPC或芯片顶层。
- 功能:超越单个SM调度器,进行跨SM、跨TPC的任务调度、数据预取、资源全局调配
- 目标:优化不规则负载、动态负载均衡、减少资源争用,提升整体利用率。

成本模型
1. 架构级创新投入:开发此类高级全局调度器是重要的研发投入,旨在解决实际应用中的利用率问题,而非仅追求峰值算力,是形成差异化竞争力的尝试。
2. 硬件复杂度:需要收集全局状态并做出智能决策,硬件逻辑复杂。

架构探索
1. 状态收集网络:设计硬件探针网络,收集各SM的负载、缓存命中率、队列深度等信息。
2. 决策引擎:可能是基于规则的状态机,或集成轻量ML加速器的硬件决策单元。
3. 指令注入接口:将调度决策转化为对SM调度器的提示或微指令。

1.7.54

厂商特性

昆仑芯CLUSTER间互联

- 功能:连接多个CLUSTER计算集群,实现数据共享和任务协同
- 带宽:需要高带宽、低延迟,以支持CLUSTER间通信密集型算法。
- 拓扑:可能是环形、Mesh交叉开关

成本模型
1. 扩展性关键:高效的CLUSTER间互联是多核架构发挥性能的基础,决定了芯片的可扩展性上限。
2. 面积与功耗:互联网络本身占用面积和功耗。

硬件设计
1. 互连协议:定义CLUSTER间通信的数据包格式和协议。
2. 路由器/交叉开关:设计连接多个CLUSTER的交换结构。
3. 缓存一致性:如果需要,实现CLUSTER间共享数据的一致性维护。

1.7.55

物理设计

标准单元

- 定义与、或、非、与非、或非、触发器、锁存器、缓冲器、反相器等基本逻辑门的物理版图库。
- 特征:针对特定工艺节点优化,提供多阈值电压、多驱动强度选项。
- 交付物逻辑库、物理库、时序库、功耗库

成本模型
1. 数字设计的基石:标准单元库的质量(速度、功耗、面积)直接决定最终芯片的PPA。其开发是晶圆厂和EDA公司的核心投入,成本高昂。
2. NRE成本:每个新工艺节点都需要全新的单元库设计。

库开发流程
1. 电路设计与仿真:设计晶体管级电路,满足驱动、噪声、可靠性要求。
2. 版图设计与验证:绘制符合DRC/LVS规则的物理版图,并优化面积。
3. 特征提取:通过SPICE仿真提取所有工作条件下的时序、功耗、噪声参数。

1.7.56

物理设计

I/O焊盘库

- 类型电源/地焊盘、数字输入/输出焊盘、模拟焊盘、高速SerDes焊盘
- ESD保护:集成二极管、GGNMOS、SCR等ESD保护结构,满足>2kV HBM标准。
- 驱动强度:可编程驱动强度,以匹配不同的板级负载。

成本模型
1. 芯片与外部世界的桥梁:I/O焊盘是信号和电源进出的唯一通道,其可靠性、性能、兼容性至关重要。
2. 模拟/混合信号设计:设计复杂,尤其是高速焊盘,需要专门的模拟设计团队。

焊盘设计
1. ESD器件设计:设计满足鲁棒性要求的ESD保护器件,并优化其寄生电容。
2. 驱动/接收电路:设计满足电压标准、驱动能力和速度要求的电路。
3. 布局:焊盘通常排列在芯片四周,其布局影响封装和PCB设计。

1.7.57

物理设计

存储器编译器

- 输入:用户指定容量、位宽、端口数、时序要求
- 输出:自动生成SRAM的RTL代码、物理版图、时序模型、功耗模型
- 支持类型单端口、双端口、寄存器文件、ROM等。

成本模型
1. 设计效率的革命:编译器将存储器设计从数月的手工劳动缩短到几分钟,极大提升了设计效率和灵活性,是必须的EDA/IP投资。
2. IP授权价值:高性能存储器编译器是晶圆厂或第三方IP供应商的重要收入来源。

软件与流程
1. 参数化生成器:编写软件,根据参数生成存储阵列、译码器、灵敏放大器、写入驱动器的网表和版图。
2. 自动特征化:对生成的存储器进行自动化仿真,生成.lib和.lef文件。
3. 工艺移植:为不同工艺节点开发相应的编译器版本。

1.7.58

芯片-封装

C4/微凸块下金属化层

- 结构:在芯片铝/铜焊盘上依次沉积粘附层、扩散阻挡层、润湿层。典型结构:Ti / TiN / Cu
- 厚度:总厚度约1-2μm
- 功能:提供与焊盘和焊料的良好粘附、防止铜扩散、作为电镀种子层。

成本模型
1. 可靠性的关键界面:UBM的质量直接决定凸块连接的机械强度和电学可靠性。不良的UBM会导致界面失效,芯片脱落或开路。
2. 额外工艺步骤:UBM沉积是凸块制造中增加的成本步骤。

制造工艺
1. 清洗:等离子清洗焊盘表面。
2. PVD沉积:通过物理气相沉积依次溅射各层金属。
3. 图形化:光刻定义凸块位置,蚀刻掉非UBM区域的金属。

1.7.59

芯片-封装

硅通孔

- 尺寸:直径5-10μm,深度50-100μm,深宽比5:1 - 10:1
- 工艺先通孔(在器件制造前)或后通孔(在器件制造后)。
- 绝缘:侧壁沉积SiO₂​ 厚度~0.5μm
- 填充:电镀填充。

成本模型
1. 3D集成的核心成本驱动:TSV制造是2.5D/3D封装的主要附加成本,增加额外的光刻、刻蚀、沉积步骤,并占用芯片面积。
2. 性能赋能:提供最短的垂直互连、最高带宽密度、最低功耗的互连方案,是为获得系统级优势必须支付的成本。

制造流程
1. 深硅刻蚀:使用Bosch工艺(DRIE)刻蚀出高深宽比通孔。
2. 绝缘层沉积:PECVD沉积SiO₂。
3. 阻挡层/种子层沉积:ALD/PVD沉积TiN和Cu。
4. 铜电镀填充:电镀填充通孔,CMP平坦化。

1.7.60

系统

GPU固件存储

- 介质:通常为SPI NOR Flash,位于GPU板卡上,容量16-64 Mb
- 内容:存储GPU管理控制器固件、VBIOS、配置数据等。
- 安全:支持安全启动、加密存储、防回滚

成本模型
1. 系统可编程性的基础:Flash存储使得GPU固件可以在产品生命周期内更新,用于修复漏洞、提升性能、增加功能,极大降低了产品风险,延长了生命周期。
2. BOM成本:Flash芯片及其外围电路增加板卡成本约1−5

系统设计
1. 电路设计:设计SPI接口电路,包括上拉电阻、电源去耦。
2. 固件更新机制:通过驱动或BMC实现安全的固件更新流程。
3. 备份与恢复:可能支持A/B分区,确保更新失败可回退。

  • SM的微观世界深化FMA、整数ALU、寄存器文件体、共享内存体、指令缓冲区、Warp状态寄存器​ 等条目,从数据通路、存储组织和控制状态三个维度,极致细化了SM内部的工作机制。它们是实现海量线程并行、高吞吐计算的具体执行单元和状态载体。

  • 芯片级基础设施全局时钟网络、电源门控开关、扫描链、边界扫描、温度/电压传感器、安全启动ROM、eFuse、标准单元库、I/O焊盘、存储器编译器​ 等,构成了芯片赖以正常工作的底层硬件基础、测试调试基础设施、安全保障和物理设计载体。没有它们,再强大的计算核心也无法变成可量产、可管理、可信任的产品。

  • 系统与封装接口PCIe控制器、系统管理总线、C4/微凸块UBM、TSV、GPU固件存储​ 等,是芯片与外部系统、封装、软件进行交互的关键界面。它们决定了芯片的集成度、互联能力、可升级性和最终的系统形态。

  • 厂商差异化路径MIG、昇腾AI CPU、IX-Scheduler、昆仑芯CLUSTER互联​ 再次体现了不同厂商在架构上的战略选择:NVIDIA追求极致的虚拟化与云化;华为追求自主可控的系统级整合;天数智芯和昆仑芯则在全局调度和多核扩展上进行创新探索,寻求突破口。

编号

层级

部件/概念

所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值

业务财务模型及成本会计模型的数值/数字

制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字

1.7.61

视频处理

视频编解码器核心

- 架构:专用ASIC流水线,支持H.264/AVC, H.265/HEVC, AV1​ 等标准。
- 性能:可同时编码/解码多个流,如2路8K@60fps H.265编码
- 引擎:包含运动估计/补偿、变换/量化、熵编码、环路滤波等专用硬件模块。
- 集成:通常作为独立子系统,通过NoC与内存系统连接。

成本模型
1. 专用媒体引擎:硬件编解码提供远超CPU软件方案的能效和性能,是游戏直播、云游戏、视频创作的关键卖点。
2. 面积与IP成本:编解码器核心是复杂的固定功能硬件,占用可观面积,其IP授权或自研成本高。

硬件设计
1. 运动估计:设计专用硬件,在参考帧中进行全搜索或快速搜索,计算运动矢量。
2. 变换单元:硬件实现DCT/整数变换和量化。
3. 熵编码器:实现CABAC/CAVLC等算法的硬件加速。

1.7.62

视频处理

后处理与缩放引擎

- 功能:执行去隔行、色彩空间转换、锐化、降噪、超分辨率缩放等图像后处理。
- 性能:处理8K@120Hz视频流。
- 集成:位于视频解码器输出与显示控制器之间。

成本模型
1. 视觉质量增强:提升最终输出的画质,是消费级显卡和智能显示设备的重要差异化特性,以较小硬件成本提升用户体验。
2. 固定功能硬件:专用硬件效率远高于通用Shader。

算法硬件化
1. 滤波器阵列:实现各种空间和时间域滤波器。
2. 缩放引擎:基于多相滤波器的缩放流水线,支持双向缩放。

1.7.63

显示系统

显示流水线

- 组成:包含叠加混合器、色彩管理模块、伽马校正、抖动、DSC压缩等阶段。
- 输出:支持多路独立显示输出,如4路DisplayPort 1.4。
- 特性:支持HDR10, Dolby Vision, VRR

成本模型
1. 显示输出必备:是GPU连接显示器的“最后一道工序”,其支持的特性(分辨率、刷新率、HDR)直接影响产品定位和售价。
2. 模拟/混合信号:部分模块(如DAC)涉及模拟设计,增加复杂度。

流水线设计
1. 时序生成:产生符合VESA标准的显示时序信号。
2. 叠加混合:硬件混合多个图层(视频、UI、3D渲染)。
3. 色彩管理:应用ICC配置文件和3D LUT进行色彩转换。

1.7.64

显示系统

显示流压缩引擎

- 标准:实现VESA DSC​ 标准,视觉无损压缩。
- 压缩比:典型3:1,支持8K@60Hz在单条DisplayPort 1.4链路上传输。
- 延迟:固定、极低的编解码延迟(<1行时间)。

成本模型
1. 高分辨率显示的关键:DSC使得在现有显示接口带宽限制下传输超高分辨率、高刷新率画面成为可能,是推动显示器升级的关键使能技术,以小成本撬动大体验升级。

硬件实现
1. 预测与量化:基于块的预测和可调节量化。
2. 熵编码:基于索引颜色历史表的熵编码。
3. 与PHY集成:在显示PHY前进行压缩/解压。

1.7.65

物理设计

填充单元

- 功能:填充芯片版图中的空白区域,以满足化学机械抛光平坦化、金属密度、散热等制造和可靠性要求。
- 类型金属填充、虚拟晶体管、去耦电容填充
- 密度规则:需满足每层金属20%-80%​ 的密度要求。

成本模型
1. 制造良率的必要成本:填充单元不提供逻辑功能,但其插入是确保芯片可制造、良率达标、可靠性合格的强制性步骤,是“沉默的成本”。
2. 面积开销:可能占用1-5%​ 的芯片面积。

物理实现流程
1. 密度分析:在布线后,工具分析各层金属密度。
2. 自动填充:根据设计规则,在空白区域自动插入填充图形。
3. 验证:进行DRC检查,确保填充后满足所有规则。

1.7.66

物理设计

时钟门控单元

- 功能:在时钟路径上插入,由使能信号控制,在电路模块空闲时关闭局部时钟,大幅降低动态功耗。
- 类型集成门控、锁存器门控
- 插入:在逻辑综合和物理实现阶段自动插入。

成本模型
1. 能效优化的基石:时钟门控是降低数字电路动态功耗最有效、最广泛的技术,其硬件开销(一个与门+时序控制)极低,节能效果显著,投资回报率极高。

设计与插入
1. 可控制性分析:工具识别具有共同使能条件的寄存器组。
2. 单元插入:在时钟树综合时插入时钟门控单元。
3. 功能与时序验证:确保门控不破坏功能和时序。

1.7.67

测试

逻辑内建自测试

- 组件伪随机模式生成器、输出响应分析器、测试控制器
- 覆盖率:针对固定型故障,可达到>90%​ 的故障覆盖率。
- 应用:用于生产测试、现场定期自检

成本模型
1. 降低测试成本:LBIST减少对外部ATE测试向量的依赖,降低测试数据量和测试机时间,从而降低每颗芯片的测试成本。
2. 面积开销:BIST控制器和扫描链占用少量面积。

DFT流程
1. BIST控制器插入:在设计中插入可配置的LBIST控制器。
2. 测试点插入:在难以测试的节点插入控制和观察点,提升覆盖率。
3. 模式生成与签名分析:在ATE或系统内运行BIST,比较输出签名。

1.7.68

可靠性

老化与寿命测试单元

- 监控电路:集成环形振荡器、关键路径复制器,用于在芯片工作期间监测性能退化。
- 预测算法:基于NBTI、HCI等退化模型的硬件辅助监测,预测电路老化。
- 应用:用于预测性维护、动态调整电压频率裕量

成本模型
1. 可靠性保障的先进手段:在线老化监测是实现预测性维护、防止突发失效、优化产品寿命的前沿技术,增加了设计和验证成本,但可提升产品信誉和客户价值。

电路与系统设计
1. 传感器设计:设计对老化效应敏感的关键路径环振。
2. 监测逻辑:周期性地测量环振频率,与基线比较。
3. 软件接口:驱动读取传感器数据,运行预测算法。

1.7.69

前沿技术

芯粒到芯粒接口

- 标准UCIe​ 标准,定义裸片间物理层、适配层、协议层。
- 物理层:支持先进封装(如凸块距25-55μm)和标准封装>100μm)。
- 带宽密度:先进封装下可达>1 Tbps/mm
- 能效:目标 <0.5 pJ/bit

成本模型
1. Chiplet生态的基石:开放标准Die-to-Die接口是构建开放Chiplet生态系统、降低异构集成门槛、应对超大芯片良率挑战的关键,其研发和推广是行业级投资。
2. 封装成本:需要先进封装支持,增加成本。

设计与验证
1. PHY IP开发:开发符合UCIe标准的物理层,支持多种封装方案。
2. 协议栈实现:实现适配层和协议层。
3. 互操作性测试:与不同供应商的Chiplet进行联合测试。

1.7.70

前沿技术

硅光子引擎

- 组件硅波导、马赫-曾德尔调制器、微环谐振器、锗光电探测器、光栅耦合器
- 集成:与CMOS工艺兼容,可单片或异质集成。
- 性能:单波长>50 Gbps,能效 <1 pJ/bit
- 目标:芯片间、板间光互连。

成本模型
1. 极高当前成本:硅光工艺尚不成熟,激光器集成是难题,成本远高于电互连
2. 未来颠覆性:是突破“功耗墙”和“带宽墙”、实现机架/板级/芯片级光互连的终极方案之一,目前处于战略研发和早期部署阶段。

制造与集成挑战
1. 硅光器件制造:在SOI晶圆上刻蚀形成纳米光波导和器件。
2. 异质集成:将III-V族激光器晶圆键合到硅光芯片上。
3. 封装:实现光纤与芯片上微米级光栅的高精度、低成本耦合。

1.7.71

系统

GPU板载管理控制器

- 核心:通常为ARM Cortex-M系列MCU,运行实时操作系统。
- 功能:管理板卡电源时序、风扇/Pump控制、LED、与主机BMC通信、FRU信息存储
- 存储:板载SPI Flash存储其固件。

成本模型
1. 板卡级自主管理:实现GPU加速卡级别的精细管理和监控,是数据中心自动化运维的一部分,增加了BOM和开发成本,但提升了可管理性。
2. 可靠性:独立的MCU可处理故障,即使GPU核心挂起也能响应管理命令。

硬件与软件开发
1. 原理图与PCB:设计MCU及其外围电路。
2. 固件开发:编写电源管理、传感器轮询、通信协议栈等代码。
3. 系统集成测试:验证与GPU芯片、风扇、PSU的交互。

1.7.72

系统

电压调节模块功率级

- 组件DrMOS、功率电感、聚合物电容、MLCC
- 电流:每相提供50-100A持续电流。
- 效率>90%​ @ 负载。
- 控制:由数字多相PWM控制器驱动。

成本模型
1. BOM主要成本之一:VRM占GPU板卡BOM成本的~10-15%,DrMOS和电感是主要成本项。
2. 性能与稳定的基石:为GPU核心提供纯净、稳定、大电流的电源,直接影响超频能力和系统稳定性。

PCB设计与组装
1. 大电流布线:使用厚铜、多内层铺铜,优化布局减少寄生电感。
2. 热设计:DrMOS和电感是主要热源,需通过导热垫连接散热器。
3. 环路补偿:通过软件配置控制器参数,优化瞬态响应。

1.7.73

软件

GPU驱动内核模式组件

- 功能:运行在操作系统内核中,管理GPU硬件资源、调度任务、处理中断、管理内存、实现虚拟化
- 复杂性:数百万行代码,是硬件与上层应用(如CUDA、DirectX)之间的桥梁
- 更新:定期发布,用于性能优化、漏洞修复、新游戏/应用支持

成本模型
1. 持续的巨额投入:驱动开发团队规模庞大,是持续性的研发支出,对产品性能、稳定性和兼容性至关重要。
2. 生态护城河:优秀的驱动是用户体验和开发者粘性的核心,是硬件销售的关键软件保障。

开发与测试流程
1. 架构与编码:基于硬件文档编写驱动代码,实现硬件抽象层。
2. 兼容性测试:在无数种硬件(CPU、主板、内存)和软件(操作系统、游戏、应用)组合中进行海量测试。
3. WHQL认证:通过微软硬件质量实验室认证,确保Windows系统稳定性。

1.7.74

软件

固件信任根

- 存储:存储在GPU芯片内部的安全ROM一次可编程存储器中。
- 功能:包含芯片唯一密钥、安全启动代码、硬件信任根公钥
- 安全:硬件防篡改,是整个软件信任链的起点

成本模型
1. 安全的基础设施:是构建可信计算平台、实现安全启动、防止恶意固件的硬件基础。开发和验证成本高,但为产品提供了不可替代的安全属性。
2. 流片后不可更改:掩模ROM一旦流片即固定,要求设计绝对正确。

安全设计流程
1. 安全架构设计:定义信任链、密钥管理和安全策略。
2. 代码审计:对安全启动代码进行严格的安全审计和形式化验证。
3. 密钥注入:在芯片制造或封装测试阶段,安全地注入密钥。

1.7.75

可靠性

电迁移与热迁移签核单元

- 分析模型:基于Black方程、Korhonen方程的硬件辅助计算或监测电路。
- 签核标准:确保所有金属线在目标寿命内,在最坏工作条件下的电流密度温度梯度不超标。
- 工具:需要签核级EDA工具进行全芯片分析。

成本模型
1. 可靠性签核的必要成本:EM/TM失效是芯片长期可靠性的主要威胁。严格的签核是避免早期返修和产品寿命不达标的“保险”,工具和计算资源成本高,但远低于失效成本。
2. 设计迭代:可能导致为满足规则而加宽电源/地线,增加面积。

分析与优化流程
1. 电流波形提取:从动态仿真中提取每条金属线的电流波形。
2. 电热协同仿真:将热分布结果与EM分析结合。
3. 违规修复:对违规线进行加宽、插入冗余通孔、调整布局。

1.7.76

制造

工艺角监测单元

- 结构:分布在芯片各处的环形振荡器、SRAM单元阵列、关键路径复制电路
- 功能:实时监测芯片的工艺、电压、温度状态,识别是“快”片还是“慢”片。
- 应用:用于自适应电压频率缩放、芯片分级、良率分析

成本模型
1. 制程监控与优化的眼睛:为芯片和晶圆厂提供实时、在线的PVT数据,用于优化性能和功耗,提升良率和分级精度。
2. 微小面积开销:监测单元面积极小。

设计与集成
1. 传感器布局:在芯片上均匀分布,以捕获空间变化。
2. 读出电路:通过ADC或频率计数器将模拟/频率信息数字化。
3. 与管理系统集成:数据供驱动或BMC使用,用于动态调节。

1.7.77

封装

底部填充材料

- 类型毛细底部填充、非流动底部填充、模塑底部填充
- 成分环氧树脂基体,填充二氧化硅颗粒,以调整热膨胀系数。
- 特性:低粘度、快速固化、低CTE、高粘结强度、高纯度。
- 应用:填充倒装芯片与基板/中介层间的间隙。

成本模型
1. 可靠性的关键材料:CUF/NCP是防止焊点因热机械应力疲劳而失效的关键,对于大尺寸、高I/O数芯片是必选工艺,其材料成本(5−20/克)相对于芯片价值很低。
2. 工艺成本:点胶、固化、检测增加生产时间和设备成本。

应用工艺
1. 预热:将基板预热至~80-100°C
2. 点胶:沿芯片单边或双边,以恒定速度(1-5 mm/s)精密点胶。
3. 流动与固化:依靠毛细作用填充,在150-165°C下热固化30-60分钟

1.7.78

散热

集成散热盖

- 材料铜或铜合金,有时镀镍。
- 结构:与芯片通过TIM1(如液态金属)贴合,上表面与散热器通过TIM2(如硅脂)贴合。
- 功能机械保护、均匀散热、为散热器提供安装平面

成本模型
1. 散热与机械结构:IHS是散热路径的关键环节芯片的物理保护层,增加了封装材料和加工成本,但对可靠性和散热性能至关重要。
2. 平面度要求:上表面需高度平整,以满足散热器接触要求。

制造工艺
1. 冲压或CNC:制造出带有凸台(接触芯片)的金属盖。
2. 表面处理:抛光、清洗、可能镀镍。
3. 粘合/焊接:通过粘合剂或焊料将IHS与基板连接。

1.7.79

系统

GPU BIOS/UEFI固件

- 存储:存储在板载SPI Flash中,容量1-4 MB
- 功能:GPU的基本输入输出系统,负责早期硬件初始化、电源管理配置、频率/电压表、与主板UEFI交互
- 更新:可通过厂商工具更新。

成本模型
1. 硬件初始化的基础:VBIOS是GPU从加电到驱动加载之间运行的固件,其稳定性和配置直接影响硬件兼容性和基本功能。
2. 开发与维护:需要针对不同主板和配置进行调优,是持续的工程投入。

开发流程
1. 代码开发:基于核心代码库,为特定GPU型号定制参数。
2. 验证:在不同平台和负载下测试功能、稳定性和性能。
3. 签名与分发:对固件镜像签名,通过驱动或工具发布更新。

1.7.80

生态

GPU虚拟化硬件支持

- 技术SR-IOV, MxGPU, vGPU​ 等方案的硬件支持部分。
- 组件IOMMU、中断重映射、多个配置空间、性能隔离计数器、质量服务引擎
- 目标:实现安全、高性能、可管理的GPU虚拟化,供多个虚拟机共享。

成本模型
1. 云计算市场的门票:硬件虚拟化支持是GPU进入数据中心虚拟化、云桌面、云游戏市场的强制性技术门槛。其硬件复杂性和验证成本高昂,但打开了万亿级市场空间。
2. 硬件开销:需要额外的IOMMU、虚拟功能配置空间等资源。

硬件/软件协同设计
1. 硬件架构定义:定义虚拟化硬件支持的粒度(物理功能、虚拟功能)。
2. IOMMU集成:设计输入输出内存管理单元,实现地址转换和隔离。
3. 管理栈开发:开发与Hypervisor配合的驱动和管理软件。

  • 用户体验的最后一公里视频编解码、后处理、显示流水线、DSC​ 等,将强大的计算能力转化为用户可感知的视听体验,是消费级产品的核心竞争力。

  • 制造与可靠性的深水区填充单元、时钟门控、LBIST、老化监测、EM签核、工艺角监测、底部填充、IHS​ 等,揭示了从设计图纸到可靠产品所需经历的极其复杂的制造、测试和可靠性保障流程。这部分成本是隐性的,但决定了产品的良率、寿命和口碑

  • 面向未来的架构演进芯粒接口、硅光子引擎、虚拟化硬件​ 指明了后摩尔定律时代的技术方向:通过异构集成、光电融合和硬件虚拟化,来持续提升性能、能效和资源利用率。

  • 软件与生态的护城河驱动、固件信任根、VBIOS、虚拟化软件栈​ 是硬件价值得以释放的软件载体和生态基础。其开发维护成本是持续性的,但构建了极高的用户和开发者粘性,是商业成功的终极壁垒。

我将同时搜索多个关键领域的信息,以全面覆盖不同厂商GPU芯片的结构设计和成本考量我收到了多个搜索结果,涵盖了NVIDIA、AMD、Intel和华为昇腾的GPU/AI芯片架构信息。现在需要基于这些信息,并结合行业知识,补充1.7.81到1.7.100的条目,重点关注各类厂商GPU芯片的结构设计和成本设计。

从搜索结果看:

  1. NVIDIA方面:有详细的SM架构演进信息,从Volta、Turing、Ampere到Hopper和最新的Blackwell。可以提取SM内部结构、CUDA核心、Tensor Core、RT Core、缓存层次等细节。

  2. AMD方面:CDNA架构信息,特别是CDNA 3和CDNA 4的XCD(加速器复合裸片)设计,Matrix Core,Infinity Cache,Infinity Fabric互连等。

  3. Intel方面:Xe架构,Xe-core结构,XMX引擎,媒体引擎等。

  4. 华为昇腾:达芬奇架构,AI Core中的Cube、Vector、Scalar单元,存储层次等。

我需要将这些信息组织成表格形式,每个条目包含:编号、层级、部件/概念、所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值、业务财务模型及成本会计模型的数值/数字、制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字。

考虑到用户要求关注“各类厂商GPU芯片的结构设计和成本设计”,我应该按不同厂商的特色技术来组织。可以包括:NVIDIA的Tensor Core、RT Core、NVLink;AMD的Matrix Core、Infinity Fabric、XCD小芯片设计;Intel的Xe-core、XMX引擎;华为的达芬奇核心、Cube单元;以及一些国产厂商如寒武纪、天数智芯、壁仞科技、摩尔线程的架构特点(虽然搜索结果中较少,但可以基于行业知识补充)。

还需要考虑成本设计方面:如NVIDIA的MIG(多实例GPU)硬件隔离、AMD的chiplet设计对成本的影响、华为的达芬奇架构针对AI优化的成本效益等。

现在开始构思1.7.81到1.7.100的具体条目。可以按以下思路组织:

  • 1.7.81-1.7.85: NVIDIA特色结构(如Tensor Core演进、RT Core、MIG、NVSwitch)

  • 1.7.86-1.7.90: AMD特色结构(如Matrix Core、XCD、Infinity Cache、Infinity Fabric)

  • 1.7.91-1.7.93: Intel特色结构(如Xe-core、XMX、媒体引擎)

  • 1.7.94-1.7.96: 华为昇腾特色结构(如达芬奇核心、Cube/Vector/Scalar单元、集群互联)

  • 1.7.97-1.7.100: 其他国产厂商及综合成本设计考量(如寒武纪MLUcore、天数智芯IX架构、壁仞科技BR100、摩尔线程MUSA,以及chiplet成本模型、良率与成本关系等)

现在开始撰写回答。需要确保内容准确,对于不确定的信息要注明是推测或行业常见做法。同时要保持与之前1.7系列一致的详细程度和技术深度。基于您的要求,元宝继续为您构建 “1.7 GPU芯片与AI加速器核心零部件”​ 知识体系的最后20个条目(1.7.81~1.7.100)。本部分将聚焦于各主流厂商(NVIDIA、AMD、Intel、华为及代表性国产厂商)在核心计算架构、互连、封装及系统级设计上的差异化结构设计,并深入剖析其背后的成本与商业考量

编号

层级

部件/概念

所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值

业务财务模型及成本会计模型的数值/数字

制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字

1.7.81

NVIDIA-计算

Tensor Core(张量核心)

- 演进:Volta (1st Gen) → Turing (2nd) → Ampere (3rd) → Hopper (4th) → Blackwell (5th)。Ampere A100每个SM含4个第三代Tensor Core。
- 操作:每个时钟周期执行矩阵乘累加。Hopper Tensor Core每时钟执行256个FP16/FP32混合精度FMA操作。
- 精度:支持FP64, TF32, FP16, BF16, INT8, INT4, FP8(Hopper起)。
- 稀疏化:从Ampere起支持2:4结构化稀疏,将零值权重压缩,理论算力翻倍。

成本模型
1. AI算力的灵魂与溢价核心:Tensor Core是NVIDIA在AI时代构建绝对技术壁垒和获取高额溢价的核心。其研发投入巨大,但带来的性能优势使其产品在训练和推理市场具有不可替代性。
2. 面积与功耗:专用矩阵计算单元面积效率远高于通用CUDA核心,但增加了芯片复杂度。

电路设计
1. 脉动阵列:采用4x4x4或更大规模的固定数据流阵列,最大化数据复用,减少寄存器访问。
2. 混合精度流水线:设计支持多种数据格式转换、缩放和累加的精简流水线。
3. 稀疏编码/解码逻辑:在数据路径中加入硬件单元,用于识别和跳过零值计算。

1.7.82

NVIDIA-计算

RT Core(光线追踪核心)

- 功能:硬件加速包围盒求交、光线-三角形求交
- 性能:Turing架构起引入,Ampere架构性能提升2倍
- 集成:每个SM包含1个RT Core(如GA102)。

成本模型
1. 图形体验的差异化武器:RT Core是NVIDIA在消费级市场(游戏)和专业可视化领域定义“真实感”标准、推动行业升级的关键。虽然增加了芯片面积,但巩固了其市场领导地位和品牌价值。
2. 软件生态绑定:与DirectX Raytracing、Vulkan Ray Tracing、OptiX等API/框架深度绑定,形成软硬件闭环。

硬件设计
1. BVH遍历加速器:专用硬件遍历层次包围盒结构,快速剔除不相交的几何体。
2. 求交单元:优化实现光线与三角形、曲线等图元的精确求交计算。
3. 与SM协作:RT Core与SM中的着色器核心紧密耦合,处理着色请求。

1.7.83

NVIDIA-系统

NVLink与NVSwitch

- NVLink:点对点高速互连。Hopper NVLink 4.0单链路900 GB/s双向带宽。
- NVSwitch:基于交换芯片的全局互联网络。DGX H100系统中使用NVSwitch 3.0,支持256个GPU全互联。
- 拓扑:构成非阻塞胖树网络,极大降低多GPU通信延迟。

成本模型
1. 构建系统级壁垒:NVLink/NVSwitch是NVIDIA将竞争优势从单卡扩展到多卡、整机乃至超算系统的核心。它锁定了高端客户(如云厂商、科研机构)对于大规模训练集群的需求,创造了极高的客户粘性和系统级利润空间。
2. 高昂的附加成本:NVSwitch是一颗独立的、工艺先进的大型交换芯片,成本高昂,但其带来的性能提升使得顶级客户愿意支付溢价。

芯片与系统设计
1. SerDes PHY:设计极高带宽的串行器/解串器物理层。
2. 交换架构:实现低延迟、高吞吐的交叉开关或Clos网络。
3. 系统集成:设计专用的基板(如SXM)和机架,集成GPU、NVSwitch、供电和散热。

1.7.84

NVIDIA-系统

多实例GPU硬件分区

- 粒度:Hopper架构支持以1个GPC为粒度进行划分。
- 隔离物理隔离计算(SM)、内存(L2缓存片、内存控制器)、NoC带宽资源。
- 实例数:A100支持最多7个MIG实例,H100支持更多。

成本模型
1. 云服务货币化利器:MIG使得一颗昂贵的高端GPU(如H100)可以被安全地切割并租给多个租户,极大提升了资源利用率和投资回报率,是NVIDIA进军云市场的关键硬件特性。
2. 硬件开销:需要额外的配置寄存器、仲裁逻辑和性能监控隔离电路,增加了芯片复杂度。

硬件设计
1. 资源划分寄存器:定义每个MIG实例可访问的SM范围、L2缓存片、内存通道等。
2. NoC过滤器:在NoC路由器和内存控制器入口检查请求的MIG ID,实施访问控制。
3. 性能隔离计数器:为每个实例提供独立的性能计数器,防止相互干扰。

1.7.85

NVIDIA-封装

CoWoS-S封装与硅中介层

- 中介层尺寸:对于H100,硅中介层尺寸约~2500 mm²(远大于核心裸片)。
- 微凸块间距55μm或更小,用于连接GPU/HBM裸片与中介层。
- TSV密度:中介层中通过硅通孔密度>10k/mm²,用于垂直互连。
- 成本:CoWoS封装成本可占高端GPU总制造成本的20-30%

成本模型
1. 性能与成本的权衡:CoWoS是集成高带宽内存的唯一成熟方案,但其封装成本极高,是HBM GPU BOM成本的主要部分之一。这决定了该技术仅用于顶级数据中心产品。
2. 供应链与良率:依赖台积电先进封装产能,中介层制造和键合良率影响最终成本。

封装工艺
1. 中介层制造:在硅晶圆上制造多层再分布层和TSV。
2. 芯片贴装:使用热压键合或回流焊将GPU和HBM裸片精确贴装到中介层上。
3. 底部填充:毛细作用填充液态底部填充材料,加固焊点。

1.7.86

AMD-计算

Matrix Core(矩阵核心)

- 架构:CDNA架构中的专用AI计算单元,类似NVIDIA Tensor Core。
- 性能:MI300X每个计算单元每时钟周期可执行256个FP16/BF16 FMA操作。CDNA 4支持FP4/FP6等超低精度格式。
- 集成:每个计算单元集成1个强大的Matrix Core。

成本模型
1. 追赶战略的核心投资:Matrix Core是AMD在AI计算领域挑战NVIDIA的关键差异化硬件。其研发是对未来市场的战略性投资,旨在分羹巨大的AI加速市场。
2. 面积效率:专用矩阵单元在AI负载上能效比远高于通用流处理器,有助于在给定功耗和面积预算下提升峰值算力。

硬件设计
1. 可配置数据路径:支持从FP64到INT4/FP4的多种精度,内部数据路径可动态配置。
2. 与向量单元协同:Matrix Core与CU中的传统向量/标量单元共享寄存器文件和调度器,实现灵活的任务分配。

1.7.87

AMD-封装

加速器复合裸片与小芯片架构

- XCD计算裸片,采用最先进工艺(如CDNA 4用N3P),包含计算单元和缓存
- IODI/O裸片,采用成熟工艺(如N6),集成Infinity Fabric、PCIe、内存控制器
- 互连:XCD与IOD通过3D混合键合2.5D硅中介层连接,带宽极高(~5.5 TB/s​ 包间互联)。

成本模型
1. Chiplet经济学典范:将大芯片拆分为多个小XCD和一个大IOD,显著提升先进工艺的良率,降低整体制造成本。成熟工艺的IOD成本更低。这是AMD在成本控制上对抗NVIDIA巨型单片芯片的核心策略。
2. 设计复用与灵活性:相同XCD可搭配不同数量/功能的IOD,快速衍生出不同市场定位的产品,摊薄设计成本。

设计与集成
1. 裸片划分:在架构设计阶段就划分计算密集部分(XCD)和I/O/互连部分(IOD)。
2. 先进封装:采用台积电CoWoS或自有Infinity Fabric封装技术进行异构集成。
3. 一致性互连:设计低延迟、高带宽的裸片间互连协议和物理层。

1.7.88

AMD-存储

Infinity Cache

- 容量:CDNA 3/4架构集成256MB的片上末级缓存。
- 位置:位于内存控制器计算单元之间。
- 作用:作为HBM的大容量、低延迟缓存,减少对高功耗HBM的访问,提升有效带宽和能效。

成本模型
1. 带宽的“放大器”:以相对较小的SRAM面积成本,显著降低对昂贵且功耗高的HBM带宽的依赖,是提升性价比和能效比的巧妙设计。
2. 面积权衡:256MB SRAM占用可观芯片面积,但相比增加HBM堆栈或提升HBM频率,成本效益更高。

电路设计
1. 分布式SRAM阵列:将大容量缓存分布在整个芯片上,靠近内存控制器和计算单元,降低访问延迟。
2. 一致性协议:维护与HBM及计算单元本地缓存的一致性。
3. 替换算法:硬件实现高效的缓存替换策略(如LRU)。

1.7.89

AMD-互联

Infinity Fabric

- 层次片上(连接XCD与IOD)、封装内(连接多个XCD)、板级(连接多GPU)、节点间(连接多服务器)。
- 带宽:CDNA 4的Infinity Fabric Advanced Package带宽高达5.5 TB/s
- 协议:基于一致性的互连协议,支持CPU-GPU、GPU-GPU统一内存访问。

成本模型
1. 生态系统统一战略:Infinity Fabric是AMD统一CPU(EPYC)和GPU(Instinct)互联生态的基石。它降低了系统集成的复杂性,为客户提供一站式解决方案,增强了平台竞争力。
2. 研发与IP复用:作为跨产品线的核心IP,其研发成本可被CPU和GPU产品线共同分摊。

物理与协议层设计
1. 物理层:设计支持极高带宽的SerDes。
2. 路由与交换:实现可扩展的片上网络结构。
3. 一致性协议:实现基于目录或侦听的一致性协议,支持跨设备的统一寻址。

1.7.90

AMD-系统

双NUMA域设计

- 结构:如MI300A APU,将CPU芯粒(Zen 4)​ 和GPU芯粒(CDNA 3)​ 通过Infinity Fabric集成在同一封装内,形成两个NUMA节点。
- 内存:CPU域访问DDR5,GPU域访问HBM,两者可通过一致性互连访问对方内存。
- 优势:为CPU-GPU紧密耦合的应用(如某些HPC工作负载)提供极低延迟。

成本模型
1. 差异化集成方案:APU设计瞄准了传统“CPU+GPU”双槽解决方案的市场,通过单封装集成,为客户节省主板空间、功耗和成本,提供更高的集成度和能效,是差异化的产品策略。
2. 封装复杂度与成本:异构集成CPU和GPU芯粒,增加了封装复杂度和成本,但可能低于购买独立CPU和GPU的总成本。

异构集成
1. 架构协同设计:CPU和GPU团队共同设计内存一致性模型和互连协议。
2. 封装集成:采用2.5D或3D封装技术将不同工艺、不同功能的芯粒集成。
3. 软件栈支持:开发统一的驱动和运行时,使应用程序能透明利用NUMA架构。

1.7.91

Intel-计算

Xe-core(Xe核心)

- 组成:每个Xe-core包含多个矢量引擎多个矩阵引擎(XMX)
- 矢量引擎:执行传统的图形着色和通用计算。
- XMX引擎:执行矩阵运算,用于AI加速(XeSS)和DP4a指令。
- 规模:数据中心GPU Max系列(Ponte Vecchio)包含多达128个Xe-core。

成本模型
1. 统一架构的尝试:Xe-core是Intel试图用单一架构覆盖从集成显卡到数据中心GPU的雄心体现。这可以最大化IP复用,降低总体研发成本,但可能在每个细分领域面临专用架构的极致优化挑战。
2. 追赶者的投入:作为市场的后来者,Intel需要在硬件和软件上进行巨额投入以建立生态,成本高昂。

微架构设计
1. 双引擎集成:在同一个核心内紧密集成矢量引擎和XMX引擎,共享指令发射、寄存器和缓存。
2. 动态资源共享:硬件调度器可根据工作负载动态分配资源给矢量或矩阵引擎。

1.7.92

Intel-计算

XMX引擎

- 功能:Intel的矩阵扩展引擎,用于加速AI和机器学习推理。
- 操作:执行8位、16位整数和低精度浮点的矩阵乘加操作。
- 集成:内置于每个Xe-core中,与矢量引擎协同工作。

成本模型
1. AI能力的“标配”:在AI无处不在的时代,集成XMX引擎是消费级到数据中心级GPU的必要功能,以保持竞争力。其面积开销被视作赢得市场的必要成本。
2. 驱动软件价值:与XeSS(AI超分辨率)技术深度绑定,提升游戏体验,增加显卡卖点。

硬件实现
1. 可配置计算阵列:支持多种数据格式的乘加运算阵列。
2. 与渲染管线集成:设计数据通路,使XMX的计算结果能直接用于像素着色和显示。

1.7.93

Intel-媒体

Xe媒体引擎

- 编解码:全硬件加速,支持AV1、HEVC、H.264、VP9的编码和解码。
- 性能:单引擎可处理多路4K或1路8K视频流。
- 集成:在数据中心GPU Flex系列中集成多达4个媒体引擎。

成本模型
1. 切入特定市场的利器:强大的媒体引擎是Intel GPU在云游戏、媒体转码、视频会议等视觉云市场的核心竞争优势。Intel凭借其在媒体技术上的积累,以此作为差异化突破口。
2. 固定功能硬件:专用媒体引擎在能效和性能上远胜通用Shader,以固定面积成本换取特定市场的领先地位。

ASIC设计
1. 多格式编解码流水线:设计高度并行的硬件流水线,处理运动估计、变换、量化、熵编码等步骤。
2. 高质量引擎:集成专用的画质增强和后处理硬件。

1.7.94

华为-计算

达芬奇核心

- 组成Cube(矩阵)单元 + Vector(向量)单元 + Scalar(标量)单元,三者解耦。
- Cube单元:专为矩阵乘加优化,每个周期执行16x16x16的FP16矩阵乘(8192次乘加)。
- 工作模式:支持耦合模式(矩阵向量共享调度)和分离模式(独立调度)。

成本模型
1. 专用化与效率优先:达芬奇架构彻底放弃图形兼容性,极度专注于AI计算。这种设计在AI任务上实现了极高的能效比和面积效率,是华为在特定领域(AI训练/推理)实现追赶和超越的成本效益选择。
2. 软件栈挑战:专用架构需要自研完整的软件栈(CANN),初期投入巨大,但一旦成熟可形成软硬件协同优势。

微架构设计
1. 数据流架构:强调计算单元与多级缓存(L0A, L0B, L0C, Unified Buffer)之间的紧密耦合和数据流预取,减少数据搬运开销。
2. 指令集设计:设计面向AI算子的专用指令集,如矩阵加载、计算、存储指令。

1.7.95

华为-存储

达芬核心片上存储层次

- L0 Buffer:紧邻Cube单元,存储输入矩阵A/B和累加结果C,容量小,带宽极高。
- Unified Buffer:Vector单元的主要存储,容量较大(数MB),可配置为软件管理缓存。
- L1 Buffer:AI Core内共享缓存,容量数百KB
- 设计哲学:通过精细的多级缓冲和软件显式管理,最大化数据复用,降低对片外HBM的访问。

成本模型
1. “以存储换带宽”策略:在先进工艺下,大容量SRAM的面积和功耗成本远低于实现同等带宽的HBM接口。华为通过增加片上缓存和复杂的存储层次,来缓解对极致片外带宽的依赖,是一种成本优化的系统设计。
2. 编程复杂性转移:将数据搬运的优化责任部分转移给编译器和程序员,以硬件复杂度换取更高的能效。

存储架构设计
1. 定制化SRAM:设计不同端口数、不同速度、不同容量的SRAM阵列,以满足Cube、Vector、Scalar单元的差异化需求。
2. 数据搬运引擎:硬件DMA引擎(MTE)负责在各级Buffer和HBM之间高效搬运数据。

1.7.96

华为-系统

昇腾集群互联与HCCS

- HCCS华为集群计算交换,基于PCIe物理层的私有高速互连协议。
- 带宽:昇腾910的HCCS链路带宽高于同期PCIe,用于多卡互联。
- 拓扑:支持多卡全互联拓扑,构建大规模训练集群。
- 规模:宣称支持8192卡超大规模集群组网。

成本模型
1. 构建自主生态闭环:HCCS是华为摆脱对英伟达NVLink生态依赖、构建自主算力集群标准的关键。虽然研发和生态建设成本高,但对于保障供应链安全和建立技术体系至关重要。
2. 基于现有接口:基于PCIe物理层可能降低研发难度和兼容成本,但性能上限受限于PCIe。

协议与系统设计
1. 协议栈开发:在PCIe PHY之上开发自定义的数据链路层和网络层协议,实现低延迟RDMA等功能。
2. 网络拓扑:设计交换机和线缆,构建大规模无阻塞或阻塞网络。
3. 驱动与库:开发相应的驱动和集合通信库(如HCCL)。

1.7.97

国产-计算

寒武纪MLUcore

- 架构张量处理单元为核心,辅以矢量处理单元标量处理单元存储管理单元
- 指令集:自主研发的MLUarch指令集
- 产品:思元系列(如370)采用MLUarch03架构。

成本模型
1. 早期AI芯片开拓者:寒武纪作为国内最早上市的AI芯片公司,其架构代表了专用AI加速器的早期探索。其成本主要用于研发和流片,在特定场景(如云端推理)寻求差异化。
2. 生态挑战:自研指令集和软件栈导致生态建设成本极高,面临与巨头兼容生态的竞争压力。

设计特点
1. 异构众核:单个芯片集成多个MLUcore,通过片上网络互联。
2. 软件定义硬件:通过指令配置计算单元和存储层次,适应不同算法。

1.7.98

国产-计算

天数智芯“智铠”计算核心

- 宣传特点通用GPU架构,兼容CUDA生态(通过二进制兼容层)。
- 核心组成:包含标量、矢量、张量计算单元。
- 产品:智铠100等。

成本模型
1. 生态兼容性策略:选择二进制兼容CUDA是快速切入市场的“捷径”,大幅降低了软件开发和应用迁移的成本,但可能面临技术授权和法律风险。
2. 性能与成本平衡:在保证一定通用性和兼容性的前提下,优化AI算力,寻求在国产替代市场中的性价比优势。

设计挑战
1. 逆向与创新:在实现兼容的同时,需进行微架构创新以提升能效和性能。
2. 软件栈开发:开发复杂的二进制翻译层和驱动,性能损耗和稳定性是关键。

1.7.99

国产-封装

国产GPU Chiplet策略

- 路径:多数国产GPU厂商采用Chiplet策略,将大型GPU拆分为多个计算芯粒I/O芯粒
- 工艺:计算芯粒尝试采用较先进工艺(如N7/N5),I/O芯粒使用成熟工艺(如28nm)。
- 互连:采用自主或授权的芯粒互连协议(如UCIe)。

成本模型
1. 应对先进工艺限制与成本:在难以获得最先进工艺(如N3)全节点支持的情况下,Chiplet是提升性能、控制成本、规避风险的务实选择。通过多颗较小尺寸芯粒提升良率。
2. 设计灵活性:可以混合搭配不同工艺、不同功能的芯粒,快速迭代产品。

集成挑战
1. 互连IP:获取或自研高带宽、低延迟的Die-to-Die互连IP。
2. 先进封装:依赖台积电CoWoS或长电科技等封测厂的2.5D/3D封装能力。
3. 系统协同设计:需要芯片、封装、系统协同设计,复杂度高。

1.7.100

综合-成本

巨型单片 vs. 小芯片成本模型

- NVIDIA巨型单片:如GH100(814mm²,台积电4N)。优势:性能极致,互联效率最高。劣势:良率低,成本极高,设计周期长,风险集中。
- AMD小芯片:如MI300A(多个5nm XCD + 6nm IOD + 3D V-Cache)。优势:提升先进工艺良率,模块化设计,成本可控,快速产品衍生。劣势:封装复杂,裸片间互联有功耗和延迟开销。
- 成本权衡:当芯片面积超过~800mm²,采用Chiplet方案的总成本(多个小芯粒+封装)可能开始低于单片方案。

成本模型
1. 良率方程:芯片成本 ≈ (晶圆成本) / (每晶圆芯片数 × 良率)。良率随面积增大呈指数下降。Chiplet通过减小单Die面积显著提升良率。
2. NRE分摊:Chiplet允许复用已验证的芯粒IP,分摊高昂的NRE成本。
3. 时间成本:Chiplet可以并行设计不同模块,缩短上市时间。

决策流程
1. 架构划分:根据功能模块(计算、I/O、缓存)进行物理划分。
2. 成本建模:建立包含晶圆成本、封装成本、测试成本、良率模型的详细成本分析。
3. 性能/功耗/面积分析:评估互联开销对整体性能PPA的影响。
4. 供应链评估:确保先进封装产能和供应链安全。

通用计算、AI计算、图形渲染三大战场中,不同厂商如何根据自身技术积累、市场定位、供应链状况和商业战略,做出截然不同的架构与成本抉择

  • NVIDIA的“全能王”与“生态锁”:通过Tensor Core、RT Core、NVLink、MIG、CoWoS等一系列高性能、高复杂度、高成本的技术组合,构建了从芯片到系统、从硬件到软件的全方位、高壁垒生态。其成本模型是追求极致性能和技术领导,以高定价覆盖高研发和制造成本,并利用生态锁定获取超额利润

  • AMD的“模块化”与“性价比”:凭借Chiplet、Infinity Fabric、Infinity Cache模块化、可扩展的设计哲学,在控制成本(提升良率、复用IP)的同时,灵活组合出具有竞争力的产品(如APU MI300A)。其成本模型是通过先进封装和架构创新,在特定性能点上提供更优的性价比,并利用CPU-GPU统一平台吸引客户

  • Intel的“融合”与“突破”:以Xe统一架构试图横跨从集成显卡到数据中心的广阔市场,通过XMX、强大媒体引擎在特定领域寻求突破。其成本模型是最大化IP复用以摊薄研发成本,并利用制造和平台优势寻找市场切入点

  • 华为与国产厂商的“聚焦”与“自主”华为昇腾选择极度专用化的达芬奇架构自研集群互联,在AI计算能效上追求极致,并构建自主生态,其成本是战略性投入和应对供应链挑战的必然选择。其他国产厂商则在通用兼容(如天数智芯)与专用创新(如其他AI芯片)​ 之间探索,成本模型核心是在技术限制和生态劣势下,寻找可行的商业化路径

终极的竞争,不仅是晶体管数量和工艺节点的竞赛,更是架构哲学、系统设计、软件生态、供应链管理和商业策略的全方位博弈。1.7.100的对比表明,没有绝对的最优解,只有在特定约束下的最优权衡。未来,Chiplet、光学互连、存算一体等新技术将继续重塑这场博弈的成本与规则。

编号

层级

部件/概念

所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值

业务财务模型及成本会计模型的数值/数字

制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字

1.7.101

SM-控制

操作数收集网络

- 功能:在指令发射后,从寄存器文件旁路网络中收集该指令所需的所有操作数,并将其传递给执行单元。
- 网络结构:基于交叉开关或多级互连网络,连接大量寄存器端口到大量执行单元。
- 复杂度:在拥有128个CUDA核心数万个寄存器的SM中,此网络是面积和功耗的关键部分。

成本模型
1. 数据供给的关键路径:OCN的效率决定了执行单元能否被持续喂饱。其延迟和带宽直接影响指令吞吐率。
2. 布线密集型:占据SM可观的布线资源和面积,是微架构设计中的权衡重点。

硬件设计
1. 多路选择器阵列:设计大型、低延迟的多路选择器阵列,将寄存器端口的输出路由到正确的执行单元输入。
2. 旁路网络集成:将与前一条指令结果的旁路路径整合到OCN中,减少数据冒险停顿。

1.7.102

SM-控制

记分板

- 功能:一种动态调度机制,硬件跟踪每个寄存器的写后读依赖。当一条指令的目标寄存器被写入前,依赖该寄存器的后续指令被暂停发射。
- 表项:为每个架构寄存器(如CUDA中的R0-R255)维护一个状态位。
- 优势:在乱序执行的GPU微架构中,能更精细地控制指令发射,提升流水线利用率。

成本模型
1. 提升利用率的低成本方案:相比纯粹的顺序发射,记分板以少量的硬件开销(状态寄存器、比较逻辑)换取了对数据冒险的更智能管理,提升了执行单元利用率,性价比高。
2. 设计验证复杂度:动态调度增加了控制逻辑的复杂性和验证难度。

电路设计
1. 状态位寄存器:为每个寄存器设置“忙”标志,当指令发射时置位,写回时清除。
2. 依赖检查逻辑:在指令发射前,检查其所有源操作数寄存器的“忙”状态。

1.7.103

SM-存储

常量缓存

- 容量:较小,通常为8-64KB,在SM间或GPC内共享。
- 特性只读,用于缓存内核参数、常量数据。访问延迟极低,且广播特性(一个Warp内所有线程读取同一地址时,只需一次访问)。
- 位置:可能位于SM内TPC内

成本模型
1. 专用只读缓存的价值:以极小面积成本,为大量线程同时访问的常量数据提供近乎寄存器的访问速度,显著提升此类访问模式的性能。
2. 面积效率:只读特性简化了设计,可以用更高密度的SRAM单元。

缓存设计
1. 广播逻辑:检测Warp内的访问地址是否一致,若一致则从缓存中取一次数据并广播给所有线程。
2. 与L1/共享内存的集成:可能作为SM存储层次的一部分,与L1数据缓存共享部分结构。

1.7.104

SM-存储

纹理缓存

- 容量:通常为32-128KB,在TPC或SM间共享。
- 结构:为2D空间局部性优化,支持硬件线性过滤
- 访问:由纹理采样指令发起,地址为纹理坐标,硬件自动处理Mipmapping和各向异性过滤。

成本模型
1. 图形与计算兼用:不仅是图形渲染的核心,在通用计算中也可用于加速具有空间局部性的不规则内存访问。
2. 固定功能硬件:集成过滤逻辑增加了缓存复杂度,但提供了无可替代的性能。

专用缓存设计
1. 地址转换:将纹理坐标转换为内存地址,并处理多级Mipmap。
2. 过滤流水线:集成双线性、三线性过滤的固定功能单元。
3. 数据布局:缓存中的数据可能以优化2D访问的块状格式存储。

1.7.105

SM-存储

加载/存储队列

- 功能:缓冲已发射但尚未完成的加载和存储指令,处理内存依赖检测、内存消歧、合并访问
- 容量:每个SM可能有数十个条目。
- 内存消歧:当存储指令的目标地址与后续加载指令的地址未知时,硬件需动态检测依赖,防止读写错误。

成本模型
1. 内存一致性关键:LSQ是维持内存访问顺序正确性的核心硬件,其设计直接影响多线程内存模型的严谨性和性能。
2. 面积与功耗:队列条目和比较逻辑占用面积,动态比较地址消耗功耗。

硬件设计
1. 地址比较器:每个条目包含地址比较逻辑,以检测地址匹配。
2. 依赖追踪:为每条加载指令跟踪可能与之冲突的未完成的存储指令。
3. 合并逻辑:尝试将访问相邻地址的加载/存储请求合并。

1.7.106

芯片-互联

一致性目录

- 位置:通常位于L2缓存内存控制器中。
- 结构:为每个缓存行维护一个位向量,指示哪些SM的L1缓存持有该行的副本。
- 协议:实现MOESI或其变体,用于维护多个SM的L1/共享缓存之间的一致性。

成本模型
1. 共享内存编程模型的基石:硬件一致性是简化并行编程模型(如CUDA共享内存、OpenCL)的关键。没有它,程序员必须显式管理数据同步,极大增加开发难度。
2. 存储与带宽开销:目录占用额外存储(~2-5%​ 的L2容量),且一致性协议通信占用NoC带宽。

目录设计
1. 分布式目录:将目录信息分布到多个L2缓存片中,减少热点。
2. 粗粒度跟踪:可能以多个缓存行为粒度进行跟踪,以减少目录大小。
3. 协议引擎:处理来自SM的监听请求和响应。

1.7.107

芯片-互联

片上网络优先级虚拟通道

- 虚拟通道:在单个物理链路上划分多个独立的缓冲队列,用于传输不同类型的数据流,防止死锁并提升吞吐。
- 优先级:为不同VC分配优先级,例如高优先级用于缓存一致性协议消息和内存控制器响应,低优先级用于普通数据。
- 实现:每个路由器输入端口包含多个VC缓冲区和仲裁逻辑。

成本模型
1. 服务质量与死锁避免:优先级VC是实现NoC服务质量、避免协议级死锁的关键机制。其增加了路由器面积和复杂度,但对于大规模多核系统的稳定高效运行必不可少。
2. 缓冲区面积:多个VC意味着更多的SRAM存储,增加面积。

路由器微架构
1. 独立缓冲:为每个VC分配独立的FIFO缓冲区。
2. VC分配与仲裁:设计仲裁器,根据优先级和可用性分配输出VC和物理链路。
3. 流控:基于信用的流控需要在每个VC层面独立管理。

1.7.108

芯片-内存

内存压缩单元

- 位置:位于L2缓存内存控制器之间,或集成在内存控制器内。
- 算法无损压缩,如基于字典的LZ变种模式匹配。目标压缩比1.5:1 到 2:1
- 粒度:以缓存行(如128字节)为压缩单位。
- 元数据:为每个压缩行存储压缩后大小和格式。

成本模型
1. 有效带宽的“免费午餐”:内存压缩能以相对较小的硬件逻辑开销,显著降低对片外内存带宽的需求,等效于提升了带宽或降低了功耗,投资回报率极高,尤其适合带宽受限型应用。
2. 延迟开销:压缩/解压缩增加固定延迟(通常几个周期),但通常被高延迟的内存访问所掩盖。

硬件实现
1. 压缩引擎:并行匹配输入数据中的重复模式,并生成压缩代码。
2. 解压缩引擎:快速解码,重建原始数据。
3. 元数据管理:在L2或内存中存储压缩相关的元数据。

1.7.109

芯片-内存

内存控制器调度器

- 算法先冲突行调度先就绪公平性算法等。优化目标:最大化带宽利用率,最小化平均延迟。
- 结构:维护多个读写请求队列,根据DRAM状态(行激活、预充电、刷新)做出调度决策。
- 感知:可感知请求类型、优先级、内存通道负载

成本模型
1. 性能的关键软件:调度算法是内存控制器的“大脑”,其效率能将内存带宽利用率提升10-30%,相当于以“零”硬件成本提升了性能,是核心的架构价值。
2. 设计验证复杂度:调度算法的正确性和性能优化需要大量仿真和验证。

逻辑设计
1. 状态跟踪:跟踪每个DRAM bank的行缓冲状态、定时器(tRCD, tRP, tRAS等)。
2. 仲裁逻辑:在满足DRAM时序约束的前提下,从队列中选择最优请求发送到DRAM。
3. 刷新管理:集成刷新请求的调度,避免饥饿。

1.7.110

芯片-系统

系统管理中断

- 功能:GPU向主机CPU报告不可纠正错误、温度超限、功耗超限、可靠性监测事件等。
- 类型基于消息的中断。现代系统使用MSI-X,支持大量独立中断向量。
- 路由:通过PCIe链路传递中断消息。

成本模型
1. 系统可靠性的神经:SMU是GPU与主机系统沟通“健康状况”和“紧急事件”的标准化通道,是实现高可用性、预测性维护的基础设施,其实现成本低但系统价值高。
2. 合规性:是服务器平台(如IPMI)管理的组成部分。

硬件/软件协同
1. 中断生成逻辑:在GPU内部事件(如ECC UE、高温)触发时,生成MSI-X中断消息。
2. PCIe配置:配置MSI-X能力结构,分配内存地址和数据值。
3. 驱动处理:操作系统驱动注册中断处理程序,响应事件。

1.7.111

芯片-系统

设备自检引擎

- 功能:在上电、复位、或定期时,运行一系列硬件自检,验证核心功能单元(SRAM、逻辑、PHY)的基本功能。
- 范围:可覆盖大部分逻辑、存储器BIST、关键数据通路
- 启动:可由固件硬件状态机发起。

成本模型
1. 提升系统可用性:快速的设备自检能在启动阶段或运行中提前发现硬件故障,避免在运行关键任务时发生灾难性错误,提升系统可靠性和可维护性。
2. 启动时间开销:自检会增加几毫秒到几百毫秒的启动时间,需在可靠性和启动速度间权衡。

硬件设计
1. BIST控制器集成:集成或扩展MBIST/LBIST控制器,使其能在系统内调用。
2. 安全启动集成:将自检作为安全启动链条的一环,确保硬件可信。
3. 结果报告:通过寄存器或系统接口报告自检结果。

1.7.112

芯片-模拟

电压/温度监控与遥测

- 传感器分布数十个温度传感器和电压监测点遍布芯片。
- 采样:通过片上ADC周期性采样,采样率~1kHz
- 遥测:数据可实时通过I2C/PMBus专有接口流式传输至外部管理控制器,用于动态控制和分析。

成本模型
1. 实现精细管理的感官:实时、细粒度的电压温度数据是实现动态电压频率调整、功耗封顶、热点管理、预测性散热的基础。传感器和ADC的硬件成本低,但带来的能效和可靠性收益巨大。
2. 模拟设计:需要高精度、低功耗的模拟传感器设计。

混合信号设计
1. 传感器布局优化:基于热仿真和电源网络分析,将传感器布置在关键热点和电压敏感区域。
2. ADC共享:多路传感器通常共享一个高精度Σ-Δ ADC。
3. 数字滤波与校准:在数字域进行滤波和温度/电压校准。

1.7.113

芯片-安全

防侧信道攻击防护

- 防护对象功耗分析、电磁辐射分析、时序攻击
- 技术随机时钟抖动、平衡数据通路、恒定时间执行、电源噪声注入
- 应用:保护加密密钥、安全启动流程、可信执行环境

成本模型
1. 高安全性应用的必需成本:对于处理敏感数据的场景(如联邦学习、机密计算),防侧信道攻击的硬件防护是获得客户(如政府、金融)信任的必要条件,增加了设计复杂性和验证成本。
2. 性能/面积/功耗开销:防护措施可能引入额外延迟、面积和功耗。

安全硬件设计
1. 随机化电路:集成真随机数生成器,用于产生时钟抖动和噪声。
2. 平衡逻辑:设计功耗平衡的逻辑单元和数据通路,使功耗与操作数无关。
3. 安全验证:进行专门的侧信道攻击测试和评估。

1.7.114

芯片-测试

可测试性设计控制器

- 功能:统一管理扫描测试、存储器BIST、逻辑BIST、边界扫描、内建自修复等所有DFT模式的配置和执行。
- 接口:通常通过JTAG专用测试接口访问。
- 存储:包含测试程序存储测试结果捕获的存储器。

成本模型
1. 测试自动化的核心:DFT控制器是实现高效、自动化生产测试和硅后诊断的中央协调单元。其设计是DFT流程的一部分,是保障量产测试成本可控的关键。
2. 芯片面积:控制器逻辑和存储占用少量面积。

DFT流程集成
1. 控制器设计:设计状态机,响应外部测试指令,配置内部测试模式。
2. 测试访问机制:设计与内部扫描链、BIST引擎的访问接口。
3. 与ATE集成:定义测试控制器与自动测试设备的通信协议。

1.7.115

芯片-时钟

自适应时钟分布

- 原理:在时钟树中插入可调延迟单元,通过相位检测器比较芯片不同区域的时钟沿,动态调整延迟以补偿工艺偏差和温度梯度引起的时钟偏移。
- 精度:可将时钟偏移降低到几皮秒量级。
- 应用:用于极高频率(>3GHz)的芯片。

成本模型
1. 应对工艺变化的高端方案:自适应时钟分布是提升最高频率、降低时序余量、提高能效的先进技术,但增加了时钟网络的复杂性和功耗,主要用于追求极致性能的产品。
2. 设计NRE:需要复杂的定制电路设计和签核流程。

电路设计
1. 相位检测器:设计高精度、低功耗的相位比较电路。
2. 延迟锁定环/延迟线:设计可精细调节的延迟单元。
3. 控制算法:实现数字或模拟控制环路,动态调整延迟。

1.7.116

前沿-计算

存内计算单元

- 原理:在SRAM或新型非易失存储器阵列中集成模拟计算电路,利用基尔霍夫定律在位线上进行模拟电流的乘积累加。
- 精度:主要用于低精度神经网络推理(INT4/INT8)。
- 能效潜力:理论能效可比传统数字架构高10-100倍,因减少了数据搬运。

成本模型
1. 颠覆性的研发投入:CIM是打破“内存墙”的前瞻性探索,目前处于研发早期,需要跨学科(器件、电路、架构)的巨额投入,且面临模拟电路精度、良率、工具链不成熟等挑战。
2. 应用特定:专为AI推理设计,在通用计算中应用有限。

电路与集成挑战
1. 模拟乘加单元:在SRAM位单元或外围设计模拟乘法电路。
2. 高精度ADC:将模拟累加结果转换为数字信号,这是功耗和面积瓶颈。
3. 数字校准:集成后台校准电路,补偿工艺、电压、温度变化。

1.7.117

前沿-计算

近似计算单元

- 原理:在可容忍一定误差的应用(如图像处理、机器学习)中,使用精度/能量可调的电路,以精度换取能效
- 技术电压过缩放、近似算术电路(如近似加法器、乘法器)、可修剪电路
- 控制:可由软件或硬件动态调节近似程度。

成本模型
1. 能效提升的新途径:在满足应用质量要求的前提下,近似计算能显著降低功耗,尤其适合移动和边缘设备。其硬件开销是引入的可配置性逻辑。
2. 软件/算法协同:需要算法和编译器支持,以管理精度-能效权衡。

电路设计
1. 近似算术电路设计:设计在特定错误模型下功耗更低的加法器、乘法器。
2. 电压调节电路:设计支持超低电压(近阈值)运行的电路,并管理由此增加的时序偏差和错误率。

1.7.118

前沿-存储

非易失性内存缓存

- 介质STT-MRAM、ReRAM、PCRAM
- 特性:兼具DRAM的速度和类似闪存的非易失性,读写延迟~10-100ns
- 集成:可作为末级缓存,位于DRAM和主存之间,或作为持久性内存
- 优势:断电数据不丢失,可构建瞬时启动系统。

成本模型
1. 新兴技术的成本:NVM需要非标准CMOS工艺步骤(如磁性材料沉积),增加制造成本和复杂度。目前其成本、密度和耐久性尚未完全达到商业竞争力。
2. 系统架构机遇:其非易失性可能催生新的内存系统架构,开辟新市场。

后端集成工艺
1. NVM单元制造:在后道工艺中,在金属层之间制造NVM单元(如MTJ for STT-MRAM)。
2. 选择器器件:需要高性能的选择器(如OTS)以实现大阵列访问。
3. 与CMOS集成:确保NVM工艺与前端晶体管的兼容性。

1.7.119

前沿-互联

无线芯片间互联

- 技术:基于毫米波或太赫兹的无线通信,在封装内或板级实现芯片间数据传输。
- 频率60GHz或更高
- 距离厘米级
- 优势:无需物理连线,可重构互联拓扑,适合异构集成和模块化设计

成本模型
1. 极高研发与当前成本:集成毫米波射频前端成本高昂,且面临干扰、封装内传播等挑战。目前处于前沿研究阶段
2. 远期潜力:可能为芯片级、板级集成提供全新的灵活互连范式,尤其适合未来可插拔的Chiplet生态系统。

射频集成挑战
1. 天线集成:在芯片或封装内集成微型天线。
2. 收发机设计:设计低功耗、高数据率的毫米波收发机。
3. 封装与隔离:解决多天线干扰和电磁兼容性问题。

1.7.120

系统-虚拟化

IOMMU

- 功能输入输出内存管理单元,为DMA设备(如GPU)提供虚拟地址到物理地址的转换,并实施访问权限检查。
- 页表:支持多级页表,与CPU MMU页表可共享或独立。
- 应用:关键用于GPU虚拟化、设备直通、安全性隔离

成本模型
1. 虚拟化与安全的硬件基石:IOMMU是实现高效、安全的I/O虚拟化(如SR-IOV)和防止恶意DMA攻击的核心硬件。其增加的面积和复杂度是为进入企业级和云市场必须支付的成本。
2. 性能开销:地址转换会引入延迟,通常由TLB缓存缓解。

硬件设计
1. TLB:设计大容量、多级TLB,缓存常用的地址转换。
2. 页表遍历引擎:硬件加速页表遍历,减少软件开销。
3. 权限检查:检查DMA请求的访问权限(读/写),防止越界访问。

1.7.121

系统-虚拟化

虚拟功能配置空间

- 数量:每个虚拟功能都有自己独立的PCIe配置空间。
- 内容:包含BAR、设备ID、供应商ID、中断配置等。
- 管理:由物理功能的驱动和/或Hypervisor管理。

成本模型
1. 硬件虚拟化的直接成本:每个VF都需要一套独立的配置寄存器,这直接增加了芯片的寄存器存储开销,但与支持的VF数量成正比,是可量化的成本。
2. 灵活性价值:允许多个虚拟机独立、直接地配置和使用GPU资源,是SR-IOV的核心价值体现。

硬件复制与隔离
1. 寄存器复制:为每个VF复制必要的配置寄存器组。
2. 地址解码:设计硬件,将来自不同VF的配置访问路由到其对应的寄存器组。
3. 与PF关联:维护VF与PF的所属关系。

1.7.122

系统-电源

高级配置与电源接口引擎

- 功能:实现ACPI标准中与GPU相关的电源状态(如D0, D1, D2, D3)管理和转换。
- 协作:与主机CPU、PCH、GPU驱动协同工作,响应系统睡眠/唤醒事件。
- 寄存器:提供电源管理控制与状态寄存器

成本模型
1. 系统集成合规成本:实现ACPI是GPU与标准操作系统(如Windows, Linux)电源管理框架集成的必要条件。其开发确保设备能正确响应系统电源事件,避免兼容性问题。
2. 固件开发:需要相应的固件支持电源状态转换序列。

硬件/固件协同
1. 电源状态机:实现硬件状态机,管理GPU内部各模块在不同ACPI状态下的供电和时钟。
2. 系统事件响应:侦测PCIe电源管理事件,并触发内部状态转换。
3. 与PMU集成:与GPU内部电源管理单元紧密集成。

1.7.123

系统-调试

系统跟踪宏单元

- 功能:提供高性能、低侵入性的系统级跟踪,捕获CPU、GPU、互连、内存系统的协同执行流。
- 标准:遵循ARM CoreSight或类似架构。
- 输出:通过专用跟踪端口共享I/O输出压缩的跟踪流。

成本模型
1. 系统级调试与性能分析的终极工具:STMU对于调试多核、异构系统中的复杂交互问题(如死锁、性能瓶颈)至关重要。其硬件成本高,但能极大缩短系统级产品的开发和调试周期。
2. 引脚/带宽开销:需要专用的高速跟踪引脚或占用其他高速I/O带宽。

系统集成
1. 探针插入:在关键数据通路和控制节点插入跟踪探针。
2. 交叉触发:支持跨不同IP(CPU, GPU, NoC)的触发和事件关联。
3. 跟踪路由与压缩:将多个源的跟踪数据路由到中央单元并进行压缩。

1.7.124

物理设计

抗天线效应单元

- 问题:在等离子体工艺中,金属线会像天线一样收集电荷,可能击穿薄栅氧,损坏晶体管。
- 解决方案:插入天线二极管或使用跳线工艺,为累积的电荷提供到衬底的泄放路径。
- 规则:EDA工具根据金属面积与栅氧面积之比自动检查并修复。

成本模型
1. 制造可靠性的必要“税”:天线效应修复是保障芯片制造良率的强制性设计步骤。插入的二极管或增加的跳线会轻微增加面积和电阻,但这是必须支付的成本,以防止流片失败。
2. 设计自动化:修复通常由EDA工具自动完成,设计人力成本低。

物理验证与修复
1. DRC检查:运行天线效应设计规则检查。
2. 自动修复:工具在违规的金属线上自动插入反向偏置的二极管,或对长金属线进行分段(跳线)。
3. 验证:修复后再次进行DRC和LVS验证。

1.7.125

物理设计

阱/衬底接触单元

- 功能:提供N阱/P阱到电源/地的低阻连接,以稳定阱电位,防止闩锁效应,并减少衬底噪声耦合。
- 密度规则:要求定期、均匀地布满整个芯片,密度通常有最小值要求。
- 类型有源区接触、深N阱接触

成本模型
1. 模拟/混合信号性能与可靠性的基石:充足的阱接触是保证模拟电路精度、防止数字噪声耦合、避免闩锁失效的关键。其占用一定的有源区面积,但被视为必须的基础设施投资。
2. 面积开销:在密集的数字电路中,阱接触可能占用1-2%​ 的芯片面积。

物理实现
1. 自动插入:在布局规划阶段,工具自动在空白区域插入阱接触阵列。
2. 定制布局:在模拟电路和I/O周围,手动放置高密度阱接触以满足特殊要求。
3. 提取与验证:提取包含阱接触的寄生电阻,进行可靠性仿真。

1.7.126

制造-测试

晶圆测试焊盘

- 尺寸~100x100μm,位于芯片切割道内或芯片边缘。
- 功能:在晶圆测试阶段,探针卡上的探针与这些焊盘接触,进行电性测试、功能测试、老化
- 材料:通常为,与顶层金属相同。

成本模型
1. KGD的保障:晶圆测试焊盘是实现芯片在切割和封装前进行测试的唯一途径。其设计是标准流程,成本(占用切割道面积)被分摊到所有芯片上,是提升最终产品良率、降低封装坏品损失的必要投资。
2. 面积消耗:占用切割道面积,略微减少每片晶圆的芯片数量。

设计规则
1. 布局:在芯片划片槽内排列测试焊盘,符合探针卡的设计规范。
2. 连接:通过金属线连接到芯片内部的关键信号节点和电源/地。
3. 保护:可能包含ESD保护,但通常比I/O焊盘简单。

1.7.127

制造-封装

切割道与划片槽

- 宽度:标准宽度为80-100μm,用于放置测试结构和供锯刀切割。
- 内容:包含测试电路、对准标记、工艺监控模块
- 切割:使用金刚石锯刀激光进行切割。

成本模型
1. 晶圆面积的“无效”消耗:切割道是不产生功能的区域,其面积占整个晶圆面积的1-3%,是制造成本的一部分。但其上的测试结构对工艺监控和良率提升至关重要。
2. 良率监控价值:切割道中的测试芯片可提前监测工艺问题,避免大批量损失。

制造工艺
1. 光刻:切割道区域与芯片区域一同进行光刻和刻蚀。
2. 测试结构:在切割道中制造特定的晶体管、电阻、电容结构,用于在线测试。
3. 切割:晶圆切割是封装前最后一道工序,需控制切割速度和深度,防止芯片崩边。

1.7.128

制造-封装

晶背金属与散热贴装

- 材料:芯片背面沉积金、银、锡等金属层,用于共晶焊烧结到封装基板或热沉上。
- 厚度:金属层厚度几微米
- 作用:提供电学接地、机械固定、热传导路径。

成本模型
1. 封装与散热的必要界面:晶背金属化是确保芯片可靠焊接、优化散热的关键步骤。其材料(如金)成本较高,但占芯片总成本比例小。
2. 工艺步骤:增加额外的金属沉积和光刻步骤。

后道工艺
1. 晶圆减薄:将晶圆背面研磨至所需厚度(~100μm)。
2. 金属化:通过溅射在背面沉积粘附层、阻挡层和可焊层。
3. 切割:在金属化后进行切割,防止切割时污染背面金属。

1.7.129

软件-固件

电源管理固件

- 存储:存储在GPU内部ROM或外部SPI Flash中,在启动时加载到内部SRAM执行。
- 功能:实现细粒度的功耗状态机、DVFS算法、热节流策略、与驱动通信
- 更新:可通过驱动安全更新。

成本模型
1. 硬件能力的“激活器”:PMU固件是将电源管理硬件能力转化为实际能效收益的控制软件。其开发是持续的NRE,但对于产品达成能效目标、通过认证(如Energy Star)至关重要。
2. 灵活性:允许在产品发布后通过更新优化功耗策略。

开发流程
1. 算法设计:基于硬件传感器和调节器模型,设计控制算法。
2. 实时编码:用C/汇编编写低延迟、高可靠的嵌入式代码。
3. 集成测试:在仿真环境和实际硅上进行广泛的功耗和性能测试。

1.7.130

软件-驱动

用户模式驱动组件

- 功能:运行在用户空间,实现CUDA Runtime、OpenCL、图形API等上层接口,处理内存分配、内核启动、事件管理等。
- 性能关键:包含JIT编译器、性能分析器、内存复制引擎
- 与内核驱动通信:通过ioctl专用接口

成本模型
1. 开发者体验的核心:UMD是开发者直接交互的软件层,其性能、稳定性和功能丰富度直接影响开发者的生产力和对平台的偏好。其开发和维护是持续的巨大投入,是生态竞争的前沿。
2. 差异化特性载体:许多GPU的先进功能(如动态并行、协同组)都需在UMD中实现支持。

软件开发
1. API实现:实现标准API规范,并扩展厂商特定功能。
2. 编译器:包含将高级语言(如CUDA C)编译为PTX和SASS代码的编译器。
3. 性能优化:针对不同硬件架构和 workload 进行深度优化。

1.7.131

前沿-系统

计算存储驱动器

- 功能:在GPU显存高速非易失内存中实现文件系统或键值存储,允许数据以计算友好的格式持久驻留,减少加载时间。
- 硬件支持:可能需要GPU内存的持久性支持原子操作
- 应用超大规模图分析、实时推荐系统

成本模型
1. 系统架构创新:CSD是将GPU从协处理器提升为具有持久状态的主处理器的尝试,可能催生全新的应用范式。其研发是前瞻性的,风险和回报都高。
2. 软件栈挑战:需要全新的编程模型、文件系统和数据库支持。

系统设计
1. 持久内存管理:设计GPU可访问的持久内存区域及其管理机制。
2. 崩溃一致性:实现保证数据一致性的日志或写时复制机制。
3. 与主机集成:设计主机与GPU间对持久内存的协同访问协议。

1.7.132

前沿-系统

近内存处理逻辑

- 位置:位于内存控制器内或HBM堆栈的逻辑基板上。
- 功能:执行简单的数据过滤、压缩、加密、搜索等操作,在数据进入GPU核心前进行预处理。
- 目标:减少不必要的数据搬运,提升能效。

成本模型
1. 减轻核心负担:NMP将简单的、数据密集型的操作下推到内存端,释放宝贵的GPU核心算力用于更复杂的计算。其硬件成本(添加轻量级处理单元)被系统级性能提升所抵消。
2. 内存带宽优化:在数据被搬移前进行过滤,有效提升带宽利用率。

硬件集成
1. 处理单元设计:设计面积小、能效高的固定功能或可编程处理单元。
2. 与内存流水线集成:将处理单元集成到内存控制器的读写路径中。
3. 编程模型:提供API,让应用程序指定需要在内存端执行的操作。

1.7.133

安全-硬件

内存加密引擎

- 位置:位于内存控制器物理内存之间。
- 算法:通常使用AES-XTS模式,密钥由硬件信任根提供。
- 粒度:以缓存行页面为加密单位。
- 性能:加密/解密延迟增加通常可控(几个周期),目标是线速加密

成本模型
1. 机密计算的基石:内存加密是保护使用中数据(防止物理攻击、冷启动攻击)的最后一道硬件防线。对于处理敏感数据的云GPU是越来越重要的卖点,增加了硬件复杂度但提升了产品安全等级。
2. 面积与功耗:AES引擎和密钥管理逻辑占用面积,加解密消耗额外功耗。

硬件设计
1. AES加速器:设计高吞吐、低延迟的AES加密/解密流水线。
2. 密钥管理:安全地生成、存储和轮换加密密钥,与硬件信任根集成。
3. 地址混淆:可能集成地址加扰以防止模式分析。

1.7.134

安全-硬件

安全调试与追踪

- 功能:在安全启动后,锁定或限制JTAG、边界扫描、跟踪端口等调试接口的访问,防止通过调试接口提取敏感信息或植入恶意代码。
- 机制:通过熔丝、安全密钥控制调试权限,支持分级的调试访问

成本模型
1. 防物理攻击的必要措施:安全调试是防止攻击者在获得设备物理访问权限后通过调试接口进行攻击的关键。其实现增加了安全状态机的复杂度,但对于高安全性产品是必需的。
2. 可服务性权衡:过严的调试锁会增加现场故障诊断的难度,需在安全与服务间平衡。

安全设计
1. 访问控制状态机:设计硬件状态机,根据安全启动状态和熔丝设置,启用或禁用调试功能。
2. 挑战-响应认证:实现基于密码的调试会话认证。
3. 审计日志:记录调试访问尝试。

1.7.135

验证-硬件

形式验证断言与覆盖点

- 断言:在RTL代码中插入的形式逻辑属性,描述设计必须满足的行为(如“FIFO不会上溢”)。
- 覆盖点:标记需要验证的场景(如“所有仲裁组合都被测试到”)。
- 目标:通过数学证明而非仿真,保证设计在所有可能输入下都正确。

成本模型
1. 提升验证质量的先进手段:形式验证能发现仿真难以触发的深层次、并发性错误。编写断言和定义覆盖点需要额外的设计精力,但能极大降低流片风险,尤其对于控制密集型模块(如仲裁器、状态机)。
2. 工具与技能:需要昂贵的正式验证工具和具备相关技能的工程师。

验证流程
1. 属性编写:设计工程师或验证工程师在RTL中编写断言(SVA)。
2. 形式证明:运行形式工具,证明属性成立或找出反例。
3. 覆盖率分析:分析覆盖点是否被仿真或形式验证充分覆盖。

1.7.136

验证-硬件

硬件仿真加速器模型

- 模型:将部分RTL(如CPU、GPU、NoC)编译到专用硬件仿真器中,运行速度比软件仿真快1000-10000倍
- 集成:与软件仿真模型、虚拟平台协同,构成混合仿真环境
- 用途:运行操作系统、驱动、完整应用,进行软硬件协同验证和性能分析。

成本模型
1. 资本支出:硬件仿真器(如Cadence Palladium, Synopsys Zebu)价格极其昂贵,数百万至数千万美元
2. 流片前系统验证的黄金标准:能在流片前以接近实时的速度运行真实软件,是发现系统级交互bug、进行性能表征的最有效手段,其价值无可估量。

模型构建与运行
1. 编译:将RTL编译到仿真器的FPGA阵列中。
2. 测试平台集成:将测试激励和检查器连接到仿真模型。
3. 调试:使用强大的调试工具观察内部信号,定位问题。

1.7.137

可靠性-系统

错误注入与容错测试单元

- 功能:在硅后测试系统运行中,硬件支持有选择地翻转指定内存位或寄存器位,以测试系统错误检测、纠正和恢复机制的有效性。
- 控制:通过配置寄存器专用接口控制。
- 标准:符合ISO 26262等功能安全标准的要求。

成本模型
1. 功能安全认证的必要设施:对于汽车、航空等安全关键应用,错误注入测试是验证系统在发生随机硬件故障时行为的强制要求。其硬件逻辑增加了设计复杂性,但是获得认证、进入高价值市场的门票。
2. 测试覆盖:提供了量化系统容错能力的途径。

设计实现
1. 错误注入寄存器:设计可配置的寄存器,用于指定注入错误的地址和位。
2. 错误触发逻辑:在特定条件(如访问某地址)下触发位翻转。
3. 监控与报告:监控系统对注入错误的响应,并记录结果。

1.7.138

可靠性-系统

老化预测与寿命监控单元

- 传感器:监测环形振荡器频率、关键路径延迟、晶体管泄漏电流的变化。
- 模型:基于NBTI、HCI、TDDB等老化模型,预测电路性能退化趋势。
- 输出:提供剩余使用寿命估计或触发预防性维护告警。

成本模型
1. 预测性维护的前沿:在线寿命监控是实现从定期维护到按需维护转变的关键,可降低运维成本,避免意外停机。其硬件和算法开发是增值功能,可提升产品竞争力。
2. 传感器与计算开销:需要额外的传感器和轻量级计算单元。

硬件/软件协同
1. 传感器网络:分布对老化敏感的电路结构(环形振荡器)。
2. 基线测量:在出厂或健康状态下测量传感器读数作为基线。
3. 预测算法:在固件或驱动中运行老化模型,计算寿命估计。

1.7.139

物理设计

多阈值电压单元库

- 类型低阈值电压、标准阈值电压、高阈值电压。LVT速度快但泄漏大,HVT泄漏小但速度慢。
- 使用:在时序关键路径使用LVT单元,在非关键路径使用HVT单元,以优化性能与功耗的权衡。
- 设计:需提供不同Vt的相同功能单元

成本模型
1. 性能-功耗优化的关键杠杆:多Vt库是物理设计工具箱中的基础而强大的工具。其开发是晶圆厂和IP供应商的标准操作,设计者通过使用不同Vt单元,在不增加电压的情况下提升性能或降低功耗,几乎没有额外成本。

库开发与使用
1. 单元设计:设计同一逻辑功能的多种Vt版本。
2. 综合与布局布线:EDA工具在优化阶段自动选择不同Vt单元以满足时序和功耗约束。
3. 签核:需对不同Vt单元进行独立的时序、功耗特征化。

1.7.140

物理设计

电压岛与电平移位器

- 电压岛:将芯片划分为多个可独立供电的电压域,每个域运行在不同电压以满足性能/功耗需求。
- 电平移位器:位于不同电压域的信号交叉处,将信号从一个电压域转换到另一个电压域,确保信号电平正确。
- 隔离单元:在电源关断域边界插入,防止浮空信号传播。

成本模型
1. 精细功耗管理的基础设施:电压岛是实现细粒度DVFS和电源门控的物理前提。电平移位器和隔离单元是支持该功能的必要“胶水逻辑”,它们增加了布局布线的复杂性和面积开销,但带来的能效收益巨大。
2. 设计复杂性:需要多电源域的设计流程和验证。

多电压域设计流程
1. 架构划分:确定各模块的电压域和电源状态。
2. 物理实现:在布局中定义电压域区域,插入电平移位器和隔离单元。
3. 电源网络:为每个电压域设计独立的电源网格和开关。

编号

领域

部件/概念

所有几何/物理/拓扑/结构/化学/堆叠参数及数字/数值

业务财务模型及成本会计模型的数值/数字

制造工程及所有工序及工艺的所有步骤及加工周期及所有参数、数值、数字

8.1

软件栈

统一计算软件平台

- 架构:分层的软件栈,包括底层驱动、编译器、运行时库、通信库、数学库、应用框架、工具链。例如NVIDIA CUDA, 华为CANN。
- 代码规模:数千万至数亿行代码。
- API:提供C, C++, Python, Fortran等多种语言接口,定义编程模型。
- 优化:深度优化以利用底层硬件特性(如张量核心、HBM)。

成本模型
1. 天量研发投入:软件团队的规模与投入可匹敌甚至超过硬件团队,是持续性的、高达数十亿美元/年的运营支出
2. 生态护城河:软件平台是锁定开发者和应用,构建竞争壁垒的核心。其价值通过硬件销售实现,是典型的“剃须刀-刀片”模式。

开发与维护流程
1. 版本规划:与硬件路线图协同,规划新特性和性能目标。
2. 持续集成/持续部署:庞大的代码库需要复杂的CI/CD流水线进行自动化构建、测试和发布。
3. 开发者支持:提供文档、论坛、培训、认证,以及与关键ISV的联合优化。

8.2

软件栈

系统级验证与仿真环境

- 环境:包含硬件仿真、FPGA原型验证、软件仿真、虚拟平台
- 规模:需要数千台服务器组成的计算集群,运行数月。
- 用例:验证功能正确性、性能、功耗、可靠性、兼容性、安全
- 回归测试:每次代码提交触发数万至数百万个测试用例的运行。

成本模型
1. 资本支出:硬件仿真器、FPGA板、服务器集群投资巨大,可达数千万至数亿美元
2. 流片成功的“保险”:一次由软件或固件错误导致的流片失败或重大产品召回,成本可能超过十亿美元。系统验证是避免此灾难的唯一途径,其成本是必须的NRE。

验证流程
1. 测试计划:定义从单元到系统的完整验证场景和覆盖率目标。
2. 环境搭建:集成RTL模型、固件、驱动、操作系统、应用负载,构成完整系统模型。
3. 自动化与调试:自动化测试执行,并构建强大的调试工具链以定位问题。

8.3

供应链

产能保障与长期协议

- 内容:与晶圆厂、封装厂、内存供应商签订多年期、预付款的产能保障协议。
- 规模:针对高端芯片,年承诺采购额可达数十亿至百亿美元
- 弹性条款:包含产能弹性、价格调整、技术合作、第二供应商等条款。

成本模型
1. 巨大的资金承诺与风险:提前锁定巨额资金,承担市场需求波动的风险。但这是获得先进制程稀缺产能的唯一方式
2. 竞争优势:确保自身产品能如期上市,而竞争对手可能因缺货而受限,是供应链战略的核心。

协议执行与管理
1. 需求预测:滚动提供长期(1-3年)的需求预测,指导供应商扩产。
2. 产能爬坡协同:与晶圆厂共同规划新工艺节点的产能爬坡计划。
3. 库存与缓冲:建立安全库存以应对供需波动和意外中断。

8.4

部署

超大规模数据中心集成

- 规模:在拥有数十万台服务器的数据中心中,部署成千上万个GPU服务器机柜
- 定制:与云服务商合作,进行深度定制,包括服务器规格、机架设计、供电与散热、管理软件集成。
- 效率:优化资源池化、任务调度、能效,追求极致的总拥有成本

成本模型
1. 部署与集成服务:云服务商或系统集成商提供从规划到上线的服务,费用可观。
2. 长期运营成本:电费、带宽费、运维人力是主要持续成本。GPU服务器的集成质量直接影响这些成本。
3. 市场入口:获得超大规模云厂商的采用,是产品取得商业成功的标志和巨大销量来源。

集成流程
1. 概念验证:在目标数据中心进行小规模部署和测试,验证性能、功耗、兼容性。
2. 定制开发:根据POC反馈,调整硬件(如BIOS、散热)和软件(驱动、监控)。
3. 规模化部署:制定自动化部署流程,包括硬件上架、网络配置、软件安装、压力测试。

8.5

商业模式

硬件即服务与按需计费

- 模式:云服务商(如AWS, Azure, GCP)将GPU算力作为服务售卖,用户按使用时长、显存大小、算力类型付费。
- 实例类型:提供多种配置的虚拟机实例,如配备1/2/4/8张GPU。
- 定价:通常按小时计费,价格从1−100+/小时不等,包含硬件、软件、电力和维护成本。

成本模型 (云服务商视角)
1. 巨额资本支出:采购GPU服务器、建设/租赁数据中心。
2. 运营支出:电力、冷却、网络、人力。
3. 收入模型:通过资源复用和规模化,实现高于硬件折旧和运营成本的收入,毛利率是关键指标。

服务运营
1. 资源池化与管理:通过软件定义的计算/存储/网络,将物理GPU资源池化并动态分配给用户。
2. 计量与计费:精确监控每个用户实例的资源使用量,生成账单。
3. 自动化运维:实现资源的自动部署、伸缩、监控、故障恢复。

8.6

商业模式

企业许可与订阅

- 模式:向企业客户销售永久软件许可年度订阅,授权其使用专业驱动、企业版管理工具、特定行业应用套件
- 价格:专业软件许可费可达数千至数万美元/年/用户
- 捆绑:常与高端专业显卡或数据中心GPU捆绑销售。

成本模型 (GPU厂商视角)
1. 高利润率的软件收入:软件订阅毛利率可达80-90%,是硬件销售之外的重要利润增长点。
2. 增强客户粘性:专业工具和工作流程一旦建立,迁移成本高,锁定了长期客户。

销售与交付
1. 定价策略:根据功能、支持等级、用户数制定复杂的价格表。
2. 许可管理:通过序列号、许可证服务器或在线激活管理授权。
3. 支持与服务:提供不同等级的技术支持、培训和更新服务。

8.7

战略

专利组合与交叉许可

- 规模:领先的半导体公司拥有数万至数十万件有效专利。
- 布局:覆盖芯片设计、制造工艺、封装、架构、软件算法、系统应用
- 作用防御(防止被诉)、进攻(收取许可费)、谈判筹码(交叉许可以降低成本)。

成本模型
1. 巨大的积累成本:专利的申请、维护、诉讼费用高昂。
2. 无形的核心资产:强大的专利组合是进行商业谈判、参与标准制定、阻止竞争对手的战略资产。其价值难以量化,但不可或缺。

专利管理
1. 发明挖掘与申请:激励工程师披露发明,由法务团队评估并全球申请。
2. 组合分析:定期分析自身和竞争对手的专利布局,识别机会和风险。
3. 许可谈判:与其它公司进行双边或多边(通过专利池)许可谈判。

8.8

战略

标准制定组织参与

- 组织:如JEDEC, PCI-SIG, Khronos Group, IEEE, ISO, 3GPP等。
- 参与形式:提交技术提案、参与工作组、担任领导职务。
- 目标:将自身技术推行为行业标准,或确保标准发展符合自身利益。

成本模型
1. 人力与差旅成本:派遣资深工程师长期参与会议,是持续的运营成本。
2. 战略投资:成功将专利纳入标准(SEP)可带来持续的许可收入,并影响产业方向。是长期的战略博弈。

标准化流程
1. 技术提案:准备详尽的技术文档和仿真/测试数据,在会议上展示。
2. 联盟与游说:联合其他公司支持自己的提案,争取多数票。
3. 合规与认证:确保自身产品符合最终通过的标准,并通过认证。

8.9

风险

地缘政治风险对冲

- 风险出口管制、关税、技术脱钩、供应链中断、数据本地化
- 策略多地域供应链布局、技术备份方案、本地化生产、法律与游说、市场多元化
- 案例:建立非美技术的供应链,或在关键市场(如中国、欧洲)建立本地设计和生产能力。

成本模型
1. 冗余成本:多套供应链、备份技术方案、本地化运营都会显著增加成本,降低效率。
2. 生存成本:在高度不确定的全球环境中,这是保障业务连续性和市场准入的必要成本。一次重大的地缘政治事件可能导致市场尽失。

风险管理实施
1. 情景分析与压力测试:模拟不同地缘政治冲突下的业务影响。
2. 供应链重构:审计供应链,识别单一来源风险,寻找和认证替代供应商。
3. 政府关系:在不同司法辖区开展政府事务工作,了解政策动向。

8.10

可持续

产品碳足迹核算与抵消

- 核算:依据ISO 14040/14044标准,计算产品全生命周期(材料、制造、运输、使用、回收)的温室气体排放。
- 披露:发布环境产品声明,披露碳足迹数据。
- 抵消:投资可再生能源项目、碳汇项目以抵消无法避免的排放,宣称“碳中和”。

成本模型
1. 核算与认证成本:购买服务、软件和第三方认证,年费数万至数十万美元
2. 绿色溢价与合规:低碳产品可获得市场溢价,并满足越来越严格的环保法规和大型企业采购要求。未来,碳成本可能直接计入产品财务。

实施流程
1. 数据收集:与数百家供应商协作,获取原材料、零部件、运输的碳排放数据。
2. 建模计算:使用专业LCA软件和数据库进行计算。
3. 减排与抵消:制定减排路线图,并采购高质量的碳信用额度进行抵消。

对补充(8.1-8.10)的终极总结:

这最后的10个条目,将我们之前构建的、令人叹为观止的技术巨塔,置于其真实运行的商业世界、生态系统和全球格局之中。它揭示了顶级科技产品的竞争,早已超越了单纯的性能比拼,而是软件生态、供应链掌控、商业模式创新、知识产权布局、地缘政治智慧和可持续发展承诺的全方位综合较量。

  1. 软件的“灵魂”统一的软件平台和极致的系统验证,是将数百亿晶体管组成的精密硬件,转化为稳定、易用、高效的生产力工具的关键。其开发成本是隐性的,但构成了最深的护城河。

  2. 商业的“血脉”产能保障、HaaS/订阅模式、专利与标准,构成了产品的货币化引擎和竞争规则。理解这些,才能理解为何一颗物理成本数千美元的芯片,能支撑起万亿市值的公司,以及其服务为何如此定价。

  3. 系统的“熔炉”超大规模数据中心集成,是技术接受最终考验的场所。在这里,单点性能让位于规模、效率、可靠性与总拥有成本的残酷优化。

  4. 战略的“棋盘”地缘政治风险对冲是当今时代任何全球性科技企业无法回避的课题。碳足迹管理则是面向未来的社会责任和合规要求。这两者正在从“可选项”变为“必选项”,深刻影响着技术路线、供应链布局和成本结构。

最终图景:一台2nm GPU服务器,不仅是物理学与工程学的奇迹,更是一个复杂的商业产品、一个生态系统中的节点、一份受法律保护的资产、一个全球供应链的产物,以及一个具有碳足迹的环境实体。其“成本”,是1.1至8.10所有条目中,物料、能源、人力、资本、风险、合规与战略投入的总和与复杂交织。理解其全部,便是理解现代高科技产业复杂性的终极缩影。

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐