RTX 4090 Ti vs A100 规格对比表

数据来源https://hmc-tech.com/

一、基础核心参数

参数项 RTX 4090 Ti NVIDIA A100
架构 Ada Lovelace(阿达洛夫莱斯) Ampere(安培)
定位 消费级桌面显卡 服务器AI加速卡
制程 TSMC 4N TSMC 7N
核心代号 NV182 / AD102-200-A1 NV170
发布时间 - 2021-06-28
核心面积 608mm² 826mm²
晶体管数量 763亿 542亿
晶体管密度 125.4 MTr/mm² 65.62 MTr/mm²
流处理器 18432 个 6912 个
SM单元 144 个 108 个
张量核心 576 个 432 个
光追核心 144 个
TMU纹理单元 576 个 432 个
ROP光栅单元 176 个 160 个

二、频率与缓存

参数项 RTX 4090 Ti NVIDIA A100
基础频率 2.35 GHz 765 MHz
加速频率 2.63 GHz 1.41 GHz
L1缓存 64KB/SM(纹理) 64KB/SM(纹理)
二级缓存 96MB 共享 40MB 共享

三、显存规格

参数项 RTX 4090 Ti NVIDIA A100
显存类型 GDDR6X HBM2e
显存容量 48GB 80GB
位宽 384-bit 5120-bit
等效频率 21GT/s 3GT/s
显存带宽 1.01 TB/s 1.94 TB/s
ECC纠错 不支持 不支持

四、理论算力(峰值)

算力类型 RTX 4090 Ti NVIDIA A100
FP32 单精度 96.77 TFLOPS 19.49 TFLOPS
FP64 双精度 1.51 TFLOPS 9.75 TFLOPS
TF32 96.77 TFLOPS 155.9 TFLOPS
BF16 96.77 TFLOPS 38.98 TFLOPS
BF16(稀疏) 387.1 TFLOPS 623.7 TFLOPS
FP8-16 774.1 TFLOPS 311.9 TFLOPS
FP8-16(稀疏) 1.55 PFLOPS 623.7 TFLOPS
INT8 774.1 TOPS 623.7 TOPS
INT4(稀疏) 3.1 POPS 2.5 POPS
光追算力 223.7 TOPS
像素填充率 462 GPixel/s 225.6 GPixel/s
纹理填充率 1.51 TTexel/s 609.1 GTexel/s

五、功耗、供电与形态

参数项 RTX 4090 Ti NVIDIA A100
TDP功耗 600W 250W
供电接口 1×16Pin 12VHPWR 1×8Pin EPS
物理规格 3槽位 2槽位
尺寸(高×宽×深) 137mm × 304mm × 61mm 111mm × 267mm × 40mm
散热方式 风冷(双风扇) 被动散热
最高温度 90℃ 无标注
总线接口 PCIe 4.0 x16 PCIe 4.0 x16
多卡互联 不支持 支持NVLink

六、视频输出与编码解码

参数项 RTX 4090 Ti NVIDIA A100
视频接口 3×DP 1.4 + 1×HDMI 2.1 无视频输出
最大分辨率 8K(7680×4320)@60Hz -
多屏输出 4屏 -
同步技术 G-Sync/FreeSync -
DSC压缩 支持 不支持
HDCP 2.3 -
NVENC编码器 2代 NVENC 8(支持H.264/H.265/AV1) 无编码单元
NVDEC解码器 NVDEC 5 5×NVDEC 4
支持解码格式 MPEG1/2/4、VC-1、VP8/9、H.264/H.265/AV1 MPEG1/2/4、VC-1、VP8/9、H.264/H.265

七、软件&API支持

参数项 RTX 4090 Ti NVIDIA A100
CUDA版本 8.9 8.0
Shader Model 6.6 -
DirectX DirectX 12 / D3D 12_3 -
OpenGL 4.6 -
OpenCL 3.0 3.0
Vulkan 1.3 1.2
硬解引擎 PureVideo HD VP12、VDPAU L PureVideo HD VP10、VDPAU J

核心总结

  1. 游戏/通用浮点:RTX 4090 Ti 大幅领先,FP32、INT4/INT8、光追、视频编解码能力更强,面向桌面娱乐、实时推理、图形渲染。
  2. 科学计算/高精度AI:A100 优势明显,FP64双精度、HBM2e大显存+超高带宽更强,适合模型训练、超算、大规模AI集群。
  3. 功耗形态:4090 Ti 功耗高达600W、体积更大;A100 仅250W,被动散热,适配服务器机房。
  4. 生态定位:4090 Ti 是消费级卡,视频输出、游戏API齐全;A100 纯计算卡,无视频接口,主打数据中心场景。
Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐