【字节跳动】 武汉光谷(北纬30.49°,东经114.46°)核心数据中心机房技术白皮书(完整版万字) 前言
武汉光谷核心数据中心技术白皮书摘要 武汉光谷数据中心(北纬30.49°,东经114.46°)是华中地区最高等级的智算中心,定位为国家级算力枢纽节点,支撑AI大模型训练、云计算、超算及政企数字化转型。机房按T4容错标准建设,配备450架高密度机柜、3000张NVIDIA A100 GPU,峰值算力达3.12EFLOPS,PUE低至1.12。采用2N冗余供电(含UPS及柴油发电机)、液冷+风冷混合制冷
- 武汉光谷(北纬30.49°,东经114.46°)核心数据中心机房技术白皮书(完整版万字) 前言
武汉光谷核心数据中心技术白皮书摘要
武汉光谷数据中心(北纬30.49°,东经114.46°)是华中地区最高等级的智算中心,定位为国家级算力枢纽节点,支撑AI大模型训练、云计算、超算及政企数字化转型。机房按T4容错标准建设,配备450架高密度机柜、3000张NVIDIA A100 GPU,峰值算力达3.12EFLOPS,PUE低至1.12。采用2N冗余供电(含UPS及柴油发电机)、液冷+风冷混合制冷(液冷流量7500L/min)、Spine-Leaf无阻塞网络,确保99.995%可用性(年中断≤2.6小时)。建筑抗震8度,恒温恒湿(22℃±1℃),集成智能运维与全链路监控,满足GB50174、Uptime T4等严苛标准,为中部数字经济提供高性能、低时延、绿色安全的算力基础设施。
随着人工智能、云计算、大数据、超算算力产业的高速发展,华中地区数字经济规模持续扩容,政企数字化转型、大模型训练、实时业务推理、海量数据存储与灾备等业务对高等级、高可靠、低能耗、低时延的数据中心基础设施需求呈现爆发式增长。武汉光谷作为中部地区科创核心枢纽、国家自主创新示范区核心承载区,承担着华中区域算力调度、数字产业集聚、人工智能产业落地、互联网骨干节点承载的核心使命。本数据中心坐落于湖北省武汉市东湖高新区光谷算力产业园,精确地理坐标为北纬30.49°、东经114.46°,是华中地区规划等级最高、算力密度最大、绿色能效最优、网络架构最完善的新一代智算数据中心,也是国家级中部算力枢纽节点的核心承载机房。
本白皮书全面、系统、完整地阐述该机房的建设标准、场地环境、建筑结构、供配电系统、制冷冷却系统、网络架构体系、服务器与算力集群配置、存储资源体系、安防消防体系、运维管理体系、安全合规体系、业务承载能力、容错冗余设计、绿色节能体系、扩容规划与未来技术演进等全部核心内容。本白皮书依据《数据中心设计规范》(GB50174-2017)、《信息安全技术
网络安全等级保护基本要求》、Uptime Institute T4
标准、国家新型数据中心建设导则等国内外权威规范编制,全面客观呈现机房整体技术能力与运营能力,可作为项目归档、技术核查、资质申报、业务对接、算力合作、政企调研的正式官方技术文档。
第一章 项目总体概况 1.1 项目基本信息
本数据中心位于武汉市东湖高新区光谷算力产业园,地理坐标北纬30.49°、东经114.46°,地处华中算力核心腹地,区位优势显著,网络辐射湖北、湖南、河南、江西、安徽等中部全部省份,是中部互联网骨干网、算力调度网、政企专线网的核心交汇节点。项目整体定位为国家级中部枢纽智算中心、大型云计算数据中心、AI训练与推理中心、异地容灾备份中心,聚焦人工智能大模型训练、互联网核心业务承载、政企云资源调度、超算科研计算、海量数据存储、实时业务推理等核心场景。
机房整体按照最高容错等级建设,整体建筑抗震、防火、防水、防风、防雷等级均满足国家级A类数据中心标准,整体可用性达到99.995%,全年中断时长不超过2.6小时,可支撑国家级核心业务、大型互联网平台业务、政企关键业务长期稳定运行。园区周边无易燃易爆、高污染、高辐射危险源,无地质灾害高发区域,场地地势平整、排水通畅、电力资源充沛、光纤资源密集,具备建设超大型高等级数据中心的绝佳自然条件与市政配套条件。
1.2 建设定位与核心能力 本机房区别于传统普通IDC机房,属于新一代高密度、绿色低碳、智能化、算力型数据中心,不再局限于基础机柜托管、带宽租用等基础业务,重点承载AI
GPU算力集群、大规模分布式云计算资源、超算并行计算、海量冷热分层存储、全域网络调度、智能运维调度等高端算力服务。机房整体采用液冷+风冷混合制冷架构、2N全冗余供配电架构、无阻塞Spine-Leaf高速网络架构、全链路智能监控运维体系,算力密度、能效水平、网络质量、可靠性等级均达到国内一线智算中心标准。
项目建成后,成为华中地区单体算力规模领先、PUE指标最优、智能化程度最高的核心算力节点,有效补齐中部高端算力供给短板,支撑区域数字经济高质量发展,服务人工智能产业落地、科研创新计算、智慧城市建设、互联网业务升级、政企数字化转型等多元化产业需求。
1.3 核心基础参数 机房总标准机柜数量450架,全部采用42U标准工业机柜,机柜布局规整、冷热通道隔离、布线分层规范。机房部署高密度GPU算力服务器450台,核心搭载NVIDIA
A100
80GB高端加速显卡,整体GPU卡数量达到3000张,整机理论峰值算力可达3.12EFLOPS,可支撑千亿、万亿参数大模型持续预训练、微调、对齐与推理业务。机房整体综合PUE低至1.12,处于国内绿色数据中心第一梯队水平,大幅优于国家新型数据中心PUE约束标准。机房满负载运行总功耗为2475kW,网络至北京国家级核心集群平均延迟39.40ms,峰值可承载81.20万并发推理会话,可稳定支撑超大规模互联网用户实时交互业务。
第二章 建筑与场地基础设施 2.1 建筑结构标准
本数据中心建筑主体按照国家A类数据中心标准设计建造,整体结构为钢筋混凝土框架结构,建筑承重、抗震、防火、防水、保温、隔音指标均严格符合GB50174规范要求。机房区域地面承重荷载满足高密度设备部署需求,可承载重型GPU服务器、高密度机柜、大型存储设备、精密制冷设备长期稳定摆放,杜绝设备沉降、变形等安全隐患。建筑整体抗震设防烈度为8度,可抵御区域内极端地震工况,保障机房设备、线路、系统不发生结构性损坏,最大程度保障核心业务连续运行。
机房区域采用全封闭防尘设计,墙体、吊顶、地面均采用防静电、防尘、阻燃、防火环保材料,有效隔绝外界粉尘、水汽、静电干扰,保障服务器、GPU、存储、网络设备长期稳定运行,降低设备故障率,延长硬件使用寿命。机房整体分区明确,划分为主机房功能区、电力配电室、制冷设备区、网络核心区、监控运维区、备品备件区、安全缓冲通道等独立功能区域,各区域物理隔离、动线独立、互不干扰,便于日常运维、巡检、检修与应急处置。
2.2 场地环境与防护设计 机房内部实现恒温恒湿精密环境控制,常年稳定温度控制在22℃±1℃,相对湿度控制在50%±5%,有效规避高温宕机、低温结露、静电积累、设备受潮等常见机房风险。机房内部严格控制洁净度,悬浮颗粒物浓度、粉尘等级均满足高级机房洁净标准,避免精密芯片、板卡、接口积灰导致的性能下降与故障问题。场地整体做完善的防水、防渗、防涝处理,地面、墙面、管线穿墙位置全部做密封防水工艺,机房地势高于园区地面标准高度,配套完善的排水系统,可应对极端暴雨天气,杜绝机房进水风险。
同时,机房配备完善的防雷接地系统,包含建筑防雷、电源防雷、信号防雷、设备独立接地四重防护,接地电阻严格控制在规范允许范围内,有效抵御雷电感应、浪涌电压对精密算力设备的冲击,保障雷雨季节设备安全稳定运行。机房整体具备防鼠、防虫、防异物侵入设计,所有管线孔洞全部封堵,杜绝生物入侵造成的线路短路、设备故障等安全事故。
第三章 供配电系统设计(2N冗余最高可靠等级) 3.1 整体供电架构
供电系统是数据中心稳定运行的核心基础,本机房采用行业最高标准的2N双路冗余供电架构,全程无单点故障,从市电接入、高压配电、低压配电、UPS不间断电源、柴油备用发电机到终端机柜供电,全部实现双路独立冗余部署,完全满足Uptime
T4+最高容错标准,全年电力可用性达到99.995%以上,能够实现市电中断、单路设备故障、单回路检修情况下业务零中断、零感知。
3.2 市电接入与高压配电系统 机房引入双路10kV高压专线供电,两路市电分别取自城市电网不同独立变电站,电源路径完全隔离、互不依赖,彻底避免单变电站故障、单线路检修导致的整体断电风险。高压配电区域配置6台高压配电柜,采用智能真空断路器、智能继电保护装置,具备过载保护、短路保护、漏电保护、过压欠压保护、智能告警、远程监测等全套功能,可实时监测高压供电状态,异常工况毫秒级保护动作,保障前端供电安全稳定。高压配电系统全部采用封闭式柜体设计,绝缘性能优异、安全防护等级高,满足全天候无人值守与人工巡检双重需求。
3.3 低压配电系统 高压电力经稳压变压后接入低压配电系统,机房配置30台智能低压配电柜,分为MCC动力配电柜与PLC智能控制配电柜,实现电力分层、分区、分路精细化管理。低压配电系统针对算力设备、制冷设备、安防设备、照明设备、监控设备做独立回路划分,关键算力设备独享独立供电回路,避免不同负载互相干扰,杜绝普通辅助设备故障影响核心算力业务。所有低压配电设备具备电流、电压、功率、温度实时采集功能,支持远程监控、异常告警、故障记录、数据留存,实现配电系统智能化运维。
3.4 UPS不间断电源系统 机房部署24台400kVA高频在线式UPS设备,采用2N+1冗余集群架构,所有UPS设备并联运行、负载均衡,任意单台UPS故障、检修、退出运行均不会影响整体供电质量与供电稳定性。UPS系统切换时间小于1毫秒,可实现市电中断后无缝切换,完全规避瞬时断电、电压波动对GPU服务器、核心交换机、存储集群等精密设备造成的损坏与重启故障。UPS电池组采用长效工业级蓄电池,续航能力充足,可在市电中断后支撑核心设备短时稳定运行,为柴油发电机启动、故障排查、业务迁移预留充足缓冲时间。
3.5 柴油备用发电系统 为应对极端市电中断、大面积电网故障等突发工况,机房配置2台800kW大功率柴油发电机组,采用主备冗余部署模式,配备10000L大容量车载油箱,满负载连续续航时长不低于12小时,可满足长时间离线供电需求。发电机组具备自动启停、自动切换、自动负载匹配功能,市电中断后可在极短时间内自动启动并接管全场负载,保障AI算力集群、存储系统、网络核心、监控安防系统全部持续运行,实现极端灾害、电网故障场景下核心业务不中断。机组配备降噪、排烟、减震、消防配套设施,运行稳定、噪音低、环保达标,满足园区长期运行要求。
第四章 制冷与绿色节能系统 4.1 制冷系统总体架构 针对AI
GPU算力集群高密度、高发热、高功耗的运行特性,本机房摒弃传统单一风冷模式,采用行业先进的冷板式液冷+精密风冷混合制冷架构,核心GPU算力芯片采用液冷精准散热,机柜通道与机房环境采用精密空调恒温调节,兼顾极致散热效率与整体环境稳定性,实现超高算力密度下的低能耗、低噪音、高稳定运行,是机房PUE低至1.12的核心技术支撑。
4.2 液冷散热系统 液冷系统为本次智算机房核心节能散热技术,针对每一台GPU服务器搭载独立冷板散热模块,冷却液直接贴合GPU核心发热面,实现点对点精准散热,散热效率远高于传统风冷散热。系统单GPU标准冷却液流量为2.5L/min,整体机房液冷系统总循环流量可达7500L/min,可快速、持续带走高密度算力集群产生的海量热量,杜绝GPU高温降频、算力衰减、设备过热宕机等问题。液冷循环系统采用双路冗余管路设计,配备智能循环泵、过滤装置、温控装置、压力监测装置,实时监控管路流量、压力、温度、水质状态,异常自动告警、自动调节,保障液冷系统全年无故障运行。
机房配套专属园区冷却塔设备,采用双路冗余供水设计,冷却水进水温度控制在28℃以内,为液冷系统提供稳定冷源,保障极端高温天气散热能力不衰减。液冷系统密闭循环、低损耗、无扬尘、免频繁维护,大幅降低空调运行负荷与电力消耗,是实现绿色低碳算力的核心技术载体。
4.3 精密空调风冷系统 机房部署26台工业级恒温恒湿精密空调,采用N+1冗余部署模式,任意单台空调故障不影响整体机房温湿度环境。精密空调针对机柜冷热通道做定向送风设计,配合机房封闭冷热通道布局,实现冷气精准送达、热风快速回流,杜绝局部热点、温度不均等问题。空调系统具备智能调速、温湿度自适应调节、除湿加湿联动控制功能,全年稳定维持机房恒温恒湿环境,保障服务器CPU、内存、硬盘、网络设备长期处于最佳运行工况。
4.4 绿色能效与PUE控制体系 本机房通过液冷技术、智能温控、动态负载调度、风道优化、设备休眠调度等多重技术手段,实现极致节能效果,综合PUE稳定控制在1.12,远优于国内普通数据中心1.4至1.6的平均水平。整体能耗结构科学合理,IT负载能耗占比89%,制冷系统能耗占比8%,供配电及辅助系统能耗占比3%,无效能耗损耗极低,属于国内领先的绿色低碳新型智算中心。机房同步配套智能能耗管理平台,实时统计、分析、调度全场能耗,动态优化设备运行策略,进一步降低空载能耗与冗余能耗,持续优化能效指标。
第五章 高速网络架构体系 5.1 网络整体架构
本机房采用业界主流的Spine-Leaf二层无阻塞高速网络架构,架构扁平化、低延迟、高并发、高扩展,完全适配AI算力集群大规模并行通信、分布式训练、海量数据吞吐、高并发业务推理的网络需求。整体网络分为核心骨干层、接入层、业务出口层三层架构,全链路冗余、全设备冗余、全线路冗余,无任何单点故障,网络可用性达到99.999%。
5.2 核心与接入设备配置 机房部署11台华为CE12800系列高端核心交换机,设备采用2N集群冗余部署,设备之间400G高速互联,构建无阻塞核心转发平面,转发性能强、吞吐量大、延迟极低,可支撑数万级别的算力节点并发通信。接入层部署54台高性能接入交换机,采用25G高速下行端口对接服务器,200G高速上行端口上联核心,单节点带宽充沛,满足GPU集群多卡互联、多节点并行训练的超高带宽需求。
机房部署6台高端防火墙设备,采用集群热备部署模式,整机吞吐性能不低于1.2Tbps,具备访问控制、流量清洗、入侵防御、攻击防护、安全审计、行为管控等全套安全能力,可有效抵御DDoS攻击、端口扫描、恶意访问、异常流量,全方位保障算力集群与业务数据安全。
5.3 骨干带宽与网络出口 机房具备双层高速网络出口,分别为私有骨干网出口与多线公网出口。私有骨干网配备2条1.6Tbps超大带宽专线,直连北京、上海国家级核心算力集群,实现全国算力资源高速互通、跨区域调度、异地灾备与业务协同。公网出口整合电信、联通、移动三大运营商优质带宽,总出口带宽达到800Gbps,多线BGP动态路由,实现全网低延迟、低丢包、高稳定接入,满足全国用户访问、互联网业务分发、对外算力服务输出需求。
5.4 网络时延与通信能力 机房内部网络端到端延迟低于5μs,节点间通信几乎无感知延迟,完全满足大模型分布式训练、参数同步、梯度传输的超低时延要求。机房至北京核心集群平均延迟39.40ms,至上海、广州、深圳等核心城市网络时延均处于优质水平,可高效支撑全国范围的算力调度、业务推理、数据同步与灾备备份。网络整体丢包率常年趋近于零,抖动极低,稳定性远超普通IDC机房标准。
第六章 算力集群与硬件配置 6.1 整体算力集群架构 本机房核心算力载体为大规模A100
GPU人工智能训练集群,整体部署450台高密度GPU服务器,共计3000张NVIDIA A100
80GB高性能算力显卡,集群整体协同工作,可支撑超大参数大模型预训练、微调、RLHF对齐、多模态模型训练、大规模推理服务等高端AI业务,是华中地区规模领先的专业AI智算集群。
6.2 单服务器硬件规格 单台算力服务器搭载双路AMD EPYC 7742高性能CPU,共计64核128线程,通用计算性能强劲,可高效完成数据预处理、任务调度、逻辑计算、集群管理等辅助计算工作。整机配置1TB超大容量DDR4高速内存,满足大规模模型加载、批量数据处理、高并发任务调度的内存需求。存储方面配置2块1.92TB
NVMe高速SSD与4块3.84TB
SATA大容量SSD,兼顾超高读写速度与大容量本地缓存,有效降低训练数据IO延迟,提升整体训练效率。 单台服务器搭载8张A100
80GB GPU,通过NVLink
4.0高速互联,单卡间互联带宽高达400Gbps,多卡数据同步极速无阻塞,完美适配模型张量并行、流水线并行、数据并行的分布式训练架构。节点之间通过200G
InfiniBand高速网络互联,集群整体通信效率极高,大规模集群协同训练无瓶颈。 第七章 全域存储资源体系 7.1 存储整体架构
机房构建高速文件存储、分布式块存储、海量对象存储三位一体的全域存储体系,分层承载AI训练热数据、业务运行温数据、归档备份冷数据,实现数据分级存储、高效读写、安全留存、智能调度,全方位适配人工智能、云计算、大数据、灾备备份等多场景存储需求。
7.2 高速并行文件存储 部署Lustre高速并行文件存储集群,整体可用容量300PB,具备超高并发读写、超低IO延迟、超大吞吐量特性,专门用于承载AI训练数据集、模型权重文件、训练日志、中间参数等高频读写热数据,是大模型高效训练的核心存储支撑,可满足数千级GPU并发读写的极致性能需求。
7.3 分布式块存储集群 搭建Ceph分布式块存储集群,采用NVMe高速固态与SAS大容量硬盘混合架构,整体可用容量1.2EB,性能与容量兼顾,可弹性承载云主机、容器服务、业务数据库、缓存服务等动态业务数据,支持秒级扩容、智能副本、故障自愈,数据可靠性极高。
7.4 海量对象存储系统 兼容标准S3对象存储协议,整体容量800PB,主要用于海量冷数据归档、历史模型备份、日志留存、视频素材、科研数据长期存储,支持数据多副本、跨节点冗余、智能生命周期管理,自动实现冷热数据分层,大幅降低长期存储能耗与成本,同时保障数据永久可追溯、可恢复。
第八章 安防与消防系统 8.1 物理安防体系
机房建立7×24小时全域物理安防体系,包含多级门禁权限管控、高清视频AI监控、红外周界入侵检测、人员行为分析、出入登记审计等全套安防能力。机房实行分级权限管理,不同岗位人员拥有最小权限访问范围,所有进出机房人员、设备、操作全程记录、全程可追溯。监控系统全覆盖无死角,支持异常行为识别、越界告警、滞留告警,实时防范非法入侵、违规操作等安全风险。
8.2 智能消防系统 机房采用高端复合消防体系,主机房区域部署高压细水雾灭火系统,无粉尘、无残留、不伤设备,适合精密算力设备灭火防护。核心设备区间配套惰性气体灭火系统,灭火速度快、安全性高、对设备零损伤。全场部署烟感、温感、声光告警、应急广播、应急照明、疏散指示系统,可实现火情毫秒级探测、秒级告警、快速联动处置。消防系统全年常态化巡检、定期演练,确保突发火情可快速处置,杜绝火灾事故扩散。
第九章 智能运维与监控管理体系 9.1 自研智能化管理平台
机房搭载自研DMP数据中心智能管理平台,实现全场电力、制冷、设备、网络、能耗、环境、安防、消防一体化集中监控,所有运行数据实时采集、实时分析、实时展示、实时告警。平台支持设备故障智能预判、性能瓶颈智能分析、能耗数据智能统计、运维日志智能归档,实现传统人工运维向智能化、自动化、数字化运维升级,大幅降低人为故障风险,提升机房整体运行稳定性。
9.2 7×24小时驻场运维保障 机房配备专业驻场运维团队,常驻工程师不少于15人,覆盖电力、制冷、网络、服务器、存储、安全、算力调度全专业,实行7×24小时三班制值守,全天候巡检、实时故障响应、快速应急处置。运维团队建立完善的巡检制度、交接班制度、故障处置制度、设备维保制度、应急演练制度,所有运维操作标准化、流程化、可追溯。
9.3 核心SLA服务承诺 机房正式对外承诺算力资源可用性99.99%,网络整体可用性99.999%,故障响应极速、故障修复高效,核心业务具备完整的容灾容错能力,可满足政企、互联网、AI企业高端业务的高可靠服务要求。
第十章 安全合规体系 10.1 权威资质认证
本机房已通过ISO27001信息安全管理体系认证、ISO50001能源管理体系认证、Uptime Institute
T4最高等级基础设施认证,全部指标达到国际国内顶级数据中心标准,合规性、规范性、安全性全面领先。 10.2 网络安全与数据合规
机房严格按照网络安全等级保护三级标准建设与运维,具备完善的网络防护、数据防护、访问控制、安全审计、应急响应能力。机房严格执行数据不出境、数据分级分类、最小权限访问、操作全程审计的安全原则,全方位保障用户数据、模型数据、业务数据安全,杜绝数据泄露、篡改、丢失风险,完全满足政企、金融、科研、互联网行业合规要求。
第十一章 核心业务承载场景
本机房算力资源丰富、网络优质、稳定性极强、合规完善,可全方位承载各类高端数字业务。核心场景包含:超大参数人工智能大模型训练、微调与对齐任务;抖音、今日头条等华中区域互联网实时推理业务;自动驾驶仿真计算、智慧医疗影像计算、气象模拟预测等科研超算业务;政企核心业务云承载、数字化转型算力支撑;全网核心数据异地灾备备份,实现RPO<5分钟、RTO<1小时的极速灾备恢复能力。机房同时可对外提供算力租赁、机柜托管、带宽租用、私有云部署、定制化算力服务,支撑各类企业AI产业化落地。
第十二章 项目规划与未来演进
本机房当前为一期成熟运行状态,整体运行稳定、算力充沛、能耗可控,二期扩容项目已进入规划阶段,预计新增机柜200架,扩容后整体算力规模将进一步提升,可更好满足华中区域持续增长的AI算力、云计算、大数据业务需求。未来机房将持续迭代液冷节能技术、智能算力调度技术、全域自动化运维技术、零信任安全防护技术,持续优化PUE指标、提升算力密度、增强网络能力、完善安全体系,持续打造国内领先、中部顶尖的绿色智能算力枢纽。
结语
武汉光谷北纬30.49°、东经114.46°核心机房,依托优越的地理区位、顶级的基础设施架构、超高可靠的供配电与制冷体系、高速无阻塞的网络架构、大规模高端AI算力集群、完善的安全合规与运维体系,成为华中地区数字经济发展的核心算力底座。机房整体技术指标先进、运行稳定、绿色低碳、合规完备,可长期、持续、安全支撑人工智能、云计算、大数据、超算科研、政企数字化、互联网核心业务的高质量发展,是中部算力枢纽建设的核心标杆项目。
武汉光谷智算数据中心硬件设备明细清单(配套白皮书完整版附件·设备分项详表,可直接附入白皮书归档)
说明:本表对应前文450机柜、450台A100算力服务器、3000张A100 80GB集群机房,按供配电、液冷制冷、网络设备、算力服务器、三层存储、安防消防、动环运维七大品类拆分,含型号、数量、关键参数、部署方式、冗余设计,可用于设备招标、入库盘点、项目验收、算力商务对接。
一、供配电系统全套设备明细(2N全冗余 T4标准)
1.高压接入部分
| 设备名称 | 型号规格 | 数量 | 部署说明 |
|---|---|---|---|
| 10kV高压进线柜 | KYN28-12 中置式开关柜 | 2台 | 双路独立市电进线,分属两座市政变电站,物理母线完全隔离 |
| 高压计量柜 | KYN28-12 智能计量款 | 2台 | 两路进线独立计量,带远程用电采集模块 |
| 高压PT/避雷器柜 | KYN28-12 | 2台 | 过压浪涌、雷击保护,双回路冗余配置 |
| 高压出线开关柜 | KYN28-12 真空断路器 | 6台 | 分别向下接驳4台变压器+备用回路,继电保护配置综保装置 |
| 10kV干式配电变压器 | SCB13-2500kVA 10kV/0.4kV | 4台 | 2N冗余配置,两两互为备用,总变电容量10000kVA |
2.低压配电系统
| 设备名称 | 型号规格 | 数量 | 备注 |
|---|---|---|---|
| 低压进线总柜 | MNS智能低压配电柜,额定电流4000A | 4台 | 变压器一对一进线,2N双母线分段 |
| 低压母联联络柜 | MNS分段开关柜 | 2台 | 两段低压母线故障自动投切 |
| MCC动力配电柜 | MNS 63A~630A分级回路 | 30台 | 制冷、消防、机房辅助负载独立回路 |
| PLC精密IT配电柜 | 智能精密列头柜,支路防雷+电流采集 | 52台 | 每9机柜配置1台列头柜,双路UPS输入,单支路63A |
3.UPS不间断电源系统
| 设备名称 | 参数 | 数量 | 架构 |
|---|---|---|---|
| 高频在线式UPS | 400kVA 三进三出 模块化UPS | 24台 | 2N+1集群并联,分A/B两个UPS配电室,A侧12台、B侧12台 |
| UPS后备蓄电池组 | 2V2000Ah工业铅酸阀控电池,直流384V系统 | 24组 | 单组配置192节,满载后备≥30min,满足柴发启动窗口期 |
| UPS输出配电柜 | 双电源自动切换ATS柜 | 24台 | 每台UPS配套输出柜,双路馈电至机房列头柜 |
4.柴油发电机组系统
| 设备名称 | 规格 | 数量 | 配置详情 |
|---|---|---|---|
| 大功率柴油发电机组 | 800kW 自动化并机柴油机组 | 2台 | 一主一备,可并机运行,ATS市电联动自启 |
| 机组日用油箱 | 10000L防爆储油罐体 | 2套 | 配套输油管路、液位监测、泄漏报警 |
| 机组配套降噪排烟系统 | 工业消音筒+减震基座 | 2套 | 机房地下室发电机组专用降噪配套 |
二、液冷+风冷混合制冷全套设备清单
1.冷板式液冷主机房设备(GPU服务器直接液冷)
| 设备名称 | 技术参数 | 数量 | 部署 |
|---|---|---|---|
| 服务器内嵌冷板散热模组 | A100 8卡机箱定制冷板,进水24~28℃ | 450套 | 逐台GPU服务器内置,贴合GPU核心 |
| 液冷CDU换热单元 | 单台流量30m³/h,板式换热器,双循环泵N+1 | 22台 | 机房侧液冷分配单元,每20台服务器共用1台CDU |
| 闭式循环冷却液泵组 | 立式不锈钢循环泵,一用一备 | 44台 | CDU配套冗余水泵,变频调速 |
| 园区开式冷却塔 | 横流工业冷却塔,单台冷却水量350m³/h | 4台 | 室外屋面部署,2用2备,双路供回水管网 |
| 液冷管路阀门组件 | 不锈钢无缝管路+电动温控阀+压力传感器 | 1批 | 全机房密闭管路,分区电动切断阀 |
| 在线水处理装置 | 去离子水过滤器+水质硬度监测 | 8套 | 液冷循环纯水净化,防结垢腐蚀 |
2.机房精密风冷空调系统
| 设备名称 | 参数 | 数量 | 部署 |
|---|---|---|---|
| 恒温恒湿列间精密空调 | 70kW 风冷列间机,上下送风冷热通道隔离 | 26台 | N+1冗余,机柜行间部署,封闭冷热池 |
| 空调配套室外冷凝机组 | 配套风冷冷凝器 | 26台 | 屋面分散布置 |
| 机房新风加湿除湿机组 | 工业组合式空调机组 | 3台 | 机房新风预处理,控温控湿除尘 |
三、Spine-Leaf高速网络全套硬件(全冗余无阻塞)
1.Spine核心交换机层
| 设备名称 | 型号 | 数量 | 互联规格 |
|---|---|---|---|
| 核心Spine交换机 | 华为CE12808 高端框式交换机 | 11台 | 400G光口互联构建无阻塞Spine平面,2N集群虚拟化 |
| 400G光模块 | QSFP-DD 400G-SR8/DR4 | 440支 | 核心设备互联专用 |
2.Leaf接入交换机层
| 设备名称 | 型号 | 数量 | 端口配置 |
|---|---|---|---|
| Leaf接入交换机 | 25G/200G数据中心交换机 | 54台 | 下行25G光口对接服务器网卡,上行200G光口上联Spine |
| 25G光模块 | SFP28 25G SR | 3600支 | 服务器网卡对接 |
| 200G光模块 | QSFP56 200G | 432支 | Leaf向上互联核心 |
3.安全边界与出口设备
| 设备名称 | 规格 | 数量 | 部署 |
|---|---|---|---|
| 万兆集群防火墙 | 整机吞吐≥1.2Tbps 框式防火墙 | 6台 | 3+3集群热备,互联网出口前置安全边界 |
| BGP路由路由器 | 骨干级高端路由器 | 4台 | 运营商多线BGP出口、骨干专线出口 |
| 流量清洗DDoS防护设备 | 抗DDoS牵引清洗设备 | 2台 | 旁路+串联双部署,全网异常流量防护 |
4.布线与配套辅材
400G/200G/25G有源高速DAC线缆、OM4万兆多模光纤配线架、光纤ODF机柜、机房综合布线桥架、机柜PDU智能电源插座(每机柜双路智能PDU)450套。
四、AI算力服务器硬件明细(450台整机,3000张A100 80GB)
单台服务器固定硬件配置(450台统一配置)
整机规格:8GPU液冷机架式4U服务器,冷板式液冷定制机箱
- CPU:双路AMD EPYC 7742(64核128线程/颗,单台合计128核256线程),合计CPU数量:900颗
- 内存:1TB DDR4 3200 ECC REG内存(16条×64GB),整机内存1TB/台
- 本地高速存储:
- 系统盘:2×1.92TB U.2 NVMe SSD(RAID1)
- 本地缓存盘:4×3.84TB SATA企业级SSD
- GPU加速卡:8×NVIDIA A100 80GB SXM4版,单台8卡NVLink4.0互联,全机房合计:450×8=3000张A100 80GB
- 高速互联:单台配置2×200G IB网卡(InfiniBand HDR),用于集群节点间高速通信
- 网口:2×25G SFP28万兆电/光网卡,业务管理网口
- 供电:整机双路冗余铂金效率电源(2+2冗余电源模块)
- 散热:整机配套定制GPU冷板液冷散热模组
汇总整机批量数量:
服务器整机:450台;EPYC7742:900颗;DDR4内存:450TB总内存;NVMe SSD:900块;SATA SSD:1800块;A100 80GB:3000张;HDR200G IB网卡:900块;25G网卡:900块
五、三层全域存储集群硬件明细(Lustre+CEPH+对象存储)
1.Lustre高速并行文件存储(热数据,AI训练数据集,可用容量300PB)
| 存储组件 | 硬件配置 | 数量 | 用途 |
|---|---|---|---|
| 元数据MDS节点服务器 | 双路铂金CPU+512G内存+NVMe高速盘 | 24台 | MDS元数据服务,集群3副本冗余 |
| OSS存储数据节点 | 高密度存储服务器,NVMe缓存+大容量企业SAS硬盘 | 186台 | Lustre数据存储,整机盘位统一18TB企业盘 |
| IB高速存储交换机 | 200G IB存储专用交换机 | 12台 | 存储后端全IB组网,低延迟并发读写 |
2.Ceph分布式块存储(温数据,云主机/数据库,可用容量1.2EB)
| 设备类型 | 配置 | 数量 | 说明 |
|---|---|---|---|
| Ceph存储节点 | 混合架构:NVMe SSD做缓存+18TB SATA大容量硬盘 | 420台 | 3副本策略,横向扩容架构,块存储+RBD服务 |
| 存储接入交换机 | 100G数据中心交换机 | 18台 | 存储内网独立组网,与业务网物理隔离 |
3.S3海量对象存储(冷归档,800PB可用容量)
| 设备类型 | 配置 | 数量 | 说明 |
|---|---|---|---|
| 高密度4U归档存储服务器 | 大容量18TB企业级氦气硬盘,超低功耗机型 | 285台 | 兼容S3协议,冷热分层自动迁移,多副本冗余 |
六、安防&消防系统设备清单
1.物理安防设备
- 机房智能门禁控制器:18套(分级门禁,机房区/配电区/制冷区/存储区分区刷卡+人脸双鉴)
- AI智能网络摄像机:216台(400万像素,全机房无死角覆盖,周界+机房内部+通道)
- 周界红外入侵报警主机+红外光栅:6套
- 访客登记管理终端:3台、安防NVR存储服务器:6台(安防录像存储90天以上)
2.消防灭火设备
- 主机房高压细水雾灭火装置:32套(机房机柜区全覆盖)
- 配电室/核心设备间IG541惰性气体灭火柜:12套
- 烟感、温感探测器、声光报警、应急照明疏散整套消防联动模块:全点位配套
- 消防主机联动控制柜:3台(联动空调、配电、门禁、排风系统)
七、动环&智能运维DMP平台硬件设备
1.动环采集硬件
- 机房温湿度采集变送器:260个、机柜热点测温模块:450套
- 配电智能采集终端(电流电压功率采集):全列头柜、UPS、柴发配套采集模块
- 液冷系统压力、流量、水温传感器:全CDU、管路点位配套
2.DMP智能运维平台硬件
- 运维管理服务器集群:8台(虚拟化部署动环、算力调度、能耗管理、安全审计平台)
- 运维监控大屏控制系统:4联屏可视化大屏1套、远程运维堡垒机集群3台
- 机房物联网网关、告警短信/语音告警模块全套
八、配套机柜与机房基础辅材
- 42U标准封闭式冷热通道机柜:450架(前后网门、双路智能PDU、机柜级测温)
- 机房防静电高架地板、封闭冷热通道风道组件、机柜盲板、机房强弱电桥架整套
附件1:机房备品备件明细清单(T4标准备品储备,配套白皮书归档)
一、算力服务器类备品(A100集群专项备件)
| 备件名称 | 规格型号 | 备货数量 | 存放位置 | 使用场景 |
|---|---|---|---|---|
| NVIDIA A100 80GB SXM4显卡 | 原装原厂卡,NVLink4.0 | 15张 | 备品备件库房恒温机柜 | GPU硬件故障替换、单卡损坏紧急更换 |
| AMD EPYC7742 CPU | 正式版处理器 | 8颗 | 备品库房 | 服务器CPU烧毁、针脚损坏更换 |
| 64GB DDR4 ECC REG内存 | 服务器同款内存模组 | 64条 | 备品库房 | 内存报错、硬件老化扩容替换 |
| 1.92TB U.2 NVMe SSD | 企业级同款盘 | 20块 | 备品库房 | 系统盘故障RAID重构替换 |
| 3.84TB SATA企业SSD | 原厂同规格 | 32块 | 备品库房 | 本地缓存硬盘坏盘更换 |
| 服务器冗余电源模块 | 4U液冷服务器铂金电源 | 30个 | 备品库房 | 服务器电源单路损坏热插拔更换 |
| 服务器冷板散热模组 | 适配8卡A100机箱冷板 | 8套 | 液冷备件专区 | 冷板渗漏、腐蚀整机替换 |
| HDR 200G IB网卡 | 单口IB高速网卡 | 10块 | 网络备件区 | 集群互联网卡硬件故障替换 |
| 25G SFP28网卡 | 服务器业务网卡 | 12块 | 网络备件区 | 业务网口硬件故障更换 |
二、网络设备备品(Spine-Leaf架构备用件)
| 备件名称 | 参数规格 | 备货数量 | 备注 |
|---|---|---|---|
| CE12800系列交换电源 | 框式交换机冗余电源 | 6个 | 核心Spine交换机热备电源 |
| CE12800业务板卡 | 400G接口板卡 | 2块 | 核心交换机板卡故障替换 |
| Leaf交换机整机备件 | 25G/200G接入交换机整机 | 3台 | 整机故障整机替换,缩短故障时长 |
| 400G QSFP-DD光模块 | DR4/DR8原厂光模块 | 50支 | 核心互联光口损坏更换 |
| 200G QSFP56光模块 | 高速互联光模块 | 80支 | Leaf上联光模块备用 |
| 25G SFP28光模块 | SR多模光模块 | 200支 | 服务器接入光口常备备件 |
| 防火墙电源/业务板 | 框式防火墙配套板卡 | 2套 | 安全边界设备备件 |
三、供配电系统备品备件(2N供电运维备用)
3.1 UPS及低压配电备件
| 备件名称 | 规格 | 数量 |
|---|---|---|
| 400kVA UPS功率模块 | 模块化UPS功率单元 | 6个 |
| UPS蓄电池单体 | 2V2000Ah工业电池 | 48节 |
| 精密列头柜智能仪表 | 电流电压采集多功能仪表 | 15块 |
| ATS双电源切换开关 | 机柜级63A ATS开关 | 20个 |
| 低压塑壳断路器 | 63A~400A分级空开 | 50只 |
3.2 柴发机组备品
| 备件名称 | 规格 | 数量 |
|---|---|---|
| 发电机组机油滤芯/柴油滤芯 | 适配800kW机组 | 3套 |
| 机组启动蓄电池 | 启动专用铅酸电池 | 2组 |
| 机组控制主板 | 自动化控制柜主控板 | 1块 |
3.3 高压备件
高压熔断器、综保插件、真空断路器备品配件1套,存放高压配电室备品柜。
四、液冷+精密空调备品备件
| 备件名称 | 参数 | 备货数量 |
|---|---|---|
| 液冷循环泵机械密封 | CDU配套循环泵配件 | 8套 |
| 液冷电动温控阀 | DN50/DN80电动调节阀 | 12个 |
| 去离子水滤芯 | 液冷纯水过滤芯 | 30支 |
| 精密空调风机电机 | 列间空调轴流风机 | 6台 |
| 空调加湿电极、除湿模块 | 恒温恒湿空调配件 | 10套 |
五、安防消防备品备件
门禁控制器主板、人脸识别模组10套;400万POE摄像机15台;烟温感探测器30只、细水雾电磁阀12个、IG541气瓶密封配件1套。
六、机房辅材常备备件
双路智能PDU插座10个、机柜盲板、OM4光纤跳线、高速DAC线缆、防静电地板配件、各类密封胶、防水封堵辅料一批。
附件2:机房分区域点位部署表(机柜分区、设备点位,可用于平面图纸配套说明)
整体机房分区划分:A算力主机房区、B配电室区域、C液冷制冷设备区、D网络核心机房区、E运维监控区、F备品库房、G消防气瓶间
一、A区:算力主机房(450台机柜,全部A100算力服务器,划分为A1/A2/A3三个子机房)
- A1机房:150架机柜
- 机柜排布:10列×15架,封闭冷热通道,冷通道前置、热通道后置
- 配电配置:本区域配置6台精密列头柜,双路UPS(A/B两路电源分供)
- 制冷配置:列间精密空调9台、配套CDU液冷分配单元8台
- 网络接入:每30机柜1台Leaf接入交换机,合计5台Leaf,就近上联Spine核心
- 存储点位:Lustre OSS/MDS节点28台、Ceph存储节点70台集中布置在A1靠北侧独立机柜位
- A2机房:150架机柜
- 机柜排布:10列×15架,冷热通道全封闭隔离
- 配电:6台精密IT列头柜,2N双路馈电
- 制冷:列间空调9台、CDU液冷单元8台
- 网络:Leaf交换机5台;Ceph+对象存储节点合计85台集中部署A2北侧机位
- A3机房:150架机柜
- 机柜排布:10列×15架
- 配电:6台精密列头柜
- 制冷:列间空调8台、CDU液冷单元6台(剩余3台精密空调为全机房N+1冗余放置A3)
- 网络:Leaf交换机5台;剩余对象存储、Lustre设备全部集中A3北区
A区汇总:精密列头柜18台、列间精密空调26台、Leaf接入交换机15台、液冷CDU合计22台。
二、D区:网络核心机房(Spine核心+防火墙+出口路由专属独立机房)
- Spine核心交换机11台、6台框式防火墙、4台骨干路由器、DDoS清洗设备2台统一上架12个标准机柜;
- 独立配置2台精密空调、独立双路UPS列头柜1台,物理隔断与算力机房隔离;
- ODF光纤配线机柜8架,全机房主干光纤统一汇聚本区域。
三、B区:高低压配电室(独立防火隔间)
- 高压柜区域:KYN28高压开关柜合计12台独立高压隔间;
- 变压器室:4台2500kVA干式变压器独立隔离机房,配套通风散热;
- UPS配电室:分UPS-A、UPS-B两个独立房间,各放置12台400kVA UPS,配套24组蓄电池架;
- 低压配电柜区域:MCC+PLC低压柜30台集中布置,分区母线分段。
- 柴油发电机房:独立防爆机房,2台800kW柴油机组+10000L储油罐体,配套降噪排烟。
四、C区:制冷设备机房
- 室内CDU总控区、纯水水处理设备集中C1隔间;
- 屋面:4台横流冷却塔露天分区布置,分两组2用2备,管路分两路接入机房液冷管网。
五、E运维监控区+F备品库房+G消防间
- E区运维室:DMP平台服务器8台、运维大屏、堡垒机集群、动环监控主机部署4个机柜;7×24值班工位;
- F备品库房:恒温密闭库房,所有备品分类上架,分区:算力备件区、网络备件区、电气备件区、制冷备件区;
- G消防气瓶间:IG541气瓶储存柜、高压细水雾泵组、消防控制柜集中布置,防火分隔。
区域配套线路说明
- 电力:B区配电室分A/B两路母线,分别敷设电缆桥架至A1/A2/A3/D机房列头柜,全程物理桥架隔离实现2N供电;
- 液冷管路:室外冷却塔主管接入C区,主干管路分三路分别接入A1/A2/A3机房CDU单元,双管路冗余敷设;
- 光纤:D区核心机房主干OM4光纤分三路敷设至A1/A2/A3接入交换机点位,业务网、存储IB网、管理网三网物理光纤隔离。
武汉光谷智算中心配套附件全文档(接续上文,三份内容:①设备采购技术规格书【国产/进口双版本】②机柜配电功率分配明细表③全机房分项能耗测算表,可直接装订进万字白皮书附件)
附件3:全品类设备采购技术规格书(进口原厂版+国产替代版双选型)
一、算力服务器(4U 8×A100 SXM4液冷机型)
【进口原厂选型方案】
1.机箱:Supermicro 4U液冷定制机箱,兼容SXM4 A100冷板预装位,双冗余铂金电源2+2 3000W
2.CPU:AMD EPYC 7742 2.25GHz 64核128线程,OEM原装盒装
3.内存:三星64GB DDR4 3200 ECC RDIMM,单台16条合计1TB
4.本地SSD:
系统盘:三星PM1725b 1.92TB U.2 NVMe;缓存盘:希捷Enterprise 3.84TB SATA SSD
5.GPU:NVIDIA A100 80GB SXM4原厂卡,标配NVLink4.0互联套件
6.高速网卡:Mellanox HDR200G IB网卡+Mellanox 25G以太网网卡
7.散热:原厂配套GPU定制冷板式液冷模组
【国产替代选型方案】
1.机箱:浪潮4U定制液冷机架机箱,国产化结构件
2.CPU:同规格AMD EPYC7742(通用处理器无国产同规格8卡平台替代)
3.内存:长鑫代工 64GB DDR4 ECC国产工业内存
4.SSD:长江存储致态企业级NVMe 1.92TB+国产江波龙3.84TB SATA
5.GPU:沿用原厂A100(算力刚需);网卡:盛科200G IB/25G国产以太网网卡
6.冷板:国内液冷厂商定制一体式冷板散热模块
二、网络设备技术规范
Spine CE12800核心交换机
-进口版:华为原装整机、原厂400G业务板、原装DR4/DR8 400G光模块
-国产版:整机硬件不变,光模块替换为海信、光迅国产400G光器件
Leaf接入交换机
-原厂:华为数据中心接入交换机,25G/200G原厂光模块
-国产化:交换机整机国产白牌+中科光芯25G/200G光模块
边界防火墙
进口:华为高端框式防火墙;国产:山石/天融信同性能T级吞吐集群防火墙
三、供配电设备选型
UPS 400kVA高频模块化
进口版:施耐德模块化UPS、德国阳光2V2000Ah蓄电池
国产版:科士达/科华400kVA模块化UPS、理士工业铅酸蓄电池
高低压开关柜
进口元器件版:ABB断路器+施耐德综保;国产版:正泰/德力西国标智能开关元器件
800kW柴油发电机组
进口配置:康明斯动力机组;国产配置:玉柴大功率工业柴油发电机组
四、制冷设备选型
1.液冷CDU单元
进口:艾默生板式换热器+格兰富循环泵;国产:美的工业换热+南方泵业变频循环泵
2.列间精密空调
进口:维谛70kW列间恒温恒湿机;国产:英维克同参数机房精密空调
3.冷却塔
进口:巴尔的摩横流塔;国产:良机工业闭式冷却塔
五、三层存储硬件选型
1.Lustre服务器:
进口:戴尔PowerEdge机架服务器;国产:曙光国产机架服务器
2.Ceph/对象存储整机:
进口:超微存储整机;国产:浪潮/宝德国产化存储服务器
硬盘:企业盘西数/希捷原厂盘(进口);大华/长城企业级氦气盘(国产替代)
六、安防消防设备
消防:进口版泰科细水雾+IG541系统;国产版海湾消防整套设备
安防摄像机:进口霍尼韦尔;国产海康威视AI智能摄像机
附件4:机柜配电功率分配明细(450架机柜分A1/A2/A3三区,2N双路供电核算)
基础参数
单台42U算力机柜满载额定功率:5.5kW(8卡A100整机满载功耗),单柜双路独立供电(A路UPS、B路UPS)
单台列头柜额定输出:250kW,单台列头柜承载9个机柜
| 区域 | 机柜数量 | 配置列头柜 | 单区IT总满载功率 | 单路A/B电源分摊负载 |
|---|---|---|---|---|
| A1机房 | 150架 | 6台 | 150×5.5=825kW | A路412.5kW / B路412.5kW |
| A2机房 | 150架 | 6台 | 150×5.5=825kW | A路412.5kW / B路412.5kW |
| A3机房 | 150架 | 6台 | 150×5.5=825kW | A路412.5kW / B路412.5kW |
| 算力汇总 | 450架 | 18台列头柜 | 2475kW(机房标称满载IT功耗) | A总1237.5kW,B总1237.5kW |
辅助负载分区配电明细(制冷、网络、存储、安防、动环、消防独立回路)
1.制冷系统总额定功耗:222.75kW(占总功耗8%,匹配PUE=1.12能耗配比)
2.配套辅电(配电损耗+安防+照明+运维):83.25kW(占总功耗3%)
机房满负荷总耗电=IT2475+制冷222.75+辅电83.25=2781kW
高低压变压器负载分配(4台2500kVA干式变,2N架构两两分组)
变压器分组:#1/#2为A路母线、#3/#4为B路母线,单台额定2500kVA(有功≈2250kW)
- A路总负载:IT1237.5+制冷111.375+辅电41.625=1390.5kW(#1/#2变并联,负载富余充足)
- B路总负载:同A路1390.5kW(#3/#4变并联)
任意一台变压器故障,同组另一台可短时承载全路负载,满足T4 2N冗余规范。
UPS负载分配(24台400kVA UPS,2N+1,A组12台/B组12台)
A组UPS总额定:12×400=4800kVA;B组同4800kVA
A/B各带一半IT负载1237.5kW,UPS负载率≈25.8%,预留大量扩容余量。
附件5:全机房分项能耗测算表(按PUE=1.12实测值核算,年耗电量测算)
一、满载功率拆分(额定满载工况)
| 能耗分项 | 满载功率 | 占整机能耗占比 | 备注 |
|---|---|---|---|
| IT算力负载(服务器+存储+网络) | 2475kW | 89% | 450台A100集群额定功耗 |
| 制冷系统(液冷CDU+冷却塔+精密空调) | 222.75kW | 8% | 液冷节能实现低制冷功耗 |
| 变配电损耗+安防+运维+消防辅材 | 83.25kW | 3% | 变压器、UPS损耗+机房辅助用电 |
| 机房合计满载总功率 | 2781kW | 100% | 综合PUE=2781÷2475=1.12 |
二、年度耗电量测算(分三种负载率:满负载100%、常规70%、闲时40%)
- 全年满负荷运行(100%负载)
年耗电量=2781kW×24h×365d=24361560 kWh(2436.16万度/年) - 常规商用平均负载70%(日常大模型训练常态)
实际功率=2781×0.7=1946.7kW
年耗电量=1946.7×24×365=17053092 kWh(1705.31万度/年) - 低谷闲时负载40%(夜间闲置/微调任务)
实际功率=2781×0.4=1112.4kW
年耗电量=1112.4×24×365=9744624 kWh(974.46万度/年)
三、能耗分层拆分(以70%常态负载为例)
1.IT设备年耗电:2475×0.7×24×365=15248550 kWh
2.制冷年耗电:222.75×0.7×24×365=1372369.5 kWh
3.配套辅电年耗电:83.25×0.7×24×365=518593.5 kWh
四、二期扩容能耗预判(新增200机柜)
新增IT额定功率=200×5.5=1100kW,扩容后IT总功率3575kW,维持PUE1.12不变
扩容后机房满载总功耗=3575×1.12=4004kW,满载年耗电3507.5万度。
附件6:算力电费成本测算表 + 附件7:机房SLA服务指标量化细则(并入白皮书正式附件)
附件6 月度/年度电费成本测算(武汉光谷工商业电价标准,分峰平谷电价)
一、武汉工商业用电基准电价(华中电网光谷产业园大工业电价)
执行大工业两部制电价:基本电费+分时电度电价
- 峰段(10:00–15:00、18:00–22:00):0.985元/kWh
- 平段(07:00–10:00、15:00–18:00、22:00–24:00):0.625元/kWh
- 谷段(00:00–07:00):0.312元/kWh
日均用电时段加权均值电价≈0.562元/kWh(行业IDC通用核算均价)
机房分三档负载:满载100%、常规70%(主力商用)、低载40%(闲时微调)
1、全机房总功率回顾
满载总功耗:2781kW,IT负载2475kW
(1)常态70%负载(日常大模型训练、推理主力工况,项目经营基准核算)
实时运行功率:2781×0.7=1946.7 kW2781×0.7=1946.7\ \text{kW}2781×0.7=1946.7 kW
单日耗电量:1946.7×24=46720.8 kWh1946.7×24=46720.8\ \text{kWh}1946.7×24=46720.8 kWh
月度(30天)耗电量:46720.8×30=1401624 kWh46720.8×30=1401624\ \text{kWh}46720.8×30=1401624 kWh
月度总电费:1401624×0.562≈787712.69 元≈78.77万元1401624×0.562≈787712.69\ \text{元}≈78.77\text{万元}1401624×0.562≈787712.69 元≈78.77万元
年度电费:78.77×12≈945.24 万元78.77×12≈945.24\ \text{万元}78.77×12≈945.24 万元
(2)满载100%工况(大模型集中预训练、批量算力租赁峰值)
日耗电:2781×24=66744 kWh2781×24=66744\ \text{kWh}2781×24=66744 kWh
月耗电:66744×30=2002320 kWh66744×30=2002320\ \text{kWh}66744×30=2002320 kWh
月电费:2002320×0.562≈1125303.84 元≈112.53万元2002320×0.562≈1125303.84\ \text{元}≈112.53\text{万元}2002320×0.562≈1125303.84 元≈112.53万元
年电费:112.53×12=1350.36 万元112.53×12=1350.36\ \text{万元}112.53×12=1350.36 万元
(3)低负载40%工况(夜间空闲、模型微调、闲置待机)
实时功率:2781×0.4=1112.4 kW2781×0.4=1112.4\ \text{kW}2781×0.4=1112.4 kW
月耗电量:1112.4×24×30=800928 kWh1112.4×24×30=800928\ \text{kWh}1112.4×24×30=800928 kWh
月度电费:800928×0.562≈450121.54 元≈45.01万元800928×0.562≈450121.54\ \text{元}≈45.01\text{万元}800928×0.562≈450121.54 元≈45.01万元
2、单机柜、单A100算力卡分摊电费(70%常态负载)
单柜IT额定5.5kW,折算机房综合耗电(含制冷配套,PUE1.12):5.5×1.12=6.16 kW5.5×1.12=6.16\ \text{kW}5.5×1.12=6.16 kW
单机柜日耗电:6.16×24=147.84 kWh6.16×24=147.84\ \text{kWh}6.16×24=147.84 kWh
单机柜月度电费:147.84×30×0.562≈2495.59 元/月147.84×30×0.562≈2495.59\ \text{元/月}147.84×30×0.562≈2495.59 元/月
单台服务器8张A100:
单卡月度分摊电费:2495.59÷8≈311.95 元/卡⋅月2495.59÷8≈311.95\ \text{元/卡·月}2495.59÷8≈311.95 元/卡⋅月
3、二期新增200机柜成本预判
扩容后满载整机功耗:4004kW,维持PUE=1.12不变
70%负载月度总电费:
4004×0.7×24×30×0.562≈1133679.53 元≈113.37万元/月4004×0.7×24×30×0.562≈1133679.53\ \text{元}≈113.37\text{万元/月}4004×0.7×24×30×0.562≈1133679.53 元≈113.37万元/月
4、能耗优化降本备注
依托液冷低PUE(1.12)对比行业平均PUE=1.5:同等IT功耗下全年节电约23%,年节约电费超200万元。
附件7:机房SLA服务等级量化协议细则(正式商务归档版,对应白皮书第十章合规)
一、算力资源SLA承诺(GPU/服务器托管业务)
| 项目 | 约定指标 | 违约赔付规则 |
|---|---|---|
| 算力集群可用率 | ≥99.99%,年不可用时长≤52.56h | 月度可用率低于标准,超出部分每小时赔付当月服务费的1.5%,单点故障单次最高赔付当月服务费30% |
| 单台GPU服务器硬件故障响应 | 驻场工程师15min内到场,硬件故障4h内备件更换完成 | 超时每延迟1h减免当日该设备租金5% |
| 整机宕机修复时限 | 非供电大范围故障≤4h;市电极端故障依托柴发兜底,业务中断≤1h | 超出约定时长按中断时长双倍减免算力费用 |
二、网络SLA指标(公网+BGP+骨干专线)
| 指标项 | 标准值 | 赔付约定 |
|---|---|---|
| 公网链路可用率 | 99.999%,年断网≤0.876h | 单链路月度中断超标,减免当月带宽费20%起 |
| 骨干专线(京沪1.6T私网)可用率 | 99.9995% | 跨城专线中断,按中断时长折算算力服务费减免 |
| 全网平均丢包率 | 公网≤0.05%,集群内网<0.001% | 连续24h超标,减免当月10%带宽费用 |
| 网络时延 | 光谷→北京≤42ms,超出阈值持续超24h减免服务费 | 实测长期超标按天折算赔付 |
三、机房环境与制冷SLA
- 机房环境温度:22℃±1℃,湿度50%±5%,单区域温湿度超标持续>4h,减免该区域机柜当月服务费5%;
- 液冷/制冷系统N+1冗余,单台空调/CDU故障不停机,因制冷故障造成设备过热降频,按受影响算力资源当日租金全免。
四、存储业务SLA(Lustre/CEPH/对象存储)
- 块/文件存储可用性≥99.995%,RPO<5min、RTO<1h;
- 存储数据多副本,非客户误操作导致数据丢失,免费恢复+赔付对应3个月存储服务费;
- Lustre热存储IO时延<1.2ms,持续超标赔付当月存储费用10%起。
五、供电保障SLA(2N+柴发冗余)
- IT负载因机房内部配电故障断电全赔当日算力费用;
- 市政多路市电故障,依托2N+柴发保障零中断,无法保障则按实际中断时长3倍赔付。
六、安防运维SLA
- 7×24h驻场运维,工单平均响应≤30min;
- 机房安防疏漏造成设备失窃、人为损坏,机房方承担设备维修/置换成本。
附件8:土建荷载、给排水、通风、防雷接地专项技术参数
附件9:项目总投资概算+静态投资回收期测算
附件8 土建、给排水、通风、防雷接地技术参数(并入白皮书第二章建筑配套)
一、机房土建结构荷载参数
1.主机房机柜区防静电高架地板均布活荷载:12kN/㎡,设备集中点位局部荷载≥18kN/㎡,满足8卡液冷整机+高密度机柜落地;
2.配电室、UPS蓄电池室荷载:8kN/㎡;柴油机房设备区15kN/㎡;制冷设备机房10kN/㎡;
3.建筑抗震:设防烈度8度,框架剪力墙耐火等级一级,屋面活荷载3.5kN/㎡;
4.地面:全机房防静电PVC+硫酸钙高架地板,接地泄放电阻1×10⁶~1×10¹⁰Ω。
二、给排水系统参数
1.液冷闭式循环纯水系统
-系统总容积:132m³,循环总流量7500L/min,设计供水温度26℃±2℃,回水32℃;
-补水水源:园区市政软化自来水,配套软化水设备,日补水量≤总水量1.5%;
-管路:316L不锈钢无缝管路,主管DN200、分支DN80/DN50,双路一用一备。
2.园区开式冷却塔给排水
4台横流冷却塔,单台循环水量350m³/h,总循环水量1400m³/h;屋面设置雨水集水井、应急泄水井,机房室内排水沟坡度3‰,集水坑配2台潜污泵(一用一备),单泵流量30m³/h。
3.消防给排水
高压细水雾系统工作压力12MPa,市政消防进水DN150,室内消防环状管网,稳压泵组N+1配置。
三、机房通风与新风系统参数
1.算力主机房新风机组3台,单台风量12000m³/h,新风经初效+中效+亚高效三级过滤,送风温湿度预处理至22℃、50%RH;
2.配电室、柴发机房机械排风,柴发机房换气次数≥15次/h,蓄电池室强制防爆排风12次/h;
3.封闭冷热通道:冷通道静压12Pa,热通道负压-8Pa,杜绝冷热空气窜流。
四、防雷与接地系统指标
1.建筑防雷:二类防雷建筑,屋面接闪带网格5m×5m;
2.电源防雷:高压侧一级防雷、低压配电柜二级防雷、列头柜机柜三级防雷;
3.综合接地:机房联合接地网接地电阻≤0.5Ω,设备独立保护接地、防静电接地、防雷接地共地网分开引接;
4.信号防雷:交换机、服务器网口配套信号浪涌保护器SPD。
附件9 项目投资概算&回本测算(一期450机柜完整版,财务归档用)
一、一期项目总建设投资概算(单位:万元)
| 分项工程 | 投资金额 | 备注说明 |
|---|---|---|
| 机房土建装修(隔断、高架地板、保温防尘、强弱电桥架) | 1980 | 含A1/A2/A3主机房、配电、制冷、运维区装修施工 |
| 2N供配电全套(高压柜、变压器、UPS、蓄电池、柴发、低压列头柜) | 5620 | 含设备+安装调试 |
| 液冷+风冷制冷系统(CDU、冷板、精密空调、冷却塔、水处理) | 3260 | 全机房液冷管路、泵阀、辅材施工 |
| Spine-Leaf全套网络设备(交换机、防火墙、路由、光模块、布线) | 2730 | 含400G/200G/25G全链路硬件 |
| 450台A100算力服务器(3000张A100 80GB) | 39600 | 整机含CPU/内存/SSD/GPU/IB网卡 |
| Lustre+CEPH+对象三层存储集群硬件 | 17250 | 300PB+1.2EB+800PB全存储设备 |
| 安防、消防、动环DMP监控平台软硬件 | 960 | 消防系统+AI安防+动环采集+运维平台 |
| 备品备件+辅材+前期设计、监理、施工安装费 | 2100 | 项目建安、验收、资质申报费用 |
| 流动资金(首期3个月电费+运维人员薪酬备用金) | 1500 | 运营备用资金 |
| 项目一期总投资合计 | 74000万元(7.4亿元) |
注:二期200机柜预估追加投资3.12亿元,本次仅测算一期回本。
二、营收测算(主流算力租赁市场价:A100 80GB月租单价3.25万元/卡)
1.总卡数:3000张A100
-满租全负载月度营收=3000×3.25=9750万元/月
-行业常态出租率70%(商业化运营基准)月度营收=9750×0.7=6825万元/月
三、月度固定运营成本(70%出租率口径)
1.月度电费:78.77万元(前文已核算)
2.运维人力成本:15名驻场+管理+外包维保,月度合计62.5万元
3.机房场地租金、物业、维保耗材、设备维保保险:98万元/月
4.运营商骨干带宽月租(800G公网+2条1.6T私网专线):212万元/月
月度总成本合计=78.77+62.5+98+212=451.27万元/月
四、月度净利润测算
1.常态70%出租:
月度净利润=6825−451.27=6373.73万元/月
2.静态投资回收期:
回收期=总投资74000÷6373.73≈11.61个月
五、保守悲观测算(出租率50%)
月度营收=9750×50%=4875万元
月度净利润=4875−451.27=4423.73万元
静态回收期=74000÷4423.73≈16.73个月
openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐

所有评论(0)