算力网络---网络架构
单层组网:像地铁系统,所有GPU直接相连(NVLink全互联),适合单节点内多GPU通信(Scale Up)多层组网:像地铁+公路+高架的立体交通,分核心层/汇聚层/接入层,适合多服务器集群(Scale Out)Leaf-Spine三层胖树架构:Leaf层(汇聚)直连GPU服务器、Spine(核心)互联Leaf层无阻塞规则:Spine层带宽≥所有Leaf层带宽总和。
一、网络架构基础知识
-
网络层级结构
单层组网:像地铁系统,所有GPU直接相连(NVLink全互联),适合单节点内多GPU通信(Scale Up)
多层组网:像地铁+公路+高架的立体交通,分核心层/汇聚层/接入层,适合多服务器集群(Scale Out)
-
Leaf-Spine三层胖树架构:Leaf层(汇聚)直连GPU服务器、Spine(核心)互联Leaf层
-
无阻塞规则:Spine层带宽≥所有Leaf层带宽总和
-
网络效率关键
带宽---收敛比
-
用于衡量接入层设备的下行带宽总和与上行带宽总和之间的比例关系
-
带宽收敛比-针对Leaf层
-
1:1 收敛 VS N:1 收敛---1入口对应1出口(理想),N入口对应1出口(拥塞)
-
收敛比=下行端口带宽/上行端口带宽
-
-
AI训练,卡与卡频繁交互,交换海量数据,高收敛比会导致拥塞,1:1是理想,400G高性能网卡是主流。
-
并不是GPU数量越多吞吐量越大,还要考虑卡与卡之间是跨设备跨节点交互,即使扩充卡数意味着下行口带宽越大,导致收敛比越高,造成网络拥塞。
流量管理---网络拓扑
流量管理的关键在于网络拓扑,它会决定数据的传输路径是长是短,从A到B有哪些路径,会走哪几个点,哪几个交换机。
-
Scale Up:使用简单的全互联拓扑 Full mesh;每两点之间有天然的最短路径
-
优点:延时低;缺点:GPU=N,连线数=N(N-1)/2,连线多。
-
-
Scale Out---任意两点存在多条路径---高级拓扑结构3种:
-
Fat-Tree:像立体停车场,任意俩点间有多个路径
-
Dragonfly:像机场中转系统,先同城快运再跨省转运
-
Clos:主流、可无限扩展
-
-
网络硬件基础
多平面
-
多平面网络进行业务隔离,也就是数据使用专用网络通道,网络面之间是相互隔离的,A网络中的数据不会传到B网络中;AI集群也会优化单个平面,提升训练效率
-
数据面:【传输训练数据】存储的数据和训练的数据给服务器训练
-
参数面:【处理模型参数】GPU之间参数的交互。
-
控制面or带内/外面:【管理通信指令】
-
业务面:【对业务进行控制】
-
运维面、管理面
-
框式/盒式设备
-
框式:模块化---故障模块替换、不停机、延时较高
-
盒式:一体化---整体替换、延时小
铜缆/光纤
-
通信机制
指数据传输方式 ,有单轨/多轨通信
多层网络的单轨/多轨通信
-
同服务器的GPU交互通过NVswitch;
-
多轨通信:
-
不同服务器的GPU0通信通过L0交换机,GPU1之间通信通过L1交换机...,需要经过多个交换机。
-
数据并行传输、NVLink4.0支持18条并行数据车道
-
-
单轨通信:
-
同一服务器内的GPU相互服务器通信通过同一台交换机。
-
数据排队传输
-
-
网络扩展方式
Scale Up / Scale Out
-
Up纵向扩展,往超节点方向,将一个节点做大做厚做肥
-
Out有多个超节点,把这些超节点互联起来做万卡集群
二、网络整体规划
高可靠性:冗余、物理设备
安全隔离:分区,业务、权限管理
可管理性和可维护:分区后,分区内部采用POD模块化设计
-
逻辑网络规划
总线型:以服务器为中心,连接各个区域
-
业务区:部署服务器、应用系统和开发测试的区域。业务区也可以分多类,生产业务和办公业务等等. -
存储区:
-
互联接入区
-
管理区:性能管理、配置管理
分层设计
核心层:数据中心出口处
-
高可靠性、冗余性设计、快速数据交换和路由交换
汇聚层:汇聚接入层流量
-
部署防火墙,连接核心,承载东西向流量的转发,南北向流量的衔接
-
做业务网关
-
执行策略,路由汇聚及路由负载分担,快速收敛;网络智能服务:安全控制,应用优化、负载分担、SSL卸载
接入层:服务器、主机、存储设备接入
-
双轨道上联到汇聚。
-
提供VLAN,防环特性,端口,可靠性通过M-LAG、网络智能服务初始分类,流量控制QoS、ACL。
服务器:DNS、APPS、DB
分区设计
外联网出口区设计:对外合作方提供业务连接
-
可部署防火墙保障安全,双机热备直挂部署。内网区防火墙对DMZ和核心进行隔离。
服务器区设计:提供业务
-
服务器接入方式:TOR/EOR
-
服务器俩张网卡MAC相同,NIC1和NIC2可以主备、负载(交换机堆叠)
带内管理区设计:利用业务网络管理,网管业务不分离。
带外管理区设计:是独立管理网络
存储区设计:
内部接入区:
-
分支接入规划:①专网方式:通过自建广域专网,实现分支互联②MPLS VPN:通过运营商,实现多分支互联
③公网:公网实现总和分互联
-
远程接入:①L2TP over IPsec②SSL VPN
互联网接入区:
分网络平面设计
服务器多通道接入多个网络,对流量进行分离,服务器通过不同网卡分别接入不同网络
-
网络被分为多张网,各个网络互访
-
业务网络:服务器的接入
-
通过静态路由指定主备路径,负载均衡经过LB转发,不需要直接网关转发
-
基本部署要求:
-
-
IP存储网络:
-
管理网络:可用性低,流量小,采用单设备架构。
-
管理骨干网:设备之间采用百兆互联
-
堡垒机管理
-
-
网络业务规划
-
IP地址规划:唯一性、连续性、可扩展性、实意性
-
VLAN规划:
-
规划规则:① 区分业务VLAN、管理VLAN、互联VLAN;② 按照业务区划分不同VLAN,同一业务区按照业务类型划分不同VLAN;③ VLAN连续分配;④ 保证可扩展。
-
三个层次:服务器VLAN、机架范围的VLAN、汇聚区域的VLAN
-
规划示例:
-
三、各网络面架构设计
-
GPU计算区域
-
核心功能:承载GPU间的参数同步,东西向流量,是AI训练性能的决定性平面。提供无损的高性能、低延时的网络,满足GPU服务器在流水线并行、张量并行等训练场景的通信需要。
-
架构设计:特点网络架构为八轨道设计,分 SPINE、LEAF、TOR 二层/三层设计,使用IB/Roce协议构建大带宽,1:1(Leaf上行带宽=下行总带宽)收敛比,无阻塞的高速无损网络。
-
传输技术:必须采用 无损以太网技术,部署 RoCE (RDMA over Converged Ethernet),配套开启 PFC(优先级流控)+ ECN(拥塞控制算法),避免链路拥塞导致丢包。
-
硬件选型:Leaf/Spine交换机需支持高端口密度(如32口800G)、低时延(<1μs端口转发时延)、RoCE无损特性;NIC选用支持RDMA的智能网卡(如ConnectX-7),GPU需支持NVLink。
-
隔离策略:采用 VLAN/VRF 逻辑隔离,将参数面流量与其他平面流量严格区分。
-
Tips:
-
收敛比不要低于1:1(如1:2会导致带宽瓶颈)。
-
配置PFC优先级,避免“头阻塞”问题;定期监控拥塞状态,调整流量调度策略。
-
大规模集群采用 ECMP实现流量负载均衡,提升链路利用率。
-
-
数据存储网架构
-
核心功能:承载数据的读写,模型文件的分发。GPU计算区:传输数据集、模型参数、计算中间结果。业务面:传输控制指令和任务状态。外部:传输外部请求和运算结果。
-
组网架构:采用二层CLOS架构,收敛比可放宽至 1:2~1:4(兼顾成本与性能),可与参数面共享Spine层交换机(通过VLAN隔离),也可独立部署。配置:服务器做bonding,先做双发arp,对端两台交换机要做S-MLAG,对端一台交换机只做LACP即可
-
传输技术:优先采用 RoCE v2(与参数面统一技术栈),或采用 iWARP(兼容性更好);分布式存储(如Ceph、HDFS)需支持RDMA加速,提升数据读写效率。
-
Tips:
-
与参数面共享Spine时,需通过流量调度保障参数面流量的优先级,避免数据传输抢占训练带宽。
-
建议部署缓存机制(如Alluxio),将热点样本缓存到计算节点本地,减少数据面重复传输压力。
-
-
业务网架构
-
核心功能:是一个传输中枢,承载集群外安全的业务请求,集群内的业务调度。具备请求分发,数据预处理,负载均衡、资源管控等能力。把零散的业务节点,算力节点串联起来。业务节点之一:CPU通信是负责RDMA的指令管控和业务的流程协同
-
流量特征:南北向流量为主、带宽需求中等、流量模型复杂(包含小数据包和中等数据包),需保障服务的可访问性和安全性。
-
组网架构:采用三层组网架构,TOR层交换机连接计算节点的业务网口,Leaf层负责流量收敛,spine层对接外网(如园区网、互联网)。
-
传输技术:采用 TCP协议;推理服务可部署 负载均衡器(如F5、Nginx),实现请求分发和高可用。
-
安全策略:部署防火墙、入侵检测系统(IDS),限制外部对集群的访问权限;对推理请求进行身份认证和加密传输(如TLS/SSL)。
-
Tips:
-
业务面需与参数面/数据面,三面做三层隔离,禁止直接路由互通,需通过核心层网关转发。
-
推理集群需考虑 弹性扩展,组网支持动态添加计算节点,且不影响现有业务。
-
(推理/管理/存储)部署存储服务器、应用服务器、控制节点服务器等AIGC配套的软件环境、开发环境;特点:1:1收敛的spine-spine-leaf网络架构,并且运行 RoCE 、TCP混合组网。
-
每一个POD都有业务域和存储域,业务有自己的POD核心、存储有自己的POD核心
-
恒为负载分流器:(旁挂到POD的核心上)经过POD的核心流量,通过镜像的方式复制一份到恒为负载分流器里。分流器会做策略,比如将流量分给科莱,做抓包分析;分给IDS,做入侵检测,有问题会给业务域里专门的安全设备做联动,把流量做触发式的流量过滤。
-
东西汇聚交换机:实现各个POD的通信,对内的。(相当于局域网里的核心交换机)
-
南北汇聚交换机:POD对外的,交通枢纽(对内找东西------对外找南北)
-
内网防火墙:(旁挂到南北汇聚):型号H3CM9016,防火墙旁挂到交换机用的是VRF的方式进行引流。南北交换机上每个VRF都与内网防火墙做对接,对接用EBGP方式传递路由。
-
南北汇聚对接三张出口:
南北汇聚连接了IP专网,也连接管理网,是一个互备的关系。IP专网主要做管理,也是业务网的备用通道。
-
IP专网:
负责管理流量,包括带外管理,SNMP,NTP时间同步,流量下发都通过IP专网。南北与IP专网的防火墙互联,IP专网内的接入路由器,跟IP专网管理流量、客户专线预留出口做对接(考虑主备链路)。IP专网防火墙会与管理网核心连接。 -
业务网出口:南北汇聚连业务网出口路由器。出口路由器旁挂抗D清洗,旧平面(网间流量MPLS VPN)直接对接互联网。
-
内部专线:SDN-overlay的层级。SDN内部网关,SDN外部网关。
-
-
多功能区域架构
-
管理网架构
-
核心功能:集群的管控平面,承载集群的设备运维、监控、配置管理包括配置严格的ACL。包括服务器带外管理、时钟同步、数据切片策略制定,是指挥中枢,输出各类管控规则和指令,且仅允许运维终端接入。告警是业务能不能运行。
-
组网架构:采用 独立的带外二层组网,部署专用的管理交换机,所有设备的管理端口/BMC端口直接接入管理交换机,不与业务网络混叠。管理网络需部署双机冗余,避免单点故障
-
Tips:
必须物理隔离,禁止管理面与其他平面共享链路,防止业务流量攻击影响运维。
管理面IP地址规划需独立于业务网段,避免地址冲突。
-
互联网接入
-
互联网接入区:负责集群内网和互联网的互相访问,同时配备ACL、NAT等功能。可单独部署。
-
组网架构:双防火墙出口冗余设计,分别对接不同运营商链路,出口侧配置负载均衡设备,支持基于链路带宽、时延的智能选路,提升跨域访问体验;同时部署流量清洗设备,过滤公网侧的DDoS攻击流量。负载均衡设备与防火墙采用双上联方式接入,保障链路高可用;流量清洗设备串接在出口链路中,对所有进出流量进行清洗。设置在智算中心的接入层交换机。
-
功能配置:① 实施NAT地址转换:将集群内部业务面的私网IP映射为公网IP,对外提供服务,避免内部地址暴露。② 配置带宽限速策略:针对不同类型的对外流量(如推理请求、数据下载)设置带宽阈值,防止单类流量占用全部出口带宽。③ 部署边界防火墙:开启访问控制列表(ACL),仅放行对外服务的端口和协议(如HTTPS 443端口),拦截非法访问请求。
-
Tips:禁止将参数面、数据面的链路直接接入互联网接入区,严格与核心业务网络隔离。
-
外联接入区
-
外联接入区:负责专线网络和内网的互访,有访问公网的需求,要加上互联网接入区。
-
安全运维
-
安全运维区:对集群所有设备的集中运维、状态监控、安全审计、策略下发。同时负责安全事件的告警、分析与处置,保障集群的稳定运行和合规性。管理员要通过专用运维终端接入安全运维区。告警是业务安不安全。
-
组网架构:① 采用独立带外组网,与管理面交换机直接互联,不与业务面、参数面共享任何物理链路,避免运维流量被业务流量抢占或攻击。② 部署双机热备的运维平台(如Zabbix、Prometheus、Ansible),保障运维服务的高可用,防止单点故障导致无法管控集群。③ 所有运维平台服务器、堡垒机、安全工具均直接接入管理面专用交换机,交换机之间通过堆叠实现冗余;运维终端通过专用VPN或物理链路接入安全运维区,不与其他区域共享接入链路。
-
功能配置:① 整合安全管控工具:部署入侵检测系统(IDS)、入侵防御系统(IPS)、漏洞扫描器,定期对集群设备进行安全检测和漏洞修复。② 实施集中化审计:对所有运维操作(如设备登录、配置修改)进行日志记录和留存,满足合规性要求;支持日志的检索与溯源。③ 配置运维权限管控:采用堡垒机对运维人员进行身份认证和权限划分,实现“最小权限”访问,防止越权操作;支持多因素认证(如密码+动态令牌)。
-
硬件选型:运维平台服务器需配置高性能CPU和大容量内存,满足大规模集群的监控数据采集、存储与分析需求。堡垒机、日志服务器需支持横向扩展,适配集群节点数量的增长。
-
DMZ区
-
DMZ区:是集群内外的缓冲地带,通过“内外双层防火墙”的隔离策略,处理外网对集群内部的访问,就是给访问内网加一道缓冲隔离带,避免集群内核心业务面和参数面,直接暴露。
-
组网架构:① 采用双层防火墙隔离架构:外侧防火墙对接互联网接入区,内侧防火墙对接集群业务面核心层,DMZ区部署在两台防火墙之间,形成“外网-外侧防火墙-DMZ区-内侧防火墙-内网”的纵深防御体系。② DMZ区内的设备采用独立网段规划,与内网业务面、外网的网段完全隔离,不直接互通。③ 区内的负载均衡器、API网关等设备采用双上联方式分别接入外侧和内侧防火墙,防火墙之间通过三层接口互联,保障单台防火墙故障时流量不中断。
-
功能配置:① 部署前置服务设备:仅放置需要对外暴露的中间件,如推理服务的负载均衡器(Nginx/F5)、API网关、认证服务器,核心的推理计算节点仍部署在内网业务面。② 配置防火墙策略:外侧防火墙仅放行对外服务的端口(如443、80),拦截其他所有端口的访问;内侧防火墙仅允许DMZ区设备向内网业务面的指定节点发起请求,禁止内网主动访问DMZ区。③ 实施数据脱敏:DMZ区的服务设备对外提供数据时,需对敏感信息(如用户身份信息、模型参数)进行脱敏处理,防止数据泄露。
-
硬件选型:DMZ区的负载均衡器需支持高并发连接数和快速会话转发,满足大规模推理请求的分发需求。防火墙设备需具备深度包检测能力,能够识别并拦截应用层的攻击流量(如SQL注入、XSS跨站脚本)。
-
注意事项:DMZ区内的设备禁止存储核心业务数据和敏感信息,仅保留必要的服务配置。定期对DMZ区设备进行安全扫描和漏洞修复,降低被攻击的风险。
-
各平面互联互通逻辑图
暂时无法在飞书文档外展示此内容
-
集群对数据处理过程:管理区先完成集群节点地址分配、时钟同步与权限策略配置,外联接入区/互联网区域/DMZ区域,接收外部请求并经安全校验后转发至业务区,业务区调度节点拆解任务、将指令和数据切片分发给GPU计算区;GPU计算区从存储区拉取数据集进行并行运算,中间结果实时回存至存储区,同时向业务区上报状态;训练完成后,业务区从存储区调取最终模型,经外联接入区封装输出给外部请求方,全程管理区会记录日志。
-
跨平面互联:网关转发+策略控制
-
参数面---数据面互联:① 若共享Spine层,通过 VLAN隔离+三层子接口 实现互通,由Spine交换机的三层网关转发流量;② 独立部署Spine,则通过核心层交换机互通,同时配置 QoS策略,保障参数面流量优先级高于数据面。
-
参数面/数据面---业务面:通过 核心层三层网关 转发,禁止直接二层互通;在核心层部署 策略路由,限制跨平面流量的类型和带宽(如仅允许模型文件从业务面传入参数面)。
-
管理面与其他平面:无直接互联链路,运维人员通过管理面登录集群管控平台,间接控制业务/参数/数据面的设备,实现逻辑上的管控协同。
-
互联网接入区---DMZ区:互联方式:通过外侧防火墙三层接口互联,防火墙配置严格的ACL策略,仅放行对外服务的端口和协议(如HTTPS 443),禁止其他流量穿透。流量控制:对进入DMZ区的流量进行带宽限速和攻击检测,防止恶意流量冲击DMZ区设备。
-
DMZ区---业务面核心层:互联方式:通过内侧防火墙三层接口互联,内侧防火墙作为DMZ区与内网的网关,仅允许DMZ区的负载均衡器向内网业务面的推理节点发起请求,禁止内网节点主动访问DMZ区。策略协同:动态调整防火墙策略,当内网推理节点扩容或缩容时,自动更新允许访问的IP列表,减少人工配置成本。业务面的推理计算节点通过内侧防火墙与DMZ区的负载均衡器互通。
-
安全运维区---管理面:互联方式:直接与管理面交换机二层互联,安全运维区的运维平台通过管理面交换机,对集群的服务器BMC、交换机管理端口进行远程管控。隔离策略:管理面与其他平面(参数面、数据面、业务面)无直接互联链路,运维平台通过逻辑管控的方式,间接对业务面设备进行配置下发,不传输业务数据。管理面的所有设备均由安全运维区的平台集中管控,实现运维数据的统一采集与分析;管理面与互联网接入区、DMZ区无直接互联,保障运维流量的安全性。
-
安全运维区---互联网接入区/DMZ区:互联方式:无直接物理链路,运维人员通过安全运维区的堡垒机,远程登录互联网接入区的防火墙、DMZ区的负载均衡器进行配置,所有操作均被审计记录。权限管控:仅授予少数高级运维人员访问互联网接入区和DMZ区设备的权限,且操作需经过审批流程。
-
四、设备命令规范
交换机名称组成= 城市+ 机房+ 房间号+ 机架编号+ (交换机厂商& 交换机型号) + 角色名称+ Group组编号 + 组内编号
-
GPU区域
-
G0设备举例:SH-MH-501-C01-H3CS9825-G0-01001(其中01为G0 POD编号,001为POD内的设备编号)
-
G1设备举例:SH-MH-601-A06-H3CS9825-G1-01001(其中01为G1 Group的编号,001为Group内的设备编号)
-
G2设备举例:SH-MH-601-B06-H3CS9825-G2-01001 (其中01为Plane编号,001为Plane内的设备编号)
-
-
数据区
-
GL0设备举例:SH-MH-501-B10-H3CS6850-GL0-09001(其中GL0-09为Module id 9,001为设备编号)
-
S0设备举例:SH-MH-501-K09-H3CS9825-S0-10101 (其中S0-10为Module id 10,101为设备编号)
-
C0设备举例:SH-MH-501-C11-H3CS9820-C0-11101 (其中C0-11为Module id 11,101为设备编号)
-
-
业务区域
-
YL0设备举例SH-MH-501-B10-H3CS6850-YL0-12001 (其中YL0-12为Module id 12,001为设备编号)
-
GW0设备举例:SH-MH-501-A06-H3CS6850-GW0-13001 (其中GW0-13为Module id 13,001为设备编号)
-
YL1设备举例:SH-MH-601-B07-H3CS9820-YL1-01002 (其中YL1-01为Group,001为设备编号)
-
五、网络搭建需求分析
| 需求 | 相应设计 |
| 服务器是否需要网络数据面 | 接入需要的网络面 |
| 数据面服务器网卡端口形态 | 单口/双口 |
| 数据面服务器网卡数量 | 根据需求 |
| 数据面服务器网卡支持光模块型号 | 决定网卡型号:QSFP56对应CX6、Q112与O112对应CX7 |
| 服务器数据面期望网络协议 | RoCE、IB、TCP |
| 服务器数据面是否需要双上联bond | |
| 服务器数据面bond模式 | mode 0-6 |
| 服务器数据面网卡使用方式 | (带宽和冗余设计)双发ARP、ECMP、普通bond mode 4 |
| 服务器数据面是否需要DHCP | 确定数据面IP配置方式 |
| 服务器数据面是否需要支持option82 | 服务器DHCP中继 |
-
需要双上联bond:
-
服务器2个物理端口绑定为一个逻辑bond口,对外呈现1个IP与1个MAC。2个端口分别连接不同的交换机,形成跨设备冗余。
-
-
bond模式:
-
mode 0-Linux网卡绑定的平衡轮询模式,无需配置但有数据包乱序问题
-
mode 1-一主一备,故障秒切
-
mode 4-动态链路聚合,需要交换机支持LACP
-
-
网卡使用方式:
-
双发ARP:bond内端口同时发送ARP,使双上联交换机都学到MAC/路由。两个节点同时进行 ARP 探测来进行链路检测,确保链路故障能快速发现与切换。
-
ECMP:三层等价多路径路由,多等价路由做哈希负载分担,故障时自动切换
-
普通bond mode 4:二层高可用聚合,服务器与交换机LACP协商成聚合组,按照hash调度,交换机需配置LACP。
-
六、单平面、双平面、多平面
双平面与多平面网络不是简单的“多买一套交换机”,而是让“拓扑感知业务、让平面匹配流量”,把原本浪费在哈希极化、故障收敛、队列缓冲上的 GPU 时间重新“抢”回来。当大模型参数以每 10 个月 4 倍的速度膨胀时,谁先完成从“单平面”到“多平面”
双平面对比单平面的三个优化点
-
延迟——路径确定:传统 ECMP 五元组哈希在大象流面前极易碰撞,导致部分链路空闲、部分链路溢出。双平面把 ToR 一分为二,同一 GPU 服务器的两个端口固定走各自平面,宏观上实现“流量守恒”,微观上无需逐包哈希,端到端微秒级抖动 <1 μs。
-
丢包——队列减半:实测 512 颗 GPU 跑 4 个 AllReduce,双平面使 ToR 下行队列长度从 3.2 MB 降到 260 kB,缓冲区溢出概率下降两个数量级。
-
故障域——1+1=1.5:任意一个 ToR 或上联链路失效,主机只需本地刷新 ECMP 组,无需全局控制器介入,收敛时间从 600 ms 缩短到 30 ms,训练任务只损失 5% 步长,而传统架构损失 30% 以上。
多平面再进化:把“一张网”拆成“四张网”
华为 CloudMatrix384 提出“三平面”模型,为不同流量量身定制网络服务:
-
UB 平面(Scale-Up):全互联 384 颗 NPU,单端口 196 GB/s,专供 Tensor/Expert Parallel 细粒度通信,延迟 <2 μs。
-
RDMA 平面(Scale-Out):200 G RoCEv2,负责分布式训练、KV-Cache 横向搬运;与 UB 平面物理隔离,防止长流冲击短流。
-
VPC 平面(带外管理):10/25 G,跑控制、监控、存储,发生故障时不影响计算面。
运维与治理:让“硬”拓扑长出“软”智能
-
端网协同 Crux 调度器:阿里云把“通信-计算”建模成 one-hot 向量,实时感知 GPU 计算密度,优先调度高密任务,GPU 利用率再提 8.3-14.8%。
-
亚毫秒级故障自愈:交换机芯片本地监测 BER>1E-9 即触发 ARN(Adaptive Routing Notification),通知网卡切换平面,端到端自愈 <1 ms。
-
光模块数字孪生:基于 CMIS 标准实时采集温度、OSNR、BER,AI 预测 7 天内劣化概率,提前更换,现场故障率下降 70%。
-
FinOps 多租户:在多平面基础上做 VPC 切片,按“带宽+时延”组合计费,训练租户与推理租户错峰,全网利用率提升 22%。
【Tips】
-
双上联,避免单点故障,有故障可以快速切换,业务不中断
-
双上联可能会产生流量分布不均,甚至哈希极化,双上联+双平面可以解决
-
单轨接入,一是交换机故障,整个服务器节点断联;二是与其他服务器互联的时候需要二次转发,速度慢
-
多轨接入,一是交换机故障不会影响整台服务器;二是所有服务器同GPU编号通信仅一次转发即可,不同GPU编号同服务器内部通过NVLink通信,跨服务器的GPU卡先本端服务器NVLink整合流量,再通过同GPU卡号的交换机互联。
-
双平面,网卡的双上联端口映射到不同的平面,bond端口要保证发送的流量均匀发送至两个端口,那么leaf交换机也会受到均匀的流量,减少哈希极化问题。
-
双平面优势,一是GPU服务器没有单点中断情况,单平面leaf或者链路故障,另一个平面可以无缝承接所有GPU流量,故障的平面也只是局部更新ECMP组;二是使流量分流,避免拥塞,在多轨连接下,同卡号GPU跨服务器通信的流量会分在两个平面内同步进行通信,实现流量的负载均衡。三是后期扩容更灵活,对比单平面,GPU扩容或者升级带宽的时候,可以先让业务跑一个平面,在另一个平面进行扩容验证,验证通过可以同步另一个平面,实现0业务影响;扩容时候出现故障也可以无缝切换,扩容进去的流量也是双平面承载,实现流量负载均衡。四是让二层网络翻倍扩展,但不需要三层架构,也减少了成本,一套二层逻辑网络分在两个平面,不会形成超大二层域的技术风险,比如广播风暴,故障扩散。同时也实现物理冗余。五是规避哈希极化问题,哈希极化本质是单平面内路径数量不够,且流量队列长度过长,双平面把单平面转发路径数量翻倍,从底层增加了哈希映射可选的链路,结合双平面分流设计,实现对哈希极化的规避。
×多平面
-
多平面,实现两层万卡级别,例如deepseek-v3,基于IB网络的多平面两层胖树架构,每个节点的8张GPU卡,分别接入8个平面。交换机64×400G,每个平面leaf交换机最大接入GPU卡数32×64,那么八个平面理论上就是16384张GPU。
-
多平面流量交互:①同卡号跨节点通过同一平面交换机一次转发;②同服务器不同卡号通过本机NVLink直连交互;③不同服务器不同卡号,先通过源服务器完成异号转同号,再通过同卡号对应的同一平面交换机跨机转发。
-
这种多平面和双平面组网优点相似,区别是每个GPU是单上行到独立平面,不具备单卡双上行的容错能力。
-
-
理想多平面:GPU网卡配2/4个端口,每个网卡的端口接入独立的平面。如图,1QP驱动4Port是实现单QP统一调度多物理端口,适配多平面高密接入,兼顾低延迟和冗余性。
-
理想多平面案例:
-
以102.4T交换机为例,可提供128*800G端口或通过Shuffle提供512*200G,每个GPU通过4个200G的端口分别连接到4个不同的平面,用一个QP驱动4个port,进行逐包负载均衡选路,这种模式对MoE all-to-all流量更友好。
-
在两层4平面组网下,也可以实现16,384个GPU的接入。
-
4个端口接不同平面的1台leaf:一张GPU-一张网卡-4个端口;交换机也出4个端口,512*200G,接64张GPU,单平面最多64台leaf,单平面接4096卡,4个平面16384卡。
单平面64台来源:两层组网要求---单平面leaf数量=单台leaf带卡数量。 -
4个端口接不同平面的4台leaf:一张GPU-四口网卡-4台交换机,下联256口连256张GPU,单平面leaf数512台,单平面接GPU卡256×512。
-
-
为实现上述功能,对网卡的要求:需要网卡支持多平面通信,可以实现QP数据包在多个平面上的负载均衡;由于数据包通过不同平面到达时存在乱序的情况,这就要求网卡能够原生支持乱序处理功能。
-
英伟达的最新CX-8已原生支持4个网络平面(4-Plane),可以在一个QP上实现多路径数据包喷洒(multi-path packet spraying),并支持硬件级乱序包处理,确保数据一致性。
openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐


所有评论(0)