一、网络架构基础知识

  1. 网络层级结构

单层组网:像地铁系统,所有GPU直接相连(NVLink全互联),适合单节点内多GPU通信(Scale Up)

多层组网:像地铁+公路+高架的立体交通,分核心层/汇聚层/接入层,适合多服务器集群(Scale Out)

  1. Leaf-Spine三层胖树架构:Leaf层(汇聚)直连GPU服务器、Spine(核心)互联Leaf层

  2. 无阻塞规则:Spine层带宽≥所有Leaf层带宽总和

  1. 网络效率关键

带宽---收敛比

  1. 用于衡量接入层设备的下行带宽总和上行带宽总和之间的比例关系

  2. 带宽收敛比-针对Leaf层

    1. 1:1 收敛 VS N:1 收敛---1入口对应1出口(理想),N入口对应1出口(拥塞)

    2. 收敛比=下行端口带宽/上行端口带宽

  3. AI训练,卡与卡频繁交互,交换海量数据,高收敛比会导致拥塞,1:1是理想,400G高性能网卡是主流。

  4. 并不是GPU数量越多吞吐量越大,还要考虑卡与卡之间是跨设备跨节点交互,即使扩充卡数意味着下行口带宽越大,导致收敛比越高,造成网络拥塞。

流量管理---网络拓扑

流量管理的关键在于网络拓扑,它会决定数据的传输路径是长是短,从A到B有哪些路径,会走哪几个点,哪几个交换机。

  1. Scale Up:使用简单的全互联拓扑 Full mesh;每两点之间有天然的最短路径

    1. 优点:延时低缺点:GPU=N,连线数=N(N-1)/2,连线多。

  2. Scale Out---任意两点存在多条路径---高级拓扑结构3种:

    1. Fat-Tree:像立体停车场,任意俩点间有多个路径

    2. Dragonfly:像机场中转系统,先同城快运再跨省转运

    3. Clos:主流、可无限扩展

  1. 网络硬件基础

多平面

  1. 多平面网络进行业务隔离,也就是数据使用专用网络通道,网络面之间是相互隔离的,A网络中的数据不会传到B网络中;AI集群也会优化单个平面,提升训练效率

    1. 数据面:【传输训练数据】存储的数据和训练的数据给服务器训练

    2. 参数面:【处理模型参数】GPU之间参数的交互。

    3. 控制面or带内/外面:【管理通信指令】

    4. 业务面:【对业务进行控制】

    5. 运维面、管理面

框式/盒式设备

  1. 框式:模块化---故障模块替换、不停机、延时较高

  2. 盒式:一体化---整体替换、延时小

铜缆/光纤

  1. 通信机制

指数据传输方式 ,有单轨/多轨通信

多层网络的单轨/多轨通信

  1. 同服务器的GPU交互通过NVswitch;

  2. 多轨通信:

    1. 不同服务器的GPU0通信通过L0交换机,GPU1之间通信通过L1交换机...,需要经过多个交换机。

    2. 数据并行传输、NVLink4.0支持18条并行数据车道

  3. 单轨通信:

    1. 同一服务器内的GPU相互服务器通信通过同一台交换机。

    2. 数据排队传输

  1. 网络扩展方式

Scale Up / Scale Out

  1. Up纵向扩展,往超节点方向,将一个节点做大做厚做肥

  2. Out有多个超节点,把这些超节点互联起来做万卡集群

二、网络整体规划

高可靠性:冗余、物理设备

安全隔离:分区,业务、权限管理

可管理性和可维护:分区后,分区内部采用POD模块化设计

  1. 逻辑网络规划

总线型:以服务器为中心,连接各个区域

  1. 业务区:部署服务器、应用系统和开发测试的区域。业务区也可以分多类,生产业务和办公业务等等.

  2. 存储区:

  3. 互联接入区

  4. 管理区:性能管理、配置管理

分层设计

核心层:数据中心出口处

  1. 高可靠性、冗余性设计、快速数据交换和路由交换

汇聚层:汇聚接入层流量

  1. 部署防火墙,连接核心,承载东西向流量的转发,南北向流量的衔接

  2. 做业务网关

  3. 执行策略,路由汇聚及路由负载分担,快速收敛;网络智能服务:安全控制,应用优化、负载分担、SSL卸载

接入层:服务器、主机、存储设备接入

  1. 双轨道上联到汇聚。

  2. 提供VLAN,防环特性,端口,可靠性通过M-LAG、网络智能服务初始分类,流量控制QoS、ACL。

服务器:DNS、APPS、DB

分区设计

外联网出口区设计:对外合作方提供业务连接

  1. 可部署防火墙保障安全,双机热备直挂部署。内网区防火墙对DMZ和核心进行隔离。

服务器区设计:提供业务

  1. 服务器接入方式:TOR/EOR

  2. 服务器俩张网卡MAC相同,NIC1和NIC2可以主备、负载(交换机堆叠)

带内管理区设计:利用业务网络管理,网管业务不分离。

带外管理区设计:是独立管理网络

存储区设计:

内部接入区:

  1. 分支接入规划:①专网方式:通过自建广域专网,实现分支互联②MPLS VPN:通过运营商,实现多分支互联

③公网:公网实现总和分互联

  1. 远程接入:①L2TP over IPsec②SSL VPN

互联网接入区:

分网络平面设计

服务器多通道接入多个网络,对流量进行分离,服务器通过不同网卡分别接入不同网络

  • 网络被分为多张网,各个网络互访

  1. 业务网络:服务器的接入

    1. 通过静态路由指定主备路径,负载均衡经过LB转发,不需要直接网关转发

    2. 基本部署要求:

  2. IP存储网络:

  3. 管理网络:可用性低,流量小,采用单设备架构。

    1. 管理骨干网:设备之间采用百兆互联

    2. 堡垒机管理

  1. 网络业务规划

  1. IP地址规划:唯一性、连续性、可扩展性、实意性

  2. VLAN规划:

    1. 规划规则:① 区分业务VLAN、管理VLAN、互联VLAN;② 按照业务区划分不同VLAN,同一业务区按照业务类型划分不同VLAN;③ VLAN连续分配;④ 保证可扩展。

    2. 三个层次:服务器VLAN、机架范围的VLAN、汇聚区域的VLAN

    3. 规划示例:

三、各网络面架构设计

  1. GPU计算区域

  1. 核心功能:承载GPU间的参数同步,东西向流量,是AI训练性能的决定性平面。提供无损的高性能、低延时的网络,满足GPU服务器在流水线并行、张量并行等训练场景的通信需要。

  2. 架构设计:特点网络架构为八轨道设计,分 SPINE、LEAF、TOR 二层/三层设计,使用IB/Roce协议构建大带宽,1:1(Leaf上行带宽=下行总带宽)收敛比,无阻塞的高速无损网络。

  3. 传输技术:必须采用 无损以太网技术,部署 RoCE (RDMA over Converged Ethernet),配套开启 PFC(优先级流控)+ ECN(拥塞控制算法),避免链路拥塞导致丢包。

  4. 硬件选型:Leaf/Spine交换机需支持高端口密度(如32口800G)、低时延(<1μs端口转发时延)、RoCE无损特性;NIC选用支持RDMA的智能网卡(如ConnectX-7),GPU需支持NVLink。

  5. 隔离策略:采用 VLAN/VRF 逻辑隔离,将参数面流量与其他平面流量严格区分。

  6. Tips:

    1. 收敛比不要低于1:1(如1:2会导致带宽瓶颈)。

    2. 配置PFC优先级,避免“头阻塞”问题;定期监控拥塞状态,调整流量调度策略。

    3. 大规模集群采用 ECMP实现流量负载均衡,提升链路利用率。

  1. 数据存储网架构

  1. 核心功能:承载数据的读写,模型文件的分发。GPU计算区:传输数据集、模型参数、计算中间结果。业务面:传输控制指令和任务状态。外部:传输外部请求和运算结果。

  2. 组网架构:采用二层CLOS架构,收敛比可放宽至 1:2~1:4(兼顾成本与性能),可与参数面共享Spine层交换机(通过VLAN隔离),也可独立部署。配置:服务器做bonding,先做双发arp,对端两台交换机要做S-MLAG,对端一台交换机只做LACP即可

  3. 传输技术:优先采用 RoCE v2(与参数面统一技术栈),或采用 iWARP(兼容性更好);分布式存储(如Ceph、HDFS)需支持RDMA加速,提升数据读写效率。

  4. Tips:

    1. 与参数面共享Spine时,需通过流量调度保障参数面流量的优先级,避免数据传输抢占训练带宽。

    2. 建议部署缓存机制(如Alluxio),将热点样本缓存到计算节点本地,减少数据面重复传输压力。

  1. 业务网架构

  1. 核心功能:是一个传输中枢,承载集群外安全的业务请求,集群内的业务调度。具备请求分发,数据预处理,负载均衡、资源管控等能力。把零散的业务节点,算力节点串联起来。业务节点之一:CPU通信是负责RDMA的指令管控和业务的流程协同

  2. 流量特征:南北向流量为主、带宽需求中等、流量模型复杂(包含小数据包和中等数据包),需保障服务的可访问性和安全性。

  3. 组网架构:采用三层组网架构,TOR层交换机连接计算节点的业务网口,Leaf层负责流量收敛,spine层对接外网(如园区网、互联网)。

  4. 传输技术:采用 TCP协议;推理服务可部署 负载均衡器(如F5、Nginx),实现请求分发和高可用。

  5. 安全策略:部署防火墙、入侵检测系统(IDS),限制外部对集群的访问权限;对推理请求进行身份认证和加密传输(如TLS/SSL)。

  6. Tips:

    1. 业务面需与参数面/数据面,三面做三层隔离,禁止直接路由互通,需通过核心层网关转发。

    2. 推理集群需考虑 弹性扩展,组网支持动态添加计算节点,且不影响现有业务。

(推理/管理/存储)部署存储服务器、应用服务器、控制节点服务器等AIGC配套的软件环境、开发环境;特点:1:1收敛的spine-spine-leaf网络架构,并且运行 RoCE 、TCP混合组网。

  1. 每一个POD都有业务域和存储域,业务有自己的POD核心、存储有自己的POD核心

  2. 恒为负载分流器:(旁挂到POD的核心上)经过POD的核心流量,通过镜像的方式复制一份到恒为负载分流器里。分流器会做策略,比如将流量分给科莱,做抓包分析;分给IDS,做入侵检测,有问题会给业务域里专门的安全设备做联动,把流量做触发式的流量过滤。

  3. 东西汇聚交换机:实现各个POD的通信,对内的。(相当于局域网里的核心交换机)

  4. 南北汇聚交换机:POD对外的,交通枢纽(对内找东西------对外找南北)

  5. 内网防火墙:(旁挂到南北汇聚):型号H3CM9016,防火墙旁挂到交换机用的是VRF的方式进行引流。南北交换机上每个VRF都与内网防火墙做对接,对接用EBGP方式传递路由。

  6. 南北汇聚对接三张出口:

      南北汇聚连接了IP专网,也连接管理网,是一个互备的关系。IP专网主要做管理,也是业务网的备用通道。

    1. IP专网:负责管理流量,包括带外管理,SNMP,NTP时间同步,流量下发都通过IP专网。南北与IP专网的防火墙互联,IP专网内的接入路由器,跟IP专网管理流量、客户专线预留出口做对接(考虑主备链路)。IP专网防火墙会与管理网核心连接。

    2. 业务网出口:南北汇聚连业务网出口路由器。出口路由器旁挂抗D清洗,旧平面(网间流量MPLS VPN)直接对接互联网。

    3. 内部专线:SDN-overlay的层级。SDN内部网关,SDN外部网关。

  1. 多功能区域架构

  1. 管理网架构

  1. 核心功能:集群的管控平面,承载集群的设备运维、监控、配置管理包括配置严格的ACL。包括服务器带外管理、时钟同步、数据切片策略制定,是指挥中枢,输出各类管控规则和指令,且仅允许运维终端接入。告警是业务能不能运行。

  2. 组网架构:采用 独立的带外二层组网,部署专用的管理交换机,所有设备的管理端口/BMC端口直接接入管理交换机,不与业务网络混叠。管理网络需部署双机冗余,避免单点故障

  3. Tips:

      必须物理隔离,禁止管理面与其他平面共享链路,防止业务流量攻击影响运维。

      管理面IP地址规划需独立于业务网段,避免地址冲突。

    1. 互联网接入

    1. 互联网接入区:负责集群内网和互联网的互相访问,同时配备ACL、NAT等功能。可单独部署。

    2. 组网架构:双防火墙出口冗余设计,分别对接不同运营商链路,出口侧配置负载均衡设备,支持基于链路带宽、时延的智能选路,提升跨域访问体验;同时部署流量清洗设备,过滤公网侧的DDoS攻击流量。负载均衡设备与防火墙采用双上联方式接入,保障链路高可用;流量清洗设备串接在出口链路中,对所有进出流量进行清洗。设置在智算中心的接入层交换机。

    3. 功能配置: 实施NAT地址转换:将集群内部业务面的私网IP映射为公网IP,对外提供服务,避免内部地址暴露。② 配置带宽限速策略:针对不同类型的对外流量(如推理请求、数据下载)设置带宽阈值,防止单类流量占用全部出口带宽。③ 部署边界防火墙:开启访问控制列表(ACL),仅放行对外服务的端口和协议(如HTTPS 443端口),拦截非法访问请求。

    4. Tips:禁止将参数面、数据面的链路直接接入互联网接入区,严格与核心业务网络隔离。

    1. 外联接入区

    1. 外联接入区:负责专线网络和内网的互访,有访问公网的需求,要加上互联网接入区。

    1. 安全运维

    1. 安全运维区:对集群所有设备的集中运维、状态监控、安全审计、策略下发。同时负责安全事件的告警、分析与处置,保障集群的稳定运行和合规性。管理员要通过专用运维终端接入安全运维区。告警是业务安不安全。

    2. 组网架构:① 采用独立带外组网,与管理面交换机直接互联,不与业务面、参数面共享任何物理链路,避免运维流量被业务流量抢占或攻击。② 部署双机热备的运维平台(如Zabbix、Prometheus、Ansible),保障运维服务的高可用,防止单点故障导致无法管控集群。③ 所有运维平台服务器、堡垒机、安全工具均直接接入管理面专用交换机,交换机之间通过堆叠实现冗余;运维终端通过专用VPN或物理链路接入安全运维区,不与其他区域共享接入链路。

    3. 功能配置:① 整合安全管控工具:部署入侵检测系统(IDS)、入侵防御系统(IPS)、漏洞扫描器,定期对集群设备进行安全检测和漏洞修复。② 实施集中化审计:对所有运维操作(如设备登录、配置修改)进行日志记录和留存,满足合规性要求;支持日志的检索与溯源。③ 配置运维权限管控:采用堡垒机对运维人员进行身份认证和权限划分,实现“最小权限”访问,防止越权操作;支持多因素认证(如密码+动态令牌)。

    4. 硬件选型:运维平台服务器需配置高性能CPU和大容量内存,满足大规模集群的监控数据采集、存储与分析需求。堡垒机、日志服务器需支持横向扩展,适配集群节点数量的增长。

    1. DMZ区

    1. DMZ区:是集群内外的缓冲地带,通过“内外双层防火墙”的隔离策略,处理外网对集群内部的访问,就是给访问内网加一道缓冲隔离带,避免集群内核心业务面和参数面,直接暴露。

    2. 组网架构:① 采用双层防火墙隔离架构:外侧防火墙对接互联网接入区,内侧防火墙对接集群业务面核心层,DMZ区部署在两台防火墙之间,形成“外网-外侧防火墙-DMZ区-内侧防火墙-内网”的纵深防御体系。② DMZ区内的设备采用独立网段规划,与内网业务面、外网的网段完全隔离,不直接互通。③ 区内的负载均衡器、API网关等设备采用双上联方式分别接入外侧和内侧防火墙,防火墙之间通过三层接口互联,保障单台防火墙故障时流量不中断。

    3. 功能配置: 部署前置服务设备:仅放置需要对外暴露的中间件,如推理服务的负载均衡器(Nginx/F5)、API网关、认证服务器,核心的推理计算节点仍部署在内网业务面。② 配置防火墙策略:外侧防火墙仅放行对外服务的端口(如443、80),拦截其他所有端口的访问;内侧防火墙仅允许DMZ区设备向内网业务面的指定节点发起请求,禁止内网主动访问DMZ区。③ 实施数据脱敏:DMZ区的服务设备对外提供数据时,需对敏感信息(如用户身份信息、模型参数)进行脱敏处理,防止数据泄露。

    4. 硬件选型:DMZ区的负载均衡器需支持高并发连接数和快速会话转发,满足大规模推理请求的分发需求。防火墙设备需具备深度包检测能力,能够识别并拦截应用层的攻击流量(如SQL注入、XSS跨站脚本)。

    5. 注意事项:DMZ区内的设备禁止存储核心业务数据和敏感信息,仅保留必要的服务配置。定期对DMZ区设备进行安全扫描和漏洞修复,降低被攻击的风险。

    1. 各平面互联互通逻辑图

    暂时无法在飞书文档外展示此内容

    1. 集群对数据处理过程:管理区先完成集群节点地址分配、时钟同步与权限策略配置,外联接入区/互联网区域/DMZ区域,接收外部请求并经安全校验后转发至业务区,业务区调度节点拆解任务、将指令和数据切片分发给GPU计算区;GPU计算区从存储区拉取数据集进行并行运算,中间结果实时回存至存储区,同时向业务区上报状态;训练完成后,业务区从存储区调取最终模型,经外联接入区封装输出给外部请求方,全程管理区会记录日志。

    2. 跨平面互联:网关转发+策略控制

      1. 参数面---数据面互联:① 若共享Spine层,通过 VLAN隔离+三层子接口 实现互通,由Spine交换机的三层网关转发流量;② 独立部署Spine,则通过核心层交换机互通,同时配置 QoS策略,保障参数面流量优先级高于数据面。

      2. 参数面/数据面---业务面:通过 核心层三层网关 转发,禁止直接二层互通;在核心层部署 策略路由,限制跨平面流量的类型和带宽(如仅允许模型文件从业务面传入参数面)。

      3. 管理面与其他平面:无直接互联链路,运维人员通过管理面登录集群管控平台,间接控制业务/参数/数据面的设备,实现逻辑上的管控协同。

      4. 互联网接入区---DMZ区:互联方式:通过外侧防火墙三层接口互联,防火墙配置严格的ACL策略,仅放行对外服务的端口和协议(如HTTPS 443),禁止其他流量穿透。流量控制:对进入DMZ区的流量进行带宽限速和攻击检测,防止恶意流量冲击DMZ区设备。

      5. DMZ区---业务面核心层:互联方式:通过内侧防火墙三层接口互联,内侧防火墙作为DMZ区与内网的网关,仅允许DMZ区的负载均衡器向内网业务面的推理节点发起请求,禁止内网节点主动访问DMZ区。策略协同:动态调整防火墙策略,当内网推理节点扩容或缩容时,自动更新允许访问的IP列表,减少人工配置成本。业务面的推理计算节点通过内侧防火墙与DMZ区的负载均衡器互通。

      6. 安全运维区---管理面:互联方式:直接与管理面交换机二层互联,安全运维区的运维平台通过管理面交换机,对集群的服务器BMC、交换机管理端口进行远程管控。隔离策略:管理面与其他平面(参数面、数据面、业务面)无直接互联链路,运维平台通过逻辑管控的方式,间接对业务面设备进行配置下发,不传输业务数据。管理面的所有设备均由安全运维区的平台集中管控,实现运维数据的统一采集与分析;管理面与互联网接入区、DMZ区无直接互联,保障运维流量的安全性。

      7. 安全运维区---互联网接入区/DMZ区:互联方式:无直接物理链路,运维人员通过安全运维区的堡垒机,远程登录互联网接入区的防火墙、DMZ区的负载均衡器进行配置,所有操作均被审计记录。权限管控:仅授予少数高级运维人员访问互联网接入区和DMZ区设备的权限,且操作需经过审批流程。

    四、设备命令规范

    交换机名称组成= 城市+ 机房+ 房间号+ 机架编号+ (交换机厂商& 交换机型号) + 角色名称+ Group组编号 + 组内编号

    1. GPU区域

      1. G0设备举例:SH-MH-501-C01-H3CS9825-G0-01001(其中01为G0 POD编号,001为POD内的设备编号)

      2. G1设备举例:SH-MH-601-A06-H3CS9825-G1-01001(其中01为G1 Group的编号,001为Group内的设备编号)

      3. G2设备举例:SH-MH-601-B06-H3CS9825-G2-01001 (其中01为Plane编号,001为Plane内的设备编号)

    2. 数据区

      1. GL0设备举例:SH-MH-501-B10-H3CS6850-GL0-09001(其中GL0-09为Module id 9,001为设备编号)

      2. S0设备举例:SH-MH-501-K09-H3CS9825-S0-10101 (其中S0-10为Module id 10,101为设备编号)

      3. C0设备举例:SH-MH-501-C11-H3CS9820-C0-11101 (其中C0-11为Module id 11,101为设备编号)

    3. 业务区域

      1. YL0设备举例SH-MH-501-B10-H3CS6850-YL0-12001 (其中YL0-12为Module id 12,001为设备编号)

      2. GW0设备举例:SH-MH-501-A06-H3CS6850-GW0-13001 (其中GW0-13为Module id 13,001为设备编号)

      3. YL1设备举例:SH-MH-601-B07-H3CS9820-YL1-01002 (其中YL1-01为Group,001为设备编号)

    五、网络搭建需求分析

    需求 相应设计
    服务器是否需要网络数据面 接入需要的网络面
    数据面服务器网卡端口形态 单口/双口
    数据面服务器网卡数量 根据需求
    数据面服务器网卡支持光模块型号 决定网卡型号:QSFP56对应CX6、Q112与O112对应CX7
    服务器数据面期望网络协议 RoCE、IB、TCP
    服务器数据面是否需要双上联bond
    服务器数据面bond模式 mode 0-6
    服务器数据面网卡使用方式 (带宽和冗余设计)双发ARP、ECMP、普通bond mode 4
    服务器数据面是否需要DHCP 确定数据面IP配置方式
    服务器数据面是否需要支持option82 服务器DHCP中继
    1. 需要双上联bond:

      1. 服务器2个物理端口绑定为一个逻辑bond口,对外呈现1个IP与1个MAC。2个端口分别连接不同的交换机,形成跨设备冗余。

    2. bond模式:

      1. mode 0-Linux网卡绑定的平衡轮询模式,无需配置但有数据包乱序问题

      2. mode 1-一主一备,故障秒切

      3. mode 4-动态链路聚合,需要交换机支持LACP

    3. 网卡使用方式:

      1. 双发ARP:bond内端口同时发送ARP,使双上联交换机都学到MAC/路由。两个节点同时进行 ARP 探测来进行链路检测,确保链路故障能快速发现与切换。

      2. ECMP:三层等价多路径路由,多等价路由做哈希负载分担,故障时自动切换

      3. 普通bond mode 4:二层高可用聚合,服务器与交换机LACP协商成聚合组,按照hash调度,交换机需配置LACP。

    六、单平面、双平面、多平面

    双平面与多平面网络不是简单的“多买一套交换机”,而是让“拓扑感知业务、让平面匹配流量”,把原本浪费在哈希极化、故障收敛、队列缓冲上的 GPU 时间重新“抢”回来。当大模型参数以每 10 个月 4 倍的速度膨胀时,谁先完成从“单平面”到“多平面”

    双平面对比单平面的三个优化点

    1. 延迟——路径确定:传统 ECMP 五元组哈希在大象流面前极易碰撞,导致部分链路空闲、部分链路溢出。双平面把 ToR 一分为二,同一 GPU 服务器的两个端口固定走各自平面,宏观上实现“流量守恒”,微观上无需逐包哈希,端到端微秒级抖动 <1 μs。

    2. 丢包——队列减半:实测 512 颗 GPU 跑 4 个 AllReduce,双平面使 ToR 下行队列长度从 3.2 MB 降到 260 kB,缓冲区溢出概率下降两个数量级。

    3. 故障域——1+1=1.5:任意一个 ToR 或上联链路失效,主机只需本地刷新 ECMP 组,无需全局控制器介入,收敛时间从 600 ms 缩短到 30 ms,训练任务只损失 5% 步长,而传统架构损失 30% 以上。

    多平面再进化:把“一张网”拆成“四张网”

    华为 CloudMatrix384 提出“三平面”模型,为不同流量量身定制网络服务:

    1. UB 平面(Scale-Up):全互联 384 颗 NPU,单端口 196 GB/s,专供 Tensor/Expert Parallel 细粒度通信,延迟 <2 μs。

    2. RDMA 平面(Scale-Out):200 G RoCEv2,负责分布式训练、KV-Cache 横向搬运;与 UB 平面物理隔离,防止长流冲击短流。

    3. VPC 平面(带外管理):10/25 G,跑控制、监控、存储,发生故障时不影响计算面。

    运维与治理:让“硬”拓扑长出“软”智能

    1. 端网协同 Crux 调度器:阿里云把“通信-计算”建模成 one-hot 向量,实时感知 GPU 计算密度,优先调度高密任务,GPU 利用率再提 8.3-14.8%。

    2. 亚毫秒级故障自愈:交换机芯片本地监测 BER>1E-9 即触发 ARN(Adaptive Routing Notification),通知网卡切换平面,端到端自愈 <1 ms。

    3. 光模块数字孪生:基于 CMIS 标准实时采集温度、OSNR、BER,AI 预测 7 天内劣化概率,提前更换,现场故障率下降 70%。

    4. FinOps 多租户:在多平面基础上做 VPC 切片,按“带宽+时延”组合计费,训练租户与推理租户错峰,全网利用率提升 22%。

    【Tips】

    • 双上联,避免单点故障,有故障可以快速切换,业务不中断

    • 双上联可能会产生流量分布不均,甚至哈希极化,双上联+双平面可以解决

    • 单轨接入,一是交换机故障,整个服务器节点断联;二是与其他服务器互联的时候需要二次转发,速度慢

    • 多轨接入,一是交换机故障不会影响整台服务器;二是所有服务器同GPU编号通信仅一次转发即可,不同GPU编号同服务器内部通过NVLink通信,跨服务器的GPU卡先本端服务器NVLink整合流量,再通过同GPU卡号的交换机互联。

    • 双平面,网卡的双上联端口映射到不同的平面,bond端口要保证发送的流量均匀发送至两个端口,那么leaf交换机也会受到均匀的流量,减少哈希极化问题。

    • 双平面优势,一是GPU服务器没有单点中断情况,单平面leaf或者链路故障,另一个平面可以无缝承接所有GPU流量,故障的平面也只是局部更新ECMP组;二是使流量分流,避免拥塞,在多轨连接下,同卡号GPU跨服务器通信的流量会分在两个平面内同步进行通信,实现流量的负载均衡。三是后期扩容更灵活,对比单平面,GPU扩容或者升级带宽的时候,可以先让业务跑一个平面,在另一个平面进行扩容验证,验证通过可以同步另一个平面,实现0业务影响;扩容时候出现故障也可以无缝切换,扩容进去的流量也是双平面承载,实现流量负载均衡四是让二层网络翻倍扩展,但不需要三层架构,也减少了成本,一套二层逻辑网络分在两个平面,不会形成超大二层域的技术风险,比如广播风暴,故障扩散。同时也实现物理冗余。五是规避哈希极化问题,哈希极化本质是单平面内路径数量不够,且流量队列长度过长,双平面把单平面转发路径数量翻倍,从底层增加了哈希映射可选的链路,结合双平面分流设计,实现对哈希极化的规避。

    ×多平面

    • 多平面,实现两层万卡级别,例如deepseek-v3,基于IB网络的多平面两层胖树架构,每个节点的8张GPU卡,分别接入8个平面。交换机64×400G,每个平面leaf交换机最大接入GPU卡数32×64,那么八个平面理论上就是16384张GPU。

      •  多平面流量交互:①同卡号跨节点通过同一平面交换机一次转发;②同服务器不同卡号通过本机NVLink直连交互;③不同服务器不同卡号,先通过源服务器完成异号转同号,再通过同卡号对应的同一平面交换机跨机转发。

      • 这种多平面和双平面组网优点相似,区别是每个GPU是单上行到独立平面,不具备单卡双上行的容错能力。

    • 理想多平面:GPU网卡配2/4个端口,每个网卡的端口接入独立的平面。如图,1QP驱动4Port是实现单QP统一调度多物理端口,适配多平面高密接入,兼顾低延迟和冗余性。

    •  理想多平面案例:

      • 以102.4T交换机为例,可提供128*800G端口或通过Shuffle提供512*200G,每个GPU通过4个200G的端口分别连接到4个不同的平面,用一个QP驱动4个port,进行逐包负载均衡选路,这种模式对MoE all-to-all流量更友好。

      • 在两层4平面组网下,也可以实现16,384个GPU的接入。

      • 4个端口接不同平面的1台leaf:一张GPU-一张网卡-4个端口;交换机也出4个端口,512*200G,接64张GPU,单平面最多64台leaf,单平面接4096卡,4个平面16384卡。单平面64台来源:两层组网要求---单平面leaf数量=单台leaf带卡数量。

      • 4个端口接不同平面的4台leaf:一张GPU-四口网卡-4台交换机,下联256口连256张GPU,单平面leaf数512台,单平面接GPU卡256×512。

    1. 为实现上述功能,对网卡的要求:需要网卡支持多平面通信,可以实现QP数据包在多个平面上的负载均衡;由于数据包通过不同平面到达时存在乱序的情况,这就要求网卡能够原生支持乱序处理功能

    2. 英伟达的最新CX-8已原生支持4个网络平面(4-Plane),可以在一个QP上实现多路径数据包喷洒(multi-path packet spraying),并支持硬件级乱序包处理,确保数据一致性。

    Logo

    openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

    更多推荐