算力集群基础介绍（一）

多轨接入时GPU服务器的多张显卡会接入不同Leaf交换机，跨轨道的流量能经Spine层转发，仅需两跳就可实现任意GPU间的灵活通信，适配复杂分布式训练的各类通信需求，但布线需用光纤等，成本和功耗较高。DP数据并行----通信操作：All Reduce----单卡通信量：GB级别----通信卡数为全部卡、多组-----通信需求：高吞吐、无拥塞。PP流水线并行----通信操作：Sent/Rev----

abbb6

542人浏览 · 2026-05-12 09:36:02

abbb6 · 2026-05-12 09:36:02 发布

高效算力集群

集群总算力=单服务器算力×联接规模×联接效率×联接可用率
1. 服务器集群规模是前提，网络吞吐效率是关键，可用率是保障
2. 联接规模：千卡、万卡...
3. 联接效率：网络吞吐量的能力直接或间接影响整个网络效率
组网规模
1. 胖树架构的单POD容量完全取决于单设备端口能力，单设备端口密度越大，大规模组网能力越强
2. 单台盒式可支持：128*400G------二层盒盒--------可实现8K卡

AI算力集群特点

吞吐大、时延低、无拥塞的网络支持
AI集群通信特点：
1. DP通信同号卡之间的All Reduce数据
  1. DP数据并行----通信操作：All Reduce----单卡通信量：GB级别----通信卡数为全部卡、多组-----通信需求：高吞吐、无拥塞
2. PP通信对尾时延极度敏感，所以尽量选择单跳通信
  1. PP流水线并行----通信操作：Sent/Rev----单卡通信量：MB级别----通信卡数为多机2卡-----通信需求P2P低尾延时
3. POD数量越少，跨POD上Spine的流量越少，拥塞概率越低，要求单POD包含尽量多的GPU
4. 集群网络的带宽越大越好，跳数越少越好，单POD规模越大越好

组网中的多轨接入与单轨接入

单轨与多轨组网场景及优缺点

单轨网络:

整个集群只有一个统一的、大规模的非阻塞交换网络，整个GPU集群构建在一个大型CLOS Fabric上。所有GPU间通信都在这一套网络内进行。
1. 描述:
2. 优点:
3. 网络利用率高，无带宽闲置；
4. 管理简单，只有一个平面；
5. 延迟一致。
6. 缺点:
7. 故障域大，网络核心的故障或维护可能影响整个集群；
8. 对核心交换机规模和端口密度要求高；
9. 流量干扰，计算流量、存储流量、管理流量可能相互竞争。
多轨网络:

集群被划分为多个独立的、较小规模的交换机网络（轨道），GPU服务器跨轨连接。将网络功能物理隔离为多个独立的平面，最常见的是参数面、存储面、管理面分离。
1. 描述:
2. 优点:
3. 故障隔离，一个平面故障不影响其他平面；
4. 可以分期建设，每个轨道可以独立扩容；
5. 对单台核心交换机要求低。
6. 缺点:
7. 网络利用率不均，存在轨道之间通信的瓶颈
8. 管理复杂度高，有多个网络平面
9. 跨轨通信需要上层路由，会增加延迟。
组网场景
1. 单轨: 适用于千卡以下中、小规模AI/HPC集群，或对成本和运维简易性要求高的场景。
2. 多轨（尤其是参数/存储/管理分离）: 是大规模、超大规模AI集群（千卡以上）的标准实践。

1.

张量并行（TP）中的All gather和Reduce scatter通信，在参与张量并行的GPU内部发生，主要在HB（高带宽）域内；
数据并行（DP）中的All reduce通信，涉及所有GPU，但通信量相对较小，主要在NIC域内；
流水线并行（PP）中的P2P通信，通常在NIC域内，但可以通过优化保持在同一个轨道（Rail）内。
根据GPU服务器接入模式的不同，通常会分成单轨接入和多轨接入。多轨接入情况下，根据整体网络结构的不同分为轨道优化架构（Rail-optimized）和纯轨架构（Rail-only）。

多轨组网
1. 同卡流量互访是频繁的，多轨可以一跳直达，单轨要跨POD，至少需要三跳（卡-leaf-spine）
2. 部署方式：同机8块GPU分别连接到8台leaf，同Leaf下为同卡号GPU；
3. 多轨部署特点：单POD下GPU数量更多，POD内一跳转发无拥塞；跨POD上Spine转发的流量更少，产生拥塞概率低
4. 轨道优化架构：完全契合标准Leaf - Spine拓扑。轨道交换机对应Leaf层，额外保留Spine层交换机。多轨接入时GPU服务器的多张显卡会接入不同Leaf交换机，跨轨道的流量能经Spine层转发，仅需两跳就可实现任意GPU间的灵活通信，适配复杂分布式训练的各类通信需求，但布线需用光纤等，成本和功耗较高。
5. 纯轨架构：只有Leaf层轨道交换机。同一轨道内的同卡号GPU可直接通信，而不同轨道的GPU跨域通信需经自身所在域内转发才能实现。它虽牺牲了部分跨轨道通信灵活性，但大幅减少了Spine层硬件投入，布线还可采用低成本DAC铜缆，适合训练场景单一、追求成本优化的集群。
单轨组网
1. 部署方式：同机8块GPU全部连接到1台leaf，单个Leaf视为单轨；
2. 多轨部署特点：单POD下GPU数量较少，单POD内一跳转发无拥塞；跨POD上Spine转发的流量更多，产生拥塞概率高
3. 单轨部署时，Leaf交换机可以采用ToR（Top of Rack，机柜顶部）或MoR（Middle of Rack，机柜中部）的部署方式，从而可以在接入层面采用DAC铜缆接入，DAC铜缆散热好、功耗低、可靠性高、综合成本也更核算。
多轨组网+大容量Leaf是支撑POD的关键
1. 多轨部署POD规模大于单轨，且POD下容纳的卡数会更多，跨POD流量拥塞概率低

盒框式交换机

盒盒组网、框盒组网的影响面：
1. 盒式设备占用空间、功耗会更小、性价比高
2. 框式设备有线卡，有网板，虽然端口更多，但功耗大、体积大、实现的原理会更复杂
框式报文转发至少需要三跳（LineCard--Fabric--LineCard）；盒式里面是单芯片，一跳即可。
1. 时延差距
2. 框式：线卡内部的一跳可能是多芯片，导致显卡内部跨芯片，然后到网板的过程中，流量运行更复杂，假设出现故障，定位和恢复也更复杂。

组网方案

单节点组网
二层盒盒
1. leaf-spine之间负载均衡技术ECMP静态哈希，动态的负载均衡技术、逐流、逐包技术
框盒组网
1. 盒式-款式（线卡----网板）相当于三层
2. META采用RoCE技术构建两万卡大模型网络
三层盒盒
1. 万卡以上可以再加core、Super- spine switch

网络架构规划

不同组网区域的带宽要求不同
1. 参数网络/后端 400G，根据GPU性能决定
2. 存储网100G、200G
3. 业务网、管理网25G左右
千卡组网实例

Spine台数=总卡/单台spine下行口数=8台
1. 参数网千卡图--设备选用128口400G的交换机
2. 1K组网：leaf台数=总卡/单台leaf下行口数=16台
3. leaf连接GPU的方式：
  1. 部署为二层以太网口，部署interface vlan网关，为GPU网卡分配业务网段
  2. 8台leaf为一组，可以称为一个Segment。Segment=leaf数/8=2组
  3. 一台服务器的八个网卡，分别连接到一个Segment的8台leaf-----单归属单挂方式
4. leaf连接Spine的方式：
  1. 部署为三层路由口，通常为30位互联网段。
  2. spine8台，leaf16台，均分的话leaf到每一台spine有8根线。16×64÷8=8根。每两台Spine-leaf之间是8根线。
二层Spine-Leaf组网的拥塞控制部署
1. Spine-Leaf通常会有拥塞，同卡号leaf层即可解决，leaf到spine多打一也许会有拥塞
2. 部署：
  1. RDMA网卡可运行DCQCN算法、RTTCC、HPCC等
  2. leaf连接GPU网卡端口、leaf连接Spine端口、Spine连接Leaf端口，均可部署PFC+ECN
  3. 交换机水线、动态调优
  4. spine-core核心层时推荐只开启ECN，PFC的组网规模和环路的影响可能会产生失锁
二层Spine-Leaf组网---路由规划---路由协议选择
1. Underlay的路由协议建议选择EBGP
2. Spine相同AS号
3. Leaf不同AS号，可以解决环路的问题
  1. Leaf AS相同优点：路由属性相同，路由可以汇总，减少Update报文数量------智算组网本身架构简单、路由量少
  2. Leaf AS相同缺点：需要学习其他Leaf的路由，需要配置allow-as-path破解AS-path防环机制
二层Spine-Leaf组网---路由规划---Leaf网段规划
1. leaf发布不同网段路由
  1. 每台leaf的网段不同，明细路由和流量可以明确找到下一跳，不会有组播或广播的现象，无需发布明细的主机路由。spine收到某一台leaf网段路由，可以直接去往这台leaf，不会去往所有的leaf。
2. leaf发布相同网段路由
二层Spine-Leaf组网---路由发布流程

  ①leaf4学习到D网卡的ARP，形成本地直连路由，优先级0；

  ②leaf4将直连网卡的网段路由发布给spine1/2，spine1/2形成BGP路由，优先级255；

  ③spine1/2将该网段路由发给leaf1/2/3，leaf1/2/3形成BGP路由，优先级255；

CLOS基础架构及扩展

CLOS架构最简洁的部署方式是Spine-Leaf的两层网络架构。
两层CLOS架构下，能够接入的服务器网口数量受到限制，当网络规模较大时，就需要对两层CLOS架构进行扩展，对应的扩展模式主要有两种，分别是基于虚拟机框的扩展方式和基于Pod的扩展方式。

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

【Linux文件操作】文件操作系统调用

需要注意的是，write 调用返回的实际写入字节数可能小于请求的字节数，因此在实际应用中可能需要循环写入，直到所有数据都被写入。：当 flags 中包含 O_CREAT 标志时，该参数用于指定新文件的权限模式，与 creat 系统调用中的 mode 参数相同。在对文件进行读写操作时，系统会维护一个文件偏移量（file offset），也称为文件指针，它指示了下一次读写操作开始的位置。展示了 ope

openEuler 社区

Linux操作系统之线程

昨天我们已经为大家梳理出了分页式存储结构，帮助大家贯通了虚拟内存地址，物理地址，页表之间的联系。今天，我们将会继续来学我我们的线程的有关内容。今天由于时间原因，我们不能更多的了解线程有关的概念，因为作者今天本人有事，直到晚上九点才回到家。缺少的内容，明天我们会补充。

openEuler 社区

Linux操作系统之线程：线程控制

上一篇文章我们着重对线程他的共享代码这个特点进行了论述，讲解了部分性质与容易出现的问题。那么现在我们本篇文章就更加深层次的来学习一下线程吧！兄弟们，线程这玩意儿就是个共享怪胎，表面上说栈是独立的，但实际上我用个全局指针就能偷看其他线程的栈数据！创建线程底层就是个clone系统调用，各大语言都是套了层皮而已。线程退出的姿势也可多：主线程return直接带崩全场，副线程return就跟函数返回一样乖巧