编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-995

网络适配

智算中心

DLB逐包逐流混合调度

如何配置DLB实现逐包和逐流混合调度,兼顾大流与小流

负载均衡·DLB Hybrid

Step1: 逐包调度(packet-by-packet)适合小流,逐流调度(flow-by-flow)适合大流。Step2: 混合调度:小流使用逐包,大流使用逐流。Step3: 要求小流时延<100μs,大流吞吐不降。Step4: 数学表达式:Schedule_mode={packet,flow,​flow_size<100KBflow_size≥100KB​。Step5: 配置:load-balance hybridStep6: 验证:SA分析器查看各流调度模式。Step7: 推荐:在Spine和Leaf启用。

小流<100KB逐包;大流≥100KB逐流

DLB、Hybrid Scheduling、Flow Size

:SA分析器;:RoCE交换机;部署:全网启用

N-996

网络适配

智算中心

大小流自适应调度触发阈值

如何配置大小流自适应调度的触发阈值,避免频繁切换

QoS·Adaptive Trigger

Step1: 当小流队列丢包率>1e-6时触发自适应调整。Step2: 调整后若大流吞吐下降>5%,则回退。Step3: 要求调整频率<1次/分钟。Step4: 数学表达式:Trigger=(drop_ratesmall​>1e−6)∧(throughputlarge​≥0.95×baseline)。Step5: 配置:qos mice-elephant-flow agile-buffer drop-threshold 1e-6Step6: 监控:SA分析器记录调整事件。Step7: 推荐:设置合适的丢包率阈值。

丢包率阈值1e-6;大流吞吐下降<5%

Adaptive Trigger、Drop Threshold

:SA分析器;:RoCE交换机;部署:Leaf出口

N-997

网络适配

智算中心

大小流自适应调度缓存比例

如何配置大小流自适应调度的缓存比例,平衡公平性

QoS·Buffer Ratio

Step1: 初始缓存比例:小流队列50%,大流队列50%。Step2: 自适应调整时,小流队列可占用最多80%,大流最少20%。Step3: 要求小流丢包率<1e-7。Step4: 数学表达式:Bsmall_max​=0.8×Btotal​,Blarge_min​=0.2×Btotal​。Step5: 配置:qos mice-elephant-flow agile-buffer ratio 80 20Step6: 验证:监控各队列丢包率。Step7: 推荐:根据实际流量调整。

小流最大80%;大流最小20%

Buffer Ratio、Fairness、Agile Buffer

:交换机配置;:RoCE交换机;部署:Leaf出口

N-998

网络适配

智算中心

光模块健康度评估模型输入窗口

如何选择光模块DDM数据的时间窗口长度,平衡预测精度和时效性

预测·Window Length

Step1: 输入窗口长度W,预测未来P分钟。Step2: 窗口越长,捕捉趋势越准,但计算延迟越大。Step3: 要求预测精度>85%,推理延迟<100ms。Step4: 数学表达式:Accuracy(W)=f(W),经验值W=60分钟。Step5: 若W=60,精度88%;W=30,精度82%。Step6: 配置:SA分析器中设置窗口长度。Step7: 推荐:W=60分钟,P=30分钟。

W=60分钟;P=30分钟;精度88%

Time Window、Prediction Accuracy

:SA分析器;:光模块;部署:模型配置

N-999

网络适配

智算中心

光模块健康度评估模型更新频率

如何设计光模块预测模型的更新频率,适应硬件老化

预测·Model Update

Step1: 光模块老化导致参数漂移,模型需定期更新。Step2: 每周增量更新一次,每月全量重训练。Step3: 要求模型F1分数不随时间下降。Step4: 数学表达式:F1weekly​≥0.95×F1initial​。Step5: 若初始F1=0.85,则每周F1应≥0.8075。Step6: 配置:SA分析器定时任务。Step7: 推荐:自动触发更新。

每周增量;每月全量;F1下降<5%

Model Update、Concept Drift

:SA分析器;:无;部署:定时任务

N-1000

网络适配

智算中心

空泡率监控采样间隔

如何选择空泡率采样的时间间隔,平衡精度和开销

监控·Sampling Interval

Step1: 空泡率采样间隔Tsample​,每步采样一次。Step2: 间隔越小,精度越高,但开销越大。Step3: 要求采样开销<0.1%训练时间。Step4: 数学表达式:Overhead=Tstep​Tsample_cost​​。Step5: 若每步耗时100ms,采样耗时0.1ms,则开销0.1%。Step6: 配置:NCCL_DEBUG=INFO每步输出。Step7: 推荐:每步采样。

每步采样;开销<0.1%

Sampling Interval、Overhead

:NCCL、SA Agent;:GPU;部署:训练配置

N-1001

网络适配

智算中心

空泡率监控告警阈值

如何设置空泡率告警阈值,指导调优

监控·Bubble Alert

Step1: 空泡率>20%时告警,提示网络或并行策略问题。Step2: 空泡率>50%时严重告警。Step3: 要求告警准确率>90%。Step4: 数学表达式:Alert={warning,critical,​20%<Bubble≤50%Bubble>50%​。Step5: 配置:SA分析器中设置阈值。Step6: 推荐:结合MFU综合评估。Step7: 验证:人工确认告警有效性。

Warning>20%;Critical>50%

Bubble Alert、Threshold

:SA分析器;:无;部署:监控规则

N-1002

网络适配

智算中心

文本预训练数据处理清洗算子

如何配置数据清洗算子,过滤低质量文本

数据·Cleaning

Step1: 清洗规则:去除HTML标签、特殊字符、过长/过短文本。Step2: 文本长度范围[100, 10000]字符。Step3: 要求清洗后数据质量提升>30%。Step4: 数学表达式:Clean=remove_html(text)∧filter_length(text,100,10000)。Step5: 配置:绿洲平台选择清洗算子。Step6: 推荐:内置50+算子。Step7: 验证:抽样人工审核。

长度100-10000;质量提升>30%

Data Cleaning、Filtering

:绿洲平台;:无;部署:数据处理流程

N-1003

网络适配

智算中心

文本预训练数据处理去重效率

如何评估SimHash去重的效率,平衡精度和速度

数据·Dedup Efficiency

Step1: SimHash处理速度Ssimhash​=10MB/s/core,MinHash速度Sminhash​=5MB/s/core。Step2: 要求去重速度>1TB/h。Step3: 数学表达式:Throughput=Ncores​×S。Step4: 若Ncores​=100,SimHash速度10MB/s,则Throughput=1GB/s=3.6TB/h。Step5: 配置:绿洲平台选择SimHash。Step6: 推荐:SimHash速度快,精度足够。Step7: 验证:比较去重前后数据量。

SimHash 10MB/s/core;3.6TB/h

Deduplication Speed、SimHash

:绿洲平台;:CPU集群;部署:分布式处理

N-1004

网络适配

智算中心

绿洲AI数据集处理-数据质检规则

如何设计数据质检的自动化规则,减少人工审核

数据·Quality Rules

Step1: 质检规则:语言一致性(中文占比>90%)、无乱码、无重复段落。Step2: 不合格数据自动过滤。Step3: 要求质检通过率>95%。Step4: 数学表达式:Pass=(lang_zh_ratio>0.9)∧(charset==utf8)∧(dup_ratio<0.01)。Step5: 配置:绿洲平台设置规则。Step6: 推荐:使用AI模型辅助。Step7: 验证:抽样人工审核。

中文>90%;无乱码;重复<1%

Quality Rules、Automation

:绿洲平台;:无;部署:数据处理流程

N-1005

网络适配

智算中心

绿洲AI数据集处理-数据增强倍数

如何选择数据增强的倍数,平衡数据量和质量

数据·Augmentation Factor

Step1: 增强倍数M,每个样本生成M个增强样本。Step2: M越大,数据量越大,但可能引入噪声。Step3: 要求增强后模型性能提升>5%。Step4: 数学表达式:Mopt​=argmaxM​(Accval​(M)−Accbaseline​)。Step5: 实验表明M=3最佳。Step6: 配置:绿洲平台选择增强倍数。Step7: 推荐:M=3。

M=3;性能提升>5%

Augmentation Factor、Optimization

:绿洲平台;:无;部署:数据处理流程

N-1006

网络适配

智算中心

绿洲AI数据集处理-分段重叠

如何配置文本分段的重叠长度,保持上下文连贯

数据·Chunk Overlap

Step1: 分段时相邻chunk重叠O个token,保持上下文。Step2: 重叠长度建议为chunk大小的10%。Step3: 要求模型理解连贯性。Step4: 数学表达式:Chunki​=text[starti​:endi​],其中starti+1​=starti​+stride,stride=chunk_size−overlap。Step5: 若chunk_size=512,overlap=50,则stride=462。Step6: 配置:绿洲平台设置重叠长度。Step7: 推荐:overlap=50。

overlap=50 token;stride=462

Chunk Overlap、Context Continuity

:绿洲平台;:无;部署:数据处理流程

N-1007

网络适配

智算中心

批量部署PXE并发数

如何设计PXE部署的并发数,避免DHCP和TFTP过载

部署·PXE Concurrency

Step1: PXE并发数Npxe​,每节点下载速度Sdown​=100MB/s。Step2: TFTP服务器带宽BWtftp​=10Gbps。Step3: 要求不超载。Step4: 数学表达式:Npxe​×Sdown​≤BWtftp​。Step5: 若Sdown​=100MB/s=800Mbps,则Npxe​≤12.5。Step6: 实际推荐并发10节点。Step7: 配置:DHCP服务器设置lease时间。

并发10节点;TFTP不超载

PXE Concurrency、TFTP、DHCP

:DHCP/TFTP服务器;:GPU服务器;部署:部署策略

N-1008

网络适配

智算中心

批量部署OS镜像分发

如何设计OS镜像的分发策略,减少网络压力

部署·Image Distribution

Step1: 使用P2P分发(如BitTorrent)或HTTP多线程下载。Step2: 镜像大小Simage​=10GB,网络带宽BW=10Gbps。Step3: 要求50节点部署时间<1小时。Step4: 数学表达式:Tdistribute​=BWSimage​×Nnode​​(串行)。Step5: 若串行,T=10GB×50/1.25GB/s=400s,实际受限于TFTP。Step6: 推荐:使用HTTP多线程,并发10节点。Step7: 配置:部署服务器使用nginx。

50节点<1h;HTTP多线程

Image Distribution、P2P、HTTP

:nginx、BitTorrent;:部署服务器;部署:优化策略

N-1009

网络适配

智算中心

训前压测NCCL allreduce带宽测试

如何设计NCCL allreduce带宽测试的报文大小

测试·Message Size

Step1: NCCL allreduce带宽随报文大小变化,小报文带宽低。Step2: 测试报文大小从1KB到1GB,找出最大带宽。Step3: 要求最大带宽>95%线速。Step4: 数学表达式:BWallreduce​(size)=Tallreduce​size×(N−1)/N​。Step5: 若size=1GB,N=8,T=2.5ms,则BW=1GB×7/8/2.5ms=350GB/s(聚合)。Step6: 配置:NCCL-tests中的all_reduce_perfStep7: 推荐:测试所有报文大小。

报文大小1KB-1GB;最大带宽>95%

NCCL Allreduce、Message Size、Bandwidth

:NCCL-tests;:GPU、RoCE网卡;部署:压测工具

N-1010

网络适配

智算中心

训前压测NCCL延迟测试

如何设计NCCL延迟测试的报文大小

测试·Latency Size

Step1: NCCL延迟测试使用小报文(8字节),测量ping-pong延迟。Step2: 要求延迟<10μs(同Leaf)。Step3: 数学表达式:Latency=2RTT​。Step4: 若RTT=12μs,则延迟=6μs。Step5: 配置:NCCL-tests中的sendrecv_perfStep6: 推荐:测试不同报文大小。Step7: 验证:记录P50/P99。

8字节;延迟<10μs

NCCL Latency、Ping-pong

:NCCL-tests;:GPU、RoCE网卡;部署:压测工具

N-1011

网络适配

智算中心

训前压测报告-带宽达标率

如何计算带宽达标率,评估集群整体性能

测试·Pass Rate

Step1: 每个节点测试带宽,达标标准≥95%线速。Step2: 达标率Rpass​=Ntotal​Npass​​。Step3: 要求达标率>98%。Step4: 数学表达式:Rpass​=Ntotal​count(BWi​≥0.95×line_rate)​。Step5: 若2000节点中1980达标,则R=99%。Step6: 配置:SA分析器自动计算。Step7: 推荐:不达标节点自动隔离。

达标率>98%;隔离不达标

Pass Rate、Qualification

:SA分析器;:无;部署:压测报告

N-1012

网络适配

智算中心

CND故障监控-参数网卡数量检查

如何检查参数网卡数量是否符合预期

监控·NIC Count

Step1: 预期参数网卡数Nexpected​(如8),实际检查Nactual​。Step2: 若Nactual​<Nexpected​,标记故障。Step3: 要求检测时间<1s。Step4: 数学表达式:Fault=(Nactual​<Nexpected​)。Step5: 配置:CND脚本执行`ip link show

grep -c "ens."`。Step6: 推荐:每秒检查。Step7*: 验证:拔掉一根网线测试。

预期8张;少于则告警

NIC Count Check、CND

N-1013

网络适配

智算中心

CND故障监控-存储网卡数量检查

如何检查存储网卡数量是否符合预期

监控·Storage NIC Count

Step1: 预期存储网卡数Nexpected_sto​(如2),实际检查Nactual_sto​。Step2: 若Nactual_sto​<Nexpected_sto​,标记故障。Step3: 要求检测时间<1s。Step4: 数学表达式:Fault=(Nactual_sto​<Nexpected_sto​)。Step5: 配置:CND脚本执行`ip link show

grep -c "ens."`。Step6: 推荐:每秒检查。Step7*: 验证:拔掉一根网线测试。

预期2张;少于则告警

Storage NIC Count、CND

N-1014

网络适配

智算中心

CND故障监控-存储挂载检查超时

如何配置存储挂载检查的超时时间

监控·Mount Timeout

Step1: 使用mountpoint -q /mnt/storage检查,超时时间Ttimeout​=5s。Step2: 若超时未返回,视为挂载不可用。Step3: 要求检查时间<5s。Step4: 数学表达式:Mount_ok=(timeout_flag==false)∧(exit_code==0)。Step5: 配置:CND脚本中设置timeout。Step6: 推荐:超时5s。Step7: 验证:模拟存储故障。

超时5s;不可用则告警

Mount Check Timeout

:CND插件;:CX存储;部署:每节点

N-1015

网络适配

智算中心

作业故障自愈-备份节点预热

如何设计备份节点的预热策略,使其能快速接管任务

可靠性·Backup Warm-up

Step1: 备份节点预先加载OS、驱动、CUDA、容器镜像,处于待命状态。Step2: 预热时间Twarm​=5min,故障接管时间Ttakeover​=30s。Step3: 要求总恢复时间<5分钟。Step4: 数学表达式:Trecovery​=Twarm​+Ttakeover​=5.5min。Step5: 优化:备份节点保持热状态,T_warm=0。Step6: 配置:傲飞平台维护备份节点池。Step7: 推荐:备份节点保持热备。

热备接管<30s;总恢复<5min

Backup Warm-up、Hot Standby

:傲飞平台;:GPU服务器;部署:POC特性

N-1016

网络适配

智算中心

作业故障自愈-Checkpoint保存频率

如何设计Checkpoint保存频率,平衡恢复速度和开销

可靠性·Checkpoint Frequency

Step1: 每Nsteps​步保存一次Checkpoint,保存时间Tsave​。Step2: 故障恢复时从最近Checkpoint加载,损失Nsteps​步训练。Step3: 要求损失时间<5分钟。Step4: 数学表达式:Loss_time=Nsteps​×Tstep​。Step5: 若Tstep​=100ms,希望损失<5min=300s,则Nsteps​=3000。Step6: 配置:傲飞平台设置保存间隔。Step7: 推荐:每1000步保存一次。

每1000步保存;损失<2min

Checkpoint Frequency、Trade-off

:傲飞平台;:CX存储;部署:训练配置

N-1017

网络适配

智算中心

文本预训练数据处理-数据版本回滚

如何设计数据版本的快速回滚机制

数据·Rollback

Step1: 每次数据处理生成新版本,旧版本保留。Step2: 回滚时切换到指定版本,数据路径更新。Step3: 要求回滚时间<1分钟。Step4: 数学表达式:Trollback​=Tswitch_metadata​。Step5: 配置:绿洲平台使用符号链接指向当前版本。Step6: 推荐:保留最近10个版本。Step7: 验证:回滚后训练使用旧数据。

回滚<1min;保留10版本

Version Rollback、Symbolic Link

:绿洲平台;:CX存储;部署:平台功能

N-1018

网络适配

智算中心

绿洲AI数据集处理-数据标注质量控制

如何设计数据标注的质量控制,确保标注准确性

数据·Label QC

Step1: 多人标注同一数据,计算标注一致性(Cohen's Kappa)。Step2: 要求Kappa>0.8。Step3: 数学表达式:κ=1−pe​po​−pe​​。Step4: 若两人标注100条,一致80条,则po​=0.8,pe​=0.5,κ=0.6,不合格。Step5: 配置:绿洲平台设置标注任务。Step6: 推荐:至少2人标注。Step7: 验证:抽检不一致数据。

Kappa>0.8;多人标注

Label Quality、Cohen's Kappa

:绿洲平台;:无;部署:标注流程

N-1019

网络适配

智算中心

绿洲AI数据集处理-数据增强质量评估

如何评估数据增强后的数据质量,避免引入噪声

数据·Augmentation Quality

Step1: 使用困惑度(Perplexity)评估增强文本的自然度。Step2: 要求增强后困惑度不高于原始。Step3: 数学表达式:PPLaug​≤PPLorig​。Step4: 若原始PPL=50,增强后PPL=55,则质量下降。Step5: 配置:绿洲平台内置评估模型。Step6: 推荐:过滤PPL过高的增强样本。Step7: 验证:人工抽样。

PPL不增加;过滤高PPL

Augmentation Quality、Perplexity

:绿洲平台、语言模型;:无;部署:数据处理流程

N-1020

网络适配

智算中心

参数网交换机端口协商

如何配置交换机端口自协商,确保链路稳定

部署·Auto-negotiation

Step1: 400G端口使用自协商,200G端口建议强制。Step2: 要求链路不翻动。Step3: 数学表达式:Link_stable=(auto−neg==on)∧(speed==expected)。Step4: 配置:speed 400000no negotiate auto(强制)。Step5: 推荐:400G使用自协商,200G强制。Step6: 验证:show interface transceiverStep7: 注意:光模块兼容性。

400G自协商;200G强制

Auto-negotiation、Link Stability

:交换机配置;:RoCE交换机;部署:端口配置

N-1021

网络适配

智算中心

参数网交换机光模块诊断

如何通过交换机诊断光模块健康状态

运维·Optics Diag

Step1: 使用show interface transceiver detail查看DDM参数。Step2: 关键指标:温度、电压、偏置电流、发射功率、接收功率。Step3: 要求所有参数在阈值范围内。Step4: 数学表达式:Healthy=(T<Tmax​)∧(Vmin​<V<Vmax​)∧(I<Imax​)∧(Ptx​>Pmin​)∧(Prx​>Pmin​)。Step5: 配置:SA分析器采集交换机DDM。Step6: 推荐:定期巡检。Step7: 验证:更换故障光模块。

参数在阈值内

Optics Diagnostics、DDM

:SA分析器;:RoCE交换机;部署:监控集成

N-1022

网络适配

智算中心

参数网交换机日志归档

如何设计交换机日志的归档策略,满足合规要求

运维·Log Archive

Step1: 日志每天生成一个文件,压缩后归档。Step2: 保留期限Tretention​=180天。Step3: 要求存储空间可预测。Step4: 数学表达式:Storage=Nsw​×daily_log_size×Tretention​。Step5: 若Nsw​=600,daily_log=100MB,则180天需10.8TB。Step6: 配置:使用ELK或S3存储。Step7: 推荐:自动化归档。

保留180天;10.8TB

Log Archiving、Retention

:ELK、S3;:存储服务器;部署:运维流程

N-1023

网络适配

智算中心

参数网交换机配置备份

如何设计交换机配置的自动备份策略

运维·Config Backup

Step1: 每天凌晨自动备份配置到远程服务器。Step2: 保留最近30天的备份。Step3: 要求备份时间<1分钟/台。Step4: 数学表达式:Tbackup​=Nsw​×Tper_sw​。Step5: 若Nsw​=600,Tper_sw​=30s,则Tbackup​=5h(串行)。Step6: 推荐:并行备份,使用SCP或TFTP。Step7: 配置:SE控制器定时任务。

并行备份;保留30天

Config Backup、Disaster Recovery

:SE控制器、SCP;:备份服务器;部署:自动化

N-1024

网络适配

智算中心

参数网交换机SNMP Trap

如何配置SNMP Trap,实时上报故障事件

监控·SNMP Trap

Step1: 交换机在端口down、温度过高、光模块故障时发送SNMP Trap。Step2: Trap接收端为SA分析器或网管系统。Step3: 要求事件上报延迟<1s。Step4: 数学表达式:Ttrap​=Tevent​+Tsend​。Step5: 配置:snmp-server enable trapsStep6: 推荐:所有重要事件启用Trap。Step7: 验证:模拟故障测试。

事件上报<1s;关键事件

SNMP Trap、Event Notification

:网管系统;:RoCE交换机;部署:全网启用

  • 参数网BGP ORF (Outbound Route Filtering)

  • 参数网BGP Flowspec

  • 参数网BGP Large Community

  • 参数网BGP Segment Routing (SR-MPLS or SRv6)

  • 存储网NVMe-oF多路径

  • 存储网RDMA over TCP (iWARP) vs RoCE

  • 光模块预测模型架构(LSTM vs Transformer)

  • 空泡率与MFU关系

  • 训前压测的NCCL拓扑检测

  • CND故障监控的GPU温度监控

  • 国产化GPU的PCIe复位流程

  • 云上SDN编排的VXLAN多播优化

  • 参数网Leaf Group内多轨连接的负载均衡

  • 参数网Spine冗余设计

  • 存储网CX存储的负载均衡算法

  • 文本预训练数据处理的语言检测

  • 文本预训练数据处理的OCR清洗

  • 绿洲平台的数据血缘追踪

  • 傲飞平台的资源预留策略

  • 异构训练中的梯度压缩通信

  • 推理服务的网络QoS保障

  • 推理服务的模型分片网络拓扑

  • 推理服务的KV Cache传输优化

  • 推理服务的动态批处理网络影响

  • 推理服务的冷启动网络加速

  • 推理服务的灰度发布网络策略

  • 推理服务的可观测性(请求追踪)

  • 推理服务的熔断降级网络配置

  • 推理服务的全局负载均衡(GSLB)

  • 推理服务的边缘节点网络

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1025

网络适配

智算中心

参数网BGP ORF

如何配置BGP Outbound Route Filtering(ORF),减少不必要的路由更新

路由·ORF

Step1: ORF允许发送端根据接收端的过滤需求,只发送匹配的路由。Step2: 配置前缀列表并通告给邻居。Step3: 要求路由更新减少>50%。Step4: 数学表达式:Routes_sent=Routes_matched(prefix_list)。Step5: 若本地有10000条路由,接收端只需要/24以上的路由,则只发送2000条。Step6: 配置:neighbor ... capability orf prefix-list bothStep7: 推荐:在Spine与Leaf之间启用。

路由更新减少50%以上;基于前缀过滤

BGP ORF、Route Filtering、Capability

:交换机配置;:RoCE交换机;部署:Spine和Leaf

N-1026

网络适配

智算中心

参数网BGP Flowspec

如何利用BGP Flowspec实现分布式流量清洗

安全·Flowspec

Step1: BGP Flowspec将流量匹配规则和动作(如丢弃、限速)通过BGP分发。Step2: 在检测到DDoS攻击时,控制器下发Flowspec规则到边界交换机。Step3: 要求攻击流量丢弃延迟<1s。Step4: 数学表达式:Action=discardif src_IP∈blacklist。Step5: 配置:address-family ipv4 flowspecStep6: 推荐:在Spine上启用。Step7: 验证:模拟攻击测试。

攻击流量丢弃<1s;分布式清洗

BGP Flowspec、DDoS Mitigation

:SE控制器、交换机配置;:RoCE交换机;部署:边界Spine

N-1027

网络适配

智算中心

参数网BGP Large Community

如何使用BGP Large Community标记路由,实现精细策略控制

路由·Large Community

Step1: Large Community格式为AS:value1:value2,支持更大范围。Step2: 用Community标记不同租户或任务的路由。Step3: 要求策略匹配准确。Step4: 数学表达式:Route_tag=64512:tenant_id:task_id。Step5: 配置:route-map SET-COMMUNITY permit 10 set community large 64512:100:1Step6: 推荐:用于多租户场景。Step7: 验证:show ip bgp community

格式AS:val1:val2;多租户标记

BGP Large Community、Tagging

:交换机配置;:RoCE交换机;部署:按需配置

N-1028

网络适配

智算中心

参数网BGP Segment Routing SR-MPLS

是否需要为参数网启用Segment Routing MPLS

路由·SR-MPLS

Step1: SR-MPLS通过标签栈实现流量工程,减少BGP路由条目。Step2: 参数网使用ECMP和主动选路,SR-MPLS增加复杂性。Step3: 要求不启用。Step4: 数学表达式:SR−MPLS=disabled。Step5: 配置:不配置。Step6: 推荐:不启用,保持简单。Step7: 验证:无。

不启用SR-MPLS

Segment Routing、MPLS

:交换机配置;:RoCE交换机;部署:不启用

N-1029

网络适配

智算中心

参数网BGP Segment Routing SRv6

是否需要为参数网启用SRv6

路由·SRv6

Step1: SRv6基于IPv6扩展头,需要全网IPv6支持。Step2: 参数网使用IPv4,迁移成本高。Step3: 要求不启用。Step4: 数学表达式:SRv6=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。

不启用SRv6

SRv6、IPv6

:交换机配置;:RoCE交换机;部署:不启用

N-1030

网络适配

智算中心

存储网NVMe-oF多路径

如何配置NVMe-oF多路径实现存储高可用

可靠性·NVMe MPIO

Step1: 计算节点通过多个NVMe-oF控制器路径访问存储。Step2: 配置NVMe多路径(dm-multipath)或原生NVMe多路径。Step3: 要求单路径故障时IO不中断。Step4: 数学表达式:Tfailover​=Tdetect​+Tswitch​。Step5: 若Tdetect​=100ms,Tswitch​=50ms,则Tfailover​=150ms。Step6: 配置:nvme connect-allmultipath -llStep7: 推荐:使用原生NVMe多路径。

切换<200ms;原生NVMe多路径

NVMe-oF Multipath、HA

:nvme-cli、dm-multipath;:CX存储、RoCE网卡;部署:计算节点

N-1031

网络适配

智算中心

存储网iWARP vs RoCE

如何选择iWARP或RoCE作为存储网协议

协议·iWARP vs RoCE

Step1: iWARP基于TCP,兼容性好;RoCE基于UDP,性能高。Step2: 存储网要求低延迟、高吞吐。Step3: 要求选择RoCE。Step4: 数学表达式:Latencyroce​<Latencyiwarp​(通常RoCE低30%)。Step5: 测试:相同负载下RoCE延迟10μs,iWARP 15μs。Step6: 配置:使用RoCE。Step7: 推荐:存储网使用RoCE。

RoCE延迟更低;选RoCE

iWARP、RoCE、Protocol Comparison

:网卡驱动;:RoCE网卡;部署:统一RoCE

N-1032

网络适配

智算中心

光模块预测模型架构选择

如何选择LSTM或Transformer作为光模块预测模型

预测·Model Architecture

Step1: LSTM适合时序预测,参数量少;Transformer适合长序列,精度更高。Step2: 光模块数据为单变量或多变量时序。Step3: 要求F1>0.85,推理延迟<50ms。Step4: 数学表达式:F1lstm​=0.83,F1transformer​=0.87。Step5: 若Transformer推理延迟80ms>50ms,则选LSTM。Step6: 推荐:使用轻量级LSTM(2层,64单元)。Step7: 配置:SA分析器集成。

LSTM F1=0.83;Transformer F1=0.87;延迟约束

LSTM vs Transformer、时序预测

:SA分析器、TensorFlow;:无;部署:SA集成

N-1033

网络适配

智算中心

空泡率与MFU关系

如何量化空泡率对模型训练MFU的影响

性能·Bubble vs MFU

Step1: MFU(Model FLOPS Utilization)= 实际算力 / 峰值算力。Step2: 空泡率Bubble导致GPU空闲,降低MFU。Step3: 要求MFU>50%。Step4: 数学表达式:MFUeffective​=MFUideal​×(1−Bubble)。Step5: 若MFU_ideal=60%,Bubble=20%,则MFU_effective=48%。Step6: 优化:降低空泡率可提升MFU。Step7: 推荐:空泡率目标<15%。

MFU_effective=48%;Bubble=20%

MFU、Bubble Ratio、Efficiency

:SA分析器;:GPU;部署:监控分析

N-1034

网络适配

智算中心

训前压测NCCL拓扑检测

如何利用NCCL拓扑检测验证GPU互联拓扑

测试·Topology Detection

Step1: NCCL通过ncclTopoDetect检测GPU之间的拓扑(NVLink、PCIe、RoCE)。Step2: 输出拓扑文件,与实际硬件对比。Step3: 要求拓扑检测准确率100%。Step4: 数学表达式:Match=(detected_topo==actual_topo)。Step5: 配置:NCCL_TOPO_DUMP_FILE=topo.txtStep6: 推荐:训前执行。Step7: 验证:人工核对。

拓扑100%匹配

NCCL Topology、GPU Interconnect

:NCCL;:GPU、NVLink;部署:压测工具

N-1035

网络适配

智算中心

CND故障监控-GPU温度监控

如何监控国产GPU的温度,防止过热降频

监控·GPU Temp

Step1: 昆仑芯P800使用xpu_smi读取温度,沐曦C500使用mx-smiStep2: 温度阈值Thigh​=85℃,Tcritical​=105℃。Step3: 要求温度<85℃。Step4: 数学表达式:Alert=(T>Thigh​)。Step5: 配置:CND插件每秒采集。Step6: 推荐:联动风扇调速。Step7: 验证:高温时触发告警。

阈值85℃;每秒采集

GPU Temperature、Thermal

:CND插件、xpu_smi、mx-smi;:国产GPU;部署:每节点

N-1036

网络适配

智算中心

国产化GPU PCIe复位流程

如何设计国产GPU的PCIe复位流程,恢复故障GPU

运维·PCIe Reset

Step1: 使用echo 1 > /sys/bus/pci/devices/.../remove移除,echo 1 > /sys/bus/pci/rescan恢复。Step2: 复位后检查GPU是否恢复正常。Step3: 要求复位时间<30s。Step4: 数学表达式:Treset​=Tremove​+Trescan​+Tcheck​。Step5: 若Tremove​=1s,Trescan​=5s,Tcheck​=10s,则Treset​=16s。Step6: 配置:CND插件集成复位脚本。Step7: 推荐:自动复位一次,失败则隔离。

复位<30s;自动尝试

PCIe Reset、GPU Recovery

:CND插件、PCIe sysfs;:国产GPU;部署:每节点

N-1037

网络适配

智算中心

云上SDN编排-VXLAN多播优化

如何优化VXLAN多播组管理,减少IGMP查询

虚拟化·Multicast Optimization

Step1: 使用IGMP Snooping减少多播泛滥。Step2: 配置静态多播组,避免动态加入延迟。Step3: 要求多播流量带宽<0.1%总带宽。Step4: 数学表达式:IGMP_query_interval=125s。Step5: 配置:ip igmp snoopingStep6: 推荐:使用头端复制替代多播。Step7: 验证:show ip igmp groups

多播带宽<0.1%;IGMP Snooping

VXLAN Multicast、IGMP Snooping

:交换机配置;:RoCE交换机;部署:Leaf

N-1038

网络适配

智算中心

参数网Leaf Group内多轨负载均衡

如何保证多轨连接中不同网卡的流量均匀分布在Group内Leaf上

负载均衡·Multi-rail LB

Step1: 每个GPU的8张网卡连接到8台Leaf(多轨)。Step2: 流量哈希到不同网卡,需确保各Leaf负载均衡。Step3: 要求各Leaf下行带宽偏差<10%。Step4: 数学表达式:Utilleafi​​=BWleaf​∑gpu​trafficgpu,leafi​​​。Step5: 配置:使用对称哈希,保证同一GPU的不同网卡流量均匀。Step6: 推荐:UCCL中启用多QP绑不同Leaf。Step7: 验证:SA查看各Leaf利用率。

偏差<10%;对称哈希

Multi-rail、Load Balance

:UCCL、SA分析器;:RoCE交换机;部署:训练配置

N-1039

网络适配

智算中心

参数网Spine冗余设计

如何设计Spine的冗余数量,保证N+1冗余

可靠性·Spine Redundancy

Step1: 所需Spine数Sneed​,配置S=Sneed​+1实现N+1。Step2: 单Spine故障时,流量均匀分布到剩余Spine。Step3: 要求单Spine故障时带宽不降。Step4: 数学表达式:BWafter​=SS−1​×BWtotal​。Step5: 若S=17,S_need=16,则故障后BW=16/17≈94%,接近满带宽。Step6: 配置:Spine数=Leaf上行端口数/收敛比+1。Step7: 推荐:万卡集群Spine冗余1台。

N+1冗余;故障后带宽94%

Spine Redundancy、N+1

:无;:Spine交换机;部署:规划阶段

N-1040

网络适配

智算中心

存储网CX存储负载均衡算法

如何配置CX存储的负载均衡算法(如加权轮询)

性能·Storage LB

Step1: CX存储支持多种负载均衡算法:轮询、加权轮询、最少连接。Step2: 根据存储节点性能配置权重。Step3: 要求各存储节点IOPS偏差<10%。Step4: 数学表达式:Weighti​=∑Capacityj​Capacityi​​。Step5: 若节点A容量10TB,节点B 20TB,则权重1:2。Step6: 配置:CX存储管理界面设置。Step7: 推荐:加权轮询。

IOPS偏差<10%;加权轮询

Storage Load Balancing、Weighted Round Robin

:CX存储管理软件;:CX存储;部署:存储集群

N-1041

网络适配

智算中心

文本预训练数据处理-语言检测

如何自动检测文本语言,过滤非目标语言

数据·Language Detection

Step1: 使用fastText或langid检测文本语言。Step2: 保留中文占比>90%的文本。Step3: 要求检测准确率>95%。Step4: 数学表达式:Lang_prob=model.predict(text)。Step5: 若中文概率0.92,则保留。Step6: 配置:绿洲平台集成语言检测算子。Step7: 推荐:预训练数据仅保留中文。

中文>90%;准确率>95%

Language Detection、fastText

:绿洲平台、fastText;:无;部署:数据处理流程

N-1042

网络适配

智算中心

文本预训练数据处理-OCR清洗

如何清洗OCR识别产生的噪声文本

数据·OCR Cleaning

Step1: OCR文本常有乱码、多余空格、识别错误。Step2: 使用正则替换常见OCR错误(如“0”->“O”)。Step3: 要求清洗后文本可读性提升。Step4: 数学表达式:Clean_text=regex_replace(ocr_text,patterns)。Step5: 配置:绿洲平台内置OCR清洗规则。Step6: 推荐:结合人工审核。Step7: 验证:抽样对比。

提升可读性;规则替换

OCR Cleaning、Noise Reduction

:绿洲平台;:无;部署:数据处理流程

N-1043

网络适配

智算中心

绿洲平台数据血缘追踪

如何追踪数据从原始到训练集的完整血缘

数据·Data Lineage

Step1: 记录每个数据文件的来源、处理步骤、参数、版本。Step2: 使用图数据库存储血缘关系。Step3: 要求血缘查询时间<1s。Step4: 数学表达式:Lineage_graph=(nodes,edges)。Step5: 配置:绿洲平台集成Apache Atlas。Step6: 推荐:便于问题回溯。Step7: 验证:查询某个训练集的血缘。

查询<1s;图数据库

Data Lineage、Atlas

:绿洲平台、Apache Atlas;:无;部署:平台功能

N-1044

网络适配

智算中心

傲飞平台资源预留策略

如何为高优先级任务预留网络和GPU资源

调度·Resource Reservation

Step1: 高优先级任务预留Rgpu​个GPU和Rbw​带宽。Step2: 预留资源不参与普通任务调度。Step3: 要求高优先级任务启动时资源可用。Step4: 数学表达式:Available_resources=Total−Reserved。Step5: 配置:傲飞平台设置资源池预留。Step6: 推荐:关键任务预留20%资源。Step7: 验证:高优先级任务立即启动。

预留20%;即时可用

Resource Reservation、Priority

:傲飞平台;:GPU、网络;部署:平台配置

N-1045

网络适配

智算中心

异构训练梯度压缩通信

如何为异构训练配置梯度压缩,减少跨厂商通信量

性能·Hetero Compression

Step1: NV GPU和国产GPU之间通信带宽受限,使用梯度压缩。Step2: 压缩比C=10,通信量减少90%。Step3: 要求训练速度提升>20%。Step4: 数学表达式:Tcomm_new​=Tcomm_old​/C+Tcompress​。Step5: 若原通信100ms,压缩10ms,则新通信20ms。Step6: 配置:DeepSpeed中启用compression。Step7: 推荐:跨厂商通信必选。

压缩比10;速度提升>20%

Heterogeneous Compression、DeepSpeed

:DeepSpeed、UCCL;:GPU;部署:训练脚本

N-1046

网络适配

智算中心

推理服务网络QoS保障

如何为在线推理服务保障低延迟网络

QoS·Inference QoS

Step1: 推理流量标记为高优先级(DSCP 48),使用严格优先级队列。Step2: 训练流量标记为低优先级(DSCP 24)。Step3: 要求推理P99延迟<10ms。Step4: 数学表达式:Queue_service_rateinfer​=C(严格)。Step5: 配置:Leaf出口配置队列映射。Step6: 推荐:推理与训练物理隔离。Step7: 验证:同时运行训练和推理测试。

推理严格优先;P99<10ms

Inference QoS、Strict Priority

:交换机配置;:RoCE交换机;部署:Leaf出口

N-1047

网络适配

智算中心

推理服务模型分片网络拓扑

如何为推理模型分片(TP)设计最优网络拓扑

架构·Inference TP

Step1: 推理TP需要在每个token生成时进行allreduce,延迟敏感。Step2: 将TP组内的GPU放在同一节点(NVLink)或同一Leaf下。Step3: 要求TP通信延迟<50μs。Step4: 数学表达式:Ltp​=2×(Ntp​−1)×Thop​。Step5: 若Ntp​=8,NVLink延迟1μs,则Ltp​=14μs;若跨Leaf RoCE 5μs,则Ltp​=70μs。Step6: 推荐:TP组内使用NVLink。Step7: 配置:vLLM中tensor_parallel_size=8。

TP=8;NVLink延迟14μs;RoCE 70μs

Inference TP、Latency

:vLLM、Triton;:GPU、NVLink;部署:节点内TP

N-1048

网络适配

智算中心

推理服务KV Cache传输优化

如何优化推理时KV Cache在TP组内的广播

性能·KV Cache Broadcast

Step1: Prompt处理阶段,KV Cache需要在TP组内广播。Step2: 使用流水线广播,边计算边传输。Step3: 要求广播时间<10ms。Step4: 数学表达式:Tbroadcast​=BWnvlink​K​。Step5: 若KV Cache 9.6GB,NVLink 600GB/s,则T=16ms。Step6: 优化:使用异步广播,与计算重叠。Step7: 推荐:使用NVLink。

KV Cache 9.6GB;NVLink 16ms

KV Cache、Pipeline Broadcast

:vLLM;:NVLink;部署:节点内TP

N-1049

网络适配

智算中心

推理服务动态批处理网络影响

如何评估动态批处理对网络流量的影响

性能·Dynamic Batching

Step1: 动态批处理合并多个请求,增大batch size,增加计算量但减少网络IO次数。Step2: 网络流量与batch size成正比。Step3: 要求网络不成为瓶颈。Step4: 数学表达式:BWneed​=Tdeadline​batch_size×data_per_request​。Step5: 若batch=1024,data=1KB,deadline=10ms,则BW=102.4MB/s。Step6: 配置:vLLM中max_num_seqs。Step7: 推荐:根据网络带宽调整batch。

batch=1024;BW=102.4MB/s

Dynamic Batching、Throughput

:vLLM、Triton;:GPU;部署:推理配置

N-1050

网络适配

智算中心

推理服务冷启动网络加速

如何加速推理服务的冷启动(模型加载)

性能·Cold Start

Step1: 模型从存储加载到GPU显存,网络带宽是关键。Step2: 使用模型缓存(本地SSD或内存)减少网络加载。Step3: 要求冷启动时间<30s。Step4: 数学表达式:Tload​=BWstorage​Cmodel​​。Step5: 若模型350GB,存储网12.5GB/s,则T=28s。Step6: 优化:使用本地NVMe缓存。Step7: 推荐:推理节点配备本地SSD。

模型350GB;加载28s;本地缓存

Cold Start、Model Loading、Cache

:Triton、vLLM;:NVMe SSD;部署:本地缓存

N-1051

网络适配

智算中心

推理服务灰度发布网络策略

如何设计推理服务的灰度发布,逐步切换流量

架构·Canary Release

Step1: 新版本推理服务部署在少量GPU上,引流5%的请求。Step2: 使用服务网格(Istio)或Kubernetes Service进行流量分割。Step3: 要求灰度期间不影响用户体验。Step4: 数学表达式:Trafficnew​=0.05×Total_traffic。Step5: 配置:Istio VirtualService权重5%。Step6: 推荐:逐步增加权重。Step7: 验证:监控新旧版本延迟和错误率。

灰度5%;逐步放量

Canary Release、Traffic Splitting

:Istio、Kubernetes;:GPU;部署:推理集群

N-1052

网络适配

智算中心

推理服务可观测性-请求追踪

如何实现推理请求的全链路追踪

监控·Request Tracing

Step1: 使用OpenTelemetry在推理链路上注入trace ID。Step2: 收集各阶段耗时:网络传输、模型推理、后处理。Step3: 要求P99延迟分解到各阶段。Step4: 数学表达式:Ltotal​=Lnet​+Linfer​+Lpost​。Step5: 配置:Triton集成OpenTelemetry。Step6: 推荐:用于定位瓶颈。Step7: 验证:Jaeger UI查看trace。

全链路追踪;P99分解

Request Tracing、OpenTelemetry

:OpenTelemetry、Jaeger;:无;部署:推理服务集成

N-1053

网络适配

智算中心

推理服务熔断降级网络配置

如何配置网络层面的熔断降级,防止雪崩

可靠性·Circuit Breaker

Step1: 当后端推理实例错误率>50%时,熔断器打开,直接返回降级响应。Step2: 网络层面可通过丢弃或限流实现。Step3: 要求熔断恢复时间<30s。Step4: 数学表达式:State={closed,open,​error_rate<50%error_rate≥50%​。Step5: 配置:Envoy或Istio的circuit breaker。Step6: 推荐:结合健康检查。Step7: 验证:模拟故障测试。

错误率50%触发;恢复<30s

Circuit Breaker、Resilience

:Envoy、Istio;:无;部署:服务网格

N-1054

网络适配

智算中心

推理服务全局负载均衡(GSLB)

如何设计跨地域推理服务的全局负载均衡

架构·GSLB

Step1: 多个地域部署推理服务,通过DNS或Anycast将用户请求导向最近的地域。Step2: 要求用户延迟<50ms。Step3: 数学表达式:Selected_region=argminr​(latencyuser,r​)。Step4: 配置:使用AWS Route53或自建DNS GSLB。Step5: 推荐:结合健康检查和权重。Step6: 验证:从不同地域访问测试。

用户延迟<50ms;就近路由

GSLB、Anycast、DNS

:DNS服务器、健康检查;:无;部署:跨地域

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1055

网络适配

智算中心

训练任务与网络拓扑亲和性调度

如何将训练任务的PP/TP/DP组调度到同一Leaf Group内,减少跨Spine通信

调度·Topology-aware Scheduling

Step1: PP/TP/DP组内的GPU需要频繁通信,应尽量放在同一Leaf Group内。Step2: 傲飞平台根据GPU的拓扑信息(NUMA、Leaf)进行亲和性调度。Step3: 要求跨Spine通信量减少>50%。Step4: 数学表达式:Cross_spine_traffic=∑group​(Ngpu_cross​×BWper_gpu​)。Step5: 若将TP=8的组放在同一Leaf Group内,跨Spine通信量为0。Step6: 配置:傲飞平台中设置拓扑感知调度策略。Step7: 推荐:训练任务创建时指定拓扑约束。

跨Spine减少>50%;TP组内同Leaf

Topology-aware Scheduling、Affinity

:傲飞平台;:GPU、RoCE网络;部署:平台调度策略

N-1056

网络适配

智算中心

训练任务Checkpoint保存网络带宽预留

如何为Checkpoint保存预留存储网带宽,避免影响训练

可靠性·Checkpoint BW Reservation

Step1: Checkpoint保存期间占用存储网带宽,可能影响训练数据加载。Step2: 预留20%存储网带宽给Checkpoint。Step3: 要求训练数据加载不中断。Step4: 数学表达式:BWreserved​=0.2×BWstorage_total​。Step5: 若存储网总带宽3.84TB/s,预留768GB/s给Checkpoint。Step6: 配置:QoS队列中为Checkpoint设置最小带宽。Step7: 推荐:使用后台优先级较低的队列。

预留20%带宽;不影响训练

Checkpoint BW、QoS Reservation

:交换机QoS配置;:RoCE交换机;部署:存储网QoS

N-1057

网络适配

智算中心

训练任务日志传输网络优化

如何优化训练日志的实时传输,减少对参数网的影响

运维·Log Transport

Step1: 训练日志通过业务网传输,不与参数网争抢带宽。Step2: 使用独立的日志采集Agent,压缩后上传。Step3: 要求日志传输带宽占用<1Gbps。Step4: 数学表达式:BWlog​=Nnode​×log_rate×compression_ratio。Step5: 若2000节点,每节点日志速率1MB/s,压缩比10,则BW=200MB/s=1.6Gbps。Step6: 配置:使用Filebeat + Kafka。Step7: 推荐:日志走带外管理网。

日志带宽<1.6Gbps;压缩传输

Log Transport、Compression

:Filebeat、Kafka;:管理网;部署:独立网络

N-1058

网络适配

智算中心

训练任务可视化WebUI网络

如何为训练任务可视化(TensorBoard)提供网络保障

监控·TensorBoard Network

Step1: TensorBoard WebUI通过业务网访问,需要低延迟。Step2: 限制TensorBoard带宽不超过100Mbps。Step3: 要求不影响训练任务。Step4: 数学表达式:BWtb​=100Mbps。Step5: 配置:QoS限制TensorBoard流量。Step6: 推荐:使用独立公服区。Step7: 验证:训练时同时使用TensorBoard。

带宽限制100Mbps;不影响训练

TensorBoard、WebUI QoS

:交换机QoS;:RoCE交换机;部署:业务网QoS

N-1059

网络适配

智算中心

多模态训练数据加载网络

如何为多模态(图像+文本)训练数据加载优化存储网

性能·Multi-modal Data Loading

Step1: 多模态数据包含大尺寸图像,数据加载带宽需求更高。Step2: 每个GPU需要2GB/s数据加载带宽。Step3: 要求存储网不成为瓶颈。Step4: 数学表达式:BWmulti_modal​=Ngpu​×2GB/s。Step5: 若16000 GPU,总需求32TB/s,远超存储网3.84TB/s。Step6: 优化:使用数据缓存(如Alluxio)减少重复加载。Step7: 推荐:本地SSD缓存高频数据。

每GPU 2GB/s;缓存优化

Multi-modal Data Loading、Cache

:Alluxio、本地缓存;:NVMe SSD;部署:存储优化

N-1060

网络适配

智控中心

参数网PFC死锁检测

如何检测和定位PFC死锁的发生位置

运维·PFC Deadlock Detection

Step1: 监控交换机端口PFC暂停帧计数,若某个端口持续发送暂停帧超过Tsuspect​=1s,疑似死锁。Step2: 使用SA分析器关联分析。Step3: 要求死锁定位时间<10s。Step4: 数学表达式:Suspect=(pause_frames_sent>threshold)∧(duration>1s)。Step5: 配置:SA分析器设置告警规则。Step6: 推荐:启用PFC Watchdog自动恢复。Step7: 验证:模拟死锁测试。

暂停帧持续>1s;定位<10s

PFC Deadlock Detection

:SA分析器;:RoCE交换机;部署:监控集成

N-1061

网络适配

智算中心

参数网ECN标记一致性检查

如何检查全网ECN配置的一致性

运维·ECN Consistency

Step1: ECN配置包括Kmin、Kmax、标记概率,需全网一致。Step2: SE控制器采集所有Leaf的ECN配置,比对基准配置。Step3: 要求配置一致率100%。Step4: 数学表达式:Consistency=(configi​==configb​ase)∀i。Step5: 配置:SE控制器定时巡检。Step6: 推荐:部署后自动检查。Step7: 验证:show qos ecn对比。

100%一致;自动巡检

ECN Consistency、Configuration Audit

:SE控制器;:RoCE交换机;部署:自动化检查

N-1062

网络适配

智算中心

参数网RoCE网卡固件版本一致性

如何确保全网RoCE网卡固件版本一致

运维·Firmware Consistency

Step1: 网卡固件版本影响RoCE功能和性能。Step2: SE Agent采集网卡固件版本,上报SE控制器。Step3: 要求版本一致率>99%。Step4: 数学表达式:Version_match=(fw_versioni​==target_version)。Step5: 配置:SE控制器制定目标版本。Step6: 推荐:批量升级不一致的网卡。Step7: 验证:ethtool -i eth0

一致率>99%;批量升级

Firmware Consistency、Version Management

:SE Agent、SE控制器;:RoCE网卡;部署:自动化管理

N-1063

网络适配

智算中心

参数网光模块型号一致性

如何确保参数网光模块型号匹配,避免兼容性问题

运维·Optics Compatibility

Step1: 不同型号光模块可能不兼容,导致链路不稳定。Step2: 记录每根链路的光模块型号,比对兼容性列表。Step3: 要求兼容性100%。Step4: 数学表达式:Compatible=(tx_module,rx_module)∈compatibility_matrix。Step5: 配置:SE控制器维护兼容性矩阵。Step6: 推荐:统一采购同一品牌型号。Step7: 验证:show interface transceiver

100%兼容;统一型号

Optics Compatibility、Vendor Lock

:SE控制器;:光模块;部署:采购规范

N-1064

网络适配

智算中心

参数网链路预算计算

如何计算400G光链路的功率预算,确保信号质量

部署·Link Budget

Step1: 400G光模块发射功率Ptx​,接收灵敏度Prx_min​,链路损耗L。Step2: 要求Ptx​−L≥Prx_min​。Step3: 数学表达式:Margin=Ptx​−L−Prx_min​。Step4: 若Ptx​=2dBm,L=3dB(含连接器),Prx_min​=−8dBm,则Margin=7dB。Step5: 要求Margin>3dB。Step6: 配置:施工前计算链路预算。Step7: 推荐:使用OTDR测试实际损耗。

Margin>3dB;2dBm发射,-8dBm接收

Link Budget、Optical Power

:计算工具;:光模块、光纤;部署:施工规范

N-1065

网络适配

智算中心

参数网光纤类型选择

如何选择单模或多模光纤,满足400G传输距离

部署·Fiber Type

Step1: 400G DR4使用单模光纤,传输距离500m;400G SR8使用多模光纤,传输距离100m。Step2: 智算中心机房间距离通常<100m,可用多模。Step3: 要求满足距离要求。Step4: 数学表达式:Distancerequired​≤Distancemax​。Step5: 若机房间距离80m,多模SR8支持100m,满足。Step6: 配置:机柜内使用多模,跨机房使用单模。Step7: 推荐:统一使用单模,预留扩展。

多模100m;单模500m

Fiber Type、Transmission Distance

:无;:光纤、光模块;部署:布线规范

N-1066

网络适配

智算中心

参数网交换机风扇策略

如何配置交换机风扇策略,平衡散热和噪音

运维·Fan Policy

Step1: 交换机风扇支持自动、手动、最大风速模式。Step2: 智算中心对噪音不敏感,使用最大风速保证散热。Step3: 要求温度<45℃。Step4: 数学表达式:Fan_speed=100%。Step5: 配置:fan-speed maximumStep6: 推荐:使用自动模式,温度超过40℃时全速。Step7: 验证:show environment temperature

温度<45℃;最大风速

Fan Policy、Thermal Management

:交换机配置;:RoCE交换机;部署:机房环境

N-1067

网络适配

智算中心

参数网交换机电源冗余

如何配置交换机电源冗余,提高可靠性

可靠性·Power Redundancy

Step1: 交换机配置双电源,分别接入不同PDU。Step2: 要求单电源故障时交换机正常运行。Step3: 数学表达式:Power_redundancy=1+1。Step4: 配置:power redundancy-mode combinedStep5: 推荐:所有交换机启用。Step6: 验证:拔掉一个电源测试。

1+1冗余;单电源故障不中断

Power Redundancy、PDU

:交换机配置;:电源、PDU;部署:硬件规划

N-1068

网络适配

智算中心

参数网交换机堆叠

是否需要配置交换机堆叠(Stack)

架构·Stacking

Step1: 堆叠将多台交换机虚拟为一台,简化管理但增加故障域。Step2: 智算中心使用Spine-Leaf架构,Leaf独立运行,不堆叠。Step3: 要求不堆叠。Step4: 数学表达式:Stack=disabled。Step5: 配置:不配置。Step6: 推荐:Leaf独立运行。Step7: 验证:无。

不堆叠;独立运行

Stacking、Spine-Leaf

:无;:RoCE交换机;部署:不启用

N-1069

网络适配

智算中心

参数网交换机VLAN Trunk

如何配置Leaf到Spine的Trunk端口,允许所有VLAN

虚拟化·Trunk

Step1: Leaf上行到Spine的端口配置为Trunk,允许所有VLAN。Step2: 参数网使用VLAN 10-100,存储网使用VLAN 200-300。Step3: 要求VLAN透传。Step4: 数学表达式:Allowed_VLAN=10−100,200−300。Step5: 配置:interface port-channel 1 switchport trunk allowed vlan 10-100,200-300Step6: 推荐:只允许必要的VLAN。Step7: 验证:show interfaces trunk

只允许参数网和存储网VLAN

VLAN Trunk、Allowed VLAN

:交换机配置;:RoCE交换机;部署:Leaf上行

N-1070

网络适配

智算中心

参数网交换机STP配置

如何配置生成树协议(STP),防止二层环路

可靠性·STP

Step1: Spine-Leaf架构中,Leaf之间没有直连,不存在二层环路。Step2: 可关闭STP减少CPU负载。Step3: 要求不启用STP。Step4: 数学表达式:STP=disabled。Step5: 配置:spanning-tree mode noneStep6: 推荐:关闭STP,使用MC-LAG防环。Step7: 验证:show spanning-tree

关闭STP;无环路

STP、Loop Prevention

:交换机配置;:RoCE交换机;部署:Leaf上行

N-1071

网络适配

智算中心

参数网交换机MC-LAG

如何配置MC-LAG实现Leaf双归接入

可靠性·MC-LAG

Step1: 服务器双网卡绑定(LACP)连接到两台Leaf,配置MC-LAG。Step2: MC-LAG将两台Leaf虚拟为一台,避免环路。Step3: 要求单Leaf故障时流量无缝切换。Step4: 数学表达式:Tfailover​=Tlacp_timeout​=3s。Step5: 配置:interface port-channel 1 lacp fast-rateStep6: 推荐:关键服务器启用MC-LAG。Step7: 验证:拔掉一根网线测试。

切换<3s;LACP fast-rate

MC-LAG、LACP、High Availability

:交换机配置;:RoCE交换机;部署:接入Leaf

N-1072

网络适配

智算中心

参数网交换机VXLAN Anycast VTEP

如何配置Anycast VTEP实现多活网关

虚拟化·Anycast VTEP

Step1: 多台Leaf配置相同的VTEP IP,实现多活网关。Step2: 流量通过ECMP到达任意Leaf。Step3: 要求单Leaf故障时流量自动切换到其他Leaf。Step4: 数学表达式:VTEP_IP=10.0.0.1shared。Step5: 配置:interface nve1 source-interface loopback1,所有Leaf相同IP。Step6: 推荐:用于VXLAN L3网关。Step7: 验证:拔掉一台Leaf测试。

共享VTEP IP;多活网关

Anycast VTEP、Multi-active Gateway

:交换机配置;:RoCE交换机;部署:Leaf

N-1073

网络适配

智算中心

参数网交换机BGP Peer Group

如何配置BGP Peer Group简化配置

路由·Peer Group

Step1: 将具有相同策略的邻居加入Peer Group,统一配置。Step2: 所有Leaf作为Spine的Peer Group。Step3: 要求配置简化。Step4: 数学表达式:Peer_group=spine_leaf_group。Step5: 配置:neighbor spine-leaf peer-groupStep6: 推荐:所有Spine配置相同。Step7: 验证:show ip bgp peer-group

统一配置;简化管理

BGP Peer Group、Configuration Simplification

:交换机配置;:RoCE交换机;部署:Spine

N-1074

网络适配

智算中心

参数网交换机NTP认证

如何配置NTP认证,防止时间同步攻击

安全·NTP Auth

Step1: NTP认证使用MD5或SHA1密钥。Step2: 配置NTP服务器和客户端共享密钥。Step3: 要求时间同步不被篡改。Step4: 数学表达式:Auth=HMAC(message,key)。Step5: 配置:ntp authenticatentp authentication-key 1 md5 secretStep6: 推荐:生产环境启用。Step7: 验证:show ntp status

NTP认证启用;HMAC

NTP Authentication、Security

:交换机配置;:RoCE交换机;部署:全网启用

N-1075

网络适配

智算中心

参数网交换机端口镜像

如何配置端口镜像用于故障排查

运维·Port Mirroring

Step1: 将故障端口的流量镜像到分析端口,用于抓包分析。Step2: 配置SPAN或RSPAN。Step3: 要求不影响源端口性能。Step4: 数学表达式:Mirror_traffic=original_traffic。Step5: 配置:monitor session 1 source interface gigabitethernet 1/0/1 bothStep6: 推荐:临时使用,不长期开启。Step7: 验证:分析端口抓包。

镜像流量;不影响性能

Port Mirroring、SPAN

:Wireshark;:RoCE交换机;部署:按需启用

N-1076

网络适配

智算中心

参数网交换机Smart Link

是否需要配置Smart Link实现链路快速切换

可靠性·Smart Link

Step1: Smart Link是华为私有协议,用于双归接入快速切换。Step2: 智算中心使用MC-LAG,不需要Smart Link。Step3: 要求不启用。Step4: 数学表达式:Smart_Link=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。

不启用Smart Link

Smart Link、Proprietary Protocol

:交换机配置;:RoCE交换机;部署:不启用

N-1077

网络适配

智算中心

参数网交换机Monitor Link

是否需要配置Monitor Link联动端口状态

可靠性·Monitor Link

Step1: Monitor Link将一个端口的状态与另一个端口联动。Step2: 智算中心不需要。Step3: 要求不启用。Step4: 数学表达式:Monitor_Link=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。

不启用Monitor Link

Monitor Link、Port State

:交换机配置;:RoCE交换机;部署:不启用

N-1078

网络适配

智算中心

参数网交换机RRPP

是否需要配置RRPP(Rapid Ring Protection Protocol)

可靠性·RRPP

Step1: RRPP用于环形拓扑快速保护。Step2: 智算中心使用Spine-Leaf,不是环形。Step3: 要求不启用。Step4: 数学表达式:RRPP=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。

不启用RRPP

RRPP、Ring Protection

:交换机配置;:RoCE交换机;部署:不启用

N-1079

网络适配

智算中心

参数网交换机ERPS

是否需要配置ERPS(Ethernet Ring Protection Switching)

可靠性·ERPS

Step1: ERPS用于以太网环形拓扑保护。Step2: 智算中心不使用环形拓扑。Step3: 要求不启用。Step4: 数学表达式:ERPS=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。

不启用ERPS

ERPS、Ring Protection

:交换机配置;:RoCE交换机;部署:不启用

N-1080

网络适配

智算中心

参数网交换机VCF

是否需要配置VCF(Vertical Converged Framework)

架构·VCF

Step1: VCF是H3C的虚拟化技术,将多台交换机虚拟为一台。Step2: 智算中心使用Spine-Leaf独立运行。Step3: 要求不启用。Step4: 数学表达式:VCF=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。

不启用VCF

VCF、Virtualization

:交换机配置;:RoCE交换机;部署:不启用

N-1081

网络适配

智算中心

参数网交换机IRF

是否需要配置IRF(Intelligent Resilient Framework)

架构·IRF

Step1: IRF是H3C的堆叠技术。Step2: 智算中心不使用堆叠。Step3: 要求不启用。Step4: 数学表达式:IRF=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。

不启用IRF

IRF、Stacking

:交换机配置;:RoCE交换机;部署:不启用

N-1082

网络适配

智算中心

参数网交换机M-LAG

如何配置M-LAG(Multichassis Link Aggregation)

可靠性·M-LAG

Step1: M-LAG类似MC-LAG,用于跨设备链路聚合。Step2: 配置peer-link和keepalive链路。Step3: 要求单设备故障时流量不中断。Step4: 数学表达式:Tfailover​=Tkeepalive_timeout​=3s。Step5: 配置:interface m-lag 1Step6: 推荐:Leaf之间配置M-LAG。Step7: 验证:拔掉一台Leaf测试。

切换<3s;M-LAG

M-LAG、Link Aggregation

:交换机配置;:RoCE交换机;部署:Leaf

N-1083

网络适配

智算中心

参数网交换机VXLAN L2 Gateway

如何配置VXLAN L2 Gateway连接传统VLAN

虚拟化·L2 Gateway

Step1: L2 Gateway将VXLAN与传统VLAN桥接。Step2: 配置VXLAN接入VLAN。Step3: 要求VLAN与VXLAN互通。Step4: 数学表达式:Bridge_domain=VXLAN_VNI↔VLAN_ID。Step5: 配置:bridge-domain 10member vni 1000member vlan 100Step6: 推荐:云下过渡场景使用。Step7: 验证:VLAN内ping VXLAN内IP。

VNI↔VLAN;互通

VXLAN L2 Gateway、Bridge Domain

:交换机配置;:RoCE交换机;部署:Leaf

N-1084

网络适配

智算中心

参数网交换机VXLAN L3 Gateway

如何配置VXLAN L3 Gateway实现VXLAN间路由

虚拟化·L3 Gateway

Step1: L3 Gateway在不同VXLAN之间路由,每个VXLAN对应一个VRF。Step2: 配置VXLAN接口和VRF。Step3: 要求不同VXLAN间互通可控。Step4: 数学表达式:Routevxlan_a→vxlan_b​=VRF_import/export。Step5: 配置:interface vlan100vxlan-forwardingvrf forwarding tenant_AStep6: 推荐:Spine作为集中式L3 Gateway。Step7: 验证:跨VXLAN ping测试。

集中式L3 Gateway;VRF隔离

VXLAN L3 Gateway、VRF

:交换机配置;:RoCE交换机;部署:Spine

  • 参数网BGP高级特性(如BGP-LS)

  • 存储网高级特性(如NVMe-oF QoS)

  • 监控与可观测性(如eBPF)

  • 安全(如微分段)

  • 训练框架网络优化(如Megatron-LM、DeepSpeed)

  • 推理服务(如vLLM、TGI)

  • 云原生网络(如CNI、Calico)

  • 自动化与编排(如Terraform、Ansible)

  • 绿色节能(如功率封顶)

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1085

网络适配

智算中心

参数网BGP-LS拓扑收集

如何利用BGP-LS(Link State)收集网络拓扑信息,用于主动选路

路由·BGP-LS

Step1: BGP-LS将IGP链路状态信息通过BGP上报给控制器。Step2: SE控制器作为BGP-LS speaker,接收Spine/Leaf发布的链路状态。Step3: 要求拓扑更新延迟<1s。Step4: 数学表达式:Topology_update_delay=Tlsa​+Tbgp_update​。Step5: 若IGP LSA间隔5s,BGP update传播1s,则延迟6s。Step6: 优化:使用BFD加速链路状态变化检测。Step7: 配置:address-family link-state link-state

拓扑更新<6s;BGP-LS收集

BGP-LS、Topology Collection、Active Routing

:SE控制器;:RoCE交换机;部署:控制器集成

N-1086

网络适配

智算中心

参数网BGP Flowspec细粒度限速

如何利用BGP Flowspec对特定流进行精准限速

安全·Rate Limiting

Step1: 定义Flowspec规则匹配特定五元组,动作为限速(rate-limit)。Step2: 限速值Rlimit​=100Gbps。Step3: 要求限速精度±5%。Step4: 数学表达式:Rate_action=min(packet_rate,Rlimit​)。Step5: 配置:flowspec rate-limit 100000Step6: 推荐:用于多租户带宽管控。Step7: 验证:iperf3测试限速效果。

限速100Gbps;精度±5%

BGP Flowspec、Rate Limiting

:SE控制器、交换机配置;:RoCE交换机;部署:Spine

N-1087

网络适配

智算中心

参数网BGP RPKI

是否需要配置RPKI(Resource Public Key Infrastructure)验证路由起源

安全·RPKI

Step1: RPKI验证BGP路由的AS_PATH是否合法,防止路由劫持。Step2: 智算中心内部AS可信,不需要。Step3: 要求不启用。Step4: 数学表达式:RPKI=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。

不启用RPKI

RPKI、Route Origin Validation

:无;:无;部署:不启用

N-1088

网络适配

智算中心

参数网BGP ASPath Prepending

如何配置AS Path Prepending影响选路

路由·AS Prepending

Step1: 在路由通告中添加额外AS号,增加AS_PATH长度,使该路径优先级降低。Step2: 配置set as-path prepend 64512 64512Step3: 要求特定路径不被优先选择。Step4: 数学表达式:AS_PATH_length=original_length+Nprepend​。Step5: 若原长度2,prepend 2次,则长度4,BGP倾向于短路径。Step6: 配置:route-map中set as-path prepend。Step7: 推荐:用于流量工程。

AS_PATH长度增加;影响选路

AS Path Prepending、Traffic Engineering

:交换机配置;:RoCE交换机;部署:按需配置

N-1089

网络适配

智算中心

参数网BGP Community NO_EXPORT

如何使用Community NO_EXPORT控制路由传播范围

路由·Community

Step1: NO_EXPORT Community(0xFFFFFF01)表示路由不传播到AS外。Step2: 参数网使用私有AS,不需要。Step3: 要求不启用。Step4: 数学表达式:NO_EXPORT=not_used。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。

不启用NO_EXPORT

BGP Community、NO_EXPORT

:无;:无;部署:不启用

N-1090

网络适配

智算中心

参数网BGP Conditional Advertisement

如何配置条件通告,实现路由备份

路由·Conditional Ad

Step1: 条件通告:只有主路径失效时才通告备份路径。Step2: 配置exist-map和advertise-map。Step3: 要求备份路由在主路径故障后立即生效。Step4: 数学表达式:Advertise=(exist_route==withdrawn)。Step5: 配置:neighbor ... advertise-map BACKUP exist-map PRIMARYStep6: 推荐:用于出口冗余。Step7: 验证:模拟主路径故障。

主路径失效后立即通告

Conditional Advertisement、Route Backup

:交换机配置;:RoCE交换机;部署:边界

N-1091

网络适配

智算中心

存储网NVMe-oF QoS

如何为NVMe-oF配置QoS,保障关键存储IO的延迟

性能·NVMe QoS

Step1: NVMe-oF支持I/O优先级(紧急、高、中、低)。Step2: 训练数据加载使用高优先级,Checkpoint保存使用低优先级。Step3: 要求训练数据加载延迟<500μs。Step4: 数学表达式:IO_priority={high,low,​training_datacheckpoint​。Step5: 配置:NVMe subsystem中设置IO队列优先级。Step6: 推荐:训练数据加载使用高优先级。Step7: 验证:监控IO延迟。

训练数据高优先级;延迟<500μs

NVMe-oF QoS、I/O Priority

:NVMe over Fabrics配置;:CX存储;部署:存储端

N-1092

网络适配

智算中心

存储网NVMe-oF Namespace共享

如何配置NVMe-oF Namespace被多个计算节点共享

协议·Namespace Sharing

Step1: 创建一个Namespace,映射到多个NVMe控制器,允许多主机同时访问。Step2: 配置NVMe subsystem的NQN和端口。Step3: 要求共享访问一致性。Step4: 数学表达式:Namespace_shared=(Nhosts​>1)。Step5: 配置:nvmetclienableStep6: 推荐:用于共享数据集。Step7: 验证:多节点同时读写测试。

多主机共享;一致性

NVMe-oF Namespace、Sharing

:nvmetcli;:CX存储;部署:存储端

N-1093

网络适配

智算中心

存储网NVMe-oF Asymmetric Namespace Access

如何配置ANA(Asymmetric Namespace Access)实现最优路径

性能·ANA

Step1: ANA允许Namespace在不同控制器上有不同优化路径(optimized/non-optimized)。Step2: 计算节点优先访问优化的控制器路径。Step3: 要求IO延迟降低>20%。Step4: 数学表达式:Path_state={optimized,non−optimized,​preferredbackup​。Step5: 配置:NVMe subsystem设置ANA group。Step6: 推荐:多路径场景启用。Step7: 验证:nvme list-ns查看ANA状态。

优化路径延迟降低>20%

ANA、NVMe-oF Path Optimization

:nvme-cli;:CX存储;部署:存储端

N-1094

网络适配

智算中心

存储网NVMe-oF Persistent Discovery

如何配置持久化发现服务,简化计算节点配置

自动化·Discovery

Step1: 计算节点通过Discovery Controller自动发现存储子系统,无需手动配置NQN。Step2: 配置持久化发现控制器。Step3: 要求发现时间<1s。Step4: 数学表达式:Tdiscover​=Tconnect​+Tquery​。Step5: 若Tconnect​=100ms,Tquery​=200ms,则Tdiscover​=300ms。Step6: 配置:nvme discover -t tcp -a 10.0.0.1Step7: 推荐:大规模部署使用。

发现<1s;自动配置

NVMe-oF Discovery、Persistent

:nvme-cli;:CX存储;部署:存储端

N-1095

网络适配

智算中心

推理服务Prefix Caching网络优化

如何优化推理时Prefix Caching的跨节点传输

性能·Prefix Caching

Step1: Prefix Caching将公共prompt前缀的KV Cache缓存,减少重复计算。Step2: 缓存命中时需从缓存节点传输KV Cache到推理节点。Step3: 要求传输延迟<10ms。Step4: 数学表达式:Ttransfer​=BWnet​KV_size​。Step5: 若KV_size=100MB,BW=200Gbps=25GB/s,则T=4ms。Step6: 配置:vLLM中enable_prefix_cachingStep7: 推荐:使用高速RDMA网络传输。

传输<10ms;RDMA加速

Prefix Caching、KV Cache Transfer

:vLLM;:RoCE网卡;部署:推理集群

N-1096

网络适配

智算中心

推理服务Speculative Decoding网络影响

如何评估投机解码(Speculative Decoding)对网络的需求

性能·Speculative Decoding

Step1: 投机解码用小模型生成草稿,大模型验证,需要在小模型和大模型之间传输草稿token。Step2: 草稿长度Ldraft​=5,每个token embedding向量大小D=4096。Step3: 要求传输延迟<1ms。Step4: 数学表达式:Data_size=Ldraft​×D×2bytes=5×4096×2=40KB。Step5: 若BW=400Gbps=50GB/s,则T=0.8μs,忽略不计。Step6: 配置:vLLM中speculative_modelStep7: 推荐:小模型与大模型同节点部署。

数据量40KB;延迟可忽略

Speculative Decoding、Draft Model

:vLLM;:GPU;部署:同节点

N-1097

网络适配

智算中心

推理服务Continuous Batching网络带宽

如何评估Continuous Batching对网络带宽的需求

性能·Continuous Batching

Step1: Continuous Batching动态添加/移除请求,每个请求的KV Cache需要传输。Step2: 每请求KV Cache大小Sreq​=1MB,每秒新增请求数R=100。Step3: 要求网络带宽满足峰值。Step4: 数学表达式:BWneed​=R×Sreq​=100MB/s=800Mbps。Step5: 若实际带宽10Gbps,则充裕。Step6: 配置:vLLM中max_num_seqsStep7: 推荐:使用高速网络避免瓶颈。

带宽需求800Mbps;充裕

Continuous Batching、Bandwidth

:vLLM;:RoCE网卡;部署:推理节点

N-1098

网络适配

智算中心

推理服务LoRA Adapter加载网络

如何优化LoRA Adapter的加载网络,减少冷启动时间

性能·LoRA Loading

Step1: LoRA Adapter文件大小Slora​=100MB,需要从存储加载到GPU。Step2: 要求加载时间<5s。Step3: 数学表达式:Tload​=BWstorage​Slora​​。Step4: 若存储网BW=12.5GB/s,则T=8ms,远小于5s。Step5: 实际瓶颈在GPU加载和预处理。Step6: 配置:Triton中model_repositoryStep7: 推荐:本地缓存常用Adapter。

加载<5s;存储网足够

LoRA Adapter、Model Loading

:Triton、vLLM;:CX存储;部署:推理节点

N-1099

网络适配

智算中心

推理服务模型量化网络影响

如何评估模型量化(INT8/FP8)对网络带宽的降低

性能·Quantization

Step1: 量化后模型大小减小,推理时KV Cache和中间结果变小。Step2: 通信量减少比例Cquant​=2(FP16→FP8)。Step3: 要求网络带宽需求减半。Step4: 数学表达式:BWquant​=Cquant​BWfp16​​。Step5: 若FP16推理需100Gbps,FP8只需50Gbps。Step6: 配置:vLLM中quantization参数。Step7: 推荐:量化后网络瓶颈降低。

带宽需求减半;FP8

Quantization、Bandwidth Reduction

:vLLM、TensorRT-LLM;:GPU;部署:推理配置

N-1100

网络适配

智算中心

训练任务数据加载Prefetch网络

如何配置数据预取(Prefetch)流水线,掩盖网络延迟

性能·Data Prefetch

Step1: 使用多线程预取下一批次数据,与当前批次计算重叠。Step2: 预取线程数Nprefetch​=4。Step3: 要求数据加载延迟被完全掩盖。Step4: 数学表达式:Tcompute​≥Tprefetch​=BWstorage​Batch_size×Sample_size​。Step5: 若batch=1MB,BW=12.5GB/s,则Tprefetch​=80μs,远小于计算时间。Step6: 配置:PyTorch DataLoader中num_workers=4Step7: 推荐:增加prefetch_factor。

预取线程4;掩盖延迟

Data Prefetch、Pipeline

:PyTorch DataLoader;:CX存储;部署:训练脚本

N-1101

网络适配

智算中心

训练任务梯度累积网络优化

如何配置梯度累积减少通信频率

性能·Gradient Accumulation

Step1: 梯度累积将多个micro-batch的梯度累加后再通信,减少通信次数。Step2: 累积步数Nacc​=8,通信频率降低为1/N_acc。Step3: 要求训练吞吐提升>10%。Step4: 数学表达式:Tcomm_total​=Nacc​Tcomm_per_step​​。Step5: 若每步通信100ms,累积8步则通信12.5ms/步。Step6: 配置:DeepSpeed中gradient_accumulation_steps=8Step7: 推荐:在通信瓶颈时启用。

累积8步;通信频率降低

Gradient Accumulation、Communication Reduction

:DeepSpeed、Megatron-LM;:GPU;部署:训练配置

N-1102

网络适配

智算中心

训练任务ZeRO Stage网络优化

如何配置ZeRO优化器减少显存和通信量

性能·ZeRO

Step1: ZeRO-3将模型状态分片到所有GPU,通信量增加。Step2: ZeRO-1只分片优化器状态,通信量较少。Step3: 要求选择合适Stage平衡显存和通信。Step4: 数学表达式:Comm_volumezero3​=3×model_size×(Ngpu​−1)/Ngpu​。Step5: 若模型175B,N_gpu=1024,则通信量≈525GB。Step6: 配置:DeepSpeed中zero_optimization.stage=2Step7: 推荐:ZeRO-2平衡较好。

ZeRO-2;通信量与显存平衡

ZeRO、Memory Optimization

:DeepSpeed;:GPU;部署:训练配置

N-1103

网络适配

智算中心

训练任务Sequence Parallelism网络

如何配置Sequence Parallelism减少TP通信

性能·Sequence Parallelism

Step1: Sequence Parallelism将序列维度切分到多个GPU,减少TP通信量。Step2: SP组内通信量Commsp​=2×hidden_size×seq_len/Nsp​。Step3: 要求TP通信减少>50%。Step4: 数学表达式:Commtp_new​=Commtp_old​/Nsp​。Step5: 若原TP通信100MB,N_sp=2,则新50MB。Step6: 配置:Megatron-LM中sequence-parallelStep7: 推荐:长序列训练必选。

TP通信减少50%;N_sp=2

Sequence Parallelism、TP Reduction

:Megatron-LM;:GPU;部署:训练配置

N-1104

网络适配

智算中心

训练任务Expert Parallelism网络

如何配置MoE的Expert Parallelism,优化All-to-All通信

性能·Expert Parallelism

Step1: MoE模型中专家分布在多个GPU上,前向时需要All-to-All通信。Step2: 通信量Comma2a​=batch_size×topk×expert_hidden/Nep​。Step3: 要求All-to-All带宽利用率>90%。Step4: 数学表达式:BWa2a_util​=Ta2a​×BWlink​Comma2a​​。Step5: 若Comm=1GB,T=1ms,BW_link=400G,则利用率=1GB/0.005s=200GB/s,利用率50%。Step6: 优化:使用NVLink或高速RoCE。Step7: 配置:DeepSpeed-MoE中expert-parallel-size

利用率>90%;All-to-All

Expert Parallelism、MoE、All-to-All

:DeepSpeed-MoE;:NVLink、RoCE;部署:训练配置

N-1105

网络适配

智算中心

训练任务Pipeline Parallelism Bubble

如何计算Pipeline Parallelism的Bubble占比

性能·PP Bubble

Step1: Pipeline并行中,第一个micro-batch需要经过所有stage才能开始产出,造成气泡。Step2: 气泡占比Bubble=P×M(P−1)×(M−1)​,其中P为stage数,M为micro-batch数。Step3: 要求Bubble<10%。Step4: 数学表达式:若P=8,M=32,则Bubble=(7×31)/(8×32)=217/256≈84.8%,实际Bubble计算方式不同。Step5: 正确公式:Bubble=M+P−1P−1​。Step6: 若P=8,M=32,则Bubble=7/39≈17.9%。Step7: 推荐:增大M降低Bubble。

Bubble=17.9%;P=8,M=32

Pipeline Parallelism、Bubble

:Megatron-LM;:GPU;部署:训练配置

N-1106

网络适配

智算中心

训练任务1F1B调度网络

如何配置1F1B(One Forward One Backward)调度减少内存

性能·1F1B

Step1: 1F1B调度将前向和反向交错执行,减少激活内存。Step2: 需要精确的通信调度。Step3: 要求内存节省>30%。Step4: 数学表达式:Mem1f1b​=Memnaive​×M+P−1P​。Step5: 若P=8,M=32,则Mem_1f1b=Mem_naive×8/39≈20.5%。Step6: 配置:Megatron-LM中pipeline-model-parallel-sizeStep7: 推荐:大模型训练必选。

内存节省79.5%;1F1B

1F1B Scheduling、Memory Optimization

:Megatron-LM;:GPU;部署:训练配置

N-1107

网络适配

智算中心

训练任务Virtual Pipeline

如何配置Virtual Pipeline进一步降低Bubble

性能·Virtual Pipeline

Step1: Virtual Pipeline将每个stage划分为多个virtual stage,增加流水线深度。Step2: 气泡占比Bubblevp​=M+Pv​−1Pv​−1​,其中Pv​=P×V。Step3: 要求Bubble<5%。Step4: 数学表达式:若P=8,V=2,M=32,则P_v=16,Bubble=15/47≈31.9%,反而增大?Step5: 实际上Virtual Pipeline是为了提高吞吐,但Bubble公式需调整。Step6: 正确:Virtual Pipeline增加micro-batch数量等效,实际Bubble降低。Step7: 配置:Megatron-LM中virtual-pipeline-model-parallel-size

Virtual Pipeline;降低Bubble

Virtual Pipeline、Pipeline Depth

:Megatron-LM;:GPU;部署:训练配置

N-1108

网络适配

智算中心

训练任务Activation Checkpointing网络

如何配置Activation Checkpointing减少显存,增加计算

性能·Activation Checkpoint

Step1: Activation Checkpointing不保存中间激活,反向时重新计算。Step2: 增加计算量Cextra​=1.33×,减少显存Memsave​=70%。Step3: 要求显存节省>50%。Step4: 数学表达式:Memcheckpoint​=Memfull​×(1−save_ratio)。Step5: 若save_ratio=0.7,则Mem_checkpoint=0.3×Mem_full。Step6: 配置:PyTorch中torch.utils.checkpointStep7: 推荐:显存不足时启用。

显存节省70%;计算增加33%

Activation Checkpointing、Memory Trade-off

:PyTorch、Megatron-LM;:GPU;部署:训练配置

N-1109

网络适配

智算中心

训练任务Mixed Precision Training网络

如何配置混合精度训练(FP16/BF16)减少通信量

性能·Mixed Precision

Step1: FP16/BF16梯度大小为FP32的一半,通信量减半。Step2: 要求训练速度提升>20%。Step3: 数学表达式:Commhalf​=Commfp32​/2。Step4: 若FP32通信100ms,则FP16通信50ms。Step5: 配置:DeepSpeed中fp16.enabled=trueStep6: 推荐:现代GPU都支持。Step7: 验证:检查loss收敛。

通信量减半;速度提升>20%

Mixed Precision、FP16/BF16

:DeepSpeed、Megatron-LM;:GPU;部署:训练配置

N-1110

网络适配

智算中心

训练任务FlashAttention网络

FlashAttention如何减少KV Cache的HBM访问,间接影响网络

性能·FlashAttention

Step1: FlashAttention通过分块计算注意力,减少HBM读写,但计算量略增。Step2: 对网络无直接影响,但可支持更长序列,增加通信量。Step3: 要求序列长度加倍时网络不成为瓶颈。Step4: 数学表达式:Commlong_seq​=Commshort​×(seq_len_ratio)2(注意力二次方)。Step5: 若序列长度从1K到2K,通信量增加4倍。Step6: 配置:Megatron-LM中attention-mask-type flashStep7: 推荐:长序列训练时关注网络。

序列长度加倍,通信量4倍

FlashAttention、Long Sequence

:Megatron-LM、vLLM;:GPU;部署:训练配置

N-1111

网络适配

智算中心

训练任务通信计算重叠

如何配置通信与计算重叠,隐藏通信延迟

性能·Overlap

Step1: 使用异步通信(NCCL allreduce async)与计算重叠。Step2: 重叠度O=min(1,Tcomm​Tcompute​​)。Step3: 要求通信延迟被完全隐藏。Step4: 数学表达式:Tstep_effective​=max(Tcompute​,Tcomm​)。Step5: 若T_compute=80ms,T_comm=60ms,则T_step=80ms,通信完全隐藏。Step6: 配置:DeepSpeed中communication_data_typeStep7: 推荐:启用异步通信。

通信完全隐藏;重叠度>1

Communication Overlap、Async

:NCCL、DeepSpeed;:GPU;部署:训练配置

N-1112

网络适配

智算中心

训练任务网络拓扑感知通信优化

如何根据GPU拓扑优化通信路径(如ring order)

性能·Topology-aware Comm

Step1: NCCL ring order应按照实际拓扑排列,减少跨NUMA/跨Leaf通信。Step2: 使用NCCL_TOPO_FILE指定拓扑文件。Step3: 要求通信带宽提升>10%。Step4: 数学表达式:BWtopo​=min(BWlocal​,BWremote​)。Step5: 若优化后跨Leaf通信减少,BW提升。Step6: 配置:NCCL_TOPO_DUMP_FILE=topo.xmlStep7: 推荐:训前生成拓扑文件。

带宽提升>10%;拓扑优化

Topology-aware Communication、Ring Order

:NCCL;:GPU、RoCE;部署:训练配置

N-1113

网络适配

智算中心

训练任务网络故障自愈-通信超时

如何配置NCCL通信超时,避免hang

可靠性·NCCL Timeout

Step1: NCCL通信超时Ttimeout​=1800s,超时后触发异常。Step2: 配置NCCL_TIMEOUT=1800Step3: 要求超时后能自动恢复。Step4: 数学表达式:Thang_detect​=Ttimeout​。Step5: 若网络故障持续30s,则1800s后才检测到,太长。Step6: 优化:使用看门狗或heartbeat。Step7: 推荐:配合CND快速检测。

超时1800s;需配合快速检测

NCCL Timeout、Hang Detection

:NCCL、CND;:GPU;部署:训练配置

N-1114

网络适配

智算中心

训练任务网络故障自愈-通信重试

如何配置NCCL通信重试次数

可靠性·NCCL Retry

Step1: NCCL通信失败时自动重试,默认重试次数Nretry​=3。Step2: 配置NCCL_RETRY_COUNT=5Step3: 要求最终成功率>99.9%。Step4: 数学表达式:Psuccess​=1−(1−p)Nretry​。Step5: 若单次成功率p=0.9,N_retry=5,则P=0.99999。Step6: 配置:环境变量设置。Step7: 推荐:适当增加重试次数。

重试5次;成功率>99.9%

NCCL Retry、Reliability

:NCCL;:GPU;部署:训练配置

  1. 推理服务:模型并行推理的通信模式、KV cache offloading、disaggregated serving等。

  2. 训练:混合专家模型(MoE)的通信优化、序列并行、长上下文训练网络需求。

  3. 国产化:天数智芯、摩尔线程等GPU的RoCE适配,以及异构通信库。

  4. 运维:网络自动化验证、混沌工程、容量规划等。

  5. 存储:新一代存储协议如CXL over fabric等。

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1115

网络适配

智算中心

推理服务Disaggregated Serving网络

如何设计分离式推理(prefill+decode分离)的网络拓扑

架构·Disaggregated Serving

Step1: Prefill节点负责prompt处理,产生KV Cache;Decode节点负责token生成,需接收KV Cache。Step2: KV Cache传输需低延迟高带宽,使用RoCE网络。Step3: 要求KV Cache传输延迟<5ms。Step4: 数学表达式:Tkv_transfer​=BWnet​KV_size​。Step5: 若KV_size=1GB,BW=200Gbps=25GB/s,则T=40ms,超过5ms。Step6: 优化:将KV Cache分块流水线传输,与decode计算重叠。Step7: 推荐:Prefill和Decode节点通过高速RoCE直连。

KV传输<5ms;分块流水线

Disaggregated Serving、KV Cache Transfer

:vLLM、Triton;:RoCE网卡;部署:分离式架构

N-1116

网络适配

智算中心

推理服务Prompt Cache网络

如何优化Prompt Cache的跨节点共享,减少重复计算

性能·Prompt Cache

Step1: 公共prompt(如system prompt)的KV Cache可缓存并共享给多个请求。Step2: 缓存命中时需从缓存节点拉取KV Cache。Step3: 要求缓存命中时额外延迟<10ms。Step4: 数学表达式:Tcache_hit​=Tlookup​+Ttransfer​。Step5: 若Tlookup​=1ms,Ttransfer​=5ms(100MB/20GB/s),则T=6ms。Step6: 配置:使用分布式缓存(如Redis)存储KV Cache索引。Step7: 推荐:将热门prompt缓存到本地SSD。

缓存命中延迟<10ms;分布式缓存

Prompt Cache、KV Cache Sharing

:vLLM、Redis;:NVMe SSD;部署:推理集群

N-1117

网络适配

智算中心

推理服务MQA/GQA网络优化

如何优化Multi-Query Attention(MQA)的KV Cache广播

性能·MQA

Step1: MQA中多个head共享一组KV,减少KV Cache大小和广播量。Step2: 广播量Commmqa​=Commmha​/Hkv​,其中Hkv​为KV head数。Step3: 要求广播带宽降低>50%。Step4: 数学表达式:若MHA有32个KV head,MQA有1个KV head,则广播量降低32倍。Step5: 配置:模型架构中设置num_key_value_heads=1。Step6: 推荐:推理场景使用MQA/GQA。Step7: 验证:比较MHA和MQA的通信量。

广播量降低32倍;MQA

MQA、GQA、KV Cache

:模型配置;:GPU;部署:模型训练

N-1118

网络适配

智算中心

推理服务PagedAttention网络

PagedAttention如何影响KV Cache的碎片化和网络传输

性能·PagedAttention

Step1: PagedAttention将KV Cache分页管理,减少碎片,但页表需同步。Step2: 跨节点传输时,页表大小Spage_table​=Npages​×page_entry_size。Step3: 要求页表传输延迟<1ms。Step4: 数学表达式:若Npages​=1000,page_entry=8B,则S=8KB,传输延迟可忽略。Step5: 配置:vLLM中block_size=16Step6: 推荐:block_size不宜过大。Step7: 验证:监控页表同步开销。

页表8KB;延迟可忽略

PagedAttention、Page Table

:vLLM;:GPU;部署:推理框架

N-1119

网络适配

智算中心

推理服务TensorRT-LLM网络集成

如何配置TensorRT-LLM的多节点推理网络

性能·TensorRT-LLM

Step1: TensorRT-LLM支持多节点TP/PP,使用NCCL通信。Step2: 配置tensor_parallel_sizepipeline_parallel_sizeStep3: 要求多节点推理延迟<100ms。Step4: 数学表达式:Linfer​=Lcompute​+Lcomm​。Step5: 若TP=8跨节点,allreduce延迟=20μs×log2(8)=60μs,计算延迟=50ms,则总延迟=50.06ms。Step6: 配置:TensorRT-LLM构建engine时指定并行度。Step7: 推荐:TP尽量在节点内。

跨节点TP延迟60μs;总延迟<100ms

TensorRT-LLM、Multi-node Inference

:TensorRT-LLM、NCCL;:GPU、RoCE;部署:推理集群

N-1120

网络适配

智算中心

训练任务MoE All-to-All通信优化

如何优化MoE模型中All-to-All通信的负载均衡

性能·MoE All-to-All

Step1: MoE的All-to-All通信中,每个GPU向其他GPU发送token,负载可能不均。Step2: 使用动态容量因子(capacity factor)控制每个专家的token数。Step3: 要求各链路负载偏差<10%。Step4: 数学表达式:Capacity=expertstokens_per_batch​×capacity_factor。Step5: 若capacity_factor=1.2,则每个专家最多接收120%的平均token数。Step6: 配置:DeepSpeed-MoE中capacity_factor=1.2Step7: 推荐:根据实际负载调整。

容量因子1.2;负载偏差<10%

MoE All-to-All、Capacity Factor

:DeepSpeed-MoE;:GPU、RoCE;部署:训练配置

N-1121

网络适配

智算中心

训练任务MoE Token Dropping

如何配置MoE的Token Dropping策略,减少通信量

性能·Token Dropping

Step1: 当某个专家过载时,丢弃部分token,减少通信。Step2: 丢弃率Ddrop​=5%,通信量减少5%。Step3: 要求模型精度下降<0.1%。Step4: 数学表达式:Tokens_kept=Tokens_total×(1−Ddrop​)。Step5: 配置:DeepSpeed-MoE中dropping_strategy=balancedStep6: 推荐:谨慎使用,可能影响收敛。Step7: 验证:对比训练曲线。

丢弃5%;精度下降<0.1%

Token Dropping、MoE

:DeepSpeed-MoE;:GPU;部署:训练配置

N-1122

网络适配

智算中心

训练任务FSDP通信优化

如何配置Fully Sharded Data Parallel(FSDP)的通信策略

性能·FSDP

Step1: FSDP将模型参数分片到各GPU,前向时all-gather参数,反向时reduce-scatter梯度。Step2: 通信量Commfsdp​=2×model_size×(Ngpu​−1)/Ngpu​。Step3: 要求通信与计算重叠。Step4: 数学表达式:Tcomm_overlap​=max(Tcompute​,Tcomm​)。Step5: 配置:PyTorch FSDP中forward_prefetch=TrueStep6: 推荐:大模型使用FSDP+混合精度。Step7: 验证:监控通信占比。

通信量2×模型大小;重叠

FSDP、Sharding

:PyTorch FSDP;:GPU;部署:训练配置

N-1123

网络适配

智算中心

训练任务TorchTitan网络配置

如何配置TorchTitan的分布式训练网络

性能·TorchTitan

Step1: TorchTitan支持多种并行策略组合,使用DTensor和DeviceMesh。Step2: 配置mesh shape为(DP, TP, PP)。Step3: 要求通信拓扑匹配mesh。Step4: 数学表达式:Mesh=(Dsize​,Tsize​,Psize​)。Step5: 配置:device_mesh = init_device_mesh("cuda", (4, 8, 2))Step6: 推荐:与网络拓扑对齐。Step7: 验证:dist.get_world_size()

mesh (4,8,2);拓扑对齐

TorchTitan、DeviceMesh

:TorchTitan、PyTorch;:GPU;部署:训练框架

N-1124

网络适配

智算中心

训练任务JAX网络配置

如何配置JAX的分布式训练网络(pjit/xmap)

性能·JAX

Step1: JAX使用pjit进行分区编译,自动生成通信模式。Step2: 配置meshpartition_specStep3: 要求通信模式与硬件拓扑匹配。Step4: 数学表达式:Partition_spec=(′dp′,′tp′,None)。Step5: 配置:with Mesh(mesh_devices, ('dp', 'tp')):Step6: 推荐:使用XLA编译器优化。Step7: 验证:jax.debug.visualize_partitioning

分区规格匹配;XLA优化

JAX、pjit、Mesh

:JAX、XLA;:GPU;部署:训练框架

N-1125

网络适配

智算中心

国产化天数智芯GPU RoCE适配

如何配置天数智芯GPU的RoCE网卡驱动和参数

兼容性·Iluvatar RoCE

Step1: 天数智芯GPU使用自研通信库(BCL),需与RoCE网卡适配。Step2: 安装BCL驱动,配置RoCE参数(PFC、ECN)。Step3: 要求BCL allreduce带宽>90%线速。Step4: 数学表达式:BWbcl​=Tbcl​data_size×(N−1)/N​。Step5: 若data=1GB,N=8,T=2.8ms,则BW=312.5GB/s(聚合),线速400Gbps=50GB/s,单卡50GB/s,8卡聚合400GB/s,312.5/400=78%。Step6: 优化:调整BCL参数(如QP数)。Step7: 推荐:与厂商合作调优。

BCL带宽>90%线速;QP调优

Iluvatar GPU、BCL、RoCE

:BCL库;:天数智芯GPU、RoCE网卡;部署:驱动配置

N-1126

网络适配

智算中心

国产化摩尔线程GPU RoCE适配

如何配置摩尔线程GPU的RoCE网卡驱动和参数

兼容性·Moore Threads RoCE

Step1: 摩尔线程GPU使用MUSA SDK,支持RoCE via MUSALink。Step2: 安装MUSA驱动,配置RoCE。Step3: 要求MUSA allreduce带宽>90%线速。Step4: 数学表达式:BWmusa​=Tmusa​data_size×(N−1)/N​。Step5: 测试方法与天数类似。Step6: 配置:export MUSA_ROCE_ENABLE=1Step7: 推荐:使用MUSA通信库(MCCL)。

MUSA带宽>90%线速;MCCL

Moore Threads GPU、MUSA、MCCL

:MUSA SDK、MCCL;:摩尔线程GPU、RoCE网卡;部署:驱动配置

N-1127

网络适配

智算中心

国产化GPU异构通信库UCCL调优

如何调优UCCL在国产GPU上的性能

性能·UCCL Tuning

Step1: UCCL支持多种算法(ring、tree、rabenseifner),需选择最优。Step2: 测试不同算法和报文大小的带宽。Step3: 要求UCCL性能>95%原生NCCL。Step4: 数学表达式:Algo_selected=argmaxalgo​BW(algo,size)。Step5: 配置:UCCL_ALGO=ringStep6: 推荐:使用UCCL的auto-tuning功能。Step7: 验证:运行UCCL benchmark。

性能>95% NCCL;算法选择

UCCL Tuning、Algorithm

:UCCL;:国产GPU、RoCE;部署:环境变量

N-1128

网络适配

智算中心

国产化GPU PCIe带宽测试

如何测试国产GPU的PCIe带宽,确保不成为瓶颈

性能·PCIe Test

Step1: 使用xpu-smimx-smi查看PCIe链路信息。Step2: 使用CUDA(或等效)的bandwidthTest测试GPU与CPU间的拷贝带宽。Step3: 要求PCIe带宽≥理论值的90%。Step4: 数学表达式:BWmeasured​=Tcopy​data_size​。Step5: 若理论PCIe 4.0 x16=32GB/s,实测28.8GB/s,则90%达标。Step6: 配置:BIOS中确认PCIe速率。Step7: 推荐:批量测试所有节点。

实测≥90%理论值;PCIe 4.0 x16

PCIe Bandwidth、GPU Test

:bandwidthTest、xpu-smi;:国产GPU;部署:验收测试

N-1129

网络适配

智算中心

国产化GPU NCCL兼容层

如何实现国产GPU的NCCL兼容层,运行主流框架

兼容性·NCCL Compat

Step1: 国产GPU提供NCCL兼容API(如RCCL、MCCL),上层框架无需修改。Step2: 安装兼容库,设置LD_PRELOAD或symlink。Step3: 要求框架(PyTorch)可直接运行。Step4: 数学表达式:API_compat=(function_signature==NCCL)。Step5: 配置:export LD_PRELOAD=/path/to/libmccl.soStep6: 推荐:使用厂商提供的兼容层。Step7: 验证:运行PyTorch DDP测试。

API兼容;框架无需修改

NCCL Compat、RCCL、MCCL

:兼容库、PyTorch;:国产GPU;部署:环境配置

N-1130

网络适配

智算中心

国产化GPU集合通信benchmark

如何设计国产GPU的集合通信基准测试

测试·Comm Benchmark

Step1: 使用厂商提供的benchmark(如xpu_allreduce_perf、mx_allreduce_perf)。Step2: 测试allreduce、allgather、reduce_scatter等操作。Step3: 要求结果可与NCCL对比。Step4: 数学表达式:BWop​=Top​data_size×(N−1)/N​。Step5: 配置:运行标准测试脚本。Step6: 推荐:记录并归档结果。Step7: 验证:与NVIDIA GPU对比。

与NCCL对比;标准测试

Comm Benchmark、Allreduce

:厂商benchmark;:国产GPU;部署:验收测试

N-1131

网络适配

智算中心

国产化GPU RoCE网卡多队列优化

如何配置国产GPU的RoCE网卡多队列,提升并发

性能·Multi-queue

Step1: 国产GPU的RoCE网卡支持多队列,需配置RSS。Step2: 队列数Nqueue​=8,绑定到不同CPU核。Step3: 要求多队列并发吞吐提升>20%。Step4: 数学表达式:Throughputmq​=min(Nqueue​×BWper_queue​,BWtotal​)。Step5: 配置:ethtool -L eth0 combined 8Step6: 推荐:队列数等于CPU核数。Step7: 验证:ethtool -l eth0

队列数8;吞吐提升>20%

Multi-queue、RSS

:ethtool;:RoCE网卡;部署:网卡配置

N-1132

网络适配

智算中心

国产化GPU RoCE网卡中断亲缘性

如何配置中断亲缘性,减少跨NUMA访问

性能·IRQ Affinity

Step1: 将网卡中断绑定到同一NUMA的CPU核。Step2: 使用set_irq_affinity.sh脚本。Step3: 要求跨NUMA中断比例<5%。Step4: 数学表达式:IRQ_NUMA=cpu_core_numa。Step5: 配置:echo 1 > /proc/irq/xxx/smp_affinityStep6: 推荐:使用irqbalance服务。Step7: 验证:cat /proc/interrupts

跨NUMA<5%;中断绑定

IRQ Affinity、NUMA

:irqbalance、脚本;:RoCE网卡;部署:OS配置

N-1133

网络适配

智算中心

国产化GPU RDMA内存注册

如何优化国产GPU的RDMA内存注册性能

性能·Memory Registration

Step1: RDMA通信前需注册内存区域(MR),注册耗时Treg​。Step2: 使用内存池预注册,减少动态注册开销。Step3: 要求注册延迟<10μs。Step4: 数学表达式:Treg_pool​=Treg_once​/Nuse​。Step5: 若一次注册100μs,池中复用100次,则平均1μs。Step6: 配置:UCCL中启用内存池。Step7: 推荐:大块连续内存预注册。

注册延迟<10μs;内存池

Memory Registration、MR Pool

:UCCL、ibv_reg_mr;:RoCE网卡;部署:通信库配置

N-1134

网络适配

智算中心

国产化GPU RDMA GDR

如何配置国产GPU的GPU Direct RDMA(GDR)

性能·GPU Direct RDMA

Step1: GDR允许网卡直接读写GPU显存,绕过CPU。Step2: 需要BAR映射和驱动支持。Step3: 要求GDR带宽>90%网卡线速。Step4: 数学表达式:BWgdr​=Tgdr​data_size​。Step5: 配置:mlxconfig set MLX5_GDR_ENABLE=1Step6: 推荐:国产GPU需确认支持。Step7: 验证:运行GDR benchmark。

GDR带宽>90%线速;BAR映射

GPU Direct RDMA、BAR

:网卡驱动;:国产GPU、RoCE网卡;部署:BIOS/驱动配置

N-1135

网络适配

智算中心

网络自动化混沌工程

如何设计网络混沌工程,验证故障自愈能力

测试·Chaos Engineering

Step1: 定期注入网络故障(丢包、延迟、链路down),观察系统反应。Step2: 使用tc或chaosblade模拟故障。Step3: 要求故障恢复时间<5分钟。Step4: 数学表达式:Trecovery​=Tinject​+Tdetect​+Theal​。Step5: 若注入延迟100ms,检测2s,恢复3s,则总时间5s。Step6: 配置:SA分析器集成混沌实验。Step7: 推荐:每周执行一次。

恢复<5min;模拟故障

Chaos Engineering、Fault Injection

:chaosblade、tc;:RoCE网络;部署:自动化测试

N-1136

网络适配

智算中心

网络容量规划模型

如何建立网络容量规划模型,预测未来带宽需求

规划·Capacity Planning

Step1: 根据GPU增长率和训练任务带宽需求预测。Step2: 年增长率G=50%,当前带宽BWcur​=100Tbps。Step3: 要求规划提前1年。Step4: 数学表达式:BWfuture​=BWcur​×(1+G)Y。Step5: 若Y=1,则BW_future=150Tbps。Step6: 配置:规划时预留20%余量。Step7: 推荐:每年更新规划。

年增长50%;预留20%余量

Capacity Planning、Growth Model

:规划工具;:交换机、光模块;部署:规划流程

N-1137

网络适配

智算中心

网络成本优化模型

如何优化网络建设成本,平衡性能和投资

规划·Cost Optimization

Step1: 比较不同方案:400G vs 800G,多模 vs 单模。Step2: 成本函数C=Csw​+Coptics​+Cfiber​+Cpower​。Step3: 要求单位带宽成本最低。Step4: 数学表达式:Cost_per_Gbps=BWtotal​Ctotal​​。Step5: 若400G方案总成本1亿,带宽100T,则100元/Gbps;800G方案1.5亿,带宽200T,则75元/Gbps。Step6: 推荐:选择800G。Step7: 验证:TCO分析。

单位带宽成本最低;TCO

Cost Optimization、TCO

:成本模型;:网络设备;部署:采购决策

N-1138

网络适配

智算中心

网络绿色节能设计

如何设计节能网络,降低PUE

规划·Green Networking

Step1: 使用低功耗交换机、智能风扇、端口休眠。Step2: 功耗模型P=Pbase​+Pper_port​×Nactive​。Step3: 要求PUE<1.2。Step4: 数学表达式:PUE=Pit​Ptotal​​。Step5: 若IT设备功耗10MW,总功耗11.5MW,则PUE=1.15。Step6: 配置:启用EEE(Energy Efficient Ethernet)。Step7: 推荐:使用液冷交换机。

PUE<1.2;EEE

Green Networking、PUE

:电源管理;:低功耗交换机;部署:机房设计

N-1139

网络适配

智算中心

网络自动化验证框架

如何设计网络配置变更的自动化验证流程

自动化·Validation

Step1: 配置变更前在测试环境预演,验证连通性、性能、安全。Step2: 使用Batfish或pyATS进行静态分析。Step3: 要求验证时间<10分钟。Step4: 数学表达式:Tvalidate​=Tparse​+Tanalyze​+Ttest​。Step5: 若Tparse​=1min,Tanalyze​=3min,Ttest​=5min,则T=9min。Step6: 配置:CI/CD pipeline集成。Step7: 推荐:变更前必须通过验证。

验证<10min;静态+动态测试

Automation Validation、Batfish

:Batfish、pyATS;:无;部署:DevOps流程

N-1140

网络适配

智算中心

网络配置回滚自动化

如何设计网络配置变更失败时的自动回滚

自动化·Rollback

Step1: 变更前备份当前配置,变更后监控关键指标(连通性、丢包率)。Step2: 若指标异常,自动回滚到备份配置。Step3: 要求回滚时间<1分钟。Step4: 数学表达式:Trollback​=Tdetect​+Tapply_backup​。Step5: 若Tdetect​=30s,Tapply​=20s,则T=50s。Step6: 配置:SE控制器支持配置回滚。Step7: 推荐:关键变更启用自动回滚。

回滚<1min;自动检测

Configuration Rollback、Automation

:SE控制器;:RoCE交换机;部署:变更流程

N-1141

网络适配

智算中心

网络数字孪生

如何构建网络数字孪生,用于仿真和预测

规划·Digital Twin

Step1: 使用网络仿真平台(如NS-3、OMNeT++)建立数字孪生模型。Step2: 导入真实拓扑、流量模型、配置。Step3: 要求仿真精度>90%。Step4: 数学表达式:(Accuracy = 1 - \frac{

Sim_metric - Real_metric

}{Real_metric})。Step5: 若仿真延迟10μs,实际9.5μs,则精度=1-0.5/9.5=94.7%。Step6: 配置:定期同步真实数据到孪生模型。Step7: 推荐:用于what-if分析和容量规划。

精度>90%;仿真

N-1142

网络适配

智算中心

网络AI智能运维

如何利用AI进行网络异常检测和根因分析

运维·AIOps

Step1: 收集网络指标(延迟、丢包、流量),使用孤立森林或LSTM检测异常。Step2: 异常时自动关联告警,定位根因。Step3: 要求根因定位准确率>80%。Step4: 数学表达式:Root_cause=argmaxnode​anomaly_scorenode​。Step5: 配置:SA分析器集成ML模型。Step6: 推荐:从简单规则开始,逐步引入AI。Step7: 验证:历史故障复盘。

定位准确率>80%;AI模型

AIOps、Anomaly Detection

:SA分析器、Python ML;:无;部署:SA集成

N-1143

网络适配

智算中心

网络知识图谱

如何构建网络知识图谱,辅助故障排查

运维·Knowledge Graph

Step1: 将网络设备、链路、配置、告警、工单等实体和关系构建成知识图谱。Step2: 使用Neo4j存储,SPARQL查询。Step3: 要求故障关联查询时间<1s。Step4: 数学表达式:Query_result=graph.query("MATCH...WHERE...")。Step5: 配置:SE控制器集成知识图谱。Step6: 推荐:积累历史故障案例。Step7: 验证:输入故障现象,输出根因建议。

查询<1s;图数据库

Knowledge Graph、Neo4j

:Neo4j、SE控制器;:无;部署:运维平台

N-1144

网络适配

智算中心

网络技能传承与培训

如何设计网络运维知识的沉淀和培训体系

运维·Knowledge Transfer

Step1: 将网络设计、配置、故障案例整理为文档和视频教程。Step2: 搭建Wiki和模拟环境供练习。Step3: 要求新员工上手时间<1个月。Step4: 数学表达式:Tonboard​=Tstudy​+Tpractice​。Step5: 配置:使用Confluence和GNS3。Step6: 推荐:定期组织培训和考核。Step7: 验证:新员工独立处理故障。

上手<1月;模拟环境

Knowledge Transfer、Training

:Confluence、GNS3;:无;部署:团队建设

  • 多数据中心互联(DCI)的网络适配

  • 网络安全等级保护(等保2.0)在网络上的落地

  • IPv6单栈改造对参数网的影响

  • 意图网络(IBN)的实现

  • 网络自动驾驶分级

  • 网络切片在智算中心的应用

  • 确定性网络(DetNet)对训练任务的支持

  • 卫星网络与地面智算中心的融合

  • 量子密钥分发(QKD)在数据中心互联中的应用

  • 多数据中心互联带宽规划:BWdci​=Ngpu​×BWper_gpu​×overlap_ratio

  • 等保2.0要求日志留存6个月,计算存储需求

  • IPv6地址规划:Nipv6​=264等等

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1145

网络适配

智算中心

多数据中心互联(DCI)带宽规划

如何规划两个智算中心之间的DCI带宽,满足分布式训练需求

规划·DCI Bandwidth

Step1: 分布式训练跨数据中心时,参数同步需要DCI带宽。Step2: 每GPU需要带宽BWper_gpu​=400Gbps,跨DC通信比例Rcross​=10%。Step3: 要求DCI带宽满足峰值。Step4: 数学表达式:BWdci​=Ngpu​×BWper_gpu​×Rcross​。Step5: 若Ngpu​=16000,则BWdci​=16000×400G×0.1=640Tbps。Step6: 实际受限于光传输系统,建议采用波分复用(DWDM)。Step7: 推荐:DCI带宽预留20%余量。

DCI带宽640Tbps;跨DC通信10%

DCI、Distributed Training、DWDM

:光传输网管;:DWDM设备、ROADM;部署:跨DC互联

N-1146

网络适配

智算中心

多数据中心互联时延要求

如何确定DCI的最大单向时延,保证训练收敛

性能·DCI Latency

Step1: 分布式训练中梯度同步对时延敏感,时延过大降低效率。Step2: 要求DCI单向时延Ldci​<1ms(同城)或<10ms(异地)。Step3: 数学表达式:Ldci​=c×nDistance​+Tprocessing​。Step4: 若距离100km,光纤折射率n=1.5,光速c=3e5km/s,则传播时延=100/(3e5/1.5)=0.5ms,加上处理0.1ms,总0.6ms。Step5: 配置:选择最短光纤路径。Step6: 推荐:同城DC间距<50km。Step7: 验证:使用OWAMP测量。

同城<1ms;异地<10ms;距离100km时0.6ms

DCI Latency、Training Efficiency

:OWAMP、TWAMP;:光传输设备;部署:链路规划

N-1147

网络适配

智算中心

多数据中心互联可靠性

如何设计DCI的冗余保护,避免单点故障

可靠性·DCI Protection

Step1: DCI链路采用1+1或1:1保护,主备路径自动切换。Step2: 保护倒换时间Tswitch​<50ms。Step3: 要求业务不中断。Step4: 数学表达式:Tswitch​=Tdetect​+Tprotection​。Step5: 若采用OTN的APS,检测10ms,切换20ms,则总30ms。Step6: 配置:光层1+1保护。Step7: 推荐:至少两条物理路径。

切换<50ms;1+1保护

DCI Protection、APS

:光传输网管;:OTN设备;部署:光缆双路由

N-1148

网络适配

智算中心

多数据中心互联加密

如何对DCI流量进行加密,满足安全合规

安全·DCI Encryption

Step1: DCI承载训练数据和模型参数,需加密传输。Step2: 使用MACsec或IPsec加密,加密开销Oenc​=5%。Step3: 要求加密后带宽损失<10%。Step4: 数学表达式:BWenc​=BWraw​×(1−Oenc​)。Step5: 若原始640Tbps,加密后608Tbps。Step6: 配置:DWDM设备内置加密板卡。Step7: 推荐:采用AES-256加密。

带宽损失5%;AES-256

DCI Encryption、MACsec

:加密管理;:加密板卡;部署:DCI端点

N-1149

网络适配

智算中心

多数据中心互联时钟同步

如何实现跨DC的高精度时钟同步,支持PTP

性能·Clock Sync

Step1: 分布式训练需要跨DC时间同步,用于trace和调试。Step2: 使用PTP over DCI,精度要求<1μs。Step3: 数学表达式:Tsync_error​=Tprop_asymmetry​+Ttimestamp_error​。Step4: 若光纤不对称性补偿后误差200ns,时间戳误差100ns,则总300ns。Step5: 配置:边界时钟(BC)或透明时钟(TC)。Step6: 推荐:每个DC部署PTP Grandmaster。Step7: 验证:pmc -u -b 0 'GET CURRENT_DATA_SET'

精度<1μs;PTP BC/TC

PTP、Clock Synchronization

:linuxptp;:PTP交换机、GNSS;部署:DC间同步

N-1150

网络适配

智算中心

网络安全等级保护(等保2.0)网络要求

如何满足等保2.0对智算中心网络的安全要求

安全·Level Protection

Step1: 等保2.0要求网络区域划分、访问控制、入侵防范、审计。Step2: 参数网和存储网划入安全计算环境,业务网划入安全区域边界。Step3: 要求审计日志保存≥6个月。Step4: 数学表达式:Log_storage=Ndevices​×log_rate×180days。Step5: 若600台交换机,每台每天1GB日志,则6个月需600×1×180=108TB。Step6: 配置:部署堡垒机、IDS/IPS、日志审计系统。Step7: 推荐:通过等保三级测评。

日志保存6个月;108TB

Level Protection、Security Compliance

:日志审计、堡垒机;:IDS/IPS;部署:安全架构

N-1151

网络适配

智算中心

网络安全态势感知

如何构建网络态势感知平台,实时监控安全事件

安全·Situational Awareness

Step1: 采集网络流量、日志、告警,通过大数据分析识别威胁。Step2: 要求威胁检出率>95%,误报率<5%。Step3: 数学表达式:Detection_rate=TP+FNTP​。Step4: 配置:部署SIEM(如Splunk)或SOC平台。Step5: 推荐:结合UEBA行为分析。Step6: 验证:红蓝对抗测试。Step7: 数据源:NetFlow、Syslog、SNMP Trap。

检出率>95%;误报率<5%

Situational Awareness、SIEM

:Splunk、ELK;:无;部署:安全运营中心

N-1152

网络适配

智算中心

网络安全微分段

如何在智算中心内部实施微分段(Micro-segmentation)

安全·Micro-seg

Step1: 基于租户或应用划分安全组,限制东西向流量。Step2: 使用VXLAN+ACL或分布式防火墙。Step3: 要求租户间零信任。Step4: 数学表达式:Policy=deny_all except_allowed。Step5: 配置:在Leaf上应用ACL或使用软件定义防火墙。Step6: 推荐:参数网和存储网默认隔离。Step7: 验证:租户间ping不通。

默认拒绝;白名单

Micro-segmentation、Zero Trust

:SDN控制器、防火墙;:RoCE交换机;部署:全网策略

N-1153

网络适配

智算中心

网络安全DDoS防护

如何防御针对智算中心网络的DDoS攻击

安全·DDoS

Step1: DDoS攻击可能来自外部或内部(如恶意租户)。Step2: 在边界部署Anti-DDoS设备,清洗异常流量。Step3: 要求攻击流量清洗能力>1Tbps。Step4: 数学表达式:Clean_capacity=∑Nscrubber​×BWper_scrubber​。Step5: 若4台清洗设备各400G,则总1.6Tbps。Step6: 配置:BGP Flowspec引流到清洗中心。Step7: 推荐:云清洗+本地清洗结合。

清洗能力>1Tbps;BGP Flowspec

DDoS Mitigation、Scrubbing Center

:Anti-DDoS控制器;:清洗设备;部署:互联网边界

N-1154

网络适配

智算中心

网络安全零信任网络访问

如何实现智算中心的零信任网络访问(ZTNA)

安全·ZTNA

Step1: 所有访问请求都需要认证和授权,不信任任何网络。Step2: 部署身份代理(如Cloudflare Access)或SDP。Step3: 要求访问延迟增加<10ms。Step4: 数学表达式:Taccess​=Tauth​+Tproxy​。Step5: 若Tauth​=5ms,Tproxy​=3ms,则T=8ms。Step6: 配置:管理面和业务面均启用ZTNA。Step7: 推荐:先对管理面实施。

延迟增加<10ms;SDP

Zero Trust、SDP

:身份提供商、SDP网关;:无;部署:管理网络

N-1155

网络适配

智算中心

IPv6单栈改造对参数网的影响

如何将参数网从IPv4迁移到IPv6单栈

协议·IPv6 Migration

Step1: IPv6地址空间充足,可简化地址规划。Step2: 参数网使用IPv6地址,RoCEv2支持IPv6。Step3: 要求迁移过程中业务不中断。Step4: 数学表达式:Address_spacev6​=264≫2v432​。Step5: 配置:双栈过渡,逐步关闭IPv4。Step6: 推荐:新建集群直接使用IPv6。Step7: 验证:NCCL allreduce over IPv6。

双栈过渡;地址空间无限

IPv6 Single Stack、RoCEv2

:NCCL、UCCL;:RoCE交换机;部署:逐步迁移

N-1156

网络适配

智算中心

IPv6地址自动配置

如何利用SLAAC或DHCPv6自动配置参数网IPv6地址

自动化·IPv6 Autoconfig

Step1: 使用SLAAC(无状态)或DHCPv6(有状态)分配IPv6地址。Step2: 参数网使用静态地址,但可通过DHCPv6分配。Step3: 要求地址分配时间<1s。Step4: 数学表达式:Tassign​=Tsolicit​+Tadvertise​+Trequest​+Treply​。Step5: 若RTT=1ms,则总<10ms。Step6: 配置:SE控制器作为DHCPv6服务器。Step7: 推荐:使用静态地址避免依赖DHCP。

分配<1s;DHCPv6

IPv6 Autoconfiguration、SLAAC

:SE控制器、DHCPv6;:RoCE网卡;部署:可选

N-1157

网络适配

智算中心

IPv6安全邻居发现(SEND)

如何配置SEND防止IPv6邻居欺骗

安全·SEND

Step1: SEND使用加密生成地址(CGA)和RSA签名保护NDP。Step2: 参数网物理安全,可不启用。Step3: 要求不启用。Step4: 数学表达式:SEND=disabled。Step5: 配置:不配置。Step6: 推荐:不启用,使用RA Guard。Step7: 验证:无。

不启用SEND

SEND、CGA

:无;:无;部署:不启用

N-1158

网络适配

智算中心

意图网络(IBN)实现

如何将网络运维从配置驱动转为意图驱动

自动化·Intent-based Networking

Step1: 管理员声明意图(如“为租户A提供100Gbps带宽”),系统自动翻译为配置。Step2: 持续验证意图是否满足。Step3: 要求意图兑现时间<5分钟。Step4: 数学表达式:Intent_fulfillment=(actual_BW≥requested_BW)∧(latency≤threshold)。Step5: 配置:SE控制器集成意图引擎。Step6: 推荐:从简单的带宽保障开始。Step7: 验证:监控面板显示意图状态。

兑现<5min;持续验证

Intent-based Networking、Closed-loop

:SE控制器、意图引擎;:无;部署:控制器升级

N-1159

网络适配

智算中心

网络自动驾驶分级

如何评估智算中心网络的自动驾驶级别(L0-L5)

规划·Autonomous Driving

Step1: L0人工运维,L1辅助自动化,L2部分自治,L3条件自治,L4高度自治,L5完全自治。Step2: 当前智算中心网络处于L2(部分自治:自动部署、监控、告警)。Step3: 目标L4(自动决策、自愈、优化)。Step4: 数学表达式:Level=f(automation_coverage,decision_autonomy)。Step5: 配置:逐步引入AI运维。Step6: 推荐:3年内达到L3。Step7: 验证:每年评估。

当前L2;目标L4

Autonomous Network、TM Forum

:AIOps平台;:无;部署:演进路线

N-1160

网络适配

智算中心

网络切片在智算中心的应用

如何为不同租户或任务创建独立的网络切片

虚拟化·Network Slicing

Step1: 每个切片拥有独立的VXLAN、QoS、带宽保障。Step2: 使用FlexE或信道化子接口实现物理隔离。Step3: 要求切片间性能互不影响。Step4: 数学表达式:Slicei​=(VNIi​,BWi​,Latencyi​,Priorityi​)。Step5: 配置:SE控制器创建和管理切片。Step6: 推荐:为关键训练任务创建专属切片。Step7: 验证:同时运行多个切片任务。

切片隔离;专属资源

Network Slicing、FlexE

:SE控制器;:支持FlexE的交换机;部署:按需创建

N-1161

网络适配

智算中心

确定性网络(DetNet)支持

如何为实时推理提供确定性低延迟网络

QoS·Deterministic Network

Step1: DetNet通过预留资源和时钟同步,提供有界延迟。Step2: 配置TSN(时间敏感网络)或DetNet over MPLS。Step3: 要求端到端延迟抖动<10μs。Step4: 数学表达式:Jittermax​=max(Li​)−min(Li​)。Step5: 配置:在Leaf出口启用802.1Qbv(时间感知整形)。Step6: 推荐:仅对推理流量启用。Step7: 验证:示波器测量延迟抖动。

抖动<10μs;TSN

Deterministic Network、TSN

:交换机配置;:支持TSN的交换机;部署:推理网络

N-1162

网络适配

智算中心

卫星网络与地面智算中心融合

如何通过卫星链路扩展智算中心到偏远地区

架构·Satellite Integration

Step1: 卫星链路带宽有限(通常<1Gbps),延迟高(>250ms)。Step2: 只能用于非实时任务(如数据上传、模型同步)。Step3: 要求卫星链路利用率>80%。Step4: 数学表达式:BWsat​=500Mbps,RTT=500ms。Step5: 配置:TCP优化(Hybla、BBR)。Step6: 推荐:使用多径卫星+地面混合。Step7: 验证:大文件传输测试。

带宽500Mbps;RTT 500ms

Satellite Communication、Hybrid Network

:TCP优化;:卫星终端;部署:边缘节点

N-1163

网络适配

智算中心

量子密钥分发(QKD)在DCI中的应用

如何利用QKD为DCI链路提供量子安全的加密密钥

安全·QKD

Step1: QKD通过量子态传输密钥,理论上不可窃听。Step2: 密钥生成速率Rkey​=100kbps,需满足加密密钥更新需求。Step3: 要求密钥更新频率>1次/秒。Step4: 数学表达式:Key_bits_per_second=Rkey​。Step5: 若AES-256需要256位密钥,每秒可生成100kbps/256≈390个密钥。Step6: 配置:QKD设备与加密板卡集成。Step7: 推荐:在核心DCI链路上试点。

密钥速率100kbps;AES-256

Quantum Key Distribution、Post-quantum

:QKD管理软件;:QKD设备;部署:DCI试点

N-1164

网络适配

智算中心

网络运维自动化ChatOps

如何通过聊天机器人(如Slack、钉钉)执行网络运维操作

运维·ChatOps

Step1: 集成SE控制器到聊天平台,通过自然语言指令执行操作。Step2: 支持查询状态、执行命令、创建工单。Step3: 要求操作响应时间<5s。Step4: 数学表达式:Tresponse​=Tnlp​+Texec​。Step5: 若Tnlp​=1s,Texec​=2s,则T=3s。Step6: 配置:部署Bot到聊天平台。Step7: 推荐:只开放查询权限,谨慎开放写操作。

响应<5s;自然语言

ChatOps、Bot

:Slack/钉钉、SE Bot;:无;部署:运维工具

N-1165

网络适配

智算中心

网络运维自动化Runbook

如何设计自动化的故障处理Runbook

运维·Runbook

Step1: 将常见故障的处理步骤编写为可执行的Runbook。Step2: 故障触发时自动执行Runbook。Step3: 要求MTTR降低>50%。Step4: 数学表达式:MTTRafter​=MTTRbefore​×(1−reduction)。Step5: 若原来MTTR=2h,降低50%则1h。Step6: 配置:使用Ansible Tower或StackStorm。Step7: 推荐:优先处理高频故障。

MTTR降低50%;自动化执行

Runbook Automation、MTTR

:Ansible、StackStorm;:无;部署:运维平台

N-1166

网络适配

智算中心

网络资产管理与CMDB

如何建立网络配置管理数据库(CMDB)

运维·CMDB

Step1: 自动发现网络设备、链路、配置,存入CMDB。Step2: 关联关系(设备-端口-链路-租户)。Step3: 要求资产数据准确率>99%。Step4: 数学表达式:Accuracy=total_entriescorrect_entries​。Step5: 配置:使用开源iTop或商业ServiceNow。Step6: 推荐:每日自动同步。Step7: 验证:抽样人工核对。

准确率>99%;自动发现

CMDB、Asset Management

:iTop、ServiceNow;:无;部署:运维平台

N-1167

网络适配

智算中心

网络变更管理流程

如何设计标准化的网络变更审批和执行流程

运维·Change Management

Step1: 变更申请→风险评估→审批→实施→验证→关闭。Step2: 使用ITSM工具(如Jira Service Management)。Step3: 要求变更成功率>99%。Step4: 数学表达式:Success_rate=total_changessuccessful_changes​。Step5: 配置:自动化变更与回滚。Step6: 推荐:紧急变更走简化流程。Step7: 验证:月度变更回顾。

成功率>99%;标准化流程

Change Management、ITIL

:Jira、ServiceNow;:无;部署:运维制度

N-1168

网络适配

智算中心

网络性能基线与容量预警

如何建立网络性能基线并设置容量预警

运维·Capacity Alert

Step1: 收集历史流量数据,建立每周/每日基线。Step2: 当前利用率超过基线+3σ时触发预警。Step3: 要求预警提前>7天。Step4: 数学表达式:Alert=(utilcurrent​>meanbaseline​+3×stdbaseline​)。Step5: 配置:SA分析器定时计算基线。Step6: 推荐:结合趋势预测。Step7: 验证:查看预警准确性。

提前7天预警;3σ

Capacity Baseline、Trend Prediction

:SA分析器;:无;部署:监控集成

N-1169

网络适配

智算中心

网络能耗优化策略

如何根据业务负载动态调整网络设备功耗

节能·Dynamic Power

Step1: 低负载时关闭部分端口或降低端口速率。Step2: 使用LLDP和802.3az(EEE)。Step3: 要求不影响业务性能。Step4: 数学表达式:Powerdynamic​=Pbase​+Pper_port​×Nactive​×scaling_factor。Step5: 配置:夜间关闭非关键端口。Step6: 推荐:结合AI预测负载。Step7: 验证:测量PUE变化。

动态调整;不影响性能

Energy Optimization、EEE

:电源管理软件;:支持EEE的交换机;部署:策略配置

N-1170

网络适配

智算中心

网络设备生命周期管理

如何管理网络设备的生命周期(EOL/EOS)

运维·Lifecycle

Step1: 跟踪设备固件版本、保修状态、EOL日期。Step2: 提前12个月规划替换。Step3: 要求无EOL设备运行。Step4: 数学表达式:Remaining_life=EOL_date−current_date。Step5: 配置:CMDB中记录生命周期。Step6: 推荐:每年审计。Step7: 验证:检查EOL设备清单。

提前12月规划;无EOL运行

Lifecycle Management、EOL

:CMDB、资产管理;:网络设备;部署:运维流程

N-1171

网络适配

智算中心

网络供应商管理

如何评估和管理网络设备供应商的服务质量

运维·Vendor Management

Step1: 建立供应商KPI:交付准时率、故障响应时间、解决时间。Step2: 要求RMA响应<4小时,解决<24小时。Step3: 数学表达式:Vendor_score=w1​×delivery+w2​×response+w3​×resolution。Step4: 配置:定期评分。Step5: 推荐:至少两家供应商备份。Step6: 验证:年度供应商评审。

RMA响应<4h;解决<24h

Vendor Management、SLA

:供应商管理系统;:无;部署:采购管理

N-1172

网络适配

智算中心

网络灾备与演练

如何设计网络灾备方案并定期演练

可靠性·Disaster Recovery

Step1: 主备数据中心网络独立,通过DCI同步。Step2: 灾难发生时切换DNS和BGP路由。Step3: 要求RTO<30分钟,RPO<5分钟。Step4: 数学表达式:RTO=Tdetect​+Tdecision​+Tswitch​。Step5: 若Tdetect​=1min,Tdecision​=5min,Tswitch​=10min,则RTO=16min。Step6: 配置:定期演练(每季度一次)。Step7: 推荐:自动化切换。

RTO<30min;RPO<5min

Disaster Recovery、Failover

:DNS、BGP策略;:网络设备;部署:灾备中心

N-1173

网络适配

智算中心

网络合规审计

如何通过自动化工具进行网络配置合规审计

安全·Compliance Audit

Step1: 定义合规基线(如密码强度、加密协议、访问控制)。Step2: 自动扫描所有设备配置,比对基线。Step3: 要求不合规项<1%。Step4: 数学表达式:Compliance_rate=total_itemscompliant_items​。Step5: 配置:使用SolarWinds或自研脚本。Step6: 推荐:每月审计。Step7: 验证:生成合规报告。

合规率>99%;自动扫描

Compliance Audit、Baseline

:SolarWinds、Ansible;:无;部署:安全运维

N-1174

网络适配

智算中心

网络技术债务管理

如何识别和消除网络中的技术债务(如老旧配置、废弃VLAN)

运维·Tech Debt

Step1: 扫描全网配置,识别废弃VLAN、未使用的ACL、过期密码。Step2: 清理计划按风险排序。Step3: 要求技术债务减少>50%/年。Step4: 数学表达式:Debt_ratio=total_configsproblematic_configs​。Step5: 配置:SE控制器提供配置健康度评分。Step6: 推荐:纳入季度运维目标。Step7: 验证:对比前后评分。

债务减少50%/年;配置健康度

Technical Debt、Configuration Hygiene

:SE控制器;:无;部署:运维治理

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1175

网络适配

智算中心

网络测试自动化框架

如何设计网络自动化测试框架,覆盖功能、性能、可靠性

测试·Automation Framework

Step1: 使用pytest或Robot Framework编写测试用例,覆盖连通性、带宽、延迟、容错。Step2: 测试用例自动执行,结果自动对比基线。Step3: 要求测试覆盖率>90%。Step4: 数学表达式:Coverage=total_casespassed_cases​。Step5: 配置:CI/CD pipeline中集成。Step6: 推荐:每次网络变更后自动触发。Step7: 验证:测试报告自动生成。

覆盖率>90%;自动触发

Test Automation、pytest

:pytest、Robot Framework;:无;部署:DevOps流程

N-1176

网络适配

智算中心

多租户网络计费模型

如何根据租户网络使用量进行计费

运营·Usage Billing

Step1: 计费因子:带宽占用、时长、QoS等级。Step2: 计费公式Cost=BWavg​×Tduration​×Priceper_unit​。Step3: 要求计费准确率>99%。Step4: 数学表达式:Cost=∫0T​BW(t)dt×P。Step5: 配置:SA分析器采集流量数据,对接计费系统。Step6: 推荐:支持预付费和后付费。Step7: 验证:账单与实际用量对比。

计费准确率>99%;带宽×时长

Usage Billing、Metering

:SA分析器、计费系统;:无;部署:运营平台

N-1177

网络适配

智算中心

网络可视化大屏

如何设计网络运维可视化大屏,展示关键指标

运维·Dashboard

Step1: 展示拓扑、链路利用率、设备健康度、告警统计。Step2: 数据刷新周期<5s。Step3: 要求大屏加载时间<3s。Step4: 数学表达式:Refresh_interval=5s。Step5: 配置:使用Grafana或自研前端。Step6: 推荐:支持钻取到详细页面。Step7: 验证:用户反馈易用性。

刷新5s;加载<3s

Visualization、Dashboard

:Grafana、ECharts;:大屏显示器;部署:NOC

N-1178

网络适配

智算中心

AI驱动的流量预测

如何利用LSTM预测未来1小时的网络流量

预测·Traffic Forecast

Step1: 输入历史流量时序(过去7天),预测未来1小时。Step2: 模型使用LSTM,输入维度=168(小时)×24(天)=4032点。Step3: 要求预测MAPE<10%。Step4: 数学表达式:(MAPE = \frac{1}{N}\sum

\frac{actual - predicted}{actual}

)。Step5: 配置:SA分析器集成预测模型。Step6: 推荐:用于容量规划和告警。Step7: 验证:对比预测与实际。

MAPE<10%;LSTM

N-1179

网络适配

智算中心

网络故障根因分析因果图

如何构建因果图(Causal Graph)辅助根因定位

运维·Causal Graph

Step1: 从历史告警和故障数据中学习因果关系。Step2: 构建有向无环图(DAG),节点为指标,边为因果方向。Step3: 要求根因定位Top3准确率>85%。Step4: 数学表达式:Root_cause=argmaxnode​PageRank(node)。Step5: 配置:使用PC算法或NOTEARS学习因果结构。Step6: 推荐:结合专家知识修正。Step7: 验证:历史故障复盘。

Top3准确率>85%;因果图

Causal Discovery、Root Cause Analysis

:SA分析器、Python(causal-learn);:无;部署:SA集成

N-1180

网络适配

智算中心

网络配置漂移检测

如何检测网络配置的意外变更(漂移)

运维·Config Drift

Step1: 定期(每小时)采集设备配置,与基线比对。Step2: 差异部分标记为漂移。Step3: 要求漂移检测时间<1小时。Step4: 数学表达式:Drift=configcurrent​−configbaseline​。Step5: 配置:SE控制器定时任务。Step6: 推荐:漂移自动告警并回滚。Step7: 验证:模拟配置变更测试。

检测<1h;自动告警

Configuration Drift、Baseline

:SE控制器;:RoCE交换机;部署:自动化运维

N-1181

网络适配

智算中心

网络变更影响分析

如何评估网络变更对现有业务的影响范围

运维·Impact Analysis

Step1: 利用网络拓扑和依赖关系,计算变更波及的设备、链路、租户。Step2: 影响范围(Impact = {device, link, tenant

dependent_on_changed_entity})。Step3: 要求分析时间<10s。Step4: 数学表达式:(Impact_size =

N_{affected_devices}

+

N-1182

网络适配

智算中心

网络SLA管理

如何为租户定义和监控网络SLA

运营·SLA Management

Step1: SLA指标:可用性≥99.99%、延迟<10μs、丢包率<1e-6。Step2: 实时监控并计算SLA达标率。Step3: 要求SLA达标率>99.9%。Step4: 数学表达式:SLA_compliance=total_timetime_within_SLA​。Step5: 配置:SA分析器定期生成SLA报告。Step6: 推荐:SLA违约自动触发赔偿。Step7: 验证:第三方审计。

达标率>99.9%;自动报告

SLA Management、Availability

:SA分析器;:无;部署:运营平台

N-1183

网络适配

智算中心

网络设备自动发现与拓扑更新

如何自动发现新加入的网络设备并更新拓扑

自动化·Discovery

Step1: 使用LLDP/CDP/STP协议发现邻居,通过SNMP或NETCONF采集设备信息。Step2: 新设备加入时自动纳入CMDB和监控。Step3: 要求发现时间<5分钟。Step4: 数学表达式:Tdiscover​=Tpoll​+Tparse​+Tupdate​。Step5: 若Tpoll​=2min,Tparse​=1min,Tupdate​=1min,则T=4min。Step6: 配置:SE控制器定时扫描。Step7: 推荐:支持手动确认。

发现<5min;自动纳入

Auto Discovery、LLDP

:SE控制器、SNMP;:RoCE交换机;部署:自动化

N-1184

网络适配

智算中心

网络设备配置合规检查

如何自动检查网络设备配置是否符合安全基线

安全·Compliance Check

Step1: 定义合规规则(如禁用telnet、启用SSHv2、密码加密)。Step2: 自动扫描配置,标记不合规项。Step3: 要求不合规项<1%。Step4: 数学表达式:Violations=count(rulei​==false)。Step5: 配置:使用Ansible或SaltStack的检查模块。Step6: 推荐:每月生成合规报告。Step7: 验证:手动抽查。

不合规<1%;自动扫描

Compliance Check、Security Baseline

:Ansible、SaltStack;:无;部署:安全运维

N-1185

网络适配

智算中心

网络设备固件漏洞扫描

如何自动扫描网络设备固件的已知漏洞(CVE)

安全·Vulnerability Scan

Step1: 采集设备型号和固件版本,与CVE数据库比对。Step2: 高危漏洞触发紧急升级流程。Step3: 要求扫描周期<1周。Step4: 数学表达式:Vulnerabilities=∑cve​match(device_fw,cve_affected)。Step5: 配置:使用Nessus或OpenVAS。Step6: 推荐:与供应商安全公告联动。Step7: 验证:修复后重新扫描。

扫描周期<1周;CVE匹配

Vulnerability Scanning、CVE

:Nessus、OpenVAS;:无;部署:安全运维

N-1186

网络适配

智算中心

网络设备日志异常检测

如何利用机器学习检测交换机日志中的异常模式

运维·Log Anomaly

Step1: 收集syslog,使用word2vec或BERT转换为向量。Step2: 使用孤立森林检测异常日志。Step3: 要求异常检出率>90%。Step4: 数学表达式:Anomaly_score=isolation_forest(log_vector)。Step5: 配置:SA分析器集成日志分析。Step6: 推荐:结合规则引擎减少误报。Step7: 验证:人工复核异常日志。

检出率>90%;ML模型

Log Anomaly Detection、Word2Vec

:SA分析器、Python sklearn;:无;部署:SA集成

N-1187

网络适配

智算中心

网络设备配置版本控制

如何像Git一样管理网络设备配置的版本历史

运维·Config Versioning

Step1: 每次配置变更自动提交到Git仓库,记录变更人和时间。Step2: 支持diff对比和回滚。Step3: 要求版本历史保留≥1年。Step4: 数学表达式:Version_history=Git_commit_log。Step5: 配置:SE控制器集成Git。Step6: 推荐:分支管理(生产、测试)。Step7: 验证:git log查看历史。

保留≥1年;Git集成

Config Versioning、Git

:Git、SE控制器;:无;部署:运维工具

N-1188

网络适配

智算中心

网络设备配置代码审查

如何对网络配置变更进行代码审查(Code Review)

运维·Code Review

Step1: 变更提交后,自动触发Review请求,指派Reviewer。Step2: Review通过后自动部署。Step3: 要求Review时间<4小时。Step4: 数学表达式:Treview​=Tassign​+Tcomment​+Tapprove​。Step5: 配置:使用GitLab/GitHub Pull Request。Step6: 推荐:至少两人Review。Step7: 验证:Review记录存档。

Review<4h;至少两人

Code Review、Peer Review

:GitLab、GitHub;:无;部署:变更流程

N-1189

网络适配

智算中心

网络设备配置自动化生成

如何根据模板和参数自动生成设备配置

自动化·Config Generation

Step1: 使用Jinja2模板,输入参数(IP、VLAN、VNI等)生成配置。Step2: 模板分层:基础模板、角色模板(Leaf/Spine)、租户模板。Step3: 要求配置生成时间<1s/台。Step4: 数学表达式:Tgen​=Ttemplate_render​+Tvariable_substitution​。Step5: 配置:SE控制器内置模板引擎。Step6: 推荐:模板版本管理。Step7: 验证:生成的配置与预期一致。

生成<1s/台;Jinja2

Config Generation、Templating

:SE控制器、Jinja2;:无;部署:自动化

N-1190

网络适配

智算中心

网络设备配置合规修复

如何自动修复不合规的网络配置

自动化·Auto Remediation

Step1: 检测到不合规项后,自动生成修复配置并应用。Step2: 修复前备份,失败自动回滚。Step3: 要求修复成功率>95%。Step4: 数学表达式:Fix_success=attempted_fixessuccessful_fixes​。Step5: 配置:SE控制器集成修复playbook。Step6: 推荐:先修复低风险项。Step7: 验证:修复后重新扫描。

成功率>95%;自动回滚

Auto Remediation、Self-healing

:SE控制器、Ansible;:无;部署:自动化运维

N-1191

网络适配

智算中心

网络设备配置基线管理

如何建立和维护网络配置基线

运维·Baseline Management

Step1: 选定黄金配置作为基线,所有设备配置与基线保持一致。Step2: 基线随版本升级而更新。Step3: 要求配置一致率>99%。Step4: 数学表达式:Consistency=total_devicesdevices_matching_baseline​。Step5: 配置:SE控制器管理基线。Step6: 推荐:基线变更需审批。Step7: 验证:定期审计。

一致率>99%;黄金配置

Baseline Management、Golden Config

:SE控制器;:无;部署:运维规范

N-1192

网络适配

智算中心

网络设备配置合规评分

如何对设备配置进行合规评分,量化安全状态

安全·Compliance Score

Step1: 定义评分规则:每项合规得10分,不合规扣分。Step2: 总分100分,低于80分告警。Step3: 要求平均得分>90。Step4: 数学表达式:Score=100−∑violationsi​×penaltyi​。Step5: 配置:SA分析器计算评分。Step6: 推荐:纳入运维考核。Step7: 验证:评分变化趋势。

平均分>90;量化评分

Compliance Scoring、Quantification

:SA分析器;:无;部署:安全运维

N-1193

网络适配

智算中心

网络设备配置合规报告

如何自动生成网络配置合规报告

安全·Compliance Report

Step1: 每月自动生成报告,包含合规率、不合规项列表、趋势图。Step2: 报告格式PDF/HTML。Step3: 要求生成时间<5分钟。Step4: 数学表达式:Treport​=Tscan​+Trender​。Step5: 配置:SA分析器定时任务。Step6: 推荐:自动发送给管理层。Step7: 验证:报告内容准确。

生成<5min;自动发送

Compliance Report、Automation

:SA分析器、Jinja2;:无;部署:安全运维

N-1194

网络适配

智算中心

网络设备配置合规整改跟踪

如何跟踪不合规项的整改进度

安全·Remediation Tracking

Step1: 不合规项创建工单,分配给责任人,设定截止日期。Step2: 跟踪工单状态(待处理、处理中、已完成)。Step3: 要求整改完成率>95%。Step4: 数学表达式:Completion_rate=total_ticketsclosed_tickets​。Step5: 配置:ITSM系统集成。Step6: 推荐:逾期自动升级。Step7: 验证:复查已整改项。

完成率>95%;工单跟踪

Remediation Tracking、Ticketing

:ITSM系统;:无;部署:安全运维

N-1195

网络适配

智算中心

网络设备配置合规审计日志

如何记录和审计所有配置变更操作

安全·Audit Log

Step1: 所有配置变更(人工或自动)记录到审计日志:谁、什么时间、改了哪里、改了什么。Step2: 日志不可篡改,保存≥2年。Step3: 要求审计日志完整性100%。Step4: 数学表达式:Audit_log=(user,timestamp,device,before,after)。Step5: 配置:SE控制器记录操作日志。Step6: 推荐:日志加密存储。Step7: 验证:随机抽样核对。

保存≥2年;不可篡改

Audit Log、Traceability

:SE控制器、日志系统;:无;部署:安全运维

N-1196

网络适配

智算中心

网络设备配置合规自动化修复策略

如何设计不合规配置的自动修复策略,按风险分级

自动化·Risk-based Remediation

Step1: 高风险(如密码明文)立即自动修复;中风险(如日志未开启)24小时内修复;低风险(如横幅未配置)一周内修复。Step2: 修复顺序按风险降序。Step3: 要求高风险修复时间<1小时。Step4: 数学表达式:Fix_priority=⎩⎨⎧​immediate,24h,7d,​risk=highrisk=mediumrisk=low​。Step5: 配置:SE控制器策略引擎。Step6: 推荐:高风险自动修复需审批。Step7: 验证:检查修复时效。

高风险<1h;分级修复

Risk-based Remediation、Prioritization

:SE控制器;:无;部署:自动化运维

N-1197

网络适配

智算中心

网络设备配置合规豁免管理

如何处理无法修复的合规例外(如遗留设备)

安全·Exception Management

Step1: 申请豁免,说明理由、风险、计划修复时间。Step2: 审批通过后加入豁免列表,定期复审。Step3: 要求豁免比例<5%。Step4: 数学表达式:Exception_rate=total_itemsexempted_items​。Step5: 配置:ITSM系统中管理豁免。Step6: 推荐:豁免最长有效期6个月。Step7: 验证:到期前提醒。

豁免比例<5%;定期复审

Exception Management、Waiver

:ITSM系统;:无;部署:安全运维

N-1198

网络适配

智算中心

网络设备配置合规自助查询

如何让租户自助查询其网络资源的合规状态

运营·Self-service Query

Step1: 租户门户提供合规仪表盘,展示其VXLAN、ACL、QoS配置的合规情况。Step2: 支持导出报告。Step3: 要求查询响应时间<2s。Step4: 数学表达式:Tquery​=Tauth​+Tdb_lookup​+Trender​。Step5: 配置:SE控制器提供API。Step6: 推荐:仅展示租户自身资源。Step7: 验证:租户测试。

响应<2s;租户门户

Self-service、Tenant Portal

:SE控制器、前端;:无;部署:运营平台

N-1199

网络适配

智算中心

网络设备配置合规与CI/CD集成

如何将网络配置合规检查嵌入CI/CD流水线

DevOps·CI/CD Integration

Step1: 代码仓库中网络配置变更触发合规检查。Step2: 检查不通过则阻断合并。Step3: 要求检查时间<1分钟。Step4: 数学表达式:Pipeline_stage=compliance_check。Step5: 配置:GitLab CI中集成SE控制器API。Step6: 推荐:基础设施即代码(IaC)。Step7: 验证:提交不合规配置测试。

检查<1min;阻断合并

CI/CD、Infrastructure as Code

:GitLab CI、SE控制器;:无;部署:DevOps流程

N-1200

网络适配

智算中心

网络设备配置合规与自动化测试

如何将合规检查与自动化测试结合,验证修复效果

测试·Compliance Testing

Step1: 修复后自动执行合规测试用例,验证修复是否生效。Step2: 测试用例覆盖所有合规规则。Step3: 要求测试通过率100%。Step4: 数学表达式:Test_pass=∀rulei​,check(device,rulei​)==true。Step5: 配置:pytest脚本。Step6: 推荐:修复后自动触发。Step7: 验证:测试报告。

通过率100%;自动验证

Compliance Testing、Validation

:pytest、SE控制器;:无;部署:自动化运维

N-1201

网络适配

智算中心

网络设备配置合规与告警联动

如何将合规事件与告警系统联动

运维·Alert Integration

Step1: 检测到不合规项时,自动生成告警并通知相关人员。Step2: 告警级别按风险分级。Step3: 要求告警延迟<1分钟。Step4: 数学表达式:Alert_level=⎩⎨⎧​critical,warning,info,​risk=highrisk=mediumrisk=low​。Step5: 配置:SA分析器集成告警通道(邮件、短信、钉钉)。Step6: 推荐:告警自动关联工单。Step7: 验证:模拟不合规测试。

告警延迟<1min;分级通知

Alert Integration、Notification

:SA分析器、告警平台;:无;部署:运维集成

N-1202

网络适配

智算中心

网络设备配置合规与容量规划

如何利用合规数据辅助网络容量规划

规划·Capacity Planning

Step1: 合规数据中包含端口利用率、ACL规则数、VLAN使用率。Step2: 分析趋势,预测何时达到容量上限。Step3: 要求预测提前>3个月。Step4: 数学表达式:Time_to_exhaustion=Growth_rateCapacity_remaining​。Step5: 配置:SA分析器生成容量报告。Step6: 推荐:提前扩容。Step7: 验证:与实际达到时间对比。

提前3月预测;趋势分析

Capacity Planning、Trend Analysis

:SA分析器;:无;部署:运维规划

N-1203

网络适配

智算中心

网络设备配置合规与成本优化

如何通过合规数据识别成本优化机会

运营·Cost Optimization

Step1: 分析未使用的VLAN、闲置端口、过度配置的QoS策略。Step2: 清理闲置资源,降低License费用。Step3: 要求成本降低>10%。Step4: 数学表达式:Savings=∑resource​costresource​×utilization_rate。Step5: 配置:SA分析器生成优化建议。Step6: 推荐:每季度执行。Step7: 验证:对比优化前后成本。

成本降低>10%;清理闲置

Cost Optimization、Resource Cleanup

:SA分析器;:无;部署:运营管理

N-1204

网络适配

智算中心

网络设备配置合规与知识库

如何将合规知识沉淀为知识库,辅助运维人员

运维·Knowledge Base

Step1: 将合规规则、修复步骤、常见问题整理成知识库文章。Step2: 支持全文检索。Step3: 要求知识库覆盖率>80%。Step4: 数学表达式:Coverage=total_issuesissues_covered_by_kb​。Step5: 配置:Confluence或MediaWiki。Step6: 推荐:运维人员共同维护。Step7: 验证:新员工使用反馈。

覆盖率>80%;全文检索

Knowledge Base、Documentation

:Confluence、MediaWiki;:无;部署:团队建设

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1205

组网架构

智算中心

Fat-Tree拓扑带宽分析

如何计算Fat-Tree拓扑下Allreduce的bisection带宽

拓扑·Bisection BW

Step1: Fat-Tree中,每个Pod内Leaf数L,Spine数S,收敛比1:1时S=L。Step2: Bisection带宽为跨Pod通信的最大带宽。Step3: 数学表达式:Bbisection​=2S​×BWspine_link​。Step4: 若S=32,Spine链路400G,则Bbisection​=16×400G=6.4Tbps。Step5: Allreduce通信量Vallreduce​=2×(N−1)/N×model_size,要求Vallreduce​/Tallreduce​≤Bbisection​。Step6: 配置:Spine数量需满足bisection带宽≥聚合通信带宽。Step7: 推荐:万卡集群Spine数≥32。

Bisection带宽6.4Tbps;Spine数32

Fat-Tree、Bisection Bandwidth、Allreduce

:无;:Spine交换机;部署:拓扑规划

N-1206

组网架构

智算中心

Dragonfly拓扑延迟分析

如何计算Dragonfly拓扑中Allreduce的跨组延迟

拓扑·Dragonfly Latency

Step1: Dragonfly分为Group,Group内全连接,Group间通过少数Global链路连接。Step2: Allreduce跨Group时需经过2跳Global链路。Step3: 数学表达式:Lcross_group​=2×Lglobal_link​+Lgroup_internal​。Step4: 若Global链路延迟2μs,Group内1μs,则L=5μs。Step5: 相比Fat-Tree(3跳Spine),Dragonfly延迟更低。Step6: 配置:Group内节点数需平衡。Step7: 推荐:延迟敏感场景选择Dragonfly。

跨组延迟5μs;2跳Global

Dragonfly、Latency、Allreduce

:无;:交换机;部署:拓扑选型

N-1207

组网架构

智算中心

Torus拓扑带宽分析

如何计算3D-Torus中Allreduce的最坏情况带宽

拓扑·Torus BW

Step1: 3D-Torus中,每个节点有6个邻居(三维各两个方向)。Step2: Allreduce通信量沿各维度均摊。Step3: 数学表达式:BWtorus​=Ndim​6×BWlink​​(假设均匀分布)。Step4: 若BWlink​=400G,3维,则理想带宽6×400G/3=800G,但实际受限于切割带宽。Step5: 最坏情况:所有通信集中在某一维度,带宽仅为2×BWlink​=800G。Step6: 配置:需配合路由算法避免热点。Step7: 推荐:小规模集群(<1000节点)适用。

最坏800G;3D-Torus

Torus、Bandwidth、Routing

:无;:交换机;部署:拓扑选型

N-1208

组网架构

智算中心

混合拓扑(Fat-Tree+Dragonfly)

如何设计混合拓扑平衡成本和性能

拓扑·Hybrid

Step1: 机柜内使用Fat-Tree(低成本),机柜间使用Dragonfly(低延迟)。Step2: 机柜内Leaf连接Spine,Spine再通过Global链路连接其他机柜。Step3: 要求机柜内带宽>90%线速,机柜间延迟<10μs。Step4: 数学表达式:BWrack_internal​=L×BWleaf​,Linter_rack​=2μs+1μs=3μs。Step5: 配置:机柜内收敛比1:1,机柜间收敛比4:1。Step6: 推荐:大型智算中心采用。Step7: 验证:模拟测试。

机柜内>90%;机柜间<10μs

Hybrid Topology、Fat-Tree+Dragonfly

:无;:交换机;部署:拓扑设计

N-1209

Allreduce

智算中心

Ring Allreduce带宽模型

如何计算Ring Allreduce的理论带宽

通信·Ring Allreduce

Step1: Ring Allreduce分为scatter-reduce和allgather两阶段,每阶段N-1步。Step2: 每步传输数据量Vstep​=NVtotal​​。Step3: 数学表达式:Tring​=2×(N−1)×BWlink​Vtotal​/N​。Step4: 简化后Tring​=2×NN−1​×BWlink​Vtotal​​。Step5: 当N很大时,Tring​≈2×BWlink​Vtotal​​。Step6: 若Vtotal​=1GB,BWlink​=50GB/s,则Tring​=40ms。Step7: 配置:Ring大小N建议为偶数。

时间40ms;带宽50GB/s

Ring Allreduce、Bandwidth Model

:NCCL;:RoCE网卡;部署:算法选择

N-1210

Allreduce

智算中心

Tree Allreduce带宽模型

如何计算Binary Tree Allreduce的理论带宽

通信·Tree Allreduce

Step1: Binary Tree中,叶子节点向上发送,根节点向下广播。Step2: 树高度H=log2​N,每层传输Vtotal​。Step3: 数学表达式:Ttree​=2×H×BWlink​Vtotal​​。Step4: 若N=1024,H=10,则Ttree​=20×Vtotal​/BWlink​。Step5: 相比Ring的2倍,Tree为2log2​N倍,当N大时Tree更差。Step6: 优化:使用k-ary tree减少高度。Step7: 推荐:小规模集群(N<64)使用Tree。

时间20×V/BW;N=1024

Tree Allreduce、Height

:NCCL;:RoCE网卡;部署:算法选择

N-1211

Allreduce

智算中心

Recursive Halving Doubling带宽模型

如何计算Recursive Halving Doubling(RHD)的带宽

通信·RHD

Step1: RHD将节点分成两半递归,每步通信量减半。Step2: 共log2​N步,每步传输Vtotal​/2k。Step3: 数学表达式:Trhd​=∑k=1log2​N​BWlink​Vtotal​/2k−1​=BWlink​2Vtotal​​×(1−N1​)。Step4: 当N大时,Trhd​≈2Vtotal​/BWlink​,与Ring相同。Step5: 但RHD需要节点数为2的幂。Step6: 配置:节点数补零到2的幂。Step7: 推荐:N为2的幂时使用。

时间≈2V/BW;2的幂

Recursive Halving Doubling、Power of Two

:NCCL;:RoCE网卡;部署:算法选择

N-1212

Allreduce

智算中心

Allreduce延迟模型

如何计算Allreduce的延迟(小消息)

通信·Latency Model

Step1: 小消息时延迟主导,带宽影响小。Step2: Ring Allreduce延迟Lring​=2×(N−1)×Lhop​。Step3: 数学表达式:Lhop​=Lser​+Lprop​+Lswitch​。Step4: 若Lser​=0.1μs(小包),Lprop​=0.5μs(10m光纤),Lswitch​=0.5μs,则Lhop​=1.1μs。Step5: 当N=1024时,Lring​=2×1023×1.1μs=2.25ms。Step6: 优化:使用Tree或RHD减少跳数。Step7: 推荐:小消息使用Tree。

延迟2.25ms;N=1024

Allreduce Latency、Hop Latency

:NCCL;:RoCE交换机;部署:算法选择

N-1213

Allreduce

智算中心

多节点Allreduce带宽利用率

如何计算Allreduce的带宽利用率(相对于线速)

性能·Utilization

Step1: 理论带宽BWtheory​=2×Vtotal​/Tcomm​,实际带宽BWactual​。Step2: 利用率U=BWactual​/BWtheory​。Step3: 数学表达式:U=1+Tcomm​Loverhead​​1​。Step4: 若Tcomm​=40ms,Loverhead​=2ms(协议开销),则U=95.2%。Step5: 优化:减少开销(如使用硬件卸载)。Step6: 配置:NCCL中设置NCCL_PROTO=SimpleStep7: 推荐:追求高利用率。

利用率95.2%;开销2ms

Bandwidth Utilization、Overhead

:NCCL;:RoCE网卡;部署:调优

N-1214

Allreduce

智算中心

分级Allreduce(Hierarchical)

如何设计分级Allreduce(节点内NVLink+节点间RoCE)

通信·Hierarchical

Step1: 节点内使用NVLink(600GB/s)进行allreduce,节点间使用RoCE(400Gbps)。Step2: 先节点内reduce-scatter,再节点间allreduce,最后节点内allgather。Step3: 数学表达式:Thier​=Tlocal_rs​+Tglobal_ar​+Tlocal_ag​。Step4: 若节点内8 GPU,NVLink BW=600GB/s,数据1GB,则Tlocal​=2×1GB/600GB/s=3.3ms;节点间16节点,RoCE BW=50GB/s,数据1GB/8=128MB,则Tglobal​=2×128MB/50GB/s=5.12ms;总8.42ms。Step5: 相比纯RoCE(2×1GB/50GB/s=40ms),大幅提升。Step6: 配置:UCCL中启用层次化算法。Step7: 推荐:必须利用NVLink。

总时间8.42ms;提升4.75倍

Hierarchical Allreduce、NVLink+RoCE

:UCCL;:NVLink、RoCE;部署:训练配置

N-1215

Allreduce

智算中心

Allreduce与计算重叠

如何将Allreduce与反向计算重叠,隐藏通信

性能·Overlap

Step1: 反向传播时梯度逐步产生,可边计算边allreduce。Step2: 重叠度O=min(1,Tcomm​Tcompute​​)。Step3: 数学表达式:Tstep_eff​=max(Tcompute​,Tcomm​)。Step4: 若Tcompute​=80ms,Tcomm​=60ms,则Tstep​=80ms,完全隐藏。Step5: 配置:DeepSpeed中overlap_comm=TrueStep6: 推荐:启用异步allreduce。Step7: 验证:观察step时间。

完全隐藏;T_compute>T_comm

Overlap、Async Allreduce

:DeepSpeed、NCCL;:GPU;部署:训练配置

N-1216

AlltoAll

智算中心

MoE AlltoAll通信量计算

如何计算MoE模型中AlltoAll的通信量

通信·MoE AlltoAll

Step1: 每个GPU将token发送给对应的专家所在GPU。Step2: 每个GPU发送的token数Tsend​=batch_size×topk/Nexpert​。Step3: 数学表达式:Va2a​=Tsend​×hidden_size×2bytes。Step4: 若batch_size=1024,topk=2,Nexpert​=64,hidden_size=4096,则Tsend​=1024×2/64=32,Va2a​=32×4096×2=262KB。Step5: 每个GPU需要发送和接收,总通信量2×Va2a​×(Nexpert​−1)。Step6: 配置:DeepSpeed-MoE中expert-parallel-sizeStep7: 推荐:减少topk或增加expert数以降低通信。

每GPU发送262KB;总通信量

MoE AlltoAll、Communication Volume

:DeepSpeed-MoE;:GPU、RoCE;部署:训练配置

N-1217

AlltoAll

智算中心

AlltoAll带宽模型

如何计算AlltoAll的理论带宽

通信·AlltoAll BW

Step1: AlltoAll中每个节点向其他N-1个节点发送数据,总发送量Vtotal​。Step2: 理想情况下,每个节点同时收发,带宽受限于链路带宽。Step3: 数学表达式:Ta2a​=BWlink​Vtotal​​(假设全双工)。Step4: 若Vtotal​=1GB,BWlink​=50GB/s,则T=20ms。Step5: 实际受限于网络拓扑(如bisection带宽)。Step6: 配置:需确保网络无阻塞。Step7: 推荐:使用全连接拓扑。

时间20ms;1GB数据

AlltoAll Bandwidth、Bisection

:NCCL;:RoCE网络;部署:算法选择

N-1218

AlltoAll

智算中心

AlltoAll延迟模型

如何计算AlltoAll的延迟(小消息)

通信·AlltoAll Latency

Step1: 小消息时,延迟由握手和协议开销主导。Step2: 每个点对点通信延迟Lp2p​,共N-1次。Step3: 数学表达式:La2a​=(N−1)×Lp2p​。Step4: 若Lp2p​=10μs,N=64,则L=630μs。Step5: 优化:使用MPI_Alltoallv的优化实现。Step6: 配置:使用NCCL的alltoall实现。Step7: 推荐:小消息时考虑合并。

延迟630μs;N=64

AlltoAll Latency、Point-to-point

:NCCL、MPI;:RoCE网卡;部署:算法选择

N-1219

AlltoAll

智算中心

MoE AlltoAll负载均衡

如何衡量MoE AlltoAll的负载均衡程度

性能·Load Balance

Step1: 每个专家接收的token数可能不均,导致某些链路拥塞。Step2: 负载均衡度LB=\mean(tokeni​)max(tokeni​)​。Step3: 要求LB<1.2。Step4: 数学表达式:LB=E1​∑i​tokens_received_by_experti​maxi​(tokens_received_by_experti​)​。Step5: 配置:使用auxiliary loss鼓励均衡。Step6: 推荐:容量因子设为1.2。Step7: 验证:监控各专家token数。

LB<1.2;容量因子1.2

Load Balance、Auxiliary Loss

:DeepSpeed-MoE;:GPU;部署:训练配置

N-1220

AlltoAll

智控中心

AlltoAll与Allreduce混合

如何设计MoE+DP混合并行中的通信调度

通信·Hybrid Comm

Step1: MoE使用AlltoAll,DP使用Allreduce,两者可重叠。Step2: 先进行AlltoAll(前向),再进行Allreduce(反向)。Step3: 数学表达式:Tstep​=max(Ta2a_fwd​,Tar_bwd​)。Step4: 若Ta2a​=10ms,Tar​=20ms,则T=20ms。Step5: 优化:将AlltoAll与计算重叠。Step6: 配置:DeepSpeed中调度策略。Step7: 推荐:使用异步通信。

总时间20ms;重叠

Hybrid Communication、Scheduling

:DeepSpeed;:GPU、RoCE;部署:训练配置

N-1221

数据并行

智算中心

数据并行通信量计算

如何计算数据并行中梯度同步的通信量

通信·DP Volume

Step1: 数据并行中,每个GPU计算完整梯度,然后allreduce同步。Step2: 通信量Vdp​=2×model_size×precision_bytes。Step3: 数学表达式:Vdp​=2×M×B。Step4: 若模型175B参数,FP16(2字节),则Vdp​=2×175e9×2=700GB。Step5: 每个step通信700GB,若BW=50GB/s,则T=14s,不可接受。Step6: 优化:使用ZeRO减少通信量。Step7: 推荐:大模型必须使用ZeRO或模型并行。

通信量700GB;14s

Data Parallelism、Gradient Sync

:DeepSpeed、NCCL;:GPU、RoCE;部署:训练配置

N-1222

数据并行

智算中心

数据并行缩放效率

如何计算数据并行的缩放效率(Scaling Efficiency)

性能·Scaling Efficiency

Step1: 缩放效率E=Ngpu​Speedup​。Step2: Speedup受通信开销影响。Step3: 数学表达式:E=1+Tcompute​Tcomm​​1​。Step4: 若Tcomm​=14s,Tcompute​=10s,则E=1/(1+1.4)=41.7%。Step5: 优化:增大batch size或减少通信。Step6: 配置:梯度累积。Step7: 推荐:保持E>80%。

效率41.7%;通信占比大

Scaling Efficiency、Amdahl's Law

:无;:GPU;部署:训练配置

N-1223

数据并行

智算中心

PS架构与Allreduce对比

对比Parameter Server和Allreduce的通信量

架构·PS vs Allreduce

Step1: PS架构中,每个worker发送梯度到server,server更新后广播。Step2: 通信量Vps​=2×M×B×(Nworker​+Nserver​)。Step3: Allreduce通信量Var​=2×M×B。Step4: 当N_worker=1024,N_server=64时,Vps​=2×M×B×1088,远大于Allreduce。Step5: 因此现代训练几乎都用Allreduce。Step6: 配置:使用Allreduce。Step7: 推荐:PS仅用于稀疏模型。

PS通信量1088倍;Allreduce更优

Parameter Server、Allreduce

:无;:无;部署:架构选择

N-1224

模型并行

智算中心

张量并行(TP)通信量计算

如何计算TP中每个Transformer层的通信量

通信·TP Volume

Step1: TP将线性层切分,前向时需要allreduce(或allgather+reduce scatter)。Step2: 每个Transformer层通信量Vtp​=4×hidden_size×seq_len×precision_bytes。Step3: 数学表达式:Vtp​=4×H×S×B。Step4: 若H=12288,S=2048,FP16,则Vtp​=4×12288×2048×2=201MB。Step5: 每个step有L层,总通信量L×Vtp​。Step6: 配置:Megatron-LM中tensor-model-parallel-sizeStep7: 推荐:TP组内使用NVLink。

每层201MB;NVLink加速

Tensor Parallelism、Communication

:Megatron-LM;:NVLink;部署:训练配置

N-1225

模型并行

智算中心

张量并行延迟模型

如何计算TP中allreduce的延迟

通信·TP Latency

Step1: TP组内allreduce延迟Ltp​=2×(Ntp​−1)×Lhop​。Step2: 若Ntp​=8,NVLink hop延迟0.5μs,则L=2×7×0.5=7μs。Step3: 若跨节点RoCE,hop延迟5μs,则L=70μs。Step4: 因此TP必须在节点内。Step5: 配置:TP size ≤ 节点内GPU数。Step6: 推荐:TP=8(DGX H100)。Step7: 验证:NCCL allreduce benchmark。

节点内7μs;跨节点70μs

TP Latency、NVLink vs RoCE

:NCCL;:NVLink、RoCE;部署:硬件规划

N-1226

模型并行

智算中心

流水线并行(PP)通信量计算

如何计算PP中相邻stage之间的通信量

通信·PP Volume

Step1: PP中每个micro-batch在stage之间传输activation和gradient。Step2: 通信量Vpp​=2×hidden_size×seq_len×micro_batch_size×precision_bytes。Step3: 数学表达式:Vpp​=2×H×S×M×B。Step4: 若H=12288,S=2048,M=4,FP16,则Vpp​=2×12288×2048×4×2=402MB。Step5: 每个step传输次数=2×(P-1)(前向+反向)。Step6: 配置:Megatron-LM中pipeline-model-parallel-sizeStep7: 推荐:PP通信量远小于TP,可跨节点。

每传输402MB;P个stage

Pipeline Parallelism、Activation Transfer

:Megatron-LM;:RoCE;部署:训练配置

N-1227

模型并行

智算中心

流水线并行Bubble计算

如何计算PP的Bubble占比

性能·PP Bubble

Step1: Bubble占比公式Bubble=P×M(P−1)×(M−1)​(错误,实际为M+P−1P−1​)。Step2: 正确公式:Bubble=M+P−1P−1​。Step3: 数学表达式:若P=8,M=32,则Bubble=7/39=17.9%。Step4: 若P=8,M=64,则Bubble=7/71=9.86%。Step5: 增大M可降低Bubble。Step6: 配置:设置micro-batch-sizeStep7: 推荐:M≥4×P。

Bubble 17.9%(P=8,M=32);M越大越好

Pipeline Bubble、Micro-batch

:Megatron-LM;:GPU;部署:训练配置

N-1228

模型并行

智算中心

1F1B调度与通信重叠

如何配置1F1B调度实现通信与计算重叠

性能·1F1B Overlap

Step1: 1F1B调度中,每个stage前向和反向交错,通信(发送activation/gradient)与计算可重叠。Step2: 重叠度取决于通信时间与计算时间的相对大小。Step3: 数学表达式:Tstep_eff​=max(Tcompute_per_micro​,Tcomm_per_micro​)×(M+P−1)。Step4: 若Tcompute​=5ms,Tcomm​=2ms,则每micro-step时间5ms,总时间5×(32+8-1)=195ms。Step5: 配置:Megatron-LM中pipeline-model-parallel-sizeStep6: 推荐:通信时间小于计算时间。Step7: 验证:profile step time。

总时间195ms;通信完全隐藏

1F1B、Overlap

:Megatron-LM;:GPU、RoCE;部署:训练配置

N-1229

模型并行

智算中心

虚拟流水线(Virtual Pipeline)

如何通过虚拟流水线进一步降低Bubble

性能·Virtual Pipeline

Step1: Virtual Pipeline将每个stage划分为V个虚拟stage,等效增加流水线深度。Step2: Bubble公式变为Bubblevp​=M+P×V−1P×V−1​。Step3: 若P=8,V=2,M=32,则Bubble=15/47=31.9%,反而增大?Step4: 实际上Virtual Pipeline通过增加微批次数量来降低Bubble,但这里M不变,所以Bubble增大。Step5: 正确用法:保持总micro-batch数不变,但每个virtual stage处理更少的micro-batch,从而减少等待。Step6: 配置:Megatron-LM中virtual-pipeline-model-parallel-sizeStep7: 推荐:需仔细调参。

Bubble 31.9%(V=2);需配合M调整

Virtual Pipeline、Bubble Reduction

:Megatron-LM;:GPU;部署:训练配置

N-1230

模型并行

智算中心

专家并行(EP)通信量计算

如何计算MoE专家并行的通信量

通信·EP Volume

Step1: EP将专家分布到不同GPU,前向时AlltoAll发送token,反向时AlltoAll发送梯度。Step2: 通信量Vep​=2×batch_size×topk×hidden_size×precision_bytes。Step3: 数学表达式:Vep​=2×B×K×H×P。Step4: 若B=1024,K=2,H=4096,FP16,则Vep​=2×1024×2×4096×2=33.5MB。Step5: 每个step一次AlltoAll。Step6: 配置:DeepSpeed-MoE中expert-parallel-sizeStep7: 推荐:EP通信量较小,可跨节点。

33.5MB;AlltoAll

Expert Parallelism、MoE

:DeepSpeed-MoE;:GPU、RoCE;部署:训练配置

N-1231

模型并行

智算中心

序列并行(SP)通信量计算

如何计算序列并行的通信量

通信·SP Volume

Step1: 序列并行将序列维度切分,在self-attention前需要allgather,之后reduce scatter。Step2: 通信量Vsp​=2×hidden_size×seq_len/Nsp​×precision_bytes。Step3: 数学表达式:Vsp​=2×H×S/Nsp​×B。Step4: 若H=12288,S=2048,Nsp​=2,FP16,则Vsp​=2×12288×1024×2=50.3MB。Step5: 相比TP,SP通信量更小。Step6: 配置:Megatron-LM中sequence-parallelStep7: 推荐:长序列训练必选。

50.3MB;N_sp=2

Sequence Parallelism、Communication

:Megatron-LM;:GPU、RoCE;部署:训练配置

N-1232

模型并行

智算中心

上下文并行(CP)通信量

如何计算上下文并行(Context Parallelism)的通信量

通信·CP Volume

Step1: CP将长序列切分到多个GPU,每个GPU处理一段,通过allgather获取完整KV Cache。Step2: 通信量Vcp​=2×hidden_size×seq_len×layers×precision_bytes/Ncp​。Step3: 数学表达式:Vcp​=2×H×S×L×B/Ncp​。Step4: 若H=12288,S=128K,L=80,Ncp​=8,FP16,则Vcp​=2×12288×128K×80×2/8=629GB,极大。Step5: 优化:使用Ring attention减少单次通信量。Step6: 配置:Ring Attention实现。Step7: 推荐:超长序列(>128K)使用。

629GB;N_cp=8

Context Parallelism、Ring Attention

:Ring Attention、vLLM;:GPU、RoCE;部署:训练配置

N-1233

模型并行

智算中心

混合并行通信占比分析

如何计算DP+TP+PP+EP混合并行中各部分的通信占比

性能·Communication Profile

Step1: 总通信时间Tcomm​=Tdp_ar​+Ttp_ar​+Tpp_p2p​+Tep_a2a​。Step2: 各部分占比Rx​=Tx​/Tcomm​。Step3: 数学表达式:Tdp_ar​=2×M×B/BWdp​,Ttp_ar​=4×H×S×L×B/BWtp​,Tpp_p2p​=2×(P−1)×Vpp​/BWpp​,Tep_a2a​=2×B×K×H×B/BWep​。Step4: 典型值:M=175B,H=12288,S=2048,L=80,P=8,K=2,BW_dp=50GB/s,BW_tp=600GB/s(NVLink),BW_pp=50GB/s,BW_ep=50GB/s。Step5: 计算得T_dp=14s,T_tp=0.02s,T_pp=0.04s,T_ep=0.003s,可见DP占绝对主导。Step6: 优化:使用ZeRO减少DP通信。Step7: 推荐:大模型必须使用ZeRO或TP/PP。

DP占99%;TP/PP极小

Communication Profile、Bottleneck

:Profiler;:GPU、RoCE;部署:训练分析

N-1234

模型并行

智算中心

并行策略选择指南

如何根据模型规模和集群拓扑选择最优并行策略

架构·Strategy Selection

Step1: 小模型(<1B):DP足够。Step2: 中等模型(1B-10B):DP+TP(TP=8节点内)。Step3: 大模型(10B-100B):DP+TP+PP(PP跨节点)。Step4: 超大模型(>100B):DP+TP+PP+EP(MoE)。Step5: 数学表达式:Memory_per_gpu=DP×TP×PPmodel_size​×(1+overhead)。Step6: 若模型175B,DP=64,TP=8,PP=16,则每GPU显存=175e9/(64 * 8 * 16)2bytes=42.7GB,可行。Step7*: 推荐:使用自动并行工具(如Galvatron)。

每GPU 42.7GB;并行度乘积

Strategy Selection、Auto Parallelism

:Galvatron、Megatron-LM;:GPU;部署:训练规划

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1235

网络架构

智算中心

Spine-Leaf组网规模计算

如何根据服务器数量和网口密度计算Spine和Leaf的数量

架构·规模计算

Step1: 单台Leaf下行端口数Dleaf​,每服务器网口数Nnic​,服务器总数S。Step2: Leaf数量L=⌈S×Nnic​/Dleaf​⌉。Step3: 每Leaf上行端口数Uleaf​,Spine数量Sp=⌈L×Uleaf​/Pspine​⌉,其中Pspine​为单台Spine的总端口数。Step4: 例:S=128,Nnic​=8,Dleaf​=32,则L=32;Uleaf​=16,Pspine​=32(CE9860),则Sp=16。Step5: 验证收敛比1:1,需Uleaf​×L=Sp×Pspine​。Step6: 配置:根据实际需求选择CE9860或CE16800系列。Step7: 推荐:Spine数量为2的幂。

Leaf=32,Spine=16;收敛比1:1

Spine-Leaf Scale、Convergence Ratio

:无;:CE9860、CE16800;部署:拓扑规划

N-1236

网络架构

智算中心

M-LAG组网Peer-link带宽计算

如何确定M-LAG组中Peer-link的带宽需求

可靠性·Peer-link BW

Step1: Peer-link用于同步MAC/ARP信息和转发跨设备流量。Step2: 带宽需求为单Leaf上行带宽的一半。Step3: 数学表达式:BWpeer​=2Uleaf​×BWport​​。Step4: 若Uleaf​=12,BWport​=100G,则BWpeer​=600G,需6个100G端口。Step5: 配置:CE8850E共32端口,分配6口做peer-link。Step6: 推荐:peer-link使用独立端口,不与业务口共享。Step7: 验证:监控peer-link利用率。

带宽600G;6个100G端口

M-LAG、Peer-link

:交换机配置;:CE8850E;部署:存储面组网

N-1237

网络架构

智算中心

去堆叠组网ARP双发机制

如何理解去堆叠组网中服务器ARP双发的工作原理

协议·ARP Dual Send

Step1: 服务器双网口绑定(mode1主备),但Leaf之间无横连,主Leaf故障时备Leaf需学习ARP。Step2: 依赖服务器ARP双发:服务器发送ARP请求时,两个网口都发送,两台Leaf都能学习。Step3: 要求ARP双发功能在服务器侧开启(待验证)。Step4: 数学表达式:ARP_learn_time=Tsend​+Tprocess​。Step5: 若Tsend​=1ms,Tprocess​=1ms,则T=2ms。Step6: 配置:服务器网卡驱动支持ARP双发。Step7: 推荐:M-LAG更成熟,去堆叠慎用。

ARP学习2ms;依赖服务器

ARP Dual Send、去堆叠

:网卡驱动;:服务器网卡;部署:存储面组网

N-1238

网络架构

智算中心

EBGP路由邻居数量计算

如何计算Spine和Leaf的EBGP邻居数量

路由·EBGP Neighbors

Step1: Leaf与所有Spine建立EBGP邻居,每Leaf邻居数=Spine数。Step2: Spine与所有Leaf建立EBGP邻居,每Spine邻居数=Leaf数。Step3: 数学表达式:Nleaf_neigh​=Sp,Nspine_neigh​=L。Step4: 例:1024卡场景,Sp=16,L=32,则Leaf邻居16个,Spine邻居32个。Step5: 大规模18432卡,Sp=16,L=576,Spine邻居576个。Step6: 配置:允许AS号重复一次(allowas-in)。Step7: 推荐:Spine使用路由反射器减少邻居数。

Leaf邻居16,Spine邻居576

EBGP Full Mesh、Allowas-in

:交换机配置;:CE9860/CE16800;部署:参数面路由

N-1239

网络架构

智算中心

分布式网关ARP代理

如何配置分布式网关实现ARP终结

路由·ARP Proxy

Step1: 多台Leaf配置相同VLANIF接口IP和MAC,作为分布式网关。Step2: 服务器ARP请求在接入Leaf上终结,不扩散到其他Leaf。Step3: 数学表达式:ARP_reply=leaf_mac。Step4: 配置:Leaf上使能arp proxy或vlink直连路由。Step5: 优势:减少ARP广播,支持ECMP。Step6: 推荐:参数面和存储面均使用。Step7: 验证:display arp查看MAC一致。

网关IP/MAC一致;ARP终结

Distributed Gateway、ARP Proxy

:交换机配置;:CE9860;部署:参数面/存储面

N-1240

网络架构

智算中心

多租户VLAN+ACL隔离策略

如何通过VLAN和ACL实现租户间二层隔离

安全·VLAN ACL

Step1: 不同租户分配不同VLAN,Leaf接入端口划分对应VLAN。Step2: 在VLANIF接口上应用ACL,仅允许本租户网段互通。Step3: 数学表达式:ACL_rule=permitsrc_iptenant_subnet,其余deny。Step4: 配置示例:租户A VLAN 10,网段192.168.10.0/24,ACL允许192.168.10.0/24。Step5: 要求:跨租户流量默认丢弃。Step6: 推荐:按单租户交付时不配ACL。Step7: 验证:跨租户ping不通。

租户隔离;ACL deny其余

Multi-tenant Isolation、VLAN

:交换机ACL配置;:CE9860;部署:参数面

N-1241

存储

智算中心

HPFS存储集群节点比例

如何确定MDS、OSS、CM节点的数量比例

架构·Node Ratio

Step1: MDS节点管理元数据,OSS节点存储数据,CM节点管理集群。Step2: 经验比例:每100台OSS配1台MDS,CM通常3台。Step3: 数学表达式:Nmds​=⌈Noss​/100⌉,Ncm​=3。Step4: 例:18432卡对应1230台OSS,则MDS=13台,CM=3台。Step5: 配置:根据实际性能调优。Step6: 推荐:MDS和OSS分开部署。Step7: 验证:元数据操作延迟。

MDS:OSS=1:100;CM固定3台

HPFS、Metadata Server

:HPFS管理软件;:存储服务器;部署:存储集群

N-1242

存储

智算中心

存储面M-LAG组网上下行收敛比

如何计算存储面Leaf的上下行收敛比

架构·Convergence Ratio

Step1: 存储面Leaf上行端口数U,下行端口数D,收敛比R=U/D。Step2: 华为设计采用1:1收敛(U=D)。Step3: 数学表达式:R=1。Step4: 例:CE8850E上行12口,下行12口,收敛比1:1。Step5: 优势:无带宽收敛,保障存储IO性能。Step6: 配置:确保上下行端口数相等。Step7: 推荐:始终1:1。

收敛比1:1;上下行相等

Convergence Ratio、Storage Network

:无;:CE8850E;部署:存储面组网

N-1243

存储

智算中心

存储节点双网口负载分担

如何配置存储服务器的网口绑定模式

可靠性·Bond Mode

Step1: 存储服务器双网口接入一对Leaf,使用mode4(802.3ad动态聚合)。Step2: 计算节点使用mode1(主备)。Step3: 数学表达式:BWagg​=2×BWport​(mode4),BWactive​=BWport​(mode1)。Step4: 配置:存储侧LACP协商,计算侧主备。Step5: 要求:存储侧负载分担,计算侧故障切换。Step6: 推荐:存储侧使用mode4提升带宽。Step7: 验证:cat /proc/net/bonding/bond0

存储聚合200G;计算主备100G

Bonding、LACP

:操作系统bond配置;:CX6网卡;部署:服务器侧

N-1244

存储

智算中心

存储IO路径延迟分析

如何计算计算节点到存储节点的IO延迟

性能·IO Latency

Step1: IO路径:计算节点→Leaf→Spine→存储Leaf→存储节点。Step2: 延迟组成:Ltotal​=Lcalc_leaf​+Lleaf_spine​+Lspine_stor_leaf​+Lstor_leaf_stor​。Step3: 每跳约5μs(含串行化+传播+交换),共4跳,则L=20μs。Step4: 加上存储节点处理延迟(约100μs),总约120μs。Step5: 要求RTT 200~300μs,符合。Step6: 配置:使用低延迟RoCE网卡。Step7: 推荐:减少跳数,如存储Leaf直连计算Leaf(非必需)。

总延迟约120μs;RTT 200-300μs

IO Latency、RoCE

:无;:RoCE网卡、交换机;部署:存储面

N-1245

存储

智算中心

冷存储与热存储分层

如何设计冷热数据分层存储策略

架构·Tiering

Step1: 热存储使用全闪(OceanDisk全闪),冷存储使用混闪(OceanDisk混闪)。Step2: 数据根据访问频率自动迁移,迁移阈值Thot​=7天未访问则降冷。Step3: 数学表达式:Tier={hot,cold,​last_access<7dotherwise​。Step4: 配置:HPFS支持自动分层。Step5: 要求:热存储容量满足活跃数据,冷存储容量大。Step6: 推荐:热冷比例1:3。Step7: 验证:监控分层迁移流量。

7天阈值;热冷比例1:3

Hot/Cold Tiering、HPFS

:HPFS管理;:全闪/混闪盘框;部署:存储集群

N-1246

存储

智算中心

并行文件存储带宽模型

如何计算并行文件系统(HPFS)的聚合带宽

性能·Aggregate BW

Step1: 每个OSS节点提供带宽BWoss​,总OSS数Noss​,网络带宽瓶颈。Step2: 聚合带宽BWagg​=min(Noss​×BWoss​,BWnetwork​)。Step3: 数学表达式:BWagg​=min(Noss​×10GB/s,3.84TB/s)。Step4: 若Noss​=1230,每OSS 10GB/s,则12.3TB/s,受限于网络3.84TB/s。Step5: 实际瓶颈在网络。Step6: 配置:增加Spine数量提升bisection带宽。Step7: 推荐:网络带宽应与存储带宽匹配。

聚合带宽3.84TB/s;网络瓶颈

Parallel File System、Aggregate Bandwidth

:HPFS;:OSS节点、RoCE网络;部署:存储集群

N-1247

存储

智算中心

存储多租户安全隔离(QoS组+ACL)

如何配置存储面多租户隔离,仅允许计算节点访问存储

安全·Storage Isolation

Step1: 计算节点接入Leaf配置QoS组,应用ACL只允许存储网段。Step2: 存储节点接入Leaf不做限制。Step3: 数学表达式:ACL_rule=permitdst_ipstorage_subnet。Step4: 配置:计算节点端口加入QoS组,ACL deny其他。Step5: 要求:计算节点之间不能互访,计算节点只能访问存储。Step6: 推荐:使用单独VLAN(如VLAN30/31)。Step7: 验证:计算节点间ping不通。

仅允许存储网段;计算节点隔离

Storage Security、QoS Group

:交换机ACL;:CE8850E;部署:存储面

N-1248

计算

智算中心

昇腾NPU混合精度训练Loss Scaling

如何配置Loss Scaling防止梯度下溢

精度·Loss Scaling

Step1: FP16梯度可能过小(<2^-24),乘以缩放因子S放大。Step2: 静态缩放:固定S=232,动态缩放:根据溢出情况调整。Step3: 数学表达式:Loss_scaled=Loss×S,反向传播后梯度也缩放S倍。Step4: 配置:使用NPULossScaleOptimizer。Step5: 要求:不出现NaN梯度。Step6: 推荐:动态缩放,初始S=232。Step7: 验证:监控loss是否稳定。

缩放因子2^32;动态调整

Mixed Precision、Loss Scaling

:NPULossScaleOptimizer;:Ascend 910;部署:训练脚本

N-1249

计算

智算中心

昇腾NPU分布式训练HCCL初始化

如何配置HCCL的IP地址和网络参数

通信·HCCL Init

Step1: 每个NPU对应一个RoCE网卡,需配置IP地址在同一网段。Step2: 同一服务器内网卡0/4同网段,1/5同网段等。Step3: 数学表达式:IPdevice_i​=192.168.i.10,子网掩码255.255.255.0。Step4: 配置:使用hccn_tool设置IP。Step5: 要求:跨服务器相同位置的网卡在同一网段。Step6: 推荐:使用脚本批量配置。Step7: 验证:hccn_tool -i 0 -ip -a

同服务器内网卡分组;跨服务器对应

HCCL、IP Configuration

:hccn_tool;:Ascend 910、RoCE网卡;部署:服务器网络

N-1250

计算

智算中心

昇腾NPU分布式训练AllReduce梯度分段

如何调整梯度分段策略优化通信与计算重叠

性能·Gradient Segmentation

Step1: 默认将梯度分为两段,第一段占96.54%,第二段占3.46%。Step2: 通过set_split_strategy_by_size调整比例。Step3: 数学表达式:Tstep​=max(Tcompute​,Tar1​)+Tar2​。Step4: 优化目标:Tar1​完全隐藏在Tcompute​内,Tar2​尽可能短。Step5: 例:若计算时间长,可增大第一段比例至90%。Step6: 配置:调用API前先初始化HCCL。Step7: 推荐:通过profiling分析后调整。

分段比例可调;隐藏AR1

Gradient Segmentation、Overlap

:hccl.split.api;:Ascend 910;部署:训练脚本

N-1251

计算

智算中心

昇腾NPU算子性能替换

如何将低效算子替换为NPU高性能算子

性能·Operator Replacement

Step1: 原生TensorFlow的dropout和gelu在NPU上性能不佳。Step2: 替换为npu_ops.dropout和npu_unary_ops.gelu。Step3: 数学表达式:Tnew_op​=Told_op​×speedup。Step4: 实测gelu替换后速度提升约2倍。Step5: 配置:导入npu_bridge相应模块。Step6: 推荐:所有自定义算子优先使用NPU原生实现。Step7: 验证:profiling对比算子耗时。

速度提升2倍;替换gelu/dropout

High-performance Op、NPU

:npu_bridge;:Ascend 910;部署:训练脚本

N-1252

计算

智算中心

昇腾NPU数据预处理卸载

如何将数据预处理卸载到NPU设备侧

性能·Data Preproc Offload

Step1: 部分数据预处理算子(map、batch)可在NPU上执行,减少Host-Device交互。Step2: 使用prefetch插入后可能阻止卸载。Step3: 数学表达式:Tpreproc​=Thost​+Tdevice​。Step4: 配置:在NPURunConfig中设置enable_data_pre_proc=True。Step5: 要求:shuffle不能在设备侧,需放在Host。Step6: 推荐:将map和batch放在设备侧。Step7: 验证:观察Host CPU利用率下降。

设备侧执行map/batch;减少交互

Data Preprocessing、Offload

:NPURunConfig;:Ascend 910;部署:训练配置

N-1253

计算

智算中心

昇腾NPU Profiling数据采集

如何采集NPU训练的profiling数据进行分析

性能·Profiling Collection

Step1: 设置环境变量PROFILING_MODE=true,指定FP_POINT和BP_POINT。Step2: 采集training_trace和task_trace。Step3: 数学表达式:Tfp+bp​=Tbp_point​−Tfp_point​。Step4: 配置:在脚本中通过ProfilingConfig或在sess.run中设置。Step5: 要求:先确定FP和BP的算子名称(从graph.pbtxt获取)。Step6: 推荐:只采集少量迭代。Step7: 分析:使用chrome://tracing查看timeline。

采集FP/BP时间;graph.pbtxt

Profiling、Timeline

:Profiling工具;:Ascend 910;部署:训练调优

N-1254

计算

智算中心

昇腾NPU精度对比(dump数据)

如何对比NPU和GPU的算子输出精度

精度·Dump Comparison

Step1: 在NPU上使能dump,保存算子输入输出。Step2: 在GPU上使用tfdbg保存npy文件。Step3: 使用compare_vector.pyc进行余弦相似度等对比。Step4: 数学表达式:(CosineSimilarity = \frac{A \cdot B}{

A

N-1255

计算

智算中心

昇腾NPU PS-Worker分布式训练

如何配置PS-Worker架构的分布式训练

分布式·PS-Worker

Step1: 设置TF_CONFIG环境变量,指定worker和ps的地址。Step2: 使用NPUEstimator和ParameterServerStrategy。Step3: 数学表达式:Titer​=2×X×Nworker​/B(PS架构)。Step4: 配置:mix_compile_mode=True,iterations_per_loop=1。Step5: 要求:每个worker只用一个NPU。Step6: 推荐:小规模使用,大规模用AllReduce。Step7: 验证:loss正常下降。

PS架构通信量线性增长;小规模适用

PS-Worker、TF_CONFIG

:NPUEstimator、NPUDistributedOptimizer;:Ascend 910;部署:训练集群

N-1256

计算

智算中心

昇腾NPU AllReduce分布式训练(Horovod迁移)

如何将Horovod训练脚本迁移到NPU

分布式·Horovod Migration

Step1: 替换hvd.DistributedOptimizer为NPUDistributedOptimizer。Step2: 替换hvd.local_rank为get_local_rank_id等。Step3: 数学表达式:Tallreduce​=2×(N−1)×X/(N×B)。Step4: 配置:注释掉hvd.init,NPU自动初始化。Step5: 要求:数据并行时使用dataset.shard。Step6: 推荐:使用NPUDistributedOptimizer。Step7: 验证:多卡训练速度线性提升。

替换Horovod API;自动初始化

Horovod Migration、AllReduce

:NPUDistributedOptimizer;:Ascend 910;部署:训练脚本

N-1257

计算

智算中心

昇腾NPU单服务器8卡训练配置

如何配置单服务器内8卡分布式训练

分布式·Single Server

Step1: 8张NPU通过HCCL通信,使用Ring AllReduce。Step2: 配置IP:网卡0/4同网段,1/5同网段等。Step3: 数学表达式:Tar_8card​=2×(8−1)×X/(8×B)。Step4: 配置:使用NPUDistributedOptimizer。Step5: 要求:所有NPU在同一台服务器,通过PCIe/NVLink互联。Step6: 推荐:batch size按8卡线性扩大。Step7: 验证:npu-smi info查看设备状态。

8卡Ring AllReduce;PCIe互联

Single-server Training、HCCL

:NPUDistributedOptimizer;:Ascend 910服务器;部署:单机训练

N-1258

计算

智算中心

昇腾NPU多服务器集群训练规模

如何确定多服务器集群的最大规模(128服务器)

分布式·Cluster Scale

Step1: 当前HCCL支持最多128台服务器,每台8卡,共1024卡。Step2: 数学表达式:Ngpu_max​=128×8=1024。Step3: 配置:所有服务器在同一二层网络,PFC/ECN开启。Step4: 要求:服务器数量为2的幂时性能最佳。Step5: 推荐:初期部署64台(512卡)。Step6: 验证:allreduce benchmark测试。

最大1024卡;2的幂最佳

Cluster Scale、HCCL Limit

:HCCL;:Ascend 910、RoCE交换机;部署:集群规划

N-1259

计算

智算中心

昇腾NPU训练脚本迁移(Estimator模式)

如何将TensorFlow Estimator训练脚本迁移到NPU

迁移·Estimator

Step1: 替换tf.estimator.RunConfig为NPURunConfig。Step2: 替换tf.estimator.Estimator为NPUEstimator。Step3: 数学表达式:Tmigrate​=Toriginal​×(1+overhead),通常overhead很小。Step4: 配置:设置precision_mode、iterations_per_loop。Step5: 要求:移除不支持的参数(train_distribute等)。Step6: 推荐:使用NPU高性能算子(dropout、gelu)。Step7: 验证:loss曲线与GPU一致。

迁移工作量小;配置NPURunConfig

Migration、Estimator

:npu_bridge;:Ascend 910;部署:训练脚本

N-1260

计算

智算中心

昇腾NPU训练脚本迁移(sess.run模式)

如何将TensorFlow sess.run训练脚本迁移到NPU

迁移·sess.run

Step1: 创建session前添加NpuOptimizer配置。Step2: 设置use_off_line=True,precision_mode等。Step3: 数学表达式:Tmigrate​=Toriginal​+Tgraph_optimize​。Step4: 配置:关闭remapping(RewriterConfig.OFF)。Step5: 要求:导入npu_bridge。Step6: 推荐:使用Estimator模式更简单。Step7: 验证:运行后检查loss。

添加NpuOptimizer;关闭remap

Migration、sess.run

:npu_bridge;:Ascend 910;部署:训练脚本

N-1261

计算

智算中心

昇腾NPU混合精度模式选择

如何选择allow_mix_precision或force_fp16

精度·Precision Mode

Step1: allow_mix_precision自动将部分算子降为FP16,保留关键算子FP32。Step2: force_fp16强制所有支持FP16的算子使用FP16。Step3: 数学表达式:Accmix​≈Accfp32​,Accforce​可能略低。Step4: 配置:在NPURunConfig中设置precision_mode。Step5: 要求:force_fp16需验证精度。Step6: 推荐:默认allow_mix_precision。Step7: 验证:对比训练曲线。

混合精度精度损失小;force_fp16性能更高

Mixed Precision、Mode Selection

:NPURunConfig;:Ascend 910;部署:训练配置

N-1262

计算

智算中心

昇腾NPU内存管理(graph_memory_max_size)

如何调整NPU内存分配避免OOM

资源·Memory Management

Step1: graph_memory_max_size控制网络静态和动态内存,variable_memory_max_size控制变量内存。Step2: 两者之和不超过31GB。Step3: 数学表达式:Memtotal​=Memgraph​+Memvar​≤31GB。Step4: 配置:默认graph=26GB,var=5GB。Step5: 若OOM,减小batch size或调整比例。Step6: 推荐:先尝试减小batch size。Step7: 验证:npu-smi info查看显存使用。

总和≤31GB;默认26+5

NPU Memory、OOM

:NPURunConfig;:Ascend 910;部署:训练调优

N-1263

计算

智算中心

昇腾NPU混合计算模式

如何处理NPU不支持的算子(混合计算)

兼容性·Mixed Computation

Step1: 对于NPU不支持的算子(如tf.signal.fft),使用混合计算模式,在Host CPU上执行。Step2: 设置mix_compile_mode=True,iterations_per_loop=1。Step3: 数学表达式:Tmixed​=Tnpu​+Tcpu​。Step4: 配置:使用without_npu_compile_scope包裹不支持算子。Step5: 要求:混合计算模式下性能下降。Step6: 推荐:尽量开发TBE算子替代。Step7: 验证:功能正确性。

混合计算性能下降;iterations_per_loop=1

Mixed Computation、Unsupported Op

:NPURunConfig;:Ascend 910;部署:训练兼容

N-1264

计算

智算中心

昇腾NPU训练性能优化总结

如何综合运用各种优化手段提升训练吞吐

性能·Overall Optimization

Step1: 优化手段:混合精度、数据卸载、算子替换、梯度分段、CPU绑定、增大iterations_per_loop。Step2: 预期加速比Speedup=∏(1+improvementi​)。Step3: 数学表达式:Topt​=Tbase​/Speedup。Step4: 例:混合精度1.5x,数据卸载1.2x,算子替换1.1x,梯度分段1.1x,总加速约2.18x。Step5: 配置:逐一启用并profiling验证。Step6: 推荐:优先混合精度和数据卸载。Step7: 验证:最终吞吐对比。

综合加速约2x;逐项优化

Performance Tuning、Best Practices

:Profiling工具;:Ascend 910;部署:训练调优

AI 阅读

补充;单次30个编号

超出字数限制,元宝已阅读93%

已深度思考(用时1秒)

我们继续补充30个编号(N-1265 ~ N-1294),聚焦于网络架构、存储(含冷存储、并行文件存储、热存储)、计算,基于之前文档和华为方案。保持中文描述和逐步推理的数学表达式。

以下为新增的30个编号(N-1265 ~ N-1294),聚焦于网络架构、存储(含冷存储、并行文件存储、热存储)、计算,基于华为文档内容,每个条目包含逐步推理的数学表达式推导,全部中文描述。

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1265

网络架构

智算中心

参数面2级CLOS组网设备数量计算

如何根据服务器规模计算所需交换机总数

架构·设备数量

Step1: 服务器台数S,每服务器网口数Nnic​,每Leaf下行端口数Dleaf​。Step2: Leaf数量L=⌈S×Nnic​/Dleaf​⌉。Step3: Spine数量固定为16(最大配置),每Spine端口数Pspine​需满足L×Uleaf​≤Sp×Pspine​。Step4: 例:1024卡(128台服务器,每台8口200G),Dleaf​=32,L=32,Spine=16台CE9860(每台32口400G)。Step5: 总交换机数T=L+Sp=48台。Step6: 配置:Spine初始部署最大数量,Leaf按需增加。Step7: 推荐:Spine数量为2的幂。

1024卡需48台交换机;Spine固定16

CLOS Scale、Device Count

:无;:CE9860/CE16800;部署:参数面

N-1266

网络架构

智算中心

存储面M-LAG组网Spine端口利用率

如何计算Spine交换机端口的使用率

性能·Port Utilization

Step1: 每台Spine连接的Leaf对数Nleaf_pair​,每对Leaf上行12口,总上行口数Utotal​=Lpairs​×12。Step2: 每台Spine端口数Pspine​,利用率R=Utotal​/(Sp×Pspine​)。Step3: 数学表达式:R=Sp×Pspine​Lpairs​×12​。Step4: 例:1024卡,计算Leaf 11对,存储Leaf 7对,共18对,Spine=4台CE9860(每台128口100G),则R=18×12/(4×128)=216/512=42.2%。Step5: 配置:Spine端口有余量,可扩展。Step6: 推荐:利用率控制在60%-80%。Step7: 验证:监控端口利用率。

利用率42.2%;Spine端口有余量

Port Utilization、Spine

:无;:CE9860;部署:存储面

N-1267

网络架构

智算中心

参数面Y型线缆一分二原理

如何理解400G端口一分二成两个200G端口

硬件·Y Cable

Step1: CE9860的400G端口通过一分二线缆(Y型)拆分为两个200G端口,分别连接两个NPU网卡。Step2: 每个NPU网卡使用200G,共享400G物理端口带宽。Step3: 数学表达式:BWphy​=400G,BWper_np​=200G。Step4: 配置:每台Atlas 800-9000 A2服务器有8个NPU,需4个400G端口(一分二得8个200G)。Step5: 要求:两个200G端口不能同时跑满400G,否则拥塞。Step6: 推荐:训练场景下流量均匀分布,通常不会同时打满。Step7: 验证:监控端口利用率。

400G拆2×200G;共享带宽

Y Cable、Port Splitting

:无;:CE9860、Y型线缆;部署:参数面接入

N-1268

网络架构

智算中心

参数面子卡与服务器对应关系

如何理解CE9860的子卡与服务器的绑定关系

硬件·Subcard Mapping

Step1: CE9860有4个子卡,每个子卡4个400G端口。Step2: 每个子卡的4个400G端口下行连接一台Atlas 800-9000 A2服务器(一分二成8个200G)。Step3: 数学表达式:Servers_per_leaf=4。Step4: 配置:子卡的另外4个400G端口上行到Spine。Step5: 优势:故障隔离,一个子卡故障只影响一台服务器。Step6: 推荐:按子卡规划服务器接入。Step7: 验证:display device查看子卡状态。

每Leaf接4台服务器;子卡隔离

Subcard、Server Mapping

:交换机配置;:CE9860;部署:参数面

N-1269

网络架构

智算中心

参数面PFC水线调优

如何调整PFC Xoff水线避免欠吞吐或丢包

性能·PFC Watermark

Step1: Xoff水线过低导致带宽利用率低(欠吞吐),过高导致丢包。Step2: 推荐初始值:dcb pfc buffer xoff dynamic 4(对应α=1/8,最大使用11.11%)。Step3: 数学表达式:Buffer_usage=α/(α+1)。Step4: 调参方法:若出方向丢包,降低Xoff值(减小dynamic值);若欠吞吐,提高Xoff值。Step5: 配置:在Leaf和Spine端口上配置。Step6: 推荐:以步长1调整。Step7: 验证:监控PFC暂停帧计数和吞吐。

Dynamic 4对应11.11%;步长1调整

PFC Watermark、Xoff

:交换机配置;:CE9860/CE8850E;部署:参数面/存储面

N-1270

网络架构

智算中心

参数面ECN水线调优

如何调整ECN标记门限平衡延迟和吞吐

性能·ECN Threshold

Step1: ECN低水线Kmin​和高水线Kmax​,标记概率Pmax​。Step2: 100G端口推荐初始值:Kmin​=5K−15Kcells,Kmax​=500K−2Mcells,Pmax​=10%。Step3: 数学表达式:Mark_prob=Pmax​×Kmax​−Kmin​Qavg​−Kmin​​。Step4: 调参:若延迟过高,降低水线;若吞吐不足,提高水线。Step5: 配置:在Leaf和Spine端口上配置。Step6: 推荐:使用二分法逐步调整。Step7: 验证:监控ECN标记数和吞吐。

低水线5K-15K;高水线500K-2M

ECN Threshold、Congestion Control

:交换机配置;:CE9860/CE8850E;部署:参数面/存储面

N-1271

网络架构

智算中心

参数面PFC死锁检测与恢复

如何配置PFC死锁检测参数自动恢复

可靠性·Deadlock Recovery

Step1: 死锁检测周期Tdetect​=10ms,恢复周期Trecover​=10ms,turn-off阈值Nturnoff​=5。Step2: 检测到死锁后,忽略PFC反压帧,恢复发送。Step3: 数学表达式:Tdeadlock_recover​=Tdetect​+Trecover​。Step4: 配置:priority 4 deadlock-detect time 10 deadlock-recovery time 10 priority 4 turn-off threshold 5Step5: 要求:所有交换机开启。Step6: 推荐:同时部署死锁预防(钩子流检测)。Step7: 验证:模拟链路故障测试。

检测+恢复=20ms;turn-off阈值5

PFC Deadlock、Auto Recovery

:交换机配置;:CE9860/CE8850E;部署:参数面/存储面

N-1272

存储

智算中心

HPFS存储集群元数据操作延迟

如何计算MDS节点处理元数据请求的延迟

性能·Metadata Latency

Step1: 计算节点发起读请求,先向MDS查询元数据。Step2: MDS处理时间Tmds​,网络往返RTT。Step3: 数学表达式:Lmeta​=RTT+Tmds​。Step4: 若RTT=100μs,Tmds​=50μs,则Lmeta​=150μs。Step5: 配置:MDS使用高性能CPU和NVMe。Step6: 要求:元数据延迟<200μs。Step7: 推荐:MDS节点使用全闪存储。

元数据延迟150μs;MDS处理50μs

Metadata Latency、MDS

:HPFS;:MDS服务器;部署:存储集群

N-1273

存储

智算中心

HPFS存储集群数据读写带宽模型

如何计算HPFS集群的读写带宽

性能·Read/Write BW

Step1: 每个OSS节点提供读带宽BWread​和写带宽BWwrite​,总OSS数Noss​。Step2: 聚合带宽BWagg_read​=Noss​×BWread​,受限于网络。Step3: 数学表达式:BWagg​=min(Noss​×BWper_oss​,BWnetwork​)。Step4: 例:每OSS读10GB/s,写5GB/s,Noss​=1230,则读12.3TB/s,写6.15TB/s,网络3.84TB/s,实际读受限网络。Step5: 配置:增加Spine数量提升网络带宽。Step6: 推荐:读写比例1:2。Step7: 验证:fio测试。

读12.3TB/s(网络瓶颈3.84TB/s);写6.15TB/s

Aggregate Bandwidth、OSS

:HPFS;:OSS节点;部署:存储集群

N-1274

存储

智算中心

全闪与混闪存储备份流量

如何计算全闪到混闪的备份带宽需求

性能·Backup BW

Step1: 全闪作为热存储,混闪作为冷存储,周期性备份数据。Step2: 备份周期Tbackup​=1天,全闪容量Cflash​,备份窗口W=4小时。Step3: 数学表达式:BWbackup​=Cflash​/W。Step4: 若Cflash​=100TB,W=4h,则BWbackup​=100TB/4h=6.94GB/s。Step5: 配置:备份流量走存储面网络,时延不敏感。Step6: 推荐:在业务低峰期执行。Step7: 验证:监控备份流量。

备份带宽6.94GB/s;4小时窗口

Backup Traffic、Hot/Cold Tiering

:HPFS备份策略;:全闪/混闪盘框;部署:存储集群

N-1275

存储

智算中心

存储面PFC配置要点

如何在存储面交换机上配置PFC

可靠性·PFC Config

Step1: 整网规划一个优先级(如priority 4),根据DSCP映射。Step2: 在所有端口(互联、接入、peer-link)上开启PFC。Step3: 数学表达式:PFC_enable=trueon priority 4。Step4: 配置示例:dcb pfc enable priority 4Step5: 要求:服务器网卡也开启PFC。Step6: 推荐:使用DSCP 26(CS3)映射到priority 4。Step7: 验证:display dcb pfc查看状态。

单优先级;全网开启

PFC Configuration、DSCP Mapping

:交换机配置;:CE8850E;部署:存储面

N-1276

存储

智算中心

存储面ECN配置要点

如何在存储面交换机上配置ECN

性能·ECN Config

Step1: ECN静态标记,低水线5K-15K cells,高水线500K-2M cells,标记概率10%。Step2: M-LAG场景需增加peer-link的ECN水线(同100G配置)。Step3: 数学表达式:ECN_threshold=(Kmin,Kmax,Pmax)。Step4: 配置:dcb ecn buffer queue 4 threshold 5000 500000 10Step5: 要求:端到端时延<10μs。Step6: 推荐:根据RTT调整,长距适当提高水线。Step7: 验证:监控ECN标记数。

低水线5K;高水线500K;标记概率10%

ECN Configuration、Threshold

:交换机配置;:CE8850E;部署:存储面

N-1277

存储

智算中心

存储面PFC死锁预防(钩子流检测)

如何配置PFC死锁预防避免钩子流

可靠性·Deadlock Prevention

Step1: 将Leaf上行口(连接Spine)加入PFC上联端口组。Step2: 检测到同一业务流从上联端口组进入又出去,即为钩子流。Step3: 数学表达式:Hookup_flow=(ingress_port∈uplink_group)∧(egress_port∈uplink_group)。Step4: 处理:修改钩子流的优先级,使其从另一队列转发。Step5: 配置:pfc uplink-port-groupStep6: 推荐:所有Leaf配置。Step7: 验证:模拟链路故障测试。

钩子流检测;修改优先级

Deadlock Prevention、Hookup Flow

:交换机配置;:CE8850E;部署:存储面

N-1278

计算

智算中心

昇腾NPU HCCL AllReduce算法选择

如何选择Ring或Tree算法

通信·Algorithm Selection

Step1: Ring适合大消息,Tree适合小消息。Step2: 临界消息大小Sthreshold​通常为几MB。Step3: 数学表达式:Algo={Ring,Tree,​msg_size>Sth​msg_size≤Sth​​。Step4: 配置:HCCL自动选择,也可通过环境变量强制。Step5: 推荐:默认自动。Step6: 验证:profiling查看算法。

自动选择;Ring大消息,Tree小消息

AllReduce Algorithm、Ring/Tree

:HCCL;:Ascend 910;部署:训练配置

N-1279

计算

智算中心

昇腾NPU HCCL拓扑感知

如何配置HCCL的拓扑文件提升性能

性能·Topology Aware

Step1: HCCL根据NPU的互联拓扑(PCIe Switch、NUMA)优化通信路径。Step2: 生成拓扑文件topo.jsonStep3: 数学表达式:BWoptimal​=maxpath​BW(path)。Step4: 配置:export HCCL_TOPO_FILE=/path/topo.jsonStep5: 要求:拓扑文件与实际硬件一致。Step6: 推荐:使用HCCN工具生成。Step7: 验证:对比开启前后的allreduce带宽。

拓扑优化;提升带宽

Topology Aware、HCCL

:HCCL、HCCN工具;:Ascend 910;部署:训练配置

N-1280

计算

智算中心

昇腾NPU HCCL通信超时设置

如何配置通信超时防止训练hang

可靠性·Timeout

Step1: HCCL通信超时默认1800s,过长。Step2: 设置HCCL_TIMEOUT=300(5分钟)。Step3: 数学表达式:Thang_detect​=HCCL_TIMEOUT。Step4: 配置:环境变量。Step5: 要求:超时后进程退出,可被调度系统重启。Step6: 推荐:配合心跳检测。Step7: 验证:模拟网络故障测试。

超时300s;防止永久hang

HCCL Timeout、Hang Detection

:HCCL;:Ascend 910;部署:训练配置

N-1281

计算

智算中心

昇腾NPU HCCL通信重试次数

如何配置通信重试提高鲁棒性

可靠性·Retry

Step1: 默认重试次数Nretry​=3。Step2: 设置HCCL_RETRY_COUNT=5Step3: 数学表达式:Psuccess​=1−(1−p)Nretry​。Step4: 若单次成功概率p=0.9,N=5,则P=0.99999。Step5: 配置:环境变量。Step6: 推荐:适当增加,但注意延迟。Step7: 验证:模拟丢包测试。

重试5次;成功率>99.999%

HCCL Retry、Reliability

:HCCL;:Ascend 910;部署:训练配置

N-1282

计算

智算中心

昇腾NPU训练脚本迁移(Keras模式)

如何将Keras训练脚本迁移到NPU

迁移·Keras

Step1: Keras迁移有两种方式:原生Keras(仅支持单次sess.run)或转换为NPUEstimator。Step2: 推荐使用model_to_npu_estimator转换。Step3: 数学表达式:Tmigrate​=Tadapt​+Tconvert​。Step4: 配置:替换优化器为NPUDistributedOptimizer。Step5: 要求:动态学习率不能在callback中设置。Step6: 推荐:使用Estimator模式。Step7: 验证:loss正常下降。

转换为NPUEstimator;优化器替换

Keras Migration、model_to_npu_estimator

:npu_bridge;:Ascend 910;部署:训练脚本

N-1283

计算

智算中心

昇腾NPU训练脚本迁移常见问题

如何处理迁移过程中的常见错误

迁移·Troubleshooting

Step1: 常见错误:ModuleNotFoundError(缺npu_bridge)、GE OOM(显存溢出)、算子不支持。Step2: 解决:安装TFPlugin、调整graph_memory_max_size、使用混合计算。Step3: 数学表达式:Error_rate=total_stepserrors​。Step4: 配置:检查环境变量和依赖。Step5: 推荐:参考华为官方FAQ。Step6: 验证:逐个解决后重跑。Step7: 日志:查看/var/log/npu/slog/host-0。

常见错误处理;日志定位

Troubleshooting、FAQ

:npu_bridge;:Ascend 910;部署:训练调优

N-1284

计算

智算中心

昇腾NPU训练性能Profiling分析

如何解读Profiling结果定位性能瓶颈

性能·Profiling Analysis

Step1: 查看timeline中aicore、aicpu、all_reduce三段耗时。Step2: 若aicore占比高,优化算子;若all_reduce占比高,调整梯度分段。Step3: 数学表达式:Tstep​=Taicore​+Taicpu​+Tallreduce​。Step4: 例:T_aicore=50ms,T_aicpu=10ms,T_allreduce=40ms,则通信占比40%。Step5: 优化:增大batch size或使用梯度累积。Step6: 推荐:每次优化后重新profiling。Step7: 验证:step时间缩短。

通信占比40%;优化算子或分段

Profiling Analysis、Timeline

:Profiling工具;:Ascend 910;部署:训练调优

N-1285

计算

智算中心

昇腾NPU训练CPU绑定

如何将训练进程绑定到指定CPU核提升性能

性能·CPU Binding

Step1: 多NPU场景下,将每个训练进程绑定到不同CPU核组,避免竞争。Step2: 总CPU核数Ctotal​,NPU数Nnpu​,每组核数Cgroup​=Ctotal​/Nnpu​。Step3: 数学表达式:Taskset_cmd=taskset−cstart−end。Step4: 例:96核,8 NPU,每组12核,device0绑定0-11,device7绑定84-95。Step5: 配置:在启动脚本中使用taskset。Step6: 推荐:开启。Step7: 验证:观察CPU利用率均衡。

每组12核;绑定后性能提升

CPU Binding、Affinity

:taskset;:CPU;部署:训练启动脚本

N-1286

计算

智算中心

昇腾NPU训练iterations_per_loop优化

如何设置iterations_per_loop减少Host-Device交互

性能·Iterations Per Loop

Step1: iterations_per_loop控制每次sess.run执行的迭代数,默认1。Step2: 增大该值减少交互次数,提升吞吐。Step3: 数学表达式:Tstep_avg​=Tloop​/Niter​,其中Tloop​包含一次交互开销。Step4: 配置:在NPURunConfig中设置,建议10-100。Step5: 要求:混合计算模式下必须为1。Step6: 推荐:非混合计算设为10。Step7: 验证:对比step时间。

设为10;减少交互

Iterations Per Loop、Host-Device

:NPURunConfig;:Ascend 910;部署:训练配置

N-1287

计算

智算中心

昇腾NPU训练数据并行shard

如何在分布式训练中对数据集分片

分布式·Data Shard

Step1: 每个NPU处理一部分数据,使用dataset.shard(get_rank_size(), get_rank_id())。Step2: 数学表达式:Data_per_rank=Total_data/Nrank​。Step3: 配置:在input_fn中调用。Step4: 要求:每个rank的数据不重叠。Step5: 推荐:同时使用dataset.repeat()确保epoch完整。Step6: 验证:检查各rank处理样本数。

数据均分;shard+repeat

Data Sharding、Distributed Dataset

:TensorFlow dataset;:Ascend 910;部署:训练脚本

N-1288

计算

智算中心

昇腾NPU训练广播初始权重

如何确保所有NPU初始权重一致

分布式·Broadcast

Step1: 分布式训练开始时,rank 0广播初始权重到其他rank。Step2: HCCL自动插入Broadcast算子。Step3: 数学表达式:Weightrank_i​=Weightrank_0​。Step4: 配置:使用NPUDistributedOptimizer时自动处理。Step5: 要求:所有rank使用相同的随机种子。Step6: 推荐:无需手动调用。Step7: 验证:检查各rank权重一致。

自动广播;权重一致

Broadcast、Initial Weights

:NPUDistributedOptimizer;:Ascend 910;部署:训练脚本

N-1289

计算

智算中心

昇腾NPU训练Checkpoint保存

如何在NPU训练中保存和恢复模型

运维·Checkpoint

Step1: 使用NPUEstimator时,checkpoint自动保存在model_dir。Step2: 设置save_checkpoints_steps=1000。Step3: 数学表达式:Tsave​=Tserialize​+Twrite​。Step4: 配置:NPURunConfig中设置。Step5: 要求:model_dir为共享存储(如NFS)。Step6: 推荐:每1000步保存一次。Step7: 验证:从checkpoint恢复训练。

每1000步保存;共享存储

Checkpoint、Model Persistence

:NPUEstimator;:共享存储;部署:训练配置

N-1290

计算

智算中心

昇腾NPU训练TensorBoard可视化

如何在NPU训练中使用TensorBoard

运维·TensorBoard

Step1: 在训练脚本中添加summary操作,NPUEstimator自动收集。Step2: 设置save_summary_steps=1。Step3: 数学表达式:Summary_data=scalar/loss,histogram/weights。Step4: 配置:NPURunConfig中设置。Step5: 要求:model_dir可读。Step6: 推荐:每步记录loss。Step7: 验证:启动TensorBoard查看。

每步记录;自动收集

TensorBoard、Summary

:TensorBoard;:Ascend 910;部署:训练监控

N-1291

计算

智算中心

昇腾NPU训练混合精度Loss Scaling动态调整

如何配置动态Loss Scaling参数

精度·Dynamic Loss Scale

Step1: 动态Loss Scaling根据溢出情况调整缩放因子。Step2: 初始值S0​=232,每1000步无溢出则加倍,每出现NaN则减半。Step3: 数学表达式:St+1​={St​×2,St​/2,​no overflow for 1000 stepsoverflow​。Step4: 配置:使用ExponentialUpdateLossScaleManager。Step5: 要求:初始值不宜过大。Step6: 推荐:默认参数。Step7: 验证:监控loss_scale值变化。

初始2^32;每1000步加倍

Dynamic Loss Scaling、Overflow

:ExponentialUpdateLossScaleManager;:Ascend 910;部署:训练脚本

N-1292

计算

智算中心

昇腾NPU训练混合精度Loss Scaling静态设置

如何配置静态Loss Scaling

精度·Static Loss Scale

Step1: 固定缩放因子S=216。Step2: 适用于梯度幅度稳定的网络。Step3: 数学表达式:Loss_scaled=Loss×S。Step4: 配置:使用FixedLossScaleManager。Step5: 要求:选择合适的S避免溢出或下溢。Step6: 推荐:先从2^16开始尝试。Step7: 验证:检查梯度是否在FP16范围内。

固定2^16;梯度稳定

Static Loss Scaling、Fixed

:FixedLossScaleManager;:Ascend 910;部署:训练脚本

N-1293

计算

智算中心

昇腾NPU训练自定义TBE算子

如何开发NPU不支持的算子(TBE)

开发·TBE Operator

Step1: TBE(Tensor Boost Engine)是华为的算子开发框架。Step2: 编写算子描述文件(DSL)和调度代码。Step3: 数学表达式:Op_output=TBE_kernel(input,params)。Step4: 配置:编译生成.so文件,在训练脚本中加载。Step5: 要求:熟悉TBE DSL。Step6: 推荐:优先使用华为提供的算子库。Step7: 验证:精度对比。

自定义算子;TBE DSL

TBE Operator、Custom Op

:TBE工具链;:Ascend 910;部署:算子开发

N-1294

计算

智算中心

昇腾NPU训练环境准备与验证

如何验证NPU训练环境是否正常

运维·Environment Verification

Step1: 检查NPU驱动、固件、HCCL、TFPlugin版本。Step2: 运行简单的allreduce benchmark测试。Step3: 数学表达式:BWmeasured​=Tallreduce​data_size×(N−1)/N​。Step4: 配置:使用HCCL自带测试工具。Step5: 要求:带宽达到预期值(如8卡400G线速的90%)。Step6: 推荐:每次环境变更后执行。Step7: 验证:npu-smi info查看设备状态。

带宽达线速90%;环境验证

Environment Check、Benchmark

:HCCL测试工具;:Ascend 910;部署:运维流程

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1295

网络架构

智算中心

盒式与框式交换机端口密度对比

如何比较CE9860(盒式)与CE16816(框式)的端口密度

架构·设备选型

Step1: CE9860盒式固定32×400G端口,CE16816框式最大16块业务板×每板36×400G=576×400G。Step2: 端口密度比Dratio​=576/32=18倍。Step3: 数学表达式:Portsbox​=32,Portsframe​=576。Step4: 例:18432卡场景需Spine 16台CE16816(总端口9216个400G),若用CE9860需288台。Step5: 配置:大规模选框式,小规模选盒式。Step6: 推荐:万卡以上用框式。Step7: 验证:计算总端口需求。

密度比18倍;框式576口

Box vs Chassis、Port Density

:无;:CE9860、CE16816;部署:设备选型

N-1296

网络架构

智算中心

Spine数量与Leaf数量的数学关系

如何根据Leaf上行端口数确定最小Spine数量

架构·Spine Count

Step1: 每个Leaf上行U个端口,总Leaf数L,总上行口数Utotal​=L×U。Step2: 每台Spine提供P个端口,最小Spine数Spmin​=⌈Utotal​/P⌉。Step3: 数学表达式:Spmin​=⌈(L×U)/P⌉。Step4: 例:L=32,U=16,P=32(CE9860),则Spmin​=16。Step5: 若L=576,U=16,P=576(CE16816),则Spmin​=16。Step6: 配置:Spine数量应为2的幂。Step7: 推荐:Spine数量取满足条件的最小2的幂。

最小Spine=16;2的幂

Spine Count、Port Calculation

:无;:CE9860/CE16816;部署:拓扑规划

N-1297

网络架构

智算中心

Y型线缆信号衰减与链路预算

如何评估400G一分二后的信号质量

硬件·Signal Integrity

Step1: 400G端口拆分为两个200G,每个200G使用4 lanes×50G PAM4。Step2: 链路预算Lbudget​=Ptx​−Prx_min​−Lcable​−Lconnector​。Step3: 数学表达式:Lbudget​≥Lmargin​。Step4: 典型值:发射功率-2dBm,接收灵敏度-8dBm,线缆损耗3dB,连接器1dB,裕量2dB。Step5: 配置:Y型线缆长度不超过3米。Step6: 推荐:使用原厂线缆。Step7: 验证:检查光模块误码率。

裕量2dB;线缆≤3m

Y Cable、Signal Budget

:无;:Y型线缆、光模块;部署:参数面接入

N-1298

网络架构

智算中心

子卡故障域分析与冗余设计

如何评估单个子卡故障对业务的影响

可靠性·Failure Domain

Step1: 每个子卡连接一台服务器,子卡故障仅影响该服务器。Step2: 故障影响范围Impact=1/Ltotal​×100%。Step3: 数学表达式:Impact=1/(L×4)(每Leaf 4子卡)。Step4: 例:32台Leaf,128台服务器,子卡故障影响1台服务器(0.78%)。Step5: 配置:无额外冗余,依靠训练任务自身的容错(如checkpoint)。Step6: 推荐:子卡故障后尽快更换。Step7: 验证:监控子卡状态。

影响0.78%;单服务器

Failure Domain、Subcard Redundancy

:无;:CE9860;部署:参数面

N-1299

存储

智算中心

MDS节点主备切换时间

如何计算MDS节点故障后的切换时间

可靠性·MDS Failover

Step1: MDS采用主备模式,备用MDS检测到主MDS心跳超时后接管。Step2: 心跳间隔Theartbeat​=1s,超时倍数Nmiss​=3,切换时间Tfailover​=Theartbeat​×Nmiss​+Ttakeover​。Step3: 数学表达式:Tfailover​=3s+1s=4s。Step4: 配置:HPFS集群参数可调。Step5: 要求:切换期间元数据操作暂停。Step6: 推荐:减小心跳间隔。Step7: 验证:模拟主MDS故障。

切换时间约4s;心跳1s

MDS Failover、Heartbeat

:HPFS;:MDS服务器;部署:存储集群

N-1300

存储

智算中心

存储集群故障域(Rack-aware)

如何设计存储节点的机架分布避免单点故障

可靠性·Failure Domain

Step1: 将OSS节点分散到不同机架,每个机架的OSS数Noss_per_rack​。Step2: 数据副本数R=3,容忍机架故障数F=R−1=2。Step3: 数学表达式:Nracks​≥R×Noss_per_rack​。Step4: 例:1230台OSS,每机架30台,需至少3×30=90机架,实际更多。Step5: 配置:HPFS支持数据副本跨机架。Step6: 推荐:每机架不超过30台。Step7: 验证:模拟机架断电。

容忍2个机架故障;副本数3

Failure Domain、Rack Awareness

:HPFS;:存储服务器;部署:机房规划

N-1301

存储

智算中心

冷热数据迁移触发条件

如何设置数据从热存储降冷存储的策略

策略·Migration Trigger

Step1: 基于文件最后访问时间Tlast_access​,超过阈值Tthreshold​=7天则迁移。Step2: 迁移带宽BWmigrate​需满足在窗口内完成。Step3: 数学表达式:Migrate=(now−Tlast_access​)>Tthreshold​。Step4: 配置:HPFS策略中设置。Step5: 要求:迁移期间不影响前台IO。Step6: 推荐:阈值设为7-30天。Step7: 验证:查看文件层级标签。

7天未访问降冷;后台迁移

Data Tiering、Migration Policy

:HPFS;:全闪/混闪;部署:存储策略

N-1302

存储

智算中心

备份流量时间窗口计算

如何确定全闪到混闪备份的合理时间窗口

规划·Backup Window

Step1: 全闪容量Cflash​,备份带宽BWbackup​,窗口长度W=Cflash​/BWbackup​。Step2: 考虑业务高峰期避开,选择凌晨低峰期。Step3: 数学表达式:W=Cflash​/BWbackup​。Step4: 例:Cflash​=100TB,BWbackup​=10GB/s,则W=100×1024/10=10240s≈2.84h。Step5: 配置:设置备份开始时间为凌晨2点。Step6: 推荐:窗口不超过4小时。Step7: 验证:监控备份完成时间。

窗口2.84h;凌晨执行

Backup Window、Bandwidth

:HPFS备份策略;:全闪/混闪;部署:存储运维

N-1303

计算

智算中心

NPU AI Core与AI CPU任务划分

如何理解NPU中AI Core和AI CPU的分工

架构·Compute Unit

Step1: AI Core负责矩阵运算(卷积、全连接),AI CPU负责标量运算(reshape、cast、非矩阵算子)。Step2: 典型比例:AI Core承担90%计算量,AI CPU承担10%。Step3: 数学表达式:Ttotal​=Taicore​+Taicpu​。Step4: 配置:算子自动分配到合适的单元。Step5: 要求:尽量减少AI CPU上的算子。Step6: 推荐:使用NPU原生算子避免AI CPU。Step7: 验证:profiling查看aicore/aicpu耗时。

AI Core占90%;AI CPU占10%

AI Core、AI CPU、Task Division

:Profiling;:Ascend 910;部署:训练调优

N-1304

计算

智算中心

HCCL链路建立握手时间

如何计算HCCL通信链路建立的初始延迟

通信·Handshake Latency

Step1: HCCL在训练开始前建立所有rank之间的连接,包括TCP握手和RDMA连接。Step2: 握手时间Thandshake​=Ttcp​+Trdma_setup​。Step3: 数学表达式:Thandshake​≈Nranks​×(RTT+Tproc​)。Step4: 例:1024 rank,RTT=100μs,处理时间50μs,则Thandshake​≈1024×150μs=153.6ms。Step5: 配置:HCCL自动完成。Step6: 推荐:连接建立后复用。Step7: 验证:首次allreduce延迟较高。

握手约154ms;1024 rank

HCCL Handshake、Connection Setup

:HCCL;:Ascend 910;部署:训练启动

N-1305

计算

智算中心

梯度分段API set_split_strategy_by_idx 使用示例

如何根据梯度索引设置分段点

性能·Split Strategy

Step1: 获取网络中所有梯度的索引列表(按创建顺序)。Step2: 调用set_split_strategy_by_idx([20, 100, 159])表示第20、100、159个梯度后分段。Step3: 数学表达式:Segments=[0−20],[21−100],[101−159],[160−end]。Step4: 配置:在训练脚本中,调用allreduce之前执行。Step5: 要求:先初始化HCCL。Step6: 推荐:通过profiling确定最优分段点。Step7: 验证:观察AR1和AR2的耗时变化。

分段点20,100,159;4段

Gradient Segmentation、API

:hccl.split.api;:Ascend 910;部署:训练脚本

N-1306

计算

智控中心

混合精度中算子降精度判定条件

如何判断哪些算子会被降为FP16

精度·Precision Rule

Step1: allow_mix_precision模式下,算子若支持FP16且精度损失可接受则降精度。Step2: 判定依据:算子类型(Conv2D、MatMul通常降,Softmax、LayerNorm通常保留)。Step3: 数学表达式:Op_precision={FP16,FP32,​op∈{Conv,MatMul}op∈{Softmax,LayerNorm}​。Step4: 配置:可通过修改aic-ascend910-ops-info.json文件强制指定。Step5: 要求:验证精度。Step6: 推荐:使用默认策略。Step7: 验证:dump对比FP16和FP32输出。

卷积/矩阵乘降FP16;归一化保留FP32

Mixed Precision、Operator Precision

:ops-info.json;:Ascend 910;部署:训练配置

N-1307

计算

智算中心

数据预处理卸载约束(shuffle不能卸载)

为什么shuffle算子不能在NPU上执行

性能·Data Offload Constraint

Step1: shuffle需要全局随机打乱数据,涉及大量索引操作,NPU不适合。Step2: map和batch是element-wise操作,适合NPU。Step3: 数学表达式:Offloadable={map,batch,prefetch},Not_offloadable={shuffle,TFRecordDataset}。Step4: 配置:确保shuffle在host执行,map/batch在device执行。Step5: 要求:使用prefetch会阻止卸载。Step6: 推荐:shuffle放在map之前。Step7: 验证:查看算子调度位置。

shuffle不能卸载;map/batch可卸载

Data Preprocessing、Offload Constraints

:TensorFlow dataset;:Ascend 910;部署:训练脚本

N-1308

计算

智算中心

CPU绑定的核数计算方法

如何为8卡训练分配最优CPU核数

性能·Core Allocation

Step1: 总CPU核数Ctotal​,NPU数Nnpu​=8,每NPU分配核数Cper​=Ctotal​/8。Step2: 考虑超线程,物理核数需除以2。Step3: 数学表达式:Cper_physical​=(Ctotal​/2)/Nnpu​。Step4: 例:96逻辑核(48物理核),每NPU分配12逻辑核(6物理核)。Step5: 配置:taskset -c 0-11,48-59(跨NUMA需小心)。Step6: 推荐:绑定到同一NUMA的核。Step7: 验证:lscpu查看NUMA拓扑。

每NPU 12逻辑核;绑定同NUMA

CPU Binding、NUMA

:taskset、numactl;:CPU;部署:训练启动

N-1309

计算

智算中心

iterations_per_loop与内存的关系

增大iterations_per_loop为何可能增加内存占用

资源·Memory Impact

Step1: iterations_per_loop增大意味着每次sess.run执行更多迭代,Host侧需缓存更多数据。Step2: 内存占用Mhost​=Mgraph​+Mdata_queue​×Niter​。Step3: 数学表达式:Mhost​∝Niter​。Step4: 例:N_iter=10时数据队列缓存10个batch,N_iter=100时缓存100个batch。Step5: 配置:根据Host内存调整。Step6: 推荐:不超过100。Step7: 验证:监控Host内存使用。

内存随N_iter线性增长;建议≤100

Iterations Per Loop、Memory

:NPURunConfig;:Host内存;部署:训练配置

N-1310

运维

智控中心

Telemetry队列缓存上报条件

何时会上报队列缓存数据

监控·Queue Telemetry

Step1: 队列缓存数据仅在队列积压时上报,正常时不报以减少数据量。Step2: 积压阈值Tqueue​=0,即只要有数据在队列中就上报。Step3: 数学表达式:Report=(queue_depth>0)。Step4: 配置:默认周期30秒,但仅在积压时有效。Step5: 要求:用于识别拥塞。Step6: 推荐:结合ECN标记分析。Step7: 验证:查看telemetry数据中队列字段。

队列深度>0时上报;周期30s

Queue Telemetry、Congestion Detection

:Telemetry系统;:CE交换机;部署:监控系统

N-1311

运维

智算中心

网络健康看板“三看”方法

如何通过三步快速检查网络健康

运维·Health Dashboard

Step1: 一看事件:查看故障和风险数量,点击查看详情。Step2: 二看状态:查看设备、端口、光模块是否在线。Step3: 三看性能:查看丢包、队列拥塞、带宽利用率与前一天对比。Step4: 数学表达式:Health_status=(events==0)∧(assets_normal)∧(performance_stable)。Step5: 配置:iMaster NCE-Fabric看板。Step6: 推荐:每日巡检。Step7: 验证:模拟故障看告警。

三步:事件→状态→性能

Health Dashboard、Daily Check

:iMaster NCE;:无;部署:运维流程

N-1312

运维

智算中心

网络风险评估5个维度

如何从5个维度评估网络风险

运维·Risk Assessment

Step1: 五个维度:性能、可靠性、容量、一致性、稳定性。Step2: 每个维度下有若干评估项,共40+项。Step3: 数学表达式:Risk_score=∑dim​wdim​×scoredim​。Step4: 例:性能维度包括端口利用率、队列深度等。Step5: 配置:iMaster NCE自动评估。Step6: 推荐:每周生成报告。Step7: 验证:对比评估结果与实际故障。

5维度40+项;自动评估

Risk Assessment、5 Dimensions

:iMaster NCE;:无;部署:运维平台

N-1313

运维

智算中心

故障1-3-5典型场景举例

如何自动分析光链路亚健康

运维·Fault Analysis

Step1: 1分钟发现,3分钟定位,5分钟恢复。Step2: 光链路亚健康表现为误码率升高但未达到告警阈值。Step3: 数学表达式:BERcurrent​>BERbaseline​×10。Step4: 配置:iMaster NCE通过Telemetry采集FEC纠错计数。Step5: 要求:自动识别并派单。Step6: 推荐:定期清洁光模块。Step7: 验证:更换光模块后BER恢复正常。

误码率超基线10倍;1-3-5

Fault 1-3-5、Optical Health

:iMaster NCE;:光模块;部署:运维流程

N-1314

安全

智算中心

VXLAN+EVPN实现多租户隔离

如何通过EVPN VXLAN实现租户间L3隔离

安全·EVPN Isolation

Step1: 每个租户分配一个L3 VNI,不同租户的VTEP之间不建立EVPN邻居。Step2: 数学表达式:VNItenant_A​=VNItenant_B​。Step3: 配置:Leaf上配置EVPN实例,导入对应RT。Step4: 要求:租户间路由隔离。Step5: 推荐:结合VLAN+ACL使用。Step6: 验证:租户A的VM ping不通租户B的VM。Step7: 相比纯VLAN+ACL,EVPN支持更大规模。

不同VNI;路由隔离

EVPN VXLAN、Multi-tenancy

:交换机EVPN配置;:CE9860;部署:参数面

N-1315

安全

智算中心

BGP Flowspec限速配置

如何通过BGP Flowspec对特定流限速

安全·Rate Limiting

Step1: 定义Flowspec规则匹配五元组,动作为rate-limit。Step2: 限速值Rlimit​=100Gbps。Step3: 数学表达式:Rate_action=min(packet_rate,Rlimit​)。Step4: 配置:flowspec rate-limit 100000Step5: 推荐:用于多租户带宽管控。Step6: 验证:iperf3测试限速效果。Step7: 注意:需控制器下发。

限速100Gbps;精确匹配

BGP Flowspec、Rate Limiting

:SE控制器;:CE交换机;部署:参数面

N-1316

安全

智算中心

ACL资源耗尽风险

如何评估ACL表项容量是否够用

安全·ACL Capacity

Step1: 每台Leaf的ACL表项有限,如CE9860支持约16K条。Step2: 每租户需2条ACL(permit+deny),租户数Ntenant​。Step3: 数学表达式:Used_acl=Ntenant​×2×Nports​。Step4: 例:100租户,每Leaf 32端口,则需100×2×32=6400条,小于16K。Step5: 配置:监控ACL利用率。Step6: 推荐:租户数不超过8000/端口数。Step7: 验证:display acl resource

6400条;16K容量

ACL Capacity、Resource Planning

:交换机命令;:CE9860;部署:安全规划

N-1317

网络架构

智算中心

参数面EBGP allowas-in次数

为何需要允许AS号重复一次

路由·Allowas-in

Step1: Leaf与Spine EBGP对等体,Leaf之间通过Spine传递路由。Step2: 由于所有Leaf在同一AS,路由更新中会包含自身AS号,默认被BGP忽略。Step3: 数学表达式:Allowas_in=1。Step4: 配置:peer {group} allowas-in 1Step5: 要求:所有Leaf配置。Step6: 推荐:使用allowas-in而非更改AS_PATH。Step7: 验证:display bgp routing-table看到远端Leaf路由。

allowas-in 1次;同一AS

EBGP Allowas-in、AS Number

:交换机配置;:CE9860;部署:参数面路由

N-1318

网络架构

智算中心

参数面ECMP负载均衡哈希算法

如何配置ECMP哈希因子使流量均匀分布

性能·ECMP Hash

Step1: ECMP基于五元组(源IP、目的IP、源端口、目的端口、协议)哈希选路。Step2: 哈希结果均匀性Uniformity=1−avg(flow_count)max(flow_count)−min(flow_count)​。Step3: 数学表达式:Hash_key=hash(src_ip,dst_ip,src_port,dst_port,proto)。Step4: 配置:load-balance ip-protoStep5: 要求:训练流量使用RoCEv2,端口随机,哈希效果好。Step6: 推荐:默认配置即可。Step7: 验证:查看各链路流量分布。

五元组哈希;均匀性>90%

ECMP Hash、Load Balancing

:交换机配置;:CE9860;部署:参数面

N-1319

存储

智算中心

存储面M-LAG peer-link故障影响

peer-link中断对业务有何影响

可靠性·Peer-link Failure

Step1: peer-link用于同步MAC/ARP和转发跨设备流量。Step2: 中断后,双活M-LAG变为独立Leaf,流量可能丢失。Step3: 数学表达式:Timpact​=Tdetect​+Tconverge​。Step4: 配置:peer-link使用多链路聚合,增加可靠性。Step5: 要求:检测时间<1s。Step6: 推荐:使用独立端口组。Step7: 验证:模拟peer-link断连。

影响时间秒级;多链路聚合

M-LAG Peer-link、Reliability

:交换机配置;:CE8850E;部署:存储面

N-1320

计算

智算中心

NPU训练Checkpoint恢复后Allreduce一致性

恢复训练时如何保证梯度同步状态一致

分布式·Checkpoint Consistency

Step1: 从checkpoint恢复时,所有rank加载相同的模型参数和优化器状态。Step2: 数据加载使用相同的shard策略,确保各rank数据不重叠。Step3: 数学表达式:Staterank_irestored​=Statecheckpoint​。Step4: 配置:使用相同的随机种子。Step5: 要求:数据集的shuffle顺序需可重现。Step6: 推荐:设置固定的seed。Step7: 验证:恢复后loss与中断前一致。

状态一致;seed固定

Checkpoint Restore、Consistency

:NPUEstimator;:Ascend 910;部署:训练运维

N-1321

计算

智算中心

NPU训练动态学习率设置

如何在NPU上配置动态学习率

精度·Learning Rate

Step1: NPU支持tf.train.exponential_decay等动态学习率。Step2: 在Estimator模式的model_fn中定义。Step3: 数学表达式:lr=lr0​×decay_rateglobal_step/decay_steps。Step4: 配置:在optimizer中传入。Step5: 要求:Keras模式下不能在callback中设置。Step6: 推荐:使用warmup+cosine decay。Step7: 验证:打印学习率变化。

指数衰减;warmup推荐

Learning Rate Schedule、Decay

:TensorFlow API;:Ascend 910;部署:训练脚本

N-1322

计算

智算中心

NPU训练梯度裁剪

如何配置梯度裁剪防止梯度爆炸

精度·Gradient Clipping

Step1: 在model_fn中,计算梯度后应用clip_by_global_norm。Step2: 裁剪阈值Cclip​=1.0。Step3: 数学表达式:(g{clipped} = g \times \min(1, C{clip} /

g

N-1323

计算

智算中心

NPU训练Batch Size与学习率缩放

如何根据GPU数量线性缩放学习率

精度·LR Scaling

Step1: 线性缩放法则:lrnew​=lrbase​×(Ngpu​/Nbase​)。Step2: 数学表达式:lrnew​=lrbase​×k。Step3: 例:base batch 256,lr 0.1,扩至1024,lr=0.4。Step4: 配置:在训练脚本中计算。Step5: 要求:同时调整warmup步数。Step6: 推荐:warmup步数也线性缩放。Step7: 验证:收敛速度。

线性缩放;warmup同步调整

LR Scaling、Linear Scaling Rule

:训练脚本;:Ascend 910;部署:训练调优

N-1324

计算

智算中心

NPU训练性能调优Checklist

如何系统性地进行性能调优

性能·Tuning Checklist

Step1: 检查项:混合精度、数据卸载、算子替换、梯度分段、CPU绑定、iterations_per_loop、网络PFC/ECN。Step2: 每项预期收益:混合精度1.5x,数据卸载1.2x,算子替换1.1x,梯度分段1.1x,CPU绑定1.05x,iterations_per_loop 1.1x。Step3: 数学表达式:Speedup=∏(1+gaini​)。Step4: 例:全部优化后理论加速约2.5x。Step5: 配置:逐一启用并profiling。Step6: 推荐:从收益最大的开始。Step7: 验证:最终吞吐对比。

理论加速2.5x;逐项验证

Performance Tuning、Checklist

:Profiling;:Ascend 910;部署:训练调优

补充

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1325

网络架构

智算中心

参数面Leaf端口分配方案

如何在一台Leaf上分配上下行端口

架构·Port Allocation

Step1: CE9860共32×400G端口,下行16×400G(一分二成32×200G接服务器),上行16×400G接Spine。Step2: 每台Leaf接入4台服务器(每台服务器需4个400G下行口)。Step3: 数学表达式:Down_ports=16,Up_ports=16,Servers=Down_ports/4=4。Step4: 配置:下行端口使用Y型线缆。Step5: 要求:上下行端口数相等以保证1:1收敛。Step6: 推荐:子卡对应单台服务器。Step7: 验证:display interface brief查看端口状态。

下行16×400G;上行16×400G

Port Allocation、Leaf Design

:无;:CE9860;部署:参数面

N-1326

网络架构

智算中心

参数面Spine端口分配方案

如何计算Spine上每个Leaf所需的端口数

架构·Spine Port Allocation

Step1: 每台Spine连接所有Leaf,每个Leaf上行16口平均分配到各Spine。Step2: 若Spine=16台,每Leaf每Spine分配1个上行口。Step3: 数学表达式:Ports_per_leaf_per_spine=Uleaf​/Sp=16/16=1。Step4: 若Spine=4台,则每Leaf每Spine分配4个上行口。Step5: 配置:Spine端口按Leaf数量均匀分配。Step6: 推荐:Spine数量为2的幂。Step7: 验证:检查Spine端口使用率。

每Spine每Leaf 1口(Sp=16);均匀分配

Spine Port Allocation、Uniform Distribution

:无;:CE9860/CE16800;部署:参数面

N-1327

网络架构

智算中心

存储面Leaf端口分配(M-LAG)

M-LAG组网中Leaf端口如何分配上下行和peer-link

架构·M-LAG Port Allocation

Step1: CE8850E共32×100GE端口,上行12口,下行12口,peer-link 6口,DAD 1口,剩余1口备用。Step2: 数学表达式:Total=32,Up=12,Down=12,Peer=6,DAD=1。Step3: 配置:上下行收敛比1:1。Step4: 要求:peer-link带宽为单Leaf上行带宽的一半(12×100G/2=600G,6口×100G=600G)。Step5: 推荐:peer-link使用独立端口。Step6: 验证:display m-lag查看状态。

上行12,下行12,peer-link 6

M-LAG Port Allocation、CE8850E

:交换机配置;:CE8850E;部署:存储面

N-1328

网络架构

智算中心

存储面去堆叠组网端口分配

去堆叠组网中Leaf端口如何分配

架构·Non-stack Port Allocation

Step1: 去堆叠无peer-link,上行16口,下行16口。Step2: 数学表达式:Total=32,Up=16,Down=16。Step3: 配置:上下行收敛比1:1。Step4: 优势:节省peer-link端口,增加接入能力。Step5: 缺点:依赖服务器ARP双发,待验证。Step6: 推荐:M-LAG更成熟。Step7: 验证:检查ARP表项。

上行16,下行16;无peer-link

Non-stack Port Allocation

:交换机配置;:CE8850E;部署:存储面

N-1329

网络架构

智算中心

参数面光模块类型选择

如何根据距离选择400G光模块

硬件·Optics Selection

Step1: 短距(<100m)使用400G SR8(多模),中距(<2km)使用400G FR4(单模),长距(<10km)使用400G LR4。Step2: 数学表达式:CostSR​<CostFR​<CostLR​。Step3: 例:机柜内互联使用SR8,跨机柜使用FR4。Step4: 配置:根据实际布线距离选择。Step5: 要求:光模块与线缆类型匹配。Step6: 推荐:机柜内SR8,机柜间FR4。Step7: 验证:检查光功率。

SR8<100m;FR4<2km;LR4<10km

Optics Type、400G Module

:无;:400G光模块;部署:硬件选型

N-1330

网络架构

智算中心

参数面光纤类型选择

多模与单模光纤的选择依据

硬件·Fiber Type

Step1: 多模(OM4)支持100m@400G,单模(OS2)支持10km+。Step2: 成本:多模光纤便宜,但光模块贵;单模光纤贵,但光模块便宜。Step3: 数学表达式:TCO=Cfiber​+Coptics​+Cinstall​。Step4: 例:100m以内,多模TCO更低;超过100m,单模更优。Step5: 配置:机柜内用多模,机柜间用单模。Step6: 推荐:统一使用单模简化管理。Step7: 验证:测试链路误码率。

多模≤100m;单模>100m

Fiber Type、Multi-mode vs Single-mode

:无;:光纤;部署:布线规划

N-1331

存储

智算中心

HPFS数据分布策略(条带化)

如何将数据条带化分布到多个OSS节点

性能·Striping

Step1: 文件被切分为条带(stripe),每个条带大小为Sstripe​=4MB,分布到多个OSS。Step2: 条带宽度Wstripe​(即OSS数),通常为4或8。Step3: 数学表达式:File_size=Nstripes​×Sstripe​,Nstripes​=⌈File_size/Sstripe​⌉。Step4: 配置:HPFS自动条带化。Step5: 要求:条带宽度不宜过大,以免小文件浪费。Step6: 推荐:大文件使用宽条带。Step7: 验证:查看文件分布。

条带4MB;宽度4-8

Striping、Object Storage

:HPFS;:OSS节点;部署:存储集群

N-1332

存储

智算中心

HPFS纠删码(Erasure Coding)

如何配置纠删码以节省存储空间

可靠性·Erasure Coding

Step1: 纠删码参数(k, m),k为数据块,m为校验块,存储效率E=k/(k+m)。Step2: 数学表达式:Storage_overhead=(k+m)/k。Step3: 例:(8,2)纠删码,存储效率80%,容忍2个块故障。Step4: 配置:HPFS支持多种纠删码策略。Step5: 要求:CPU开销高于副本。Step6: 推荐:冷数据用纠删码,热数据用副本。Step7: 验证:模拟磁盘故障数据重建。

(8,2)效率80%;容忍2故障

Erasure Coding、Storage Efficiency

:HPFS;:OSS节点;部署:存储策略

N-1333

存储

智算中心

HPFS快照与克隆

如何创建存储快照用于数据保护

可靠性·Snapshot

Step1: 快照使用写时复制(Copy-on-Write)技术,初始不占空间。Step2: 快照空间增长速率Rsnap​=Δdata×(Nsnapshots​)。Step3: 数学表达式:Spacesnap​=∑i=1N​Δdatai​。Step4: 配置:HPFS支持秒级快照。Step5: 要求:快照数量不宜过多(建议≤100)。Step6: 推荐:每日快照保留7天。Step7: 验证:hpfs snapshot list

写时复制;建议≤100个

Snapshot、Copy-on-Write

:HPFS;:存储集群;部署:数据保护

N-1334

存储

智算中心

HPFS配额管理

如何为租户设置存储配额

运营·Quota

Step1: 设置目录级或用户级配额,包括容量配额Qcap​和文件数配额Qfiles​。Step2: 数学表达式:Usagecap​≤Qcap​,Usagefiles​≤Qfiles​。Step3: 配置:hpfs quota setStep4: 要求:超出配额时写入失败。Step5: 推荐:为每个租户设置配额。Step6: 验证:hpfs quota report

容量+文件数配额;超出拒绝写入

Quota Management、Tenant Isolation

:HPFS;:存储集群;部署:运营管理

N-1335

计算

智算中心

NPU算子融合(Operator Fusion)

如何通过算子融合减少kernel启动开销

性能·Operator Fusion

Step1: 将多个连续的小算子合并为一个kernel,减少启动次数。Step2: 启动开销Tlaunch​=10μs,融合后Tfused​=Tcompute​+Tlaunch​。Step3: 数学表达式:Speedup=Tlaunch​+Tcompute_fused​∑Tlaunch_i​+∑Tcompute_i​​。Step4: 例:5个算子各1μs计算+10μs启动=55μs,融合后5μs计算+10μs启动=15μs,加速3.67倍。Step5: 配置:GE图编译器自动融合。Step6: 推荐:使用allow_mix_precision时自动优化。Step7: 验证:profiling查看kernel数量。

启动10μs;融合减少启动

Operator Fusion、Kernel Launch

:GE编译器;:Ascend 910;部署:训练优化

N-1336

计算

智算中心

NPU内存复用(Memory Reuse)

如何通过内存复用降低显存占用

资源·Memory Reuse

Step1: 中间张量生命周期不重叠时可复用同一块显存。Step2: 复用率Rreuse​=1−Peak_memory/Sum_tensor_sizes。Step3: 数学表达式:Peak_mem=maxt​∑live_tensors(t)​size。Step4: 配置:GE编译器自动优化。Step5: 要求:模型结构固定时效果最好。Step6: 推荐:启用graph_memory_max_size自动管理。Step7: 验证:npu-smi info查看显存。

复用率可达30%-50%;自动优化

Memory Reuse、Tensor Lifetime

:GE编译器;:Ascend 910;部署:训练优化

N-1337

计算

智算中心

NPU数据并行梯度累积

如何配置梯度累积增大有效batch size

性能·Gradient Accumulation

Step1: 每N步累积梯度后再更新参数,等效batch size BSeff​=BS×N。Step2: 数学表达式:Gaccum​=∑i=1N​gi​,Wt+1​=Wt​−lr×Gaccum​。Step3: 配置:在model_fn中手动实现。Step4: 要求:loss scaling需相应调整。Step5: 推荐:N=2-8。Step6: 验证:loss曲线平滑。

等效batch×N;N=2-8

Gradient Accumulation、Effective Batch Size

:训练脚本;:Ascend 910;部署:训练配置

N-1338

计算

智算中心

NPU通信与计算重叠(AllReduce overlap)

如何配置异步AllReduce实现重叠

性能·Comm Overlap

Step1: 将梯度分为两部分,第一部分梯度计算完成后立即启动AllReduce,同时计算第二部分。Step2: 重叠度O=min(1,Tcompute_part2​/Tar_part1​)。Step3: 数学表达式:Tstep_eff​=max(Tcompute_total​,Tar_total​)。Step4: 配置:NPUDistributedOptimizer默认启用。Step5: 要求:梯度分段策略合理。Step6: 推荐:通过profiling调整分段比例。Step7: 验证:观察step时间是否接近计算时间。

完全重叠时step时间=计算时间

Comm Overlap、Async AllReduce

:NPUDistributedOptimizer;:Ascend 910;部署:训练配置

N-1339

计算

智算中心

NPU训练日志级别设置

如何设置日志级别减少性能干扰

运维·Log Level

Step1: 默认日志级别为info,会产生大量日志影响性能。Step2: 设置为error级别。Step3: 数学表达式:Log_volume∝10level_diff(info比error多约100倍)。Step4: 配置:export ASCEND_GLOBAL_LOG_LEVEL=3(error)。Step5: 要求:性能测试时必须设置。Step6: 推荐:训练时设为error,调试时设为info。Step7: 验证:tail -f /var/log/npu/slog/host-0

error级别;减少日志量

Log Level、Performance Impact

:环境变量;:Ascend 910;部署:训练配置

N-1340

计算

智算中心

NPU训练Dump数据清理

如何清理Dump数据释放磁盘空间

运维·Dump Cleanup

Step1: Dump数据量大(几十GB/步),需及时清理。Step2: 数学表达式:Space_dump=Nsteps​×Size_per_step。Step3: 配置:设置dump_step为单步。Step4: 推荐:只在调试时开启。Step5: 清理:rm -rf /var/log/npu/ide_daemon/dump/*Step6: 验证:df -h查看磁盘。

单步几十GB;调试后清理

Dump Data、Disk Space

:Linux命令;:无;部署:运维操作

N-1341

网络架构

智算中心

参数面PFC headroom缓存计算

如何计算headroom缓存大小

性能·Headroom Buffer

Step1: Headroom用于吸收PFC反压帧发送期间的飞行报文。Step2: 计算公式:Headroom=RTT×BWport​+cable_buffer。Step3: 数学表达式:Headroom=(Tprop​+Tresp​)×BWport​。Step4: 例:100G端口,RTT=1μs(100米光纤),则Headroom=1μs×100Gbps=100Kb=12.5KB。Step5: 配置:100G端口推荐330 cells(约13KB)。Step6: 调参:长距线缆适当调高。Step7: 验证:检查入方向丢包。

330 cells;100米

Headroom Buffer、PFC

:交换机配置;:CE交换机;部署:参数面/存储面

N-1342

网络架构

智算中心

参数面ECN响应时间分析

如何计算ECN从标记到响应的闭环时间

性能·ECN Response Time

Step1: ECN标记后,接收端反馈CNP报文,发送端降速。Step2: 闭环时间Tecn_loop​=Tmark​+Tcnp_tx​+Tprop​+Treact​。Step3: 数学表达式:Tecn_loop​≈2×RTT+Treact​。Step4: 例:RTT=10μs,Treact​=1μs,则T=21μs。Step5: 配置:需确保ECN水线对应的队列深度能容纳这段时间的报文。Step6: 推荐:RTT越长,ECN水线应越高。Step7: 验证:监测ECN标记到降速的延迟。

约2×RTT+1μs;RTT决定水线

ECN Response、Closed-loop

:交换机配置;:CE交换机;部署:参数面/存储面

N-1343

网络架构

智算中心

存储面M-LAG DAD链路用途

DAD链路的作用是什么

可靠性·DAD Link

Step1: DAD(Dual-Active Detection)链路用于检测M-LAG对端设备是否存活。Step2: 当peer-link故障时,通过DAD链路判断对端是否仍为主设备。Step3: 数学表达式:DAD_interval=1s,DAD_timeout=3s。Step4: 配置:使用独立端口或带外管理网。Step5: 要求:DAD链路必须可靠。Step6: 推荐:使用独立物理端口。Step7: 验证:display m-lag dad

间隔1s;超时3s

DAD Link、M-LAG Reliability

:交换机配置;:CE8850E;部署:存储面

N-1344

存储

智算中心

HPFS存储集群扩容流程

如何在线扩容OSS节点

运维·Expansion

Step1: 新增OSS节点,加入集群,数据自动重新平衡。Step2: 重新平衡带宽BWrebalance​需控制以免影响业务。Step3: 数学表达式:Trebalance​=Datato_move​/BWrebalance​。Step4: 例:新增10%容量,数据移动10TB,BW=1GB/s,则T=10000s≈2.8h。Step5: 配置:设置rebalance限速。Step6: 推荐:在业务低峰期进行。Step7: 验证:hpfs rebalance status

限速1GB/s;2.8小时

Online Expansion、Rebalance

:HPFS;:OSS节点;部署:存储运维

N-1345

存储

智算中心

HPFS存储集群缩容流程

如何安全下线OSS节点

运维·Decommission

Step1: 标记节点为下线状态,数据迁移到其他节点。Step2: 迁移完成后节点自动脱离集群。Step3: 数学表达式:Tdecom​=Dataon_node​/BWmigrate​。Step4: 例:节点存储50TB,迁移BW=2GB/s,则T=25000s≈6.9h。Step5: 配置:hpfs node decommissionStep6: 推荐:先降低节点权重。Step7: 验证:节点状态变为offline。

迁移6.9h;限速2GB/s

Decommission、Data Migration

:HPFS;:OSS节点;部署:存储运维

N-1346

计算

智算中心

NPU训练多进程启动(mpi)

如何使用mpi启动分布式训练

分布式·MPI Launch

Step1: 使用mpirunrank_table文件启动多进程。Step2: 数学表达式:N_processes=Nservers​×8。Step3: 配置:mpirun -np 64 -hostfile hosts python train.pyStep4: 要求:所有节点可免密ssh。Step5: 推荐:使用rank_table文件(华为推荐)。Step6: 验证:hccl_tools查看通信状态。Step7: 注意:HCCL不依赖mpi,但mpi可用于进程管理。

进程数=服务器×8;rank_table

MPI Launch、Process Management

:mpirun、rank_table;:Ascend 910;部署:训练启动

N-1347

计算

智算中心

NPU训练rank_table文件配置

如何编写rank_table.json文件

分布式·Rank Table

Step1: rank_table包含服务器IP、设备ID、网卡IP等信息。Step2: 数学表达式:Rank_table={server_list:[device:[ip,nic]]}。Step3: 配置:使用hccl_tools自动生成。Step4: 要求:网卡IP配置正确。Step5: 推荐:使用gen_rank_table.py脚本。Step6: 验证:hccl_tools -checkStep7: 示例:8台服务器64卡。

自动生成;包含IP映射

Rank Table、HCCL Config

:hccl_tools;:Ascend 910;部署:训练配置

N-1348

计算

智算中心

NPU训练HCCL环境变量汇总

常用HCCL环境变量及其作用

分布式·Env Variables

Step1: HCCL_TIMEOUT(超时)、HCCL_RETRY_COUNT(重试)、HCCL_TOPO_FILE(拓扑文件)、HCCL_ALGO(算法选择)。Step2: 数学表达式:Env={key:value}。Step3: 配置:在启动脚本中export。Step4: 推荐:HCCL_TIMEOUT=300HCCL_RETRY_COUNT=5Step5: 验证:`env

grep HCCL`。Step6: 注意:不同版本可能有差异。Step7: 文档:参考华为HCCL用户指南。

超时300s;重试5次

HCCL Env Variables、Configuration

N-1349

计算

智算中心

NPU训练HCCL通信带宽测试

如何测试HCCL的实际通信带宽

性能·Bandwidth Test

Step1: 使用HCCL提供的hccn_tool或自定义allreduce benchmark。Step2: 数学表达式:BW=Tallreduce​data_size×(N−1)/N​。Step3: 配置:运行hccn_tool -i 0 -allreduce -size 1GStep4: 要求:所有NPU参与。Step5: 推荐:测试不同消息大小。Step6: 验证:对比理论带宽。Step7: 期望:达到线速的90%以上。

1G消息;线速90%

Bandwidth Test、HCCL Benchmark

:hccn_tool;:Ascend 910;部署:验收测试

N-1350

计算

智算中心

NPU训练HCCL通信延迟测试

如何测试HCCL的点对点延迟

性能·Latency Test

Step1: 使用hccn_tool的pingpong测试。Step2: 数学表达式:Latency=Tround_trip​/2。Step3: 配置:hccn_tool -i 0 -pingpong -dst 1Step4: 要求:小消息(如8字节)。Step5: 推荐:测试不同距离(同服务器内、跨服务器)。Step6: 验证:同服务器内应<5μs。Step7: 期望:跨服务器<10μs。

8字节;同服务器<5μs

Latency Test、Pingpong

:hccn_tool;:Ascend 910;部署:验收测试

N-1351

计算

智算中心

NPU训练HCCL通信模式选择

如何选择AllReduce的通信模式(Simple/PLL)

性能·Communication Mode

Step1: Simple模式使用普通RDMA,PLL模式使用Pipelined Low Latency。Step2: PLL适合小消息,Simple适合大消息。Step3: 数学表达式:Mode={PLL,Simple,​size<1MBsize≥1MB​。Step4: 配置:export HCCL_PROTO=PLLStep5: 推荐:默认自动选择。Step6: 验证:profiling查看协议类型。Step7: 注意:PLL可能增加CPU开销。

1MB阈值;自动选择

Communication Mode、PLL

:HCCL;:Ascend 910;部署:训练配置

N-1352

计算

智算中心

NPU训练HCCL通信组(communicator)

如何创建和使用子通信组

分布式·Communicator

Step1: HCCL支持创建多个communicator,实现组内通信隔离。Step2: 数学表达式:Comm_world=all_ranks,Comm_sub=subset_ranks。Step3: 配置:使用hccl_create_commAPI。Step4: 应用:模型并行中不同TP组使用不同communicator。Step5: 推荐:由框架自动管理。Step6: 验证:hccl_get_comm_nameStep7: 注意:每个communicator独立资源。

子组通信;框架自动

Communicator、Subgroup

:HCCL API;:Ascend 910;部署:训练配置

N-1353

计算

智算中心

NPU训练HCCL通信异常处理

通信异常时如何定位

运维·Communication Debug

Step1: 常见异常:超时、连接断开、数据校验错误。Step2: 查看日志:/var/log/npu/slog/host-0Step3: 数学表达式:Error_code=HCCL_ERR_TIMEOUT。Step4: 配置:增加HCCL_DEBUG_INFO=1获取详细信息。Step5: 推荐:检查网络连通性和PFC配置。Step6: 验证:pinghccn_tool -i 0 -linkStep7: 注意:防火墙可能阻断RDMA。

查看日志;debug模式

Communication Debug、Error Code

:HCCL debug;:Ascend 910;部署:运维

N-1354

计算

智算中心

NPU训练HCCL与NCCL对比

HCCL与NCCL在功能和性能上的异同

架构·HCCL vs NCCL

Step1: HCCL是华为自研,NCCL是NVIDIA自研,两者API不完全兼容。Step2: 性能:同等条件下HCCL可达NCCL的95%以上。Step3: 数学表达式:BWHCCL​≈0.95×BWNCCL​。Step4: 功能:HCCL支持AllReduce、AllGather、ReduceScatter等,与NCCL基本一致。Step5: 配置:HCCL通过环境变量调优,NCCL通过nccl.conf。Step6: 推荐:华为平台使用HCCL。Step7: 验证:运行标准benchmark对比。

性能95%+;API不同

HCCL vs NCCL、Comparison

:HCCL、NCCL;:Ascend 910、NVIDIA GPU;部署:平台对比

聚焦于网络架构、存储、计算的更深层细节,基于华为文档内容,每个条目包含逐步推理的数学表达式推导,全部中文描述。

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1355

网络架构

智算中心

参数面Spine端口利用率均衡

如何确保所有Spine的端口利用率均衡

性能·Spine Load Balance

Step1: 每个Leaf的上行端口均匀分配到所有Spine,采用轮询或哈希方式。Step2: 若Spine数量为S,每Leaf上行U口,则每Leaf向每Spine连接U/S条链路。Step3: 数学表达式:Linksleaf_to_spine​=U/S,需为整数。Step4: 例:U=16,S=16,则每Leaf每Spine 1条链路。Step5: 配置:确保U能被S整除。Step6: 推荐:Spine数量选为U的因数。Step7: 验证:监控各Spine端口流量偏差<10%。

每Leaf每Spine 1链路;整除

Load Balance、Spine Utilization

:无;:CE9860;部署:参数面

N-1356

网络架构

智算中心

参数面BGP路由收敛时间

如何计算链路故障后BGP路由收敛时间

可靠性·BGP Convergence

Step1: BGP收敛时间包括故障检测、路由撤销、新路由传播。Step2: 使用BFD快速检测,检测时间Tbfd​=3×Tinterval​,通常Tinterval​=10ms,则Tbfd​=30ms。Step3: 数学表达式:Tconverge​=Tbfd​+Twithdraw​+Tpropagation​。Step4: 若Twithdraw​=10ms,Tpropagation​=20ms,则Tconverge​=60ms。Step5: 配置:启用BFD for BGP。Step6: 推荐:BFD间隔10ms,倍数3。Step7: 验证:display bgp peer verbose查看BFD状态。

收敛约60ms;BFD 10ms×3

BGP Convergence、BFD

:交换机配置;:CE9860;部署:参数面

N-1357

网络架构

智算中心

参数面BGP路由条目数量估算

如何估算参数面BGP路由表中的路由条目数

路由·Route Scale

Step1: 每台服务器有8个NPU,每个NPU一个IP,服务器总数S。Step2: 每条路由对应一个NPU IP,总路由数R=S×8。Step3: 数学表达式:R=8S。Step4: 例:1024卡对应128台服务器,路由数=1024条。Step5: 加上Loopback和管理地址,约1100条。Step6: 配置:Spine和Leaf需支持至少10K路由条目。Step7: 验证:display bgp routing-table计数。

1024卡约1024条;支持10K

Route Scale、BGP Table

:无;:CE9860;部署:参数面

N-1358

网络架构

智算中心

参数面VXLAN隧道数量估算

如何估算EVPN VXLAN场景下的隧道数量

虚拟化·VXLAN Tunnel

Step1: 每个Leaf作为VTEP,与其他所有Leaf建立VXLAN隧道。Step2: 隧道数T=L×(L−1)/2(Full-mesh)。Step3: 数学表达式:T=L(L−1)/2。Step4: 例:32台Leaf,隧道数=32×31/2=496条。Step5: 配置:Leaf需支持至少500条VXLAN隧道。Step6: 推荐:使用EVPN自动建立。Step7: 验证:display vxlan tunnel

32 Leaf共496条隧道;Full-mesh

VXLAN Tunnel、EVPN

:交换机配置;:CE9860;部署:参数面

N-1359

网络架构

智算中心

参数面QoS队列映射

如何将RoCEv2流量映射到指定优先级队列

QoS·Priority Mapping

Step1: 根据DSCP值映射到本地优先级,RoCEv2通常使用DSCP 26(CS3)。Step2: 映射关系:DSCP 26 → 本地优先级4。Step3: 数学表达式:Local_pri=DSCP_to_local[DSCP]。Step4: 配置:trust dscpqos map dscp 26 to local-priority 4Step5: 要求:整网一致。Step6: 推荐:仅使用一个优先级。Step7: 验证:display qos map-table dscp-local

DSCP 26 → 优先级4;单优先级

QoS Mapping、DSCP

:交换机配置;:CE9860;部署:参数面/存储面

N-1360

网络架构

智算中心

参数面PFC开启端口范围

哪些端口需要开启PFC

可靠性·PFC Scope

Step1: 所有可能承载RoCEv2流量的端口都必须开启PFC。Step2: 包括:服务器接入端口、Leaf-Spine互联端口、Spine-Leaf互联端口、Peer-link端口。Step3: 数学表达式:Portspfc​={all_ports_carrying_roce}。Step4: 配置:在系统视图下批量配置。Step5: 要求:不能遗漏。Step6: 推荐:全局开启。Step7: 验证:display dcb pfc查看各端口状态。

所有RoCE端口;全局开启

PFC Scope、RoCE Ports

:交换机配置;:CE9860/CE8850E;部署:参数面/存储面

N-1361

存储

智算中心

HPFS客户端缓存策略

如何配置客户端缓存减少网络IO

性能·Client Cache

Step1: 客户端缓存热数据,缓存命中率H,减少网络IO比例。Step2: 有效IO带宽BWeff​=BWnet​/(1−H)。Step3: 数学表达式:IOsaved​=H×IOtotal​。Step4: 例:H=40%,则网络IO减少40%。Step5: 配置:hpfs client cache enable,缓存大小根据内存设置。Step6: 推荐:缓存大小建议为内存的10%。Step7: 验证:hpfs client cache stats

命中率40%;缓存为内存10%

Client Cache、Cache Hit Ratio

:HPFS客户端;:计算节点内存;部署:存储客户端

N-1362

存储

智算中心

HPFS小文件性能优化

如何优化小文件(<64KB)的读写性能

性能·Small File

Step1: 小文件合并为大文件存储(Harvesting),减少元数据开销。Step2: 合并后IOPS提升倍数G=IOPSseparate​IOPSmerged​​。Step3: 数学表达式:IOPSmerged​≈Sizemerged​BWdisk​​。Step4: 例:10000个小文件各4KB,合并为100个大文件各400KB,IOPS提升约100倍。Step5: 配置:HPFS自动合并或手动归档。Step6: 推荐:小文件先打包再存储。Step7: 验证:对比合并前后IOPS。

合并提升100倍;4KB→400KB

Small File Optimization、Harvesting

:HPFS;:存储集群;部署:存储策略

N-1363

存储

智算中心

HPFS元数据缓存

如何配置MDS的元数据缓存提高性能

性能·Metadata Cache

Step1: MDS将热点元数据缓存在内存中,减少磁盘访问。Step2: 缓存命中率Hmeta​,平均元数据延迟Lmeta​=Hmeta​×Lcache​+(1−Hmeta​)×Ldisk​。Step3: 数学表达式:Lmeta_avg​=H×10μs+(1−H)×1ms。Step4: 例:H=90%,则L=0.9×10+0.1×1000=109μs。Step5: 配置:MDS内存至少64GB。Step6: 推荐:缓存大小为元数据总量的10%。Step7: 验证:hpfs mds cache stats

命中率90%;延迟109μs

Metadata Cache、MDS

:HPFS;:MDS服务器;部署:存储集群

N-1364

存储

智算中心

HPFS数据一致性模型

HPFS提供哪种一致性模型

可靠性·Consistency

Step1: HPFS提供强一致性(Strong Consistency),写入成功后立即可读。Step2: 通过分布式锁和日志实现。Step3: 数学表达式:Write_complete⇒Read_visible。Step4: 配置:默认。Step5: 要求:训练场景需要强一致性保证checkpoint正确。Step6: 推荐:保持默认。Step7: 验证:并发读写测试。

强一致性;写入立即可见

Consistency Model、Strong Consistency

:HPFS;:存储集群;部署:存储策略

N-1365

计算

智算中心

NPU算子Profiling详细分析方法

如何分析单个算子的耗时和带宽

性能·Op Profiling

Step1: 使用Profiling的op_trace模式,记录每个算子的开始和结束时间。Step2: 计算算子带宽BWop​=Output_size/Top​。Step3: 数学表达式:Top​=Tend​−Tstart​。Step4: 例:Conv2D输出10MB,耗时100μs,带宽=100GB/s。Step5: 配置:设置export PROFILING_OPTIONS=op_traceStep6: 推荐:对比理论带宽(如AI Core 256TFLOPS)。Step7: 验证:查看生成的op_trace文件。

算子带宽100GB/s;op_trace

Op Profiling、Bandwidth

:Profiling工具;:Ascend 910;部署:训练调优

N-1366

计算

智算中心

NPU AI Core利用率计算

如何计算AI Core的计算利用率

性能·AI Core Utilization

Step1: AI Core理论算力Ppeak​=256TFLOPS(FP16)。Step2: 实际有效算力Pactual​=Tcompute​FLOPs​。Step3: 数学表达式:Utilization=Pactual​/Ppeak​。Step4: 例:ResNet-50一次前向需要7.7GFLOPs,耗时10ms,则Pactual​=770GFLOPS,利用率=0.77/256=0.3%。Step5: 实际利用率受限于内存带宽和算子效率。Step6: 配置:通过Profiling获取FLOPs。Step7: 推荐:优化内存访问模式。

利用率0.3%(ResNet-50);受限于带宽

AI Core Utilization、FLOPs

:Profiling;:Ascend 910;部署:训练调优

N-1367

计算

智算中心

NPU内存带宽测试

如何测试NPU的HBM带宽

性能·Memory Bandwidth

Step1: 使用自定义kernel进行连续读写测试。Step2: 数学表达式:BWmem​=Data_size/Tread_or_write​。Step3: 例:Ascend 910 HBM带宽约1.2TB/s,实测应>1TB/s。Step4: 配置:运行npu-smi或专用测试工具。Step5: 要求:测试时独占NPU。Step6: 推荐:使用华为提供的mem_bandwidth_testStep7: 验证:对比理论值。

理论1.2TB/s;实测>1TB/s

Memory Bandwidth、HBM

:测试工具;:Ascend 910;部署:验收测试

N-1368

计算

智算中心

NPU训练FP16与FP32混合精度Loss对比

如何验证混合精度训练的Loss曲线是否正常

精度·Loss Comparison

Step1: 分别在FP32和混合精度下训练相同步数,记录Loss。Step2: 计算Loss差异(D =

Loss{fp32} - Loss{mixed}

)。Step3: 数学表达式:(D_{avg} = \frac{1}{N}\sum

Loss{fp32} - Loss{mixed}

N-1369

计算

智算中心

NPU训练梯度直方图分析

如何通过梯度直方图诊断训练问题

精度·Gradient Histogram

Step1: 收集梯度值,绘制直方图。Step2: 正常梯度分布近似正态分布,均值接近0。Step3: 数学表达式:Histogram(g)=count(g∈bini​)。Step4: 异常:梯度消失(集中在0附近)、梯度爆炸(有大值)。Step5: 配置:在训练脚本中添加summary。Step6: 推荐:监控梯度范数。Step7: 验证:TensorBoard查看histogram。

正态分布;监控消失/爆炸

Gradient Histogram、Diagnosis

:TensorBoard;:Ascend 910;部署:训练调优

N-1370

计算

智算中心

NPU训练学习率warmup策略

如何配置学习率warmup

精度·Warmup

Step1: 前W步学习率从0线性增加到lrbase​。Step2: 数学表达式:lr(t)=lrbase​×min(1,t/W)。Step3: 配置:在model_fn中实现。Step4: 例:W=1000,lrbase​=0.001,第500步lr=0.0005。Step5: 推荐:W约为总步数的5%。Step6: 验证:打印学习率。Step7: 注意:大batch需要更长的warmup。

线性warmup;W=总步数5%

Warmup、Learning Rate Schedule

:TensorFlow API;:Ascend 910;部署:训练脚本

N-1371

计算

智算中心

NPU训练Batch Normalization同步

分布式训练中BN层如何同步均值和方差

分布式·Sync BN

Step1: 分布式训练中,每个NPU计算本地的均值和方差,然后通过AllReduce同步。Step2: 数学表达式:μglobal​=N1​∑μi​,σglobal2​=N1​∑σi2​。Step3: 配置:使用tf.nn.sync_batch_normStep4: 要求:所有NPU的batch size相同。Step5: 推荐:小batch时启用同步BN。Step6: 验证:对比单卡和分布式BN输出。Step7: 注意:增加通信开销。

全局均值/方差;AllReduce

Sync BN、Batch Normalization

:TensorFlow API;:Ascend 910;部署:训练脚本

N-1372

计算

智算中心

NPU训练权重衰减(Weight Decay)

如何正确配置权重衰减

精度·Weight Decay

Step1: 权重衰减在损失中加入正则项(\lambda

W

N-1373

运维

智算中心

Telemetry数据北向对接Kafka

如何将Telemetry数据推送到Kafka

监控·Kafka Integration

Step1: 交换机通过gRPC将Telemetry数据上报到采集器,采集器写入Kafka。Step2: 数据格式为Protobuf。Step3: 数学表达式:Topic=telemetry_device_metrics。Step4: 配置:采集器配置Kafka broker地址。Step5: 要求:Kafka集群可用。Step6: 推荐:使用3副本保证可靠性。Step7: 验证:kafka-console-consumer查看数据。

Protobuf格式;3副本

Kafka Integration、Telemetry

:Kafka、采集器;:CE交换机;部署:监控平台

N-1374

运维

智算中心

网络健康度评分模型

如何计算网络整体健康度分数

运维·Health Score

Step1: 健康度由多个维度加权计算:设备健康度、链路健康度、性能健康度、安全健康度。Step2: 数学表达式:Health=w1​×Hdevice​+w2​×Hlink​+w3​×Hperf​+w4​×Hsecurity​。Step3: 例:w=[0.3,0.3,0.3,0.1],各项满分100,则总分100。Step4: 配置:iMaster NCE自动计算。Step5: 要求:低于80分触发告警。Step6: 推荐:每周查看趋势。Step7: 验证:模拟故障观察分数下降。

加权平均;满分100

Health Score、Weighted Model

:iMaster NCE;:无;部署:运维平台

N-1375

运维

智算中心

网络变更自动化回滚脚本

如何编写自动回滚脚本

自动化·Rollback Script

Step1: 变更前备份当前配置到TFTP服务器。Step2: 变更后执行连通性测试,失败则自动恢复备份配置。Step3: 数学表达式:Trollback​=Tdetect​+Tapply_backup​。Step4: 例:检测30s,恢复20s,总50s。Step5: 配置:使用Python脚本调用NETCONF。Step6: 推荐:关键变更启用。Step7: 验证:模拟配置错误。

回滚50s;NETCONF

Rollback Script、Automation

:Python、NETCONF;:CE交换机;部署:运维流程

N-1376

运维

智算中心

网络配置备份策略

如何制定配置备份频率和保留策略

运维·Backup Policy

Step1: 每日备份一次,保留最近30天的配置。Step2: 备份存储空间Space=Ndevices​×Sizeconfig​×30。Step3: 数学表达式:Space=600×100KB×30=1.8GB。Step4: 配置:使用SFTP上传到备份服务器。Step5: 推荐:变更前后手动备份。Step6: 验证:dir查看备份文件。Step7: 注意:备份文件命名包含日期和设备名。

每日备份;保留30天

Backup Policy、Configuration Backup

:脚本、SFTP;:备份服务器;部署:运维流程

N-1377

网络架构

智算中心

参数面MTU配置

如何配置MTU以获得最佳性能

性能·MTU

Step1: RoCEv2建议使用巨型帧(MTU 9000),减少CPU开销。Step2: 数学表达式:Throughput_gain=Payloadstandard​Payloadjumbo​​≈6倍。Step3: 配置:交换机端口和服务器网卡均设置MTU 9000。Step4: 要求:整网一致。Step5: 推荐:9000字节。Step6: 验证:ping -M do -s 8972测试。Step7: 注意:超过MTU的包会被分片。

MTU 9000;吞吐提升6倍

MTU、Jumbo Frame

:交换机/网卡配置;:CE9860、RoCE网卡;部署:参数面

N-1378

网络架构

智算中心

参数面流控模式选择(PFC vs ECN)

何时只用PFC,何时配合ECN

QoS·Flow Control

Step1: PFC提供无损保证,ECN提供拥塞通知。Step2: 两者配合使用时,PFC作为最后手段,ECN主动降速避免PFC。Step3: 数学表达式:Strategy=PFC_only∪ECN+PFC。Step4: 推荐:同时开启PFC和ECN。Step5: 配置:PFC开启,ECN开启。Step6: 验证:监控PFC暂停帧和ECN标记。Step7: 注意:纯PFC可能导致PFC死锁。

同时开启;ECN主动,PFC兜底

PFC vs ECN、Flow Control

:交换机配置;:CE9860;部署:参数面/存储面

N-1379

存储

智算中心

HPFS存储池(Pool)设计

如何划分存储池以满足不同性能需求

架构·Storage Pool

Step1: 将不同性能的磁盘(全闪、混闪)划分为不同的存储池。Step2: 每个池有自己的QoS策略。Step3: 数学表达式:Pool={disk_type,QoS_policy}。Step4: 配置:hpfs pool createStep5: 推荐:全闪池用于训练数据,混闪池用于备份。Step6: 验证:hpfs pool listStep7: 注意:池之间数据可迁移。

全闪池+混闪池;不同QoS

Storage Pool、Tiering

:HPFS;:全闪/混闪盘框;部署:存储策略

N-1380

计算

智算中心

NPU训练自动混合精度(AMP)

如何使用AMP API简化混合精度配置

精度·AMP

Step1: TensorFlow的AMP自动管理Loss Scaling和精度转换。Step2: 使用tf.train.experimental.enable_mixed_precision_graph_rewriteStep3: 数学表达式:Graph=AMP_rewrite(Graphoriginal​)。Step4: 配置:在optimizer之前调用。Step5: 推荐:使用AMP代替手动配置。Step6: 验证:检查loss是否正常。Step7: 注意:NPU上需使用npu_bridge的AMP适配。

自动重写图;简化配置

Automatic Mixed Precision、AMP

:TensorFlow AMP;:Ascend 910;部署:训练脚本

N-1381

计算

智算中心

NPU训练Horovod Timeline分析

如何使用Horovod Timeline分析通信性能

性能·Horovod Timeline

Step1: 设置环境变量HOROVOD_TIMELINE=/path/timeline.jsonStep2: 训练结束后用chrome://tracing打开。Step3: 数学表达式:Timeline={event:[start,end,activity]}。Step4: 分析:查看AllReduce是否与计算重叠。Step5: 配置:在启动脚本中export。Step6: 推荐:采样少量step。Step7: 注意:NPU上Horovod需使用HCCL后端。

生成timeline.json;chrome查看

Horovod Timeline、Visualization

:Horovod;:Ascend 910;部署:训练调优

N-1382

计算

智算中心

NPU训练分布式策略选择指南

何时使用数据并行、模型并行、流水线并行

架构·Strategy Selection

Step1: 模型大小决定并行策略:小模型(<1B)用数据并行,中等(1B-10B)用数据+模型并行,大模型(>10B)用数据+模型+流水线并行。Step2: 数学表达式:Strategy=f(model_size,GPU_memory)。Step3: 例:175B模型,每GPU显存80GB,TP=8,PP=16,DP=64,则每GPU显存=175e9/(8 * 16 * 64)2≈42.7GB。Step4: 配置:使用Megatron-LM或DeepSpeed。Step5: 推荐:TP在节点内,PP跨节点,DP跨所有节点。Step6: 验证:检查显存使用和通信占比。Step7*: 注意:通信开销随并行度增加。

175B模型需TP+PP+DP;显存42.7GB

Strategy Selection、Megatron-LM

:Megatron-LM、DeepSpeed;:Ascend 910;部署:训练配置

N-1383

计算

智算中心

NPU训练ZeRO优化器使用

如何在NPU上配置ZeRO优化器

分布式·ZeRO

Step1: ZeRO将优化器状态、梯度、参数分片到各NPU。Step2: ZeRO-3通信量Comm=3×model_size×(N−1)/N。Step3: 数学表达式:Memper_gpu​=model_size/N×(2+2+4)=model_size/N×8(FP16参数+梯度+FP32优化器状态)。Step4: 例:175B模型,N=1024,每GPU显存=175e9/1024×8≈1.37GB,加上激活值等,总计约40GB。Step5: 配置:DeepSpeed中zero_optimization.stage=3Step6: 推荐:ZeRO-2平衡通信和显存。Step7: 验证:npu-smi info查看显存。

ZeRO-3每GPU 1.37GB参数;通信量3倍模型

ZeRO、DeepSpeed

:DeepSpeed;:Ascend 910;部署:训练配置

N-1384

计算

智算中心

NPU训练性能调优总结与最佳实践

综合所有优化手段的最佳实践清单

性能·Best Practice

Step1: 必选:混合精度(allow_mix_precision)、数据卸载(enable_data_pre_proc)、iterations_per_loop=10、CPU绑定。Step2: 可选:算子替换(dropout/gelu)、梯度分段调优、增大batch size。Step3: 数学表达式:Expected_speedup=1.5×1.2×1.1×1.05×1.1≈2.3x。Step4: 配置:逐一验证。Step5: 推荐:使用Profiling指导调优。Step6: 验证:最终吞吐对比基线。Step7: 注意:不同网络收益不同。

综合加速约2.3x;逐项验证

Best Practice、Performance Summary

:Profiling;:Ascend 910;部署:训练调优


🌐 网络方向(N-1385 ~ N-1402,共18条)

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1385

网络架构

智算中心

参数面2级CLOS三种规模对比

对比1024/9216/18432卡三种组网的Spine-Leaf配比

架构·Scale Comparison

Step1: 1024卡:Leaf=32(CE9860盒式),Spine=16(CE9860),单Spine 32×400G。Step2: 9216卡:Leaf=288(CE9860),Spine=16(CE16808,每Spine 288×400G)。Step3: 18432卡:Leaf=576(CE9860),Spine=16(CE16816,每Spine 576×400G)。Step4: 收敛比均为1:1,Leaf上行16×400G,Spine总端口需≥L×16。Step5: 数学表达式:Spine端口校验 Pspine​×Sp≥L×16。Step6: 1024卡:32×16=512 ≤ 16×32=512 ✓;9216卡:288×16=4608 ≤ 16×288=4608 ✓;18432卡:576×16=9216 ≤ 16×576=9216 ✓。Step7: 推荐:超过9216卡用CE16816框式。

三种规模均1:1收敛;Spine端口完全利用

2级CLOS、Scale-out

:无;:CE9860/CE16808/CE16816;部署:参数面

N-1386

网络架构

智算中心

存储面M-LAG与去堆叠设备数量对比

对比同规模下M-LAG vs 去堆叠的Leaf数量差异

架构·M-LAG vs Non-stack

Step1: 1024卡场景,M-LAG:计算Leaf 11对=22台,存储Leaf 7对=14台,共36台Leaf+4 Spine=40台。Step2: 去堆叠:计算Leaf 8对=16台,存储Leaf 5对=10台,共26台Leaf+4 Spine=30台。Step3: 差异:去堆叠省6台Leaf(每对Leaf上下行各多4口,因无peer-link)。Step4: 数学表达式:Saving=(Pairsmlag​−Pairsnonstack​)×2。Step5: 代价:去堆叠依赖服务器ARP双发(文档标注"待验证")。Step6: 推荐:生产用M-LAG更稳。Step7: 验证:对比Peer-link故障场景。

去堆叠省6台Leaf;ARP双发待验证

M-LAG、去堆叠

:交换机配置;:CE8850E;部署:存储面

N-1387

网络架构

智算中心

存储面Spine端口压力(18432卡)

18432卡存储面Spine端口数校验

性能·Spine Port Pressure

Step1: 18432卡对应2304台计算服务器+1230台存储服务器=3534台,每服务器2×100GE接入。Step2: 计算Leaf对数=2304/16=144对=288台;存储Leaf对数=1230/16≈77对=154台;合计Leaf 442台。Step3: 每台Leaf上行16×100GE,总上行口=442×16=7072。Step4: 16台CE16816,每Spine 768×100GE,总Spine端口=16×768=12288,利用率=7072/12288=57.5%。Step5: 数学表达式:Util=Sp×Pspine​L×16​。Step6: 配置:CE16816每业务板48×100GE,16板。Step7: 推荐:利用率<60%留余量。

利用率57.5%;留余量

Spine Port Pressure、CE16816

:无;:CE16816;部署:存储面

N-1388

网络架构

智算中心

参数面EBGP邻居规模极限

Spine的EBGP邻居数是否会成为瓶颈

路由·EBGP Scale

Step1: 18432卡场景,Leaf=576台,每台Spine与576台Leaf建EBGP邻居。Step2: 单Spine邻居数=576,4台Spine共2304邻居(但每台Spine独立算)。Step3: CE16816的BGP邻居规格通常≥8K,576远未达上限。Step4: 数学表达式:Neighborspine​=L=576。Step5: 若扩展到万卡以上(Leaf>2000),需注意BGP进程内存。Step6: 配置:Spine AS统一,Leaf AS统一+allowas-in 1。Step7: 推荐:超大规模可考虑路由反射器。

单Spine 576邻居;CE16816规格够

EBGP Neighbor、Scale Limit

:BGP配置;:CE16816;部署:参数面

N-1389

网络架构

智算中心

RoCEv2 DSCP与PFC优先级映射

整网DSCP规划为何只用一个优先级

QoS·DSCP Planning

Step1: 文档规定整网RoCEv2流量规划1个优先级(DSCP→本地优先级映射)。Step2: 原因:多优先级会导致不同队列缓存隔离,小优先级易被饿死;且PFC按优先级独立反压,多优先级增加死锁风险。Step3: 数学表达式:Priorityroce​=1(整网唯一)。Step4: 配置:DSCP 26(CS3)→本地优先级4,PFC仅在优先级4开启。Step5: 要求:网卡、Leaf、Spine、Peer-link四者一致。Step6: 推荐:不要为管理/存储流量复用此优先级。Step7: 验证:display dcb pfc各端口仅优先级4 enabled。

单优先级;DSCP 26→Prio 4

DSCP Mapping、RoCEv2 QoS

:交换机配置;:CE9860/CE8850E+RoCE网卡;部署:参数面+存储面

N-1390

网络架构

智算中心

PFC水线dynamic值与缓存占比对照

如何理解dynamic 0~10对应的α/(α+1)

流控·PFC Watermark

Step1: 文档给出dynamic值与最大可使用百分比:dynamic=4→α=1/8→11.11%;dynamic=9→α=4→80%。Step2: 数学表达式:Bufferusable​=α+1α​,α=1/27−dynamic(dynamic≥4时)。Step3: 推荐初始值dynamic=4(11.11%),若欠吞吐上调,若丢包下调。Step4: 例:400G端口总缓存约40MB,11.11%≈4.4MB Xoff阈值。Step5: 配置:dcb pfc buffer xoff dynamic 4Step6: 推荐:步长1微调。Step7: 验证:监控PFC暂停帧计数。

dynamic=4→11.11%;400G缓存4.4MB

PFC Xoff、Buffer Percentage

:交换机配置;:CE9860/CE8850E;部署:参数面+存储面

N-1391

网络架构

智算中心

Headroom与线缆长度的定量关系

长距线缆如何调整hdrm

流控·Headroom

Step1: 文档:100G端口hdrm推荐330 cells,吸收100米突发。光缆5ns/米,100米=500ns传播。Step2: 100G端口每cell≈128B,330 cells≈42KB。BW100G​=100Gbps=12.5GB/s,500ns内飞行数据=12.5GB/s×500ns≈6.25KB,加处理余量→42KB合理。Step3: 数学表达式:Hdrmnew​=Hdrmbase​+ΔL×5ns/m×BW。Step4: 例:300米,ΔL=200m=1000ns,增量为12.5GB/s×1ns×1000=12.5KB,总hdrm≈54.5KB→约428 cells。Step5: 配置:dcb pfc buffer hdrm 428Step6: 推荐:每增100米加约98 cells。Step7: 验证:入方向丢包计数。

300米→428 cells;每100米+98 cells

Headroom、Cable Length

:交换机配置;:CE交换机;部署:长距场景

N-1392

网络架构

智算中心

PFC死锁钩子流形成条件

什么拓扑+故障组合会形成钩子流

可靠性·Hook Flow

Step1: 文档场景:Leaf1下Server1故障(链路down或ARP缺失)→流量改走上行→Spine2→Leaf4→Spine1→Leaf1形成环。Step2: 4台设备缓存同时达Xoff,互发PFC反压,形成死锁。Step3: 数学表达式:Hook=(ingress∈uplink)∧(egress∈uplink)∧(same_subnet)。Step4: 钩子流特征:同一业务流从Leaf的上联端口组进、上联端口组出。Step5: 配置:将Leaf上行口加入pfc uplink-port-group,识别钩子流后改DSCP/优先级破除死锁。Step6: 推荐:存储面M-LAG必配,参数面Leaf上行也可配。Step7: 验证:模拟Server-Leaf链路down。

4跳环路;上行口组进出

Hook Flow、Deadlock Prevention

:交换机配置;:CE8850E/CE9860;部署:存储面+参数面

N-1393

网络架构

智算中心

PFC死锁检测与恢复参数

死锁检测周期+恢复周期的取值逻辑

可靠性·Deadlock Recovery

Step1: 文档:检测周期Tdet​=10ms,恢复周期Trec​=10ms,turn-off阈值N=5。Step2: 若在10ms内队列持续XOFF,判定死锁,忽略PFC反压帧恢复发送(或丢包),10ms后恢复PFC。Step3: 数学表达式:Ttotal_recover​=Tdet​+Trec​=20ms。Step4: 若下一周期仍死锁,继续新一轮恢复。Step5: 配置:priority 4 deadlock-detect time 10 deadlock-recovery time 10 priority 4 turn-off threshold 5Step6: 推荐:检测与恢复等长时间,避免震荡。Step7: 验证:注入死锁场景看恢复。

检测10ms+恢复10ms=20ms;阈值5

PFC Deadlock、Turn-off

:交换机配置;:CE交换机;部署:参数面+存储面

N-1394

网络架构

智算中心

ECN水线与RTT的定量关系

长距场景为何要提高ECN水线

拥塞·ECN Tuning

Step1: 文档:100G端口1μs转发100Kb,队列积压1Mb=10μs排空延迟。Step2: RTT增大→ECN标记到发送端降速的闭环时间变长→过早反压会导致长距欠吞吐。Step3: 数学表达式:Tecn_loop​=2×RTT+Treact​,RTT长则需更高ECN水线容纳闭环期内报文。Step4: 例:RTT从10μs增至100μs(长距DCI),ECN高水线从500K cells提到2M cells。Step5: 配置:M-LAG的peer-link也要配ECN(同100G配置)。Step6: 推荐:二分法调参。Step7: 验证:监控吞吐+延迟。

RTT↑→ECN水线↑;peer-link同配

ECN Threshold、RTT Correlation

:交换机配置;:CE交换机;部署:长距/存储面

N-1395

网络架构

智算中心

参数面分布式网关ARP vlink直连路由

分布式网关如何实现多Leaf同IP/MAC

路由·Distributed GW

Step1: 多台Leaf配置相同VLANIF IP+MAC,ARP请求在本地Leaf终结,不扩散。Step2: 使能ARP转vlink直连路由,直连路由引入BGP通告给其他Leaf/Spine。Step3: 数学表达式:RouteleafA​=Direct(Vlanif)BGP​LeafB,Spine。Step4: 计算节点网关指向单Leaf(上联单Leaf),ARP在单Leaf终结。Step5: 配置:arp proxy enable+ arp vlink-direct-route enable+ import-route direct进BGP。Step6: 推荐:同租户多子网可放通。Step7: 验证:跨Leaf ping网关IP。

同IP/MAC;ARP本地终结

Distributed GW、vlink Route

:交换机BGP配置;:CE9860;部署:参数面

N-1396

网络架构

智算中心

存储面分布式网关Bond差异

计算侧mode1 vs 存储侧mode4的设计原因

组网·Bond Mode

Step1: 计算侧Bond1(主备):训练任务存储IO突发性强但连接数少,主备切换秒级可接受,简化Leaf无堆叠/去堆叠设计。Step2: 存储侧Bond4(LACP):存储节点需双向高带宽,LACP聚合2×100G=200G。Step3: 数学表达式:BWcalc​=100G(主备),BWstor​=200G(LACP)。Step4: 配置:计算侧服务器mode=active-backup,存储侧mode=802.3adStep5: 要求:Leaf侧M-LAG/去堆叠配合。Step6: 推荐:计算侧主备足够,存储侧必用LACP。Step7: 验证:cat /proc/net/bonding/bond0

计算100G主备;存储200G LACP

Bond Mode、M-LAG

:OS bond配置;:CX6网卡;部署:存储面

N-1397

网络架构

智算中心

M-LAG Peer-link带宽=单Leaf上行一半

为何是"一半"不是"全量"

可靠性·Peer-link BW

Step1: 文档:Peer-link带宽=单Leaf上行带宽的一半。单Leaf上行12×100G=1.2T,peer-link=6×100G=600G。Step2: 原因:M-LAG双活场景下,跨设备转发流量仅是部分(另一部分本地转发),峰值不会超过上行一半。Step3: 数学表达式:BWpeer​=2Uleaf​×BWport​​。Step4: 若上行全打满+跨设备流量全走peer-link的极端场景,6×100G会成为瓶颈。Step5: 配置:CE8850E 32口分配:上行12+下行12+peer6+DAD1+备1。Step6: 推荐:监控peer-link利用率,超40%告警。Step7: 验证:模拟单Leaf故障看peer-link流量。

12×100G上行→6×100G peer;监控<40%

Peer-link BW、M-LAG Design

:交换机配置;:CE8850E;部署:存储面

N-1398

网络架构

智算中心

DAD链路独立性的必要性

为何DAD不能用peer-link复用

可靠性·DAD

Step1: peer-link故障(如板卡/光纤问题)可能导致双主,此时需要DAD链路检测对端是否存活以触发隔离。Step2: 若DAD走peer-link,peer-link故障则DAD也失效→双主无法检测→脑裂。Step3: 数学表达式:DADpath​=Peer_linkpath​(物理独立)。Step4: 配置:DAD用带外管理网或独立100GE业务口。Step5: 推荐:带外管理网最稳。Step6: 验证:断开peer-link看DAD是否仍能通。Step7: 注意:CE8850E每Leaf DAD占1口。

DAD与peer-link物理独立;防脑裂

DAD、M-LAG Brain Split

:交换机配置;:CE8850E;部署:存储面

N-1399

网络架构

智算中心

Telemetry采集周期与异常上报逻辑

队列为何"仅积压时上报"

监控·Telemetry

Step1: 文档:接口/光模块1min周期,队列30s周期但"仅队列积压时上报,正常不上报"。Step2: 原因:队列空时上报无意义数据,浪费Kafka带宽;积压才表征拥塞事件。Step3: 数学表达式:Report(queue)=(queue_depth>0)→send;否则静默。Step4: 配套采集:PFC帧数、ECN标记数同期30s上报。Step5: 配置:gRPC+Telemetry订阅,Kafka对接上层。Step6: 推荐:队列阈值与ECN水线联动分析。Step7: 验证:注入拥塞看Kafka是否有数据。

队列积压才上报;减Kafka负载

Telemetry、gRPC

:iMaster NCE、Kafka;:CE交换机;部署:运维平台

N-1400

网络架构

智算中心

光模块亚健康检测(FEC纠错计数)

如何用FEC纠错数识别光链路亚健康

运维·Optical Health

Step1: 文档"故障1-3-5"提到"疑似光链路亚健康"是传统监控盲区(无Syslog/Trap)。Step2: FEC纠错计数持续增长但误码率未达告警阈值→亚健康。Step3: 数学表达式:BERtrend​=Total_bitsFEC_corrected​呈上升趋势→预警。Step4: 采集:Telemetry秒级采光模块(收发光功率、电流、电压、温度)+ FEC计数。Step5: 配置:动态基线比对,"当前值>基线+3σ"触发Issue。Step6: 推荐:清洁光模块/更换光纤。Step7: 验证:替换后FEC计数斜率归零。

FEC持续增长→亚健康;3σ动态基线

Optical Health、FEC

:iMaster NCE;:400G/100G光模块;部署:运维

N-1401

网络架构

智算中心

网络风险评估40+项分类

5维度(性能/可靠性/容量/一致性/稳定性)如何覆盖

运维·Risk Assessment

Step1: 文档:5维度40+评估项,含MLAG配置一致性、EthTrunk负载不均、Leaf-Spine未建Full Mesh EBGP等。Step2: 性能维度:端口利用率、微突发、缓冲;可靠性:M-LAG双主、端口假死;容量:Spine端口余量;一致性:BGP邻居、配置漂移;稳定性:CPU/内存/表项持续增长。Step3: 数学表达式:Risk_score=∑dim​wdim​×total_itemsdim​abnormal_items​。Step4: 配置:iMaster NCE自动日检,推送健康报告。Step5: 推荐:每周review风险项。Step6: 验证:对比传统巡检(仅单设备)vs 整网评估。Step7: 注意:10+项是传统工具识别不了的(如微突发、EthTrunk不均)。

5维40+项;10+项传统盲区

Risk Assessment、5 Dimensions

:iMaster NCE;:无;部署:运维平台

N-1402

网络架构

智算中心

北向API对接(Restful+Kafka+Syslog)

三类北向接口分别承载什么数据

运维·Northbound

Step1: Restful:资源管理(网元/链路/端口/单板/光模块)+ 健康度Issue + IP360 + 系统管理,HTTPS。Step2: Kafka:性能KPI流式(设备CPU/内存、接口丢包/错包/流量、光模块、队列PFC/ECN、TCAM)。Step3: Syslog:故障Issue实时通知。Step4: 数学表达式:Data_flow=Restful(pull)+Kafka(push_stream)+Syslog(push_event)。Step5: 配置:Kafka topic按KPI类型分。Step6: 推荐:上层平台(如自研运维系统)消费Kafka做实时告警。Step7: 验证:Postman调Restful查网元列表。

Restful拉;Kafka推流;Syslog推事件

Northbound API、Kafka

:iMaster NCE;:无;部署:运维集成


🗄️ 并行文件存储HPFS方向(N-1403 ~ N-1413,共11条)

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1403

存储

智算中心

HPFS节点角色与配比

CM/MDS/OSS三角色的职能与数量配比

架构·Node Role

Step1: CM=集群管理(3台固定,奇数防脑裂),MDS=元数据(每100 OSS配1 MDS),OSS=数据存储。Step2: 18432卡场景:OSS=1230台 → MDS=⌈1230/100⌉=13台,CM=3台。Step3: 数学表达式:Nmds​=⌈Noss​/100⌉,Ncm​=3。Step4: 总存储节点=1230+13+3=1246台。Step5: 配置:CM三台组成Raft,MDS主备,OSS无状态。Step6: 推荐:MDS与OSS分部署,避免争CPU。Step7: 验证:hpfs cluster status

OSS:MDS≈100:1;CM固定3

HPFS、CM/MDS/OSS

:HPFS管理;:存储服务器;部署:存储集群

N-1404

存储

智算中心

HPFS IO路径延迟分解

计算节点→MDS→OSS的RTT构成

性能·IO Path

Step1: 路径:计算节点→存储Leaf→Spine→存储Leaf→OSS(读元数据+读数据两次RTT,或写两次)。Step2: 文档:RTT 200~300μs(时延敏感)。Step3: 数学表达式:RTT=Tcalc_leaf​+Tleaf_spine​+Tspine_stor_leaf​+Tstor_leaf_oss​+Tproc_mds/oss​。Step4: 每跳约5μs(交换+传播),4跳=20μs,MDS处理50μs,OSS处理100μs,合计170μs,落200~300μs区间。Step5: 配置:存储Leaf/Spine均1:1收敛,避免拥塞增延迟。Step6: 推荐:同机房部署计算与存储集群,控制Spine跳数。Step7: 验证:fio测试latency percentile。

4跳20μs+MDS50+OSS100≈170μs;符合200-300μs

IO Path、RTT

:HPFS;:CE8850E+存储服务器;部署:存储面

N-1405

存储

智算中心

HPFS条带化(Stripe)大小选择

条带宽度与条带单元如何影响大文件吞吐

性能·Striping

Step1: 文件切分为stripe,每个stripe分布到不同OSS,并行读写。Step2: 条带单元Sstripe​=4MB(文档隐含),条带宽度W(OSS数)。Step3: 数学表达式:Read_BWfile​=min(W×BWper_oss​,BWclient_nic​)。Step4: 例:W=8,BWper_oss​=1GB/s,则8GB/s,受限于计算侧2×100G=25GB/s,仍够。Step5: 配置:大文件W=8,小文件W=1(不条带)。Step6: 推荐:W不超过OSS故障域容忍数。Step7: 验证:fio测试不同W的seq read BW。

条带4MB;W=8时8GB/s

Striping、Parallel Read

:HPFS;:OSS节点;部署:存储策略

N-1406

存储

智算中心

HPFS副本与纠删码选择

热存储全闪单副本 vs 混闪备份的可靠性权衡

可靠性·Replica vs EC

Step1: 文档:全闪单副本(性能优先,故障由混闪备份兜底)+ 混闪开备份机制(周期性大流量)。Step2: 单副本风险:单OSS故障→数据不可用直到重建;混闪备份周期性同步。Step3: 数学表达式:RPObackup​=Tbackup_cycle​(如每天凌晨同步,RPO=24h)。Step4: 配置:全闪做主存储,混闪做冷备+周期性rsync类同步。Step5: 要求:全闪故障需在备份窗口内恢复。Step6: 推荐:关键训练数据双写(全闪+混闪同步)。Step7: 验证:模拟OSS故障看恢复时间。

全闪单副本+RPO 24h;备份周期流量

Replica、Erasure Code

:HPFS;:OceanDisk全闪/混闪;部署:存储集群

N-1407

存储

智算中心

HPFS集群内备份流量带宽规划

全闪→混闪备份的带宽与时窗计算

性能·Backup BW

Step1: 全闪容量Cflash​,备份周期Tcycle​=1天,备份窗口W=4h(凌晨)。Step2: 备份带宽BWbackup​=WCflash​​,但仅为增量ΔC。Step3: 数学表达式:BWneeded​=WΔCflash​​,ΔCflash​=Write_rate×Tcycle​。Step4: 例:全闪100TB,日增量10TB,W=4h→BW=10TB/4h=2.78GB/s。Step5: 配置:备份流量走存储面网络,时延不敏感,但与业务IO共享Spine→需限速。Step6: 推荐:备份限速≤存储面总BW的30%。Step7: 验证:监控备份时段Spine利用率。

日增量10TB→2.78GB/s;限速30%

Backup Traffic、Bandwidth Planning

:HPFS备份策略;:全闪/混闪;部署:存储运维

N-1408

存储

智算中心

HPFS MDS元数据操作延迟与瓶颈

MDS成为瓶颈的判断标准

性能·MDS Bottleneck

Step1: 每open/read/write需查MDS,MDS延迟Tmds​叠加到IO。Step2: 若Opsmds​>Capamds​,排队延迟陡增。Step3: 数学表达式:Tmds_total​=Tproc​+Capamds​Opsarrive​−Capamds​​×Tproc​(排队模型)。Step4: 例:Capamds​=200Kops/s,Opsarrive​=250K→排队延迟=50K/200K×Tproc​=0.25Tproc​→总T=1.25Tproc​。Step5: 配置:MDS用高主频CPU+NVMe,缓存热点元数据。Step6: 推荐:MDS:OSS=1:100是经验值,小文件场景需更密(1:50)。Step7: 验证:hpfs mds ops监控。

MDS容量200K ops/s;小文件1:50

MDS Bottleneck、Metadata Ops

:HPFS;:MDS服务器(NVMe);部署:存储集群

N-1409

存储

智算中心

HPFS客户端缓存命中率模型

客户端缓存如何减少网络IO

性能·Client Cache

Step1: 训练场景:同checkpoint/同数据集被多任务重复读→客户端缓存命中省网络IO。Step2: 命中率H,有效网络IO BWnet_eff​=(1−H)×BWapp​。Step3: 数学表达式:Saving=H×BWapp​。Step4: 例:H=50%,APP读BW=50GB/s→网络仅需25GB/s。Step5: 配置:客户端缓存大小=Host内存10%,LRU淘汰。Step6: 推荐:Checkpoint只读场景命中率极高。Step7: 验证:hpfs client cache stats看H。

命中50%→省一半网络IO;缓存=内存10%

Client Cache、Hit Ratio

:HPFS客户端;:计算节点内存;部署:计算侧

N-1410

存储

智算中心

HPFS存储多租户隔离(QoS组+ACL)

为何计算节点间不能互访,仅能访存储

安全·Storage Isolation

Step1: 文档:计算节点接入Leaf配QoS组+ACL,仅允许存储网段通过,禁其他(含同网段)。Step2: 存储节点Leaf无ACL(存储节点间+计算↔存储均可通)。Step3: 数学表达式:ACLcalc​=permitdst_ip∈Storage_Subnets,其余deny(含同计算子网)。Step4: 配置:计算端口加入QoS组,应用ACL。Step5: 要求:租户A/B计算节点即使同网段也互不通(防侧信道)。Step6: 推荐:存储子网单独VLAN 31,计算VLAN 30。Step7: 验证:计算节点ping同租户另计算节点→不通。

计算仅→存储;同计算子网也deny

Storage Multi-tenant、QoS ACL

:交换机ACL;:CE8850E;部署:存储面

N-1411

存储

智算中心

HPFS扩容时数据Rebalance带宽控制

在线扩容OSS如何不影响业务

运维·Rebalance

Step1: 新增OSS后,数据需重新分布(条带迁移)到新OSS以实现负载均衡。Step2: Rebalance带宽BWreb​需限速,否则挤占业务IO。Step3: 数学表达式:Treb​=BWreb​Data_to_move​,BWreb​≤30%×BWtotal_stor​。Step4: 例:新增10%容量→移10TB,BWreb​=1GB/s→T=10000s≈2.8h。Step5: 配置:hpfs rebalance throttle 1GB/sStep6: 推荐:业务低峰(凌晨)执行,BW≤30%。Step7: 验证:hpfs rebalance status

限速1GB/s;窗口2.8h;≤30%总BW

Online Expansion、Rebalance

:HPFS;:OSS节点;部署:存储运维

N-1412

存储

智算中心

HPFS缩容数据迁移时间

下线OSS前数据迁出时间窗

运维·Decommission

Step1: 标记OSS为decom,数据迁到其他OSS,迁完脱离集群。Step2: 单OSS存储量Doss​,迁移BW限速BWmig​。Step3: 数学表达式:Tdecom​=BWmig​Doss​​。Step4: 例:OSS存50TB,BWmig​=2GB/s→T=50TB/2GB/s=25000s≈6.9h。Step5: 配置:hpfs node decommission,先降权重(不再写入)再迁。Step6: 推荐:提前降权1天,让数据自然冷却。Step7: 验证:节点状态→offline。

50TB→6.9h;先降权再迁

Decommission、Data Migration

:HPFS;:OSS节点;部署:存储运维

N-1413

存储

智算中心

HPFS小文件性能优化(Harvesting)

训练中小文件(checkpoint shard、tokenizer)如何优化

性能·Small File

Step1: 小文件(<64KB)每个都要MDS查+单OSS IO→MDS成瓶颈。Step2: Harvesting:多个小文件打包成大文件(tar/zip)存HPFS,读时解包。Step3: 数学表达式:IOPSmerged​≈Sizemerged​BWdisk​​,vs 单小文件IOPSsep​≈Sizesmall​BWdisk​​。Step4: 例:4KB小文件→合并400KB大文件,IOPS提升100倍(受限于MDS→受限于BW)。Step5: 配置:训练前tar -cf checkpoints.tar checkpoint_shards/再上传。Step6: 推荐:tokenizer/vocab类小文件必打包。Step7: 验证:对比打包前后hpfs mds ops

4KB→400KB;IOPS提100倍

Small File、Harvesting

:HPFS客户端;:存储集群;部署:数据准备


🧊 冷热存储方向(N-1414 ~ N-1424,共11条)

编号

类型

领域

子领域

问题

问题类型·子问题

详细的数学分析(逐步推理的数学表达式)

参数列表及数值范围及边界条件

关联知识

加工工具及软硬件及机床装备及部署模式

N-1414

存储

智算中心

热存储(OceanDisk全闪)容量规划

训练集群热数据容量如何估算

规划·Hot Capacity

Step1: 热数据=训练数据集+Checkpoint+中间结果。数据集Dtrain​,Checkpoint Cckpt​,副本数R=1(全闪单副本)。Step2: 单任务热数据Stask​=Dtrain​+Nepoch​×Cckpt​(若每epoch存)。Step3: 数学表达式:Chot​=∑task​Stask​×Concurrency。Step4: 例:10个任务并发,每任务D=5TB,Cckpt​=500GB,存3份ckpt→S=5TB+1.5TB=6.5TB,并发10→65TB,加30%余量→84.5TB。Step5: 配置:OceanDisk全闪盘框,按84.5TB/节点容量规划OSS数。Step6: 推荐:热数据容量按并发任务数×单任务峰值。Step7: 验证:监控全闪池使用率。

并发10×6.5TB=65TB;+30%余量

Hot Storage、Capacity Planning

:HPFS;:OceanDisk全闪;部署:存储规划

N-1415

存储

智算中心

冷存储(OceanDisk混闪)容量规划

冷数据(备份/归档/日志)容量估算

规划·Cold Capacity

Step1: 冷数据=全闪备份+训练日志+模型归档+原始数据冷副本。Step2: 全闪日增量ΔCflash​,备份保留Tret​=7天→备份量=7ΔCflash​。Step3: 数学模型:Ccold​=Tret​×ΔCflash​+Carchive​+Clog​。Step4: 例:ΔCflash​=10TB/天→备份70TB,归档200TB,日志30TB→Ccold​=300TB。Step5: 配置:OceanDisk混闪,容量型盘框(HDD+SSD缓存)。Step6: 推荐:冷:热容量比≈4:1(300:84.5)。Step7: 验证:监控混闪池使用率。

冷:热≈4:1;7天备份保留

Cold Storage、Capacity Planning

:HPFS;:OceanDisk混闪;部署:存储规划

N-1416

存储

智算中心

冷热数据迁移阈值(Access Time)

如何设置降冷阈值平衡性能与成本

策略·Tiering Threshold

Step1: 文档:全闪→混闪备份是周期性大流量,隐含降冷策略(访问时间阈值)。Step2: 阈值Tth​:最后访问时间>Tth​则降冷。Tth​=7天是常见值。Step3: 数学表达式:Migrate=(now−Tlast_access​)>Tth​。Step4: 例:Checkpoint训练后7天未读→降冷;数据集持续被读→留热。Step5: 配置:HPFS生命周期策略hpfs tiering policy set threshold 7dStep6: 推荐:训练活跃期(如首月)阈值延长到30天,避免反复升降。Step7: 验证:hpfs tiering list看迁移记录。

阈值7天;活跃期可延30天

Data Tiering、Lifecycle

:HPFS;:全闪+混闪;部署:存储策略

N-1417

存储

智算中心

冷热存储成本模型

全闪vs混闪的TCO对比

经济·TCO

Step1: 全闪Priceflash​=1/GB/月(估),混闪Pricecold​=0.1/GB/月。Step2: 热数据Chot​=84.5TB,冷Ccold​=300TB。Step3: 数学表达式:TCOmonth​=Chot​×Pflash​+Ccold​×Pcold​=84.5×1+300×0.1=114.5/月。Step4: 若全放混闪(性能降)→TCO=384.5×0.1=38.45/月但训练慢;若全放全闪→384.5/月太贵。Step5: 分层最优:114.5vs 全闪384.5→省70%。Step6: 推荐:按访问频率严格分层。Step7: 验证:对比训练吞吐(全闪vs混闪单放)。

分层TCO 114.5 vs 全闪384.5;省70%

TCO、Hot/Cold Tiering

:成本模型;:OceanDisk;部署:存储规划

N-1418

存储

智算中心

冷数据归档格式(Tar+Compress)

降冷前是否压缩

策略·Archive Format

Step1: 训练日志/checkpoint旧版本可压缩后归档,压缩比rcomp​=0.3(zstd)。Step2: 归档后容量Carchived​=rcomp​×Corig​。Step3: 数学表达式:Saving=(1−rcomp​)×Corig​。Step4: 例:旧ckpt 10TB,压缩后3TB→省7TB冷存储。Step5: 配置:降冷流水线 tar -I zstd -cf archive.tar.zst dir/→ 传混闪。Step6: 推荐:zstd level 3(速度/压缩比平衡)。Step7: 验证:读时解压时间是否可接受(归档数据通常不读)。

压缩比0.3;zstd l3

Archive Compression、zstd

:tar+zstd;:混闪;部署:数据归档

N-1419

存储

智算中心

Checkpoint冷热分层策略

Checkpoint哪些留热、哪些降冷

策略·Checkpoint Tiering

Step1: 最近N个ckpt需热存储(快速恢复),更早的降冷。Step2: 设保留K=5个热ckpt,每ckpt C=500GB→热Chot_ckpt​=2.5TB。Step3: 数学表达式:Chot_ckpt​=K×Cckpt​,$C_{cold_ckpt} = (Total_ckpt - K) \times C

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐