【信息科学与工程学】【通信工程】第七十六篇 网络解决方案设计03
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-995 |
网络适配 |
智算中心 |
DLB逐包逐流混合调度 |
如何配置DLB实现逐包和逐流混合调度,兼顾大流与小流 |
负载均衡·DLB Hybrid |
Step1: 逐包调度(packet-by-packet)适合小流,逐流调度(flow-by-flow)适合大流。Step2: 混合调度:小流使用逐包,大流使用逐流。Step3: 要求小流时延<100μs,大流吞吐不降。Step4: 数学表达式:Schedule_mode={packet,flow,flow_size<100KBflow_size≥100KB。Step5: 配置: |
小流<100KB逐包;大流≥100KB逐流 |
DLB、Hybrid Scheduling、Flow Size |
软:SA分析器;硬:RoCE交换机;部署:全网启用 |
|
N-996 |
网络适配 |
智算中心 |
大小流自适应调度触发阈值 |
如何配置大小流自适应调度的触发阈值,避免频繁切换 |
QoS·Adaptive Trigger |
Step1: 当小流队列丢包率>1e-6时触发自适应调整。Step2: 调整后若大流吞吐下降>5%,则回退。Step3: 要求调整频率<1次/分钟。Step4: 数学表达式:Trigger=(drop_ratesmall>1e−6)∧(throughputlarge≥0.95×baseline)。Step5: 配置: |
丢包率阈值1e-6;大流吞吐下降<5% |
Adaptive Trigger、Drop Threshold |
软:SA分析器;硬:RoCE交换机;部署:Leaf出口 |
|
N-997 |
网络适配 |
智算中心 |
大小流自适应调度缓存比例 |
如何配置大小流自适应调度的缓存比例,平衡公平性 |
QoS·Buffer Ratio |
Step1: 初始缓存比例:小流队列50%,大流队列50%。Step2: 自适应调整时,小流队列可占用最多80%,大流最少20%。Step3: 要求小流丢包率<1e-7。Step4: 数学表达式:Bsmall_max=0.8×Btotal,Blarge_min=0.2×Btotal。Step5: 配置: |
小流最大80%;大流最小20% |
Buffer Ratio、Fairness、Agile Buffer |
软:交换机配置;硬:RoCE交换机;部署:Leaf出口 |
|
N-998 |
网络适配 |
智算中心 |
光模块健康度评估模型输入窗口 |
如何选择光模块DDM数据的时间窗口长度,平衡预测精度和时效性 |
预测·Window Length |
Step1: 输入窗口长度W,预测未来P分钟。Step2: 窗口越长,捕捉趋势越准,但计算延迟越大。Step3: 要求预测精度>85%,推理延迟<100ms。Step4: 数学表达式:Accuracy(W)=f(W),经验值W=60分钟。Step5: 若W=60,精度88%;W=30,精度82%。Step6: 配置:SA分析器中设置窗口长度。Step7: 推荐:W=60分钟,P=30分钟。 |
W=60分钟;P=30分钟;精度88% |
Time Window、Prediction Accuracy |
软:SA分析器;硬:光模块;部署:模型配置 |
|
N-999 |
网络适配 |
智算中心 |
光模块健康度评估模型更新频率 |
如何设计光模块预测模型的更新频率,适应硬件老化 |
预测·Model Update |
Step1: 光模块老化导致参数漂移,模型需定期更新。Step2: 每周增量更新一次,每月全量重训练。Step3: 要求模型F1分数不随时间下降。Step4: 数学表达式:F1weekly≥0.95×F1initial。Step5: 若初始F1=0.85,则每周F1应≥0.8075。Step6: 配置:SA分析器定时任务。Step7: 推荐:自动触发更新。 |
每周增量;每月全量;F1下降<5% |
Model Update、Concept Drift |
软:SA分析器;硬:无;部署:定时任务 |
|
N-1000 |
网络适配 |
智算中心 |
空泡率监控采样间隔 |
如何选择空泡率采样的时间间隔,平衡精度和开销 |
监控·Sampling Interval |
Step1: 空泡率采样间隔Tsample,每步采样一次。Step2: 间隔越小,精度越高,但开销越大。Step3: 要求采样开销<0.1%训练时间。Step4: 数学表达式:Overhead=TstepTsample_cost。Step5: 若每步耗时100ms,采样耗时0.1ms,则开销0.1%。Step6: 配置:NCCL_DEBUG=INFO每步输出。Step7: 推荐:每步采样。 |
每步采样;开销<0.1% |
Sampling Interval、Overhead |
软:NCCL、SA Agent;硬:GPU;部署:训练配置 |
|
N-1001 |
网络适配 |
智算中心 |
空泡率监控告警阈值 |
如何设置空泡率告警阈值,指导调优 |
监控·Bubble Alert |
Step1: 空泡率>20%时告警,提示网络或并行策略问题。Step2: 空泡率>50%时严重告警。Step3: 要求告警准确率>90%。Step4: 数学表达式:Alert={warning,critical,20%<Bubble≤50%Bubble>50%。Step5: 配置:SA分析器中设置阈值。Step6: 推荐:结合MFU综合评估。Step7: 验证:人工确认告警有效性。 |
Warning>20%;Critical>50% |
Bubble Alert、Threshold |
软:SA分析器;硬:无;部署:监控规则 |
|
N-1002 |
网络适配 |
智算中心 |
文本预训练数据处理清洗算子 |
如何配置数据清洗算子,过滤低质量文本 |
数据·Cleaning |
Step1: 清洗规则:去除HTML标签、特殊字符、过长/过短文本。Step2: 文本长度范围[100, 10000]字符。Step3: 要求清洗后数据质量提升>30%。Step4: 数学表达式:Clean=remove_html(text)∧filter_length(text,100,10000)。Step5: 配置:绿洲平台选择清洗算子。Step6: 推荐:内置50+算子。Step7: 验证:抽样人工审核。 |
长度100-10000;质量提升>30% |
Data Cleaning、Filtering |
软:绿洲平台;硬:无;部署:数据处理流程 |
|
N-1003 |
网络适配 |
智算中心 |
文本预训练数据处理去重效率 |
如何评估SimHash去重的效率,平衡精度和速度 |
数据·Dedup Efficiency |
Step1: SimHash处理速度Ssimhash=10MB/s/core,MinHash速度Sminhash=5MB/s/core。Step2: 要求去重速度>1TB/h。Step3: 数学表达式:Throughput=Ncores×S。Step4: 若Ncores=100,SimHash速度10MB/s,则Throughput=1GB/s=3.6TB/h。Step5: 配置:绿洲平台选择SimHash。Step6: 推荐:SimHash速度快,精度足够。Step7: 验证:比较去重前后数据量。 |
SimHash 10MB/s/core;3.6TB/h |
Deduplication Speed、SimHash |
软:绿洲平台;硬:CPU集群;部署:分布式处理 |
|
N-1004 |
网络适配 |
智算中心 |
绿洲AI数据集处理-数据质检规则 |
如何设计数据质检的自动化规则,减少人工审核 |
数据·Quality Rules |
Step1: 质检规则:语言一致性(中文占比>90%)、无乱码、无重复段落。Step2: 不合格数据自动过滤。Step3: 要求质检通过率>95%。Step4: 数学表达式:Pass=(lang_zh_ratio>0.9)∧(charset==utf8)∧(dup_ratio<0.01)。Step5: 配置:绿洲平台设置规则。Step6: 推荐:使用AI模型辅助。Step7: 验证:抽样人工审核。 |
中文>90%;无乱码;重复<1% |
Quality Rules、Automation |
软:绿洲平台;硬:无;部署:数据处理流程 |
|
N-1005 |
网络适配 |
智算中心 |
绿洲AI数据集处理-数据增强倍数 |
如何选择数据增强的倍数,平衡数据量和质量 |
数据·Augmentation Factor |
Step1: 增强倍数M,每个样本生成M个增强样本。Step2: M越大,数据量越大,但可能引入噪声。Step3: 要求增强后模型性能提升>5%。Step4: 数学表达式:Mopt=argmaxM(Accval(M)−Accbaseline)。Step5: 实验表明M=3最佳。Step6: 配置:绿洲平台选择增强倍数。Step7: 推荐:M=3。 |
M=3;性能提升>5% |
Augmentation Factor、Optimization |
软:绿洲平台;硬:无;部署:数据处理流程 |
|
N-1006 |
网络适配 |
智算中心 |
绿洲AI数据集处理-分段重叠 |
如何配置文本分段的重叠长度,保持上下文连贯 |
数据·Chunk Overlap |
Step1: 分段时相邻chunk重叠O个token,保持上下文。Step2: 重叠长度建议为chunk大小的10%。Step3: 要求模型理解连贯性。Step4: 数学表达式:Chunki=text[starti:endi],其中starti+1=starti+stride,stride=chunk_size−overlap。Step5: 若chunk_size=512,overlap=50,则stride=462。Step6: 配置:绿洲平台设置重叠长度。Step7: 推荐:overlap=50。 |
overlap=50 token;stride=462 |
Chunk Overlap、Context Continuity |
软:绿洲平台;硬:无;部署:数据处理流程 |
|
N-1007 |
网络适配 |
智算中心 |
批量部署PXE并发数 |
如何设计PXE部署的并发数,避免DHCP和TFTP过载 |
部署·PXE Concurrency |
Step1: PXE并发数Npxe,每节点下载速度Sdown=100MB/s。Step2: TFTP服务器带宽BWtftp=10Gbps。Step3: 要求不超载。Step4: 数学表达式:Npxe×Sdown≤BWtftp。Step5: 若Sdown=100MB/s=800Mbps,则Npxe≤12.5。Step6: 实际推荐并发10节点。Step7: 配置:DHCP服务器设置lease时间。 |
并发10节点;TFTP不超载 |
PXE Concurrency、TFTP、DHCP |
软:DHCP/TFTP服务器;硬:GPU服务器;部署:部署策略 |
|
N-1008 |
网络适配 |
智算中心 |
批量部署OS镜像分发 |
如何设计OS镜像的分发策略,减少网络压力 |
部署·Image Distribution |
Step1: 使用P2P分发(如BitTorrent)或HTTP多线程下载。Step2: 镜像大小Simage=10GB,网络带宽BW=10Gbps。Step3: 要求50节点部署时间<1小时。Step4: 数学表达式:Tdistribute=BWSimage×Nnode(串行)。Step5: 若串行,T=10GB×50/1.25GB/s=400s,实际受限于TFTP。Step6: 推荐:使用HTTP多线程,并发10节点。Step7: 配置:部署服务器使用nginx。 |
50节点<1h;HTTP多线程 |
Image Distribution、P2P、HTTP |
软:nginx、BitTorrent;硬:部署服务器;部署:优化策略 |
|
N-1009 |
网络适配 |
智算中心 |
训前压测NCCL allreduce带宽测试 |
如何设计NCCL allreduce带宽测试的报文大小 |
测试·Message Size |
Step1: NCCL allreduce带宽随报文大小变化,小报文带宽低。Step2: 测试报文大小从1KB到1GB,找出最大带宽。Step3: 要求最大带宽>95%线速。Step4: 数学表达式:BWallreduce(size)=Tallreducesize×(N−1)/N。Step5: 若size=1GB,N=8,T=2.5ms,则BW=1GB×7/8/2.5ms=350GB/s(聚合)。Step6: 配置:NCCL-tests中的 |
报文大小1KB-1GB;最大带宽>95% |
NCCL Allreduce、Message Size、Bandwidth |
软:NCCL-tests;硬:GPU、RoCE网卡;部署:压测工具 |
|
N-1010 |
网络适配 |
智算中心 |
训前压测NCCL延迟测试 |
如何设计NCCL延迟测试的报文大小 |
测试·Latency Size |
Step1: NCCL延迟测试使用小报文(8字节),测量ping-pong延迟。Step2: 要求延迟<10μs(同Leaf)。Step3: 数学表达式:Latency=2RTT。Step4: 若RTT=12μs,则延迟=6μs。Step5: 配置:NCCL-tests中的 |
8字节;延迟<10μs |
NCCL Latency、Ping-pong |
软:NCCL-tests;硬:GPU、RoCE网卡;部署:压测工具 |
|
N-1011 |
网络适配 |
智算中心 |
训前压测报告-带宽达标率 |
如何计算带宽达标率,评估集群整体性能 |
测试·Pass Rate |
Step1: 每个节点测试带宽,达标标准≥95%线速。Step2: 达标率Rpass=NtotalNpass。Step3: 要求达标率>98%。Step4: 数学表达式:Rpass=Ntotalcount(BWi≥0.95×line_rate)。Step5: 若2000节点中1980达标,则R=99%。Step6: 配置:SA分析器自动计算。Step7: 推荐:不达标节点自动隔离。 |
达标率>98%;隔离不达标 |
Pass Rate、Qualification |
软:SA分析器;硬:无;部署:压测报告 |
|
N-1012 |
网络适配 |
智算中心 |
CND故障监控-参数网卡数量检查 |
如何检查参数网卡数量是否符合预期 |
监控·NIC Count |
Step1: 预期参数网卡数Nexpected(如8),实际检查Nactual。Step2: 若Nactual<Nexpected,标记故障。Step3: 要求检测时间<1s。Step4: 数学表达式:Fault=(Nactual<Nexpected)。Step5: 配置:CND脚本执行`ip link show |
grep -c "ens."`。Step6: 推荐:每秒检查。Step7*: 验证:拔掉一根网线测试。 |
预期8张;少于则告警 |
NIC Count Check、CND |
|
N-1013 |
网络适配 |
智算中心 |
CND故障监控-存储网卡数量检查 |
如何检查存储网卡数量是否符合预期 |
监控·Storage NIC Count |
Step1: 预期存储网卡数Nexpected_sto(如2),实际检查Nactual_sto。Step2: 若Nactual_sto<Nexpected_sto,标记故障。Step3: 要求检测时间<1s。Step4: 数学表达式:Fault=(Nactual_sto<Nexpected_sto)。Step5: 配置:CND脚本执行`ip link show |
grep -c "ens."`。Step6: 推荐:每秒检查。Step7*: 验证:拔掉一根网线测试。 |
预期2张;少于则告警 |
Storage NIC Count、CND |
|
N-1014 |
网络适配 |
智算中心 |
CND故障监控-存储挂载检查超时 |
如何配置存储挂载检查的超时时间 |
监控·Mount Timeout |
Step1: 使用 |
超时5s;不可用则告警 |
Mount Check Timeout |
软:CND插件;硬:CX存储;部署:每节点 |
|
N-1015 |
网络适配 |
智算中心 |
作业故障自愈-备份节点预热 |
如何设计备份节点的预热策略,使其能快速接管任务 |
可靠性·Backup Warm-up |
Step1: 备份节点预先加载OS、驱动、CUDA、容器镜像,处于待命状态。Step2: 预热时间Twarm=5min,故障接管时间Ttakeover=30s。Step3: 要求总恢复时间<5分钟。Step4: 数学表达式:Trecovery=Twarm+Ttakeover=5.5min。Step5: 优化:备份节点保持热状态,T_warm=0。Step6: 配置:傲飞平台维护备份节点池。Step7: 推荐:备份节点保持热备。 |
热备接管<30s;总恢复<5min |
Backup Warm-up、Hot Standby |
软:傲飞平台;硬:GPU服务器;部署:POC特性 |
|
N-1016 |
网络适配 |
智算中心 |
作业故障自愈-Checkpoint保存频率 |
如何设计Checkpoint保存频率,平衡恢复速度和开销 |
可靠性·Checkpoint Frequency |
Step1: 每Nsteps步保存一次Checkpoint,保存时间Tsave。Step2: 故障恢复时从最近Checkpoint加载,损失Nsteps步训练。Step3: 要求损失时间<5分钟。Step4: 数学表达式:Loss_time=Nsteps×Tstep。Step5: 若Tstep=100ms,希望损失<5min=300s,则Nsteps=3000。Step6: 配置:傲飞平台设置保存间隔。Step7: 推荐:每1000步保存一次。 |
每1000步保存;损失<2min |
Checkpoint Frequency、Trade-off |
软:傲飞平台;硬:CX存储;部署:训练配置 |
|
N-1017 |
网络适配 |
智算中心 |
文本预训练数据处理-数据版本回滚 |
如何设计数据版本的快速回滚机制 |
数据·Rollback |
Step1: 每次数据处理生成新版本,旧版本保留。Step2: 回滚时切换到指定版本,数据路径更新。Step3: 要求回滚时间<1分钟。Step4: 数学表达式:Trollback=Tswitch_metadata。Step5: 配置:绿洲平台使用符号链接指向当前版本。Step6: 推荐:保留最近10个版本。Step7: 验证:回滚后训练使用旧数据。 |
回滚<1min;保留10版本 |
Version Rollback、Symbolic Link |
软:绿洲平台;硬:CX存储;部署:平台功能 |
|
N-1018 |
网络适配 |
智算中心 |
绿洲AI数据集处理-数据标注质量控制 |
如何设计数据标注的质量控制,确保标注准确性 |
数据·Label QC |
Step1: 多人标注同一数据,计算标注一致性(Cohen's Kappa)。Step2: 要求Kappa>0.8。Step3: 数学表达式:κ=1−pepo−pe。Step4: 若两人标注100条,一致80条,则po=0.8,pe=0.5,κ=0.6,不合格。Step5: 配置:绿洲平台设置标注任务。Step6: 推荐:至少2人标注。Step7: 验证:抽检不一致数据。 |
Kappa>0.8;多人标注 |
Label Quality、Cohen's Kappa |
软:绿洲平台;硬:无;部署:标注流程 |
|
N-1019 |
网络适配 |
智算中心 |
绿洲AI数据集处理-数据增强质量评估 |
如何评估数据增强后的数据质量,避免引入噪声 |
数据·Augmentation Quality |
Step1: 使用困惑度(Perplexity)评估增强文本的自然度。Step2: 要求增强后困惑度不高于原始。Step3: 数学表达式:PPLaug≤PPLorig。Step4: 若原始PPL=50,增强后PPL=55,则质量下降。Step5: 配置:绿洲平台内置评估模型。Step6: 推荐:过滤PPL过高的增强样本。Step7: 验证:人工抽样。 |
PPL不增加;过滤高PPL |
Augmentation Quality、Perplexity |
软:绿洲平台、语言模型;硬:无;部署:数据处理流程 |
|
N-1020 |
网络适配 |
智算中心 |
参数网交换机端口协商 |
如何配置交换机端口自协商,确保链路稳定 |
部署·Auto-negotiation |
Step1: 400G端口使用自协商,200G端口建议强制。Step2: 要求链路不翻动。Step3: 数学表达式:Link_stable=(auto−neg==on)∧(speed==expected)。Step4: 配置: |
400G自协商;200G强制 |
Auto-negotiation、Link Stability |
软:交换机配置;硬:RoCE交换机;部署:端口配置 |
|
N-1021 |
网络适配 |
智算中心 |
参数网交换机光模块诊断 |
如何通过交换机诊断光模块健康状态 |
运维·Optics Diag |
Step1: 使用 |
参数在阈值内 |
Optics Diagnostics、DDM |
软:SA分析器;硬:RoCE交换机;部署:监控集成 |
|
N-1022 |
网络适配 |
智算中心 |
参数网交换机日志归档 |
如何设计交换机日志的归档策略,满足合规要求 |
运维·Log Archive |
Step1: 日志每天生成一个文件,压缩后归档。Step2: 保留期限Tretention=180天。Step3: 要求存储空间可预测。Step4: 数学表达式:Storage=Nsw×daily_log_size×Tretention。Step5: 若Nsw=600,daily_log=100MB,则180天需10.8TB。Step6: 配置:使用ELK或S3存储。Step7: 推荐:自动化归档。 |
保留180天;10.8TB |
Log Archiving、Retention |
软:ELK、S3;硬:存储服务器;部署:运维流程 |
|
N-1023 |
网络适配 |
智算中心 |
参数网交换机配置备份 |
如何设计交换机配置的自动备份策略 |
运维·Config Backup |
Step1: 每天凌晨自动备份配置到远程服务器。Step2: 保留最近30天的备份。Step3: 要求备份时间<1分钟/台。Step4: 数学表达式:Tbackup=Nsw×Tper_sw。Step5: 若Nsw=600,Tper_sw=30s,则Tbackup=5h(串行)。Step6: 推荐:并行备份,使用SCP或TFTP。Step7: 配置:SE控制器定时任务。 |
并行备份;保留30天 |
Config Backup、Disaster Recovery |
软:SE控制器、SCP;硬:备份服务器;部署:自动化 |
|
N-1024 |
网络适配 |
智算中心 |
参数网交换机SNMP Trap |
如何配置SNMP Trap,实时上报故障事件 |
监控·SNMP Trap |
Step1: 交换机在端口down、温度过高、光模块故障时发送SNMP Trap。Step2: Trap接收端为SA分析器或网管系统。Step3: 要求事件上报延迟<1s。Step4: 数学表达式:Ttrap=Tevent+Tsend。Step5: 配置: |
事件上报<1s;关键事件 |
SNMP Trap、Event Notification |
软:网管系统;硬:RoCE交换机;部署:全网启用 |
-
参数网BGP ORF (Outbound Route Filtering)
-
参数网BGP Flowspec
-
参数网BGP Large Community
-
参数网BGP Segment Routing (SR-MPLS or SRv6)
-
存储网NVMe-oF多路径
-
存储网RDMA over TCP (iWARP) vs RoCE
-
光模块预测模型架构(LSTM vs Transformer)
-
空泡率与MFU关系
-
训前压测的NCCL拓扑检测
-
CND故障监控的GPU温度监控
-
国产化GPU的PCIe复位流程
-
云上SDN编排的VXLAN多播优化
-
参数网Leaf Group内多轨连接的负载均衡
-
参数网Spine冗余设计
-
存储网CX存储的负载均衡算法
-
文本预训练数据处理的语言检测
-
文本预训练数据处理的OCR清洗
-
绿洲平台的数据血缘追踪
-
傲飞平台的资源预留策略
-
异构训练中的梯度压缩通信
-
推理服务的网络QoS保障
-
推理服务的模型分片网络拓扑
-
推理服务的KV Cache传输优化
-
推理服务的动态批处理网络影响
-
推理服务的冷启动网络加速
-
推理服务的灰度发布网络策略
-
推理服务的可观测性(请求追踪)
-
推理服务的熔断降级网络配置
-
推理服务的全局负载均衡(GSLB)
-
推理服务的边缘节点网络
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1025 |
网络适配 |
智算中心 |
参数网BGP ORF |
如何配置BGP Outbound Route Filtering(ORF),减少不必要的路由更新 |
路由·ORF |
Step1: ORF允许发送端根据接收端的过滤需求,只发送匹配的路由。Step2: 配置前缀列表并通告给邻居。Step3: 要求路由更新减少>50%。Step4: 数学表达式:Routes_sent=Routes_matched(prefix_list)。Step5: 若本地有10000条路由,接收端只需要/24以上的路由,则只发送2000条。Step6: 配置: |
路由更新减少50%以上;基于前缀过滤 |
BGP ORF、Route Filtering、Capability |
软:交换机配置;硬:RoCE交换机;部署:Spine和Leaf |
|
N-1026 |
网络适配 |
智算中心 |
参数网BGP Flowspec |
如何利用BGP Flowspec实现分布式流量清洗 |
安全·Flowspec |
Step1: BGP Flowspec将流量匹配规则和动作(如丢弃、限速)通过BGP分发。Step2: 在检测到DDoS攻击时,控制器下发Flowspec规则到边界交换机。Step3: 要求攻击流量丢弃延迟<1s。Step4: 数学表达式:Action=discardif src_IP∈blacklist。Step5: 配置: |
攻击流量丢弃<1s;分布式清洗 |
BGP Flowspec、DDoS Mitigation |
软:SE控制器、交换机配置;硬:RoCE交换机;部署:边界Spine |
|
N-1027 |
网络适配 |
智算中心 |
参数网BGP Large Community |
如何使用BGP Large Community标记路由,实现精细策略控制 |
路由·Large Community |
Step1: Large Community格式为AS:value1:value2,支持更大范围。Step2: 用Community标记不同租户或任务的路由。Step3: 要求策略匹配准确。Step4: 数学表达式:Route_tag=64512:tenant_id:task_id。Step5: 配置: |
格式AS:val1:val2;多租户标记 |
BGP Large Community、Tagging |
软:交换机配置;硬:RoCE交换机;部署:按需配置 |
|
N-1028 |
网络适配 |
智算中心 |
参数网BGP Segment Routing SR-MPLS |
是否需要为参数网启用Segment Routing MPLS |
路由·SR-MPLS |
Step1: SR-MPLS通过标签栈实现流量工程,减少BGP路由条目。Step2: 参数网使用ECMP和主动选路,SR-MPLS增加复杂性。Step3: 要求不启用。Step4: 数学表达式:SR−MPLS=disabled。Step5: 配置:不配置。Step6: 推荐:不启用,保持简单。Step7: 验证:无。 |
不启用SR-MPLS |
Segment Routing、MPLS |
软:交换机配置;硬:RoCE交换机;部署:不启用 |
|
N-1029 |
网络适配 |
智算中心 |
参数网BGP Segment Routing SRv6 |
是否需要为参数网启用SRv6 |
路由·SRv6 |
Step1: SRv6基于IPv6扩展头,需要全网IPv6支持。Step2: 参数网使用IPv4,迁移成本高。Step3: 要求不启用。Step4: 数学表达式:SRv6=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。 |
不启用SRv6 |
SRv6、IPv6 |
软:交换机配置;硬:RoCE交换机;部署:不启用 |
|
N-1030 |
网络适配 |
智算中心 |
存储网NVMe-oF多路径 |
如何配置NVMe-oF多路径实现存储高可用 |
可靠性·NVMe MPIO |
Step1: 计算节点通过多个NVMe-oF控制器路径访问存储。Step2: 配置NVMe多路径(dm-multipath)或原生NVMe多路径。Step3: 要求单路径故障时IO不中断。Step4: 数学表达式:Tfailover=Tdetect+Tswitch。Step5: 若Tdetect=100ms,Tswitch=50ms,则Tfailover=150ms。Step6: 配置: |
切换<200ms;原生NVMe多路径 |
NVMe-oF Multipath、HA |
软:nvme-cli、dm-multipath;硬:CX存储、RoCE网卡;部署:计算节点 |
|
N-1031 |
网络适配 |
智算中心 |
存储网iWARP vs RoCE |
如何选择iWARP或RoCE作为存储网协议 |
协议·iWARP vs RoCE |
Step1: iWARP基于TCP,兼容性好;RoCE基于UDP,性能高。Step2: 存储网要求低延迟、高吞吐。Step3: 要求选择RoCE。Step4: 数学表达式:Latencyroce<Latencyiwarp(通常RoCE低30%)。Step5: 测试:相同负载下RoCE延迟10μs,iWARP 15μs。Step6: 配置:使用RoCE。Step7: 推荐:存储网使用RoCE。 |
RoCE延迟更低;选RoCE |
iWARP、RoCE、Protocol Comparison |
软:网卡驱动;硬:RoCE网卡;部署:统一RoCE |
|
N-1032 |
网络适配 |
智算中心 |
光模块预测模型架构选择 |
如何选择LSTM或Transformer作为光模块预测模型 |
预测·Model Architecture |
Step1: LSTM适合时序预测,参数量少;Transformer适合长序列,精度更高。Step2: 光模块数据为单变量或多变量时序。Step3: 要求F1>0.85,推理延迟<50ms。Step4: 数学表达式:F1lstm=0.83,F1transformer=0.87。Step5: 若Transformer推理延迟80ms>50ms,则选LSTM。Step6: 推荐:使用轻量级LSTM(2层,64单元)。Step7: 配置:SA分析器集成。 |
LSTM F1=0.83;Transformer F1=0.87;延迟约束 |
LSTM vs Transformer、时序预测 |
软:SA分析器、TensorFlow;硬:无;部署:SA集成 |
|
N-1033 |
网络适配 |
智算中心 |
空泡率与MFU关系 |
如何量化空泡率对模型训练MFU的影响 |
性能·Bubble vs MFU |
Step1: MFU(Model FLOPS Utilization)= 实际算力 / 峰值算力。Step2: 空泡率Bubble导致GPU空闲,降低MFU。Step3: 要求MFU>50%。Step4: 数学表达式:MFUeffective=MFUideal×(1−Bubble)。Step5: 若MFU_ideal=60%,Bubble=20%,则MFU_effective=48%。Step6: 优化:降低空泡率可提升MFU。Step7: 推荐:空泡率目标<15%。 |
MFU_effective=48%;Bubble=20% |
MFU、Bubble Ratio、Efficiency |
软:SA分析器;硬:GPU;部署:监控分析 |
|
N-1034 |
网络适配 |
智算中心 |
训前压测NCCL拓扑检测 |
如何利用NCCL拓扑检测验证GPU互联拓扑 |
测试·Topology Detection |
Step1: NCCL通过 |
拓扑100%匹配 |
NCCL Topology、GPU Interconnect |
软:NCCL;硬:GPU、NVLink;部署:压测工具 |
|
N-1035 |
网络适配 |
智算中心 |
CND故障监控-GPU温度监控 |
如何监控国产GPU的温度,防止过热降频 |
监控·GPU Temp |
Step1: 昆仑芯P800使用 |
阈值85℃;每秒采集 |
GPU Temperature、Thermal |
软:CND插件、xpu_smi、mx-smi;硬:国产GPU;部署:每节点 |
|
N-1036 |
网络适配 |
智算中心 |
国产化GPU PCIe复位流程 |
如何设计国产GPU的PCIe复位流程,恢复故障GPU |
运维·PCIe Reset |
Step1: 使用 |
复位<30s;自动尝试 |
PCIe Reset、GPU Recovery |
软:CND插件、PCIe sysfs;硬:国产GPU;部署:每节点 |
|
N-1037 |
网络适配 |
智算中心 |
云上SDN编排-VXLAN多播优化 |
如何优化VXLAN多播组管理,减少IGMP查询 |
虚拟化·Multicast Optimization |
Step1: 使用IGMP Snooping减少多播泛滥。Step2: 配置静态多播组,避免动态加入延迟。Step3: 要求多播流量带宽<0.1%总带宽。Step4: 数学表达式:IGMP_query_interval=125s。Step5: 配置: |
多播带宽<0.1%;IGMP Snooping |
VXLAN Multicast、IGMP Snooping |
软:交换机配置;硬:RoCE交换机;部署:Leaf |
|
N-1038 |
网络适配 |
智算中心 |
参数网Leaf Group内多轨负载均衡 |
如何保证多轨连接中不同网卡的流量均匀分布在Group内Leaf上 |
负载均衡·Multi-rail LB |
Step1: 每个GPU的8张网卡连接到8台Leaf(多轨)。Step2: 流量哈希到不同网卡,需确保各Leaf负载均衡。Step3: 要求各Leaf下行带宽偏差<10%。Step4: 数学表达式:Utilleafi=BWleaf∑gputrafficgpu,leafi。Step5: 配置:使用对称哈希,保证同一GPU的不同网卡流量均匀。Step6: 推荐:UCCL中启用多QP绑不同Leaf。Step7: 验证:SA查看各Leaf利用率。 |
偏差<10%;对称哈希 |
Multi-rail、Load Balance |
软:UCCL、SA分析器;硬:RoCE交换机;部署:训练配置 |
|
N-1039 |
网络适配 |
智算中心 |
参数网Spine冗余设计 |
如何设计Spine的冗余数量,保证N+1冗余 |
可靠性·Spine Redundancy |
Step1: 所需Spine数Sneed,配置S=Sneed+1实现N+1。Step2: 单Spine故障时,流量均匀分布到剩余Spine。Step3: 要求单Spine故障时带宽不降。Step4: 数学表达式:BWafter=SS−1×BWtotal。Step5: 若S=17,S_need=16,则故障后BW=16/17≈94%,接近满带宽。Step6: 配置:Spine数=Leaf上行端口数/收敛比+1。Step7: 推荐:万卡集群Spine冗余1台。 |
N+1冗余;故障后带宽94% |
Spine Redundancy、N+1 |
软:无;硬:Spine交换机;部署:规划阶段 |
|
N-1040 |
网络适配 |
智算中心 |
存储网CX存储负载均衡算法 |
如何配置CX存储的负载均衡算法(如加权轮询) |
性能·Storage LB |
Step1: CX存储支持多种负载均衡算法:轮询、加权轮询、最少连接。Step2: 根据存储节点性能配置权重。Step3: 要求各存储节点IOPS偏差<10%。Step4: 数学表达式:Weighti=∑CapacityjCapacityi。Step5: 若节点A容量10TB,节点B 20TB,则权重1:2。Step6: 配置:CX存储管理界面设置。Step7: 推荐:加权轮询。 |
IOPS偏差<10%;加权轮询 |
Storage Load Balancing、Weighted Round Robin |
软:CX存储管理软件;硬:CX存储;部署:存储集群 |
|
N-1041 |
网络适配 |
智算中心 |
文本预训练数据处理-语言检测 |
如何自动检测文本语言,过滤非目标语言 |
数据·Language Detection |
Step1: 使用fastText或langid检测文本语言。Step2: 保留中文占比>90%的文本。Step3: 要求检测准确率>95%。Step4: 数学表达式:Lang_prob=model.predict(text)。Step5: 若中文概率0.92,则保留。Step6: 配置:绿洲平台集成语言检测算子。Step7: 推荐:预训练数据仅保留中文。 |
中文>90%;准确率>95% |
Language Detection、fastText |
软:绿洲平台、fastText;硬:无;部署:数据处理流程 |
|
N-1042 |
网络适配 |
智算中心 |
文本预训练数据处理-OCR清洗 |
如何清洗OCR识别产生的噪声文本 |
数据·OCR Cleaning |
Step1: OCR文本常有乱码、多余空格、识别错误。Step2: 使用正则替换常见OCR错误(如“0”->“O”)。Step3: 要求清洗后文本可读性提升。Step4: 数学表达式:Clean_text=regex_replace(ocr_text,patterns)。Step5: 配置:绿洲平台内置OCR清洗规则。Step6: 推荐:结合人工审核。Step7: 验证:抽样对比。 |
提升可读性;规则替换 |
OCR Cleaning、Noise Reduction |
软:绿洲平台;硬:无;部署:数据处理流程 |
|
N-1043 |
网络适配 |
智算中心 |
绿洲平台数据血缘追踪 |
如何追踪数据从原始到训练集的完整血缘 |
数据·Data Lineage |
Step1: 记录每个数据文件的来源、处理步骤、参数、版本。Step2: 使用图数据库存储血缘关系。Step3: 要求血缘查询时间<1s。Step4: 数学表达式:Lineage_graph=(nodes,edges)。Step5: 配置:绿洲平台集成Apache Atlas。Step6: 推荐:便于问题回溯。Step7: 验证:查询某个训练集的血缘。 |
查询<1s;图数据库 |
Data Lineage、Atlas |
软:绿洲平台、Apache Atlas;硬:无;部署:平台功能 |
|
N-1044 |
网络适配 |
智算中心 |
傲飞平台资源预留策略 |
如何为高优先级任务预留网络和GPU资源 |
调度·Resource Reservation |
Step1: 高优先级任务预留Rgpu个GPU和Rbw带宽。Step2: 预留资源不参与普通任务调度。Step3: 要求高优先级任务启动时资源可用。Step4: 数学表达式:Available_resources=Total−Reserved。Step5: 配置:傲飞平台设置资源池预留。Step6: 推荐:关键任务预留20%资源。Step7: 验证:高优先级任务立即启动。 |
预留20%;即时可用 |
Resource Reservation、Priority |
软:傲飞平台;硬:GPU、网络;部署:平台配置 |
|
N-1045 |
网络适配 |
智算中心 |
异构训练梯度压缩通信 |
如何为异构训练配置梯度压缩,减少跨厂商通信量 |
性能·Hetero Compression |
Step1: NV GPU和国产GPU之间通信带宽受限,使用梯度压缩。Step2: 压缩比C=10,通信量减少90%。Step3: 要求训练速度提升>20%。Step4: 数学表达式:Tcomm_new=Tcomm_old/C+Tcompress。Step5: 若原通信100ms,压缩10ms,则新通信20ms。Step6: 配置:DeepSpeed中启用compression。Step7: 推荐:跨厂商通信必选。 |
压缩比10;速度提升>20% |
Heterogeneous Compression、DeepSpeed |
软:DeepSpeed、UCCL;硬:GPU;部署:训练脚本 |
|
N-1046 |
网络适配 |
智算中心 |
推理服务网络QoS保障 |
如何为在线推理服务保障低延迟网络 |
QoS·Inference QoS |
Step1: 推理流量标记为高优先级(DSCP 48),使用严格优先级队列。Step2: 训练流量标记为低优先级(DSCP 24)。Step3: 要求推理P99延迟<10ms。Step4: 数学表达式:Queue_service_rateinfer=C(严格)。Step5: 配置:Leaf出口配置队列映射。Step6: 推荐:推理与训练物理隔离。Step7: 验证:同时运行训练和推理测试。 |
推理严格优先;P99<10ms |
Inference QoS、Strict Priority |
软:交换机配置;硬:RoCE交换机;部署:Leaf出口 |
|
N-1047 |
网络适配 |
智算中心 |
推理服务模型分片网络拓扑 |
如何为推理模型分片(TP)设计最优网络拓扑 |
架构·Inference TP |
Step1: 推理TP需要在每个token生成时进行allreduce,延迟敏感。Step2: 将TP组内的GPU放在同一节点(NVLink)或同一Leaf下。Step3: 要求TP通信延迟<50μs。Step4: 数学表达式:Ltp=2×(Ntp−1)×Thop。Step5: 若Ntp=8,NVLink延迟1μs,则Ltp=14μs;若跨Leaf RoCE 5μs,则Ltp=70μs。Step6: 推荐:TP组内使用NVLink。Step7: 配置:vLLM中tensor_parallel_size=8。 |
TP=8;NVLink延迟14μs;RoCE 70μs |
Inference TP、Latency |
软:vLLM、Triton;硬:GPU、NVLink;部署:节点内TP |
|
N-1048 |
网络适配 |
智算中心 |
推理服务KV Cache传输优化 |
如何优化推理时KV Cache在TP组内的广播 |
性能·KV Cache Broadcast |
Step1: Prompt处理阶段,KV Cache需要在TP组内广播。Step2: 使用流水线广播,边计算边传输。Step3: 要求广播时间<10ms。Step4: 数学表达式:Tbroadcast=BWnvlinkK。Step5: 若KV Cache 9.6GB,NVLink 600GB/s,则T=16ms。Step6: 优化:使用异步广播,与计算重叠。Step7: 推荐:使用NVLink。 |
KV Cache 9.6GB;NVLink 16ms |
KV Cache、Pipeline Broadcast |
软:vLLM;硬:NVLink;部署:节点内TP |
|
N-1049 |
网络适配 |
智算中心 |
推理服务动态批处理网络影响 |
如何评估动态批处理对网络流量的影响 |
性能·Dynamic Batching |
Step1: 动态批处理合并多个请求,增大batch size,增加计算量但减少网络IO次数。Step2: 网络流量与batch size成正比。Step3: 要求网络不成为瓶颈。Step4: 数学表达式:BWneed=Tdeadlinebatch_size×data_per_request。Step5: 若batch=1024,data=1KB,deadline=10ms,则BW=102.4MB/s。Step6: 配置:vLLM中max_num_seqs。Step7: 推荐:根据网络带宽调整batch。 |
batch=1024;BW=102.4MB/s |
Dynamic Batching、Throughput |
软:vLLM、Triton;硬:GPU;部署:推理配置 |
|
N-1050 |
网络适配 |
智算中心 |
推理服务冷启动网络加速 |
如何加速推理服务的冷启动(模型加载) |
性能·Cold Start |
Step1: 模型从存储加载到GPU显存,网络带宽是关键。Step2: 使用模型缓存(本地SSD或内存)减少网络加载。Step3: 要求冷启动时间<30s。Step4: 数学表达式:Tload=BWstorageCmodel。Step5: 若模型350GB,存储网12.5GB/s,则T=28s。Step6: 优化:使用本地NVMe缓存。Step7: 推荐:推理节点配备本地SSD。 |
模型350GB;加载28s;本地缓存 |
Cold Start、Model Loading、Cache |
软:Triton、vLLM;硬:NVMe SSD;部署:本地缓存 |
|
N-1051 |
网络适配 |
智算中心 |
推理服务灰度发布网络策略 |
如何设计推理服务的灰度发布,逐步切换流量 |
架构·Canary Release |
Step1: 新版本推理服务部署在少量GPU上,引流5%的请求。Step2: 使用服务网格(Istio)或Kubernetes Service进行流量分割。Step3: 要求灰度期间不影响用户体验。Step4: 数学表达式:Trafficnew=0.05×Total_traffic。Step5: 配置:Istio VirtualService权重5%。Step6: 推荐:逐步增加权重。Step7: 验证:监控新旧版本延迟和错误率。 |
灰度5%;逐步放量 |
Canary Release、Traffic Splitting |
软:Istio、Kubernetes;硬:GPU;部署:推理集群 |
|
N-1052 |
网络适配 |
智算中心 |
推理服务可观测性-请求追踪 |
如何实现推理请求的全链路追踪 |
监控·Request Tracing |
Step1: 使用OpenTelemetry在推理链路上注入trace ID。Step2: 收集各阶段耗时:网络传输、模型推理、后处理。Step3: 要求P99延迟分解到各阶段。Step4: 数学表达式:Ltotal=Lnet+Linfer+Lpost。Step5: 配置:Triton集成OpenTelemetry。Step6: 推荐:用于定位瓶颈。Step7: 验证:Jaeger UI查看trace。 |
全链路追踪;P99分解 |
Request Tracing、OpenTelemetry |
软:OpenTelemetry、Jaeger;硬:无;部署:推理服务集成 |
|
N-1053 |
网络适配 |
智算中心 |
推理服务熔断降级网络配置 |
如何配置网络层面的熔断降级,防止雪崩 |
可靠性·Circuit Breaker |
Step1: 当后端推理实例错误率>50%时,熔断器打开,直接返回降级响应。Step2: 网络层面可通过丢弃或限流实现。Step3: 要求熔断恢复时间<30s。Step4: 数学表达式:State={closed,open,error_rate<50%error_rate≥50%。Step5: 配置:Envoy或Istio的circuit breaker。Step6: 推荐:结合健康检查。Step7: 验证:模拟故障测试。 |
错误率50%触发;恢复<30s |
Circuit Breaker、Resilience |
软:Envoy、Istio;硬:无;部署:服务网格 |
|
N-1054 |
网络适配 |
智算中心 |
推理服务全局负载均衡(GSLB) |
如何设计跨地域推理服务的全局负载均衡 |
架构·GSLB |
Step1: 多个地域部署推理服务,通过DNS或Anycast将用户请求导向最近的地域。Step2: 要求用户延迟<50ms。Step3: 数学表达式:Selected_region=argminr(latencyuser,r)。Step4: 配置:使用AWS Route53或自建DNS GSLB。Step5: 推荐:结合健康检查和权重。Step6: 验证:从不同地域访问测试。 |
用户延迟<50ms;就近路由 |
GSLB、Anycast、DNS |
软:DNS服务器、健康检查;硬:无;部署:跨地域 |
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1055 |
网络适配 |
智算中心 |
训练任务与网络拓扑亲和性调度 |
如何将训练任务的PP/TP/DP组调度到同一Leaf Group内,减少跨Spine通信 |
调度·Topology-aware Scheduling |
Step1: PP/TP/DP组内的GPU需要频繁通信,应尽量放在同一Leaf Group内。Step2: 傲飞平台根据GPU的拓扑信息(NUMA、Leaf)进行亲和性调度。Step3: 要求跨Spine通信量减少>50%。Step4: 数学表达式:Cross_spine_traffic=∑group(Ngpu_cross×BWper_gpu)。Step5: 若将TP=8的组放在同一Leaf Group内,跨Spine通信量为0。Step6: 配置:傲飞平台中设置拓扑感知调度策略。Step7: 推荐:训练任务创建时指定拓扑约束。 |
跨Spine减少>50%;TP组内同Leaf |
Topology-aware Scheduling、Affinity |
软:傲飞平台;硬:GPU、RoCE网络;部署:平台调度策略 |
|
N-1056 |
网络适配 |
智算中心 |
训练任务Checkpoint保存网络带宽预留 |
如何为Checkpoint保存预留存储网带宽,避免影响训练 |
可靠性·Checkpoint BW Reservation |
Step1: Checkpoint保存期间占用存储网带宽,可能影响训练数据加载。Step2: 预留20%存储网带宽给Checkpoint。Step3: 要求训练数据加载不中断。Step4: 数学表达式:BWreserved=0.2×BWstorage_total。Step5: 若存储网总带宽3.84TB/s,预留768GB/s给Checkpoint。Step6: 配置:QoS队列中为Checkpoint设置最小带宽。Step7: 推荐:使用后台优先级较低的队列。 |
预留20%带宽;不影响训练 |
Checkpoint BW、QoS Reservation |
软:交换机QoS配置;硬:RoCE交换机;部署:存储网QoS |
|
N-1057 |
网络适配 |
智算中心 |
训练任务日志传输网络优化 |
如何优化训练日志的实时传输,减少对参数网的影响 |
运维·Log Transport |
Step1: 训练日志通过业务网传输,不与参数网争抢带宽。Step2: 使用独立的日志采集Agent,压缩后上传。Step3: 要求日志传输带宽占用<1Gbps。Step4: 数学表达式:BWlog=Nnode×log_rate×compression_ratio。Step5: 若2000节点,每节点日志速率1MB/s,压缩比10,则BW=200MB/s=1.6Gbps。Step6: 配置:使用Filebeat + Kafka。Step7: 推荐:日志走带外管理网。 |
日志带宽<1.6Gbps;压缩传输 |
Log Transport、Compression |
软:Filebeat、Kafka;硬:管理网;部署:独立网络 |
|
N-1058 |
网络适配 |
智算中心 |
训练任务可视化WebUI网络 |
如何为训练任务可视化(TensorBoard)提供网络保障 |
监控·TensorBoard Network |
Step1: TensorBoard WebUI通过业务网访问,需要低延迟。Step2: 限制TensorBoard带宽不超过100Mbps。Step3: 要求不影响训练任务。Step4: 数学表达式:BWtb=100Mbps。Step5: 配置:QoS限制TensorBoard流量。Step6: 推荐:使用独立公服区。Step7: 验证:训练时同时使用TensorBoard。 |
带宽限制100Mbps;不影响训练 |
TensorBoard、WebUI QoS |
软:交换机QoS;硬:RoCE交换机;部署:业务网QoS |
|
N-1059 |
网络适配 |
智算中心 |
多模态训练数据加载网络 |
如何为多模态(图像+文本)训练数据加载优化存储网 |
性能·Multi-modal Data Loading |
Step1: 多模态数据包含大尺寸图像,数据加载带宽需求更高。Step2: 每个GPU需要2GB/s数据加载带宽。Step3: 要求存储网不成为瓶颈。Step4: 数学表达式:BWmulti_modal=Ngpu×2GB/s。Step5: 若16000 GPU,总需求32TB/s,远超存储网3.84TB/s。Step6: 优化:使用数据缓存(如Alluxio)减少重复加载。Step7: 推荐:本地SSD缓存高频数据。 |
每GPU 2GB/s;缓存优化 |
Multi-modal Data Loading、Cache |
软:Alluxio、本地缓存;硬:NVMe SSD;部署:存储优化 |
|
N-1060 |
网络适配 |
智控中心 |
参数网PFC死锁检测 |
如何检测和定位PFC死锁的发生位置 |
运维·PFC Deadlock Detection |
Step1: 监控交换机端口PFC暂停帧计数,若某个端口持续发送暂停帧超过Tsuspect=1s,疑似死锁。Step2: 使用SA分析器关联分析。Step3: 要求死锁定位时间<10s。Step4: 数学表达式:Suspect=(pause_frames_sent>threshold)∧(duration>1s)。Step5: 配置:SA分析器设置告警规则。Step6: 推荐:启用PFC Watchdog自动恢复。Step7: 验证:模拟死锁测试。 |
暂停帧持续>1s;定位<10s |
PFC Deadlock Detection |
软:SA分析器;硬:RoCE交换机;部署:监控集成 |
|
N-1061 |
网络适配 |
智算中心 |
参数网ECN标记一致性检查 |
如何检查全网ECN配置的一致性 |
运维·ECN Consistency |
Step1: ECN配置包括Kmin、Kmax、标记概率,需全网一致。Step2: SE控制器采集所有Leaf的ECN配置,比对基准配置。Step3: 要求配置一致率100%。Step4: 数学表达式:Consistency=(configi==configbase)∀i。Step5: 配置:SE控制器定时巡检。Step6: 推荐:部署后自动检查。Step7: 验证: |
100%一致;自动巡检 |
ECN Consistency、Configuration Audit |
软:SE控制器;硬:RoCE交换机;部署:自动化检查 |
|
N-1062 |
网络适配 |
智算中心 |
参数网RoCE网卡固件版本一致性 |
如何确保全网RoCE网卡固件版本一致 |
运维·Firmware Consistency |
Step1: 网卡固件版本影响RoCE功能和性能。Step2: SE Agent采集网卡固件版本,上报SE控制器。Step3: 要求版本一致率>99%。Step4: 数学表达式:Version_match=(fw_versioni==target_version)。Step5: 配置:SE控制器制定目标版本。Step6: 推荐:批量升级不一致的网卡。Step7: 验证: |
一致率>99%;批量升级 |
Firmware Consistency、Version Management |
软:SE Agent、SE控制器;硬:RoCE网卡;部署:自动化管理 |
|
N-1063 |
网络适配 |
智算中心 |
参数网光模块型号一致性 |
如何确保参数网光模块型号匹配,避免兼容性问题 |
运维·Optics Compatibility |
Step1: 不同型号光模块可能不兼容,导致链路不稳定。Step2: 记录每根链路的光模块型号,比对兼容性列表。Step3: 要求兼容性100%。Step4: 数学表达式:Compatible=(tx_module,rx_module)∈compatibility_matrix。Step5: 配置:SE控制器维护兼容性矩阵。Step6: 推荐:统一采购同一品牌型号。Step7: 验证: |
100%兼容;统一型号 |
Optics Compatibility、Vendor Lock |
软:SE控制器;硬:光模块;部署:采购规范 |
|
N-1064 |
网络适配 |
智算中心 |
参数网链路预算计算 |
如何计算400G光链路的功率预算,确保信号质量 |
部署·Link Budget |
Step1: 400G光模块发射功率Ptx,接收灵敏度Prx_min,链路损耗L。Step2: 要求Ptx−L≥Prx_min。Step3: 数学表达式:Margin=Ptx−L−Prx_min。Step4: 若Ptx=2dBm,L=3dB(含连接器),Prx_min=−8dBm,则Margin=7dB。Step5: 要求Margin>3dB。Step6: 配置:施工前计算链路预算。Step7: 推荐:使用OTDR测试实际损耗。 |
Margin>3dB;2dBm发射,-8dBm接收 |
Link Budget、Optical Power |
软:计算工具;硬:光模块、光纤;部署:施工规范 |
|
N-1065 |
网络适配 |
智算中心 |
参数网光纤类型选择 |
如何选择单模或多模光纤,满足400G传输距离 |
部署·Fiber Type |
Step1: 400G DR4使用单模光纤,传输距离500m;400G SR8使用多模光纤,传输距离100m。Step2: 智算中心机房间距离通常<100m,可用多模。Step3: 要求满足距离要求。Step4: 数学表达式:Distancerequired≤Distancemax。Step5: 若机房间距离80m,多模SR8支持100m,满足。Step6: 配置:机柜内使用多模,跨机房使用单模。Step7: 推荐:统一使用单模,预留扩展。 |
多模100m;单模500m |
Fiber Type、Transmission Distance |
软:无;硬:光纤、光模块;部署:布线规范 |
|
N-1066 |
网络适配 |
智算中心 |
参数网交换机风扇策略 |
如何配置交换机风扇策略,平衡散热和噪音 |
运维·Fan Policy |
Step1: 交换机风扇支持自动、手动、最大风速模式。Step2: 智算中心对噪音不敏感,使用最大风速保证散热。Step3: 要求温度<45℃。Step4: 数学表达式:Fan_speed=100%。Step5: 配置: |
温度<45℃;最大风速 |
Fan Policy、Thermal Management |
软:交换机配置;硬:RoCE交换机;部署:机房环境 |
|
N-1067 |
网络适配 |
智算中心 |
参数网交换机电源冗余 |
如何配置交换机电源冗余,提高可靠性 |
可靠性·Power Redundancy |
Step1: 交换机配置双电源,分别接入不同PDU。Step2: 要求单电源故障时交换机正常运行。Step3: 数学表达式:Power_redundancy=1+1。Step4: 配置: |
1+1冗余;单电源故障不中断 |
Power Redundancy、PDU |
软:交换机配置;硬:电源、PDU;部署:硬件规划 |
|
N-1068 |
网络适配 |
智算中心 |
参数网交换机堆叠 |
是否需要配置交换机堆叠(Stack) |
架构·Stacking |
Step1: 堆叠将多台交换机虚拟为一台,简化管理但增加故障域。Step2: 智算中心使用Spine-Leaf架构,Leaf独立运行,不堆叠。Step3: 要求不堆叠。Step4: 数学表达式:Stack=disabled。Step5: 配置:不配置。Step6: 推荐:Leaf独立运行。Step7: 验证:无。 |
不堆叠;独立运行 |
Stacking、Spine-Leaf |
软:无;硬:RoCE交换机;部署:不启用 |
|
N-1069 |
网络适配 |
智算中心 |
参数网交换机VLAN Trunk |
如何配置Leaf到Spine的Trunk端口,允许所有VLAN |
虚拟化·Trunk |
Step1: Leaf上行到Spine的端口配置为Trunk,允许所有VLAN。Step2: 参数网使用VLAN 10-100,存储网使用VLAN 200-300。Step3: 要求VLAN透传。Step4: 数学表达式:Allowed_VLAN=10−100,200−300。Step5: 配置: |
只允许参数网和存储网VLAN |
VLAN Trunk、Allowed VLAN |
软:交换机配置;硬:RoCE交换机;部署:Leaf上行 |
|
N-1070 |
网络适配 |
智算中心 |
参数网交换机STP配置 |
如何配置生成树协议(STP),防止二层环路 |
可靠性·STP |
Step1: Spine-Leaf架构中,Leaf之间没有直连,不存在二层环路。Step2: 可关闭STP减少CPU负载。Step3: 要求不启用STP。Step4: 数学表达式:STP=disabled。Step5: 配置: |
关闭STP;无环路 |
STP、Loop Prevention |
软:交换机配置;硬:RoCE交换机;部署:Leaf上行 |
|
N-1071 |
网络适配 |
智算中心 |
参数网交换机MC-LAG |
如何配置MC-LAG实现Leaf双归接入 |
可靠性·MC-LAG |
Step1: 服务器双网卡绑定(LACP)连接到两台Leaf,配置MC-LAG。Step2: MC-LAG将两台Leaf虚拟为一台,避免环路。Step3: 要求单Leaf故障时流量无缝切换。Step4: 数学表达式:Tfailover=Tlacp_timeout=3s。Step5: 配置: |
切换<3s;LACP fast-rate |
MC-LAG、LACP、High Availability |
软:交换机配置;硬:RoCE交换机;部署:接入Leaf |
|
N-1072 |
网络适配 |
智算中心 |
参数网交换机VXLAN Anycast VTEP |
如何配置Anycast VTEP实现多活网关 |
虚拟化·Anycast VTEP |
Step1: 多台Leaf配置相同的VTEP IP,实现多活网关。Step2: 流量通过ECMP到达任意Leaf。Step3: 要求单Leaf故障时流量自动切换到其他Leaf。Step4: 数学表达式:VTEP_IP=10.0.0.1shared。Step5: 配置: |
共享VTEP IP;多活网关 |
Anycast VTEP、Multi-active Gateway |
软:交换机配置;硬:RoCE交换机;部署:Leaf |
|
N-1073 |
网络适配 |
智算中心 |
参数网交换机BGP Peer Group |
如何配置BGP Peer Group简化配置 |
路由·Peer Group |
Step1: 将具有相同策略的邻居加入Peer Group,统一配置。Step2: 所有Leaf作为Spine的Peer Group。Step3: 要求配置简化。Step4: 数学表达式:Peer_group=spine_leaf_group。Step5: 配置: |
统一配置;简化管理 |
BGP Peer Group、Configuration Simplification |
软:交换机配置;硬:RoCE交换机;部署:Spine |
|
N-1074 |
网络适配 |
智算中心 |
参数网交换机NTP认证 |
如何配置NTP认证,防止时间同步攻击 |
安全·NTP Auth |
Step1: NTP认证使用MD5或SHA1密钥。Step2: 配置NTP服务器和客户端共享密钥。Step3: 要求时间同步不被篡改。Step4: 数学表达式:Auth=HMAC(message,key)。Step5: 配置: |
NTP认证启用;HMAC |
NTP Authentication、Security |
软:交换机配置;硬:RoCE交换机;部署:全网启用 |
|
N-1075 |
网络适配 |
智算中心 |
参数网交换机端口镜像 |
如何配置端口镜像用于故障排查 |
运维·Port Mirroring |
Step1: 将故障端口的流量镜像到分析端口,用于抓包分析。Step2: 配置SPAN或RSPAN。Step3: 要求不影响源端口性能。Step4: 数学表达式:Mirror_traffic=original_traffic。Step5: 配置: |
镜像流量;不影响性能 |
Port Mirroring、SPAN |
软:Wireshark;硬:RoCE交换机;部署:按需启用 |
|
N-1076 |
网络适配 |
智算中心 |
参数网交换机Smart Link |
是否需要配置Smart Link实现链路快速切换 |
可靠性·Smart Link |
Step1: Smart Link是华为私有协议,用于双归接入快速切换。Step2: 智算中心使用MC-LAG,不需要Smart Link。Step3: 要求不启用。Step4: 数学表达式:Smart_Link=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。 |
不启用Smart Link |
Smart Link、Proprietary Protocol |
软:交换机配置;硬:RoCE交换机;部署:不启用 |
|
N-1077 |
网络适配 |
智算中心 |
参数网交换机Monitor Link |
是否需要配置Monitor Link联动端口状态 |
可靠性·Monitor Link |
Step1: Monitor Link将一个端口的状态与另一个端口联动。Step2: 智算中心不需要。Step3: 要求不启用。Step4: 数学表达式:Monitor_Link=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。 |
不启用Monitor Link |
Monitor Link、Port State |
软:交换机配置;硬:RoCE交换机;部署:不启用 |
|
N-1078 |
网络适配 |
智算中心 |
参数网交换机RRPP |
是否需要配置RRPP(Rapid Ring Protection Protocol) |
可靠性·RRPP |
Step1: RRPP用于环形拓扑快速保护。Step2: 智算中心使用Spine-Leaf,不是环形。Step3: 要求不启用。Step4: 数学表达式:RRPP=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。 |
不启用RRPP |
RRPP、Ring Protection |
软:交换机配置;硬:RoCE交换机;部署:不启用 |
|
N-1079 |
网络适配 |
智算中心 |
参数网交换机ERPS |
是否需要配置ERPS(Ethernet Ring Protection Switching) |
可靠性·ERPS |
Step1: ERPS用于以太网环形拓扑保护。Step2: 智算中心不使用环形拓扑。Step3: 要求不启用。Step4: 数学表达式:ERPS=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。 |
不启用ERPS |
ERPS、Ring Protection |
软:交换机配置;硬:RoCE交换机;部署:不启用 |
|
N-1080 |
网络适配 |
智算中心 |
参数网交换机VCF |
是否需要配置VCF(Vertical Converged Framework) |
架构·VCF |
Step1: VCF是H3C的虚拟化技术,将多台交换机虚拟为一台。Step2: 智算中心使用Spine-Leaf独立运行。Step3: 要求不启用。Step4: 数学表达式:VCF=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。 |
不启用VCF |
VCF、Virtualization |
软:交换机配置;硬:RoCE交换机;部署:不启用 |
|
N-1081 |
网络适配 |
智算中心 |
参数网交换机IRF |
是否需要配置IRF(Intelligent Resilient Framework) |
架构·IRF |
Step1: IRF是H3C的堆叠技术。Step2: 智算中心不使用堆叠。Step3: 要求不启用。Step4: 数学表达式:IRF=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。 |
不启用IRF |
IRF、Stacking |
软:交换机配置;硬:RoCE交换机;部署:不启用 |
|
N-1082 |
网络适配 |
智算中心 |
参数网交换机M-LAG |
如何配置M-LAG(Multichassis Link Aggregation) |
可靠性·M-LAG |
Step1: M-LAG类似MC-LAG,用于跨设备链路聚合。Step2: 配置peer-link和keepalive链路。Step3: 要求单设备故障时流量不中断。Step4: 数学表达式:Tfailover=Tkeepalive_timeout=3s。Step5: 配置: |
切换<3s;M-LAG |
M-LAG、Link Aggregation |
软:交换机配置;硬:RoCE交换机;部署:Leaf |
|
N-1083 |
网络适配 |
智算中心 |
参数网交换机VXLAN L2 Gateway |
如何配置VXLAN L2 Gateway连接传统VLAN |
虚拟化·L2 Gateway |
Step1: L2 Gateway将VXLAN与传统VLAN桥接。Step2: 配置VXLAN接入VLAN。Step3: 要求VLAN与VXLAN互通。Step4: 数学表达式:Bridge_domain=VXLAN_VNI↔VLAN_ID。Step5: 配置: |
VNI↔VLAN;互通 |
VXLAN L2 Gateway、Bridge Domain |
软:交换机配置;硬:RoCE交换机;部署:Leaf |
|
N-1084 |
网络适配 |
智算中心 |
参数网交换机VXLAN L3 Gateway |
如何配置VXLAN L3 Gateway实现VXLAN间路由 |
虚拟化·L3 Gateway |
Step1: L3 Gateway在不同VXLAN之间路由,每个VXLAN对应一个VRF。Step2: 配置VXLAN接口和VRF。Step3: 要求不同VXLAN间互通可控。Step4: 数学表达式:Routevxlan_a→vxlan_b=VRF_import/export。Step5: 配置: |
集中式L3 Gateway;VRF隔离 |
VXLAN L3 Gateway、VRF |
软:交换机配置;硬:RoCE交换机;部署:Spine |
-
参数网BGP高级特性(如BGP-LS)
-
存储网高级特性(如NVMe-oF QoS)
-
监控与可观测性(如eBPF)
-
安全(如微分段)
-
训练框架网络优化(如Megatron-LM、DeepSpeed)
-
推理服务(如vLLM、TGI)
-
云原生网络(如CNI、Calico)
-
自动化与编排(如Terraform、Ansible)
-
绿色节能(如功率封顶)
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1085 |
网络适配 |
智算中心 |
参数网BGP-LS拓扑收集 |
如何利用BGP-LS(Link State)收集网络拓扑信息,用于主动选路 |
路由·BGP-LS |
Step1: BGP-LS将IGP链路状态信息通过BGP上报给控制器。Step2: SE控制器作为BGP-LS speaker,接收Spine/Leaf发布的链路状态。Step3: 要求拓扑更新延迟<1s。Step4: 数学表达式:Topology_update_delay=Tlsa+Tbgp_update。Step5: 若IGP LSA间隔5s,BGP update传播1s,则延迟6s。Step6: 优化:使用BFD加速链路状态变化检测。Step7: 配置: |
拓扑更新<6s;BGP-LS收集 |
BGP-LS、Topology Collection、Active Routing |
软:SE控制器;硬:RoCE交换机;部署:控制器集成 |
|
N-1086 |
网络适配 |
智算中心 |
参数网BGP Flowspec细粒度限速 |
如何利用BGP Flowspec对特定流进行精准限速 |
安全·Rate Limiting |
Step1: 定义Flowspec规则匹配特定五元组,动作为限速(rate-limit)。Step2: 限速值Rlimit=100Gbps。Step3: 要求限速精度±5%。Step4: 数学表达式:Rate_action=min(packet_rate,Rlimit)。Step5: 配置: |
限速100Gbps;精度±5% |
BGP Flowspec、Rate Limiting |
软:SE控制器、交换机配置;硬:RoCE交换机;部署:Spine |
|
N-1087 |
网络适配 |
智算中心 |
参数网BGP RPKI |
是否需要配置RPKI(Resource Public Key Infrastructure)验证路由起源 |
安全·RPKI |
Step1: RPKI验证BGP路由的AS_PATH是否合法,防止路由劫持。Step2: 智算中心内部AS可信,不需要。Step3: 要求不启用。Step4: 数学表达式:RPKI=disabled。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。 |
不启用RPKI |
RPKI、Route Origin Validation |
软:无;硬:无;部署:不启用 |
|
N-1088 |
网络适配 |
智算中心 |
参数网BGP ASPath Prepending |
如何配置AS Path Prepending影响选路 |
路由·AS Prepending |
Step1: 在路由通告中添加额外AS号,增加AS_PATH长度,使该路径优先级降低。Step2: 配置 |
AS_PATH长度增加;影响选路 |
AS Path Prepending、Traffic Engineering |
软:交换机配置;硬:RoCE交换机;部署:按需配置 |
|
N-1089 |
网络适配 |
智算中心 |
参数网BGP Community NO_EXPORT |
如何使用Community NO_EXPORT控制路由传播范围 |
路由·Community |
Step1: NO_EXPORT Community(0xFFFFFF01)表示路由不传播到AS外。Step2: 参数网使用私有AS,不需要。Step3: 要求不启用。Step4: 数学表达式:NO_EXPORT=not_used。Step5: 配置:不配置。Step6: 推荐:不启用。Step7: 验证:无。 |
不启用NO_EXPORT |
BGP Community、NO_EXPORT |
软:无;硬:无;部署:不启用 |
|
N-1090 |
网络适配 |
智算中心 |
参数网BGP Conditional Advertisement |
如何配置条件通告,实现路由备份 |
路由·Conditional Ad |
Step1: 条件通告:只有主路径失效时才通告备份路径。Step2: 配置exist-map和advertise-map。Step3: 要求备份路由在主路径故障后立即生效。Step4: 数学表达式:Advertise=(exist_route==withdrawn)。Step5: 配置: |
主路径失效后立即通告 |
Conditional Advertisement、Route Backup |
软:交换机配置;硬:RoCE交换机;部署:边界 |
|
N-1091 |
网络适配 |
智算中心 |
存储网NVMe-oF QoS |
如何为NVMe-oF配置QoS,保障关键存储IO的延迟 |
性能·NVMe QoS |
Step1: NVMe-oF支持I/O优先级(紧急、高、中、低)。Step2: 训练数据加载使用高优先级,Checkpoint保存使用低优先级。Step3: 要求训练数据加载延迟<500μs。Step4: 数学表达式:IO_priority={high,low,training_datacheckpoint。Step5: 配置:NVMe subsystem中设置IO队列优先级。Step6: 推荐:训练数据加载使用高优先级。Step7: 验证:监控IO延迟。 |
训练数据高优先级;延迟<500μs |
NVMe-oF QoS、I/O Priority |
软:NVMe over Fabrics配置;硬:CX存储;部署:存储端 |
|
N-1092 |
网络适配 |
智算中心 |
存储网NVMe-oF Namespace共享 |
如何配置NVMe-oF Namespace被多个计算节点共享 |
协议·Namespace Sharing |
Step1: 创建一个Namespace,映射到多个NVMe控制器,允许多主机同时访问。Step2: 配置NVMe subsystem的NQN和端口。Step3: 要求共享访问一致性。Step4: 数学表达式:Namespace_shared=(Nhosts>1)。Step5: 配置: |
多主机共享;一致性 |
NVMe-oF Namespace、Sharing |
软:nvmetcli;硬:CX存储;部署:存储端 |
|
N-1093 |
网络适配 |
智算中心 |
存储网NVMe-oF Asymmetric Namespace Access |
如何配置ANA(Asymmetric Namespace Access)实现最优路径 |
性能·ANA |
Step1: ANA允许Namespace在不同控制器上有不同优化路径(optimized/non-optimized)。Step2: 计算节点优先访问优化的控制器路径。Step3: 要求IO延迟降低>20%。Step4: 数学表达式:Path_state={optimized,non−optimized,preferredbackup。Step5: 配置:NVMe subsystem设置ANA group。Step6: 推荐:多路径场景启用。Step7: 验证: |
优化路径延迟降低>20% |
ANA、NVMe-oF Path Optimization |
软:nvme-cli;硬:CX存储;部署:存储端 |
|
N-1094 |
网络适配 |
智算中心 |
存储网NVMe-oF Persistent Discovery |
如何配置持久化发现服务,简化计算节点配置 |
自动化·Discovery |
Step1: 计算节点通过Discovery Controller自动发现存储子系统,无需手动配置NQN。Step2: 配置持久化发现控制器。Step3: 要求发现时间<1s。Step4: 数学表达式:Tdiscover=Tconnect+Tquery。Step5: 若Tconnect=100ms,Tquery=200ms,则Tdiscover=300ms。Step6: 配置: |
发现<1s;自动配置 |
NVMe-oF Discovery、Persistent |
软:nvme-cli;硬:CX存储;部署:存储端 |
|
N-1095 |
网络适配 |
智算中心 |
推理服务Prefix Caching网络优化 |
如何优化推理时Prefix Caching的跨节点传输 |
性能·Prefix Caching |
Step1: Prefix Caching将公共prompt前缀的KV Cache缓存,减少重复计算。Step2: 缓存命中时需从缓存节点传输KV Cache到推理节点。Step3: 要求传输延迟<10ms。Step4: 数学表达式:Ttransfer=BWnetKV_size。Step5: 若KV_size=100MB,BW=200Gbps=25GB/s,则T=4ms。Step6: 配置:vLLM中 |
传输<10ms;RDMA加速 |
Prefix Caching、KV Cache Transfer |
软:vLLM;硬:RoCE网卡;部署:推理集群 |
|
N-1096 |
网络适配 |
智算中心 |
推理服务Speculative Decoding网络影响 |
如何评估投机解码(Speculative Decoding)对网络的需求 |
性能·Speculative Decoding |
Step1: 投机解码用小模型生成草稿,大模型验证,需要在小模型和大模型之间传输草稿token。Step2: 草稿长度Ldraft=5,每个token embedding向量大小D=4096。Step3: 要求传输延迟<1ms。Step4: 数学表达式:Data_size=Ldraft×D×2bytes=5×4096×2=40KB。Step5: 若BW=400Gbps=50GB/s,则T=0.8μs,忽略不计。Step6: 配置:vLLM中 |
数据量40KB;延迟可忽略 |
Speculative Decoding、Draft Model |
软:vLLM;硬:GPU;部署:同节点 |
|
N-1097 |
网络适配 |
智算中心 |
推理服务Continuous Batching网络带宽 |
如何评估Continuous Batching对网络带宽的需求 |
性能·Continuous Batching |
Step1: Continuous Batching动态添加/移除请求,每个请求的KV Cache需要传输。Step2: 每请求KV Cache大小Sreq=1MB,每秒新增请求数R=100。Step3: 要求网络带宽满足峰值。Step4: 数学表达式:BWneed=R×Sreq=100MB/s=800Mbps。Step5: 若实际带宽10Gbps,则充裕。Step6: 配置:vLLM中 |
带宽需求800Mbps;充裕 |
Continuous Batching、Bandwidth |
软:vLLM;硬:RoCE网卡;部署:推理节点 |
|
N-1098 |
网络适配 |
智算中心 |
推理服务LoRA Adapter加载网络 |
如何优化LoRA Adapter的加载网络,减少冷启动时间 |
性能·LoRA Loading |
Step1: LoRA Adapter文件大小Slora=100MB,需要从存储加载到GPU。Step2: 要求加载时间<5s。Step3: 数学表达式:Tload=BWstorageSlora。Step4: 若存储网BW=12.5GB/s,则T=8ms,远小于5s。Step5: 实际瓶颈在GPU加载和预处理。Step6: 配置:Triton中 |
加载<5s;存储网足够 |
LoRA Adapter、Model Loading |
软:Triton、vLLM;硬:CX存储;部署:推理节点 |
|
N-1099 |
网络适配 |
智算中心 |
推理服务模型量化网络影响 |
如何评估模型量化(INT8/FP8)对网络带宽的降低 |
性能·Quantization |
Step1: 量化后模型大小减小,推理时KV Cache和中间结果变小。Step2: 通信量减少比例Cquant=2(FP16→FP8)。Step3: 要求网络带宽需求减半。Step4: 数学表达式:BWquant=CquantBWfp16。Step5: 若FP16推理需100Gbps,FP8只需50Gbps。Step6: 配置:vLLM中 |
带宽需求减半;FP8 |
Quantization、Bandwidth Reduction |
软:vLLM、TensorRT-LLM;硬:GPU;部署:推理配置 |
|
N-1100 |
网络适配 |
智算中心 |
训练任务数据加载Prefetch网络 |
如何配置数据预取(Prefetch)流水线,掩盖网络延迟 |
性能·Data Prefetch |
Step1: 使用多线程预取下一批次数据,与当前批次计算重叠。Step2: 预取线程数Nprefetch=4。Step3: 要求数据加载延迟被完全掩盖。Step4: 数学表达式:Tcompute≥Tprefetch=BWstorageBatch_size×Sample_size。Step5: 若batch=1MB,BW=12.5GB/s,则Tprefetch=80μs,远小于计算时间。Step6: 配置:PyTorch DataLoader中 |
预取线程4;掩盖延迟 |
Data Prefetch、Pipeline |
软:PyTorch DataLoader;硬:CX存储;部署:训练脚本 |
|
N-1101 |
网络适配 |
智算中心 |
训练任务梯度累积网络优化 |
如何配置梯度累积减少通信频率 |
性能·Gradient Accumulation |
Step1: 梯度累积将多个micro-batch的梯度累加后再通信,减少通信次数。Step2: 累积步数Nacc=8,通信频率降低为1/N_acc。Step3: 要求训练吞吐提升>10%。Step4: 数学表达式:Tcomm_total=NaccTcomm_per_step。Step5: 若每步通信100ms,累积8步则通信12.5ms/步。Step6: 配置:DeepSpeed中 |
累积8步;通信频率降低 |
Gradient Accumulation、Communication Reduction |
软:DeepSpeed、Megatron-LM;硬:GPU;部署:训练配置 |
|
N-1102 |
网络适配 |
智算中心 |
训练任务ZeRO Stage网络优化 |
如何配置ZeRO优化器减少显存和通信量 |
性能·ZeRO |
Step1: ZeRO-3将模型状态分片到所有GPU,通信量增加。Step2: ZeRO-1只分片优化器状态,通信量较少。Step3: 要求选择合适Stage平衡显存和通信。Step4: 数学表达式:Comm_volumezero3=3×model_size×(Ngpu−1)/Ngpu。Step5: 若模型175B,N_gpu=1024,则通信量≈525GB。Step6: 配置:DeepSpeed中 |
ZeRO-2;通信量与显存平衡 |
ZeRO、Memory Optimization |
软:DeepSpeed;硬:GPU;部署:训练配置 |
|
N-1103 |
网络适配 |
智算中心 |
训练任务Sequence Parallelism网络 |
如何配置Sequence Parallelism减少TP通信 |
性能·Sequence Parallelism |
Step1: Sequence Parallelism将序列维度切分到多个GPU,减少TP通信量。Step2: SP组内通信量Commsp=2×hidden_size×seq_len/Nsp。Step3: 要求TP通信减少>50%。Step4: 数学表达式:Commtp_new=Commtp_old/Nsp。Step5: 若原TP通信100MB,N_sp=2,则新50MB。Step6: 配置:Megatron-LM中 |
TP通信减少50%;N_sp=2 |
Sequence Parallelism、TP Reduction |
软:Megatron-LM;硬:GPU;部署:训练配置 |
|
N-1104 |
网络适配 |
智算中心 |
训练任务Expert Parallelism网络 |
如何配置MoE的Expert Parallelism,优化All-to-All通信 |
性能·Expert Parallelism |
Step1: MoE模型中专家分布在多个GPU上,前向时需要All-to-All通信。Step2: 通信量Comma2a=batch_size×topk×expert_hidden/Nep。Step3: 要求All-to-All带宽利用率>90%。Step4: 数学表达式:BWa2a_util=Ta2a×BWlinkComma2a。Step5: 若Comm=1GB,T=1ms,BW_link=400G,则利用率=1GB/0.005s=200GB/s,利用率50%。Step6: 优化:使用NVLink或高速RoCE。Step7: 配置:DeepSpeed-MoE中 |
利用率>90%;All-to-All |
Expert Parallelism、MoE、All-to-All |
软:DeepSpeed-MoE;硬:NVLink、RoCE;部署:训练配置 |
|
N-1105 |
网络适配 |
智算中心 |
训练任务Pipeline Parallelism Bubble |
如何计算Pipeline Parallelism的Bubble占比 |
性能·PP Bubble |
Step1: Pipeline并行中,第一个micro-batch需要经过所有stage才能开始产出,造成气泡。Step2: 气泡占比Bubble=P×M(P−1)×(M−1),其中P为stage数,M为micro-batch数。Step3: 要求Bubble<10%。Step4: 数学表达式:若P=8,M=32,则Bubble=(7×31)/(8×32)=217/256≈84.8%,实际Bubble计算方式不同。Step5: 正确公式:Bubble=M+P−1P−1。Step6: 若P=8,M=32,则Bubble=7/39≈17.9%。Step7: 推荐:增大M降低Bubble。 |
Bubble=17.9%;P=8,M=32 |
Pipeline Parallelism、Bubble |
软:Megatron-LM;硬:GPU;部署:训练配置 |
|
N-1106 |
网络适配 |
智算中心 |
训练任务1F1B调度网络 |
如何配置1F1B(One Forward One Backward)调度减少内存 |
性能·1F1B |
Step1: 1F1B调度将前向和反向交错执行,减少激活内存。Step2: 需要精确的通信调度。Step3: 要求内存节省>30%。Step4: 数学表达式:Mem1f1b=Memnaive×M+P−1P。Step5: 若P=8,M=32,则Mem_1f1b=Mem_naive×8/39≈20.5%。Step6: 配置:Megatron-LM中 |
内存节省79.5%;1F1B |
1F1B Scheduling、Memory Optimization |
软:Megatron-LM;硬:GPU;部署:训练配置 |
|
N-1107 |
网络适配 |
智算中心 |
训练任务Virtual Pipeline |
如何配置Virtual Pipeline进一步降低Bubble |
性能·Virtual Pipeline |
Step1: Virtual Pipeline将每个stage划分为多个virtual stage,增加流水线深度。Step2: 气泡占比Bubblevp=M+Pv−1Pv−1,其中Pv=P×V。Step3: 要求Bubble<5%。Step4: 数学表达式:若P=8,V=2,M=32,则P_v=16,Bubble=15/47≈31.9%,反而增大?Step5: 实际上Virtual Pipeline是为了提高吞吐,但Bubble公式需调整。Step6: 正确:Virtual Pipeline增加micro-batch数量等效,实际Bubble降低。Step7: 配置:Megatron-LM中 |
Virtual Pipeline;降低Bubble |
Virtual Pipeline、Pipeline Depth |
软:Megatron-LM;硬:GPU;部署:训练配置 |
|
N-1108 |
网络适配 |
智算中心 |
训练任务Activation Checkpointing网络 |
如何配置Activation Checkpointing减少显存,增加计算 |
性能·Activation Checkpoint |
Step1: Activation Checkpointing不保存中间激活,反向时重新计算。Step2: 增加计算量Cextra=1.33×,减少显存Memsave=70%。Step3: 要求显存节省>50%。Step4: 数学表达式:Memcheckpoint=Memfull×(1−save_ratio)。Step5: 若save_ratio=0.7,则Mem_checkpoint=0.3×Mem_full。Step6: 配置:PyTorch中 |
显存节省70%;计算增加33% |
Activation Checkpointing、Memory Trade-off |
软:PyTorch、Megatron-LM;硬:GPU;部署:训练配置 |
|
N-1109 |
网络适配 |
智算中心 |
训练任务Mixed Precision Training网络 |
如何配置混合精度训练(FP16/BF16)减少通信量 |
性能·Mixed Precision |
Step1: FP16/BF16梯度大小为FP32的一半,通信量减半。Step2: 要求训练速度提升>20%。Step3: 数学表达式:Commhalf=Commfp32/2。Step4: 若FP32通信100ms,则FP16通信50ms。Step5: 配置:DeepSpeed中 |
通信量减半;速度提升>20% |
Mixed Precision、FP16/BF16 |
软:DeepSpeed、Megatron-LM;硬:GPU;部署:训练配置 |
|
N-1110 |
网络适配 |
智算中心 |
训练任务FlashAttention网络 |
FlashAttention如何减少KV Cache的HBM访问,间接影响网络 |
性能·FlashAttention |
Step1: FlashAttention通过分块计算注意力,减少HBM读写,但计算量略增。Step2: 对网络无直接影响,但可支持更长序列,增加通信量。Step3: 要求序列长度加倍时网络不成为瓶颈。Step4: 数学表达式:Commlong_seq=Commshort×(seq_len_ratio)2(注意力二次方)。Step5: 若序列长度从1K到2K,通信量增加4倍。Step6: 配置:Megatron-LM中 |
序列长度加倍,通信量4倍 |
FlashAttention、Long Sequence |
软:Megatron-LM、vLLM;硬:GPU;部署:训练配置 |
|
N-1111 |
网络适配 |
智算中心 |
训练任务通信计算重叠 |
如何配置通信与计算重叠,隐藏通信延迟 |
性能·Overlap |
Step1: 使用异步通信(NCCL allreduce async)与计算重叠。Step2: 重叠度O=min(1,TcommTcompute)。Step3: 要求通信延迟被完全隐藏。Step4: 数学表达式:Tstep_effective=max(Tcompute,Tcomm)。Step5: 若T_compute=80ms,T_comm=60ms,则T_step=80ms,通信完全隐藏。Step6: 配置:DeepSpeed中 |
通信完全隐藏;重叠度>1 |
Communication Overlap、Async |
软:NCCL、DeepSpeed;硬:GPU;部署:训练配置 |
|
N-1112 |
网络适配 |
智算中心 |
训练任务网络拓扑感知通信优化 |
如何根据GPU拓扑优化通信路径(如ring order) |
性能·Topology-aware Comm |
Step1: NCCL ring order应按照实际拓扑排列,减少跨NUMA/跨Leaf通信。Step2: 使用 |
带宽提升>10%;拓扑优化 |
Topology-aware Communication、Ring Order |
软:NCCL;硬:GPU、RoCE;部署:训练配置 |
|
N-1113 |
网络适配 |
智算中心 |
训练任务网络故障自愈-通信超时 |
如何配置NCCL通信超时,避免hang |
可靠性·NCCL Timeout |
Step1: NCCL通信超时Ttimeout=1800s,超时后触发异常。Step2: 配置 |
超时1800s;需配合快速检测 |
NCCL Timeout、Hang Detection |
软:NCCL、CND;硬:GPU;部署:训练配置 |
|
N-1114 |
网络适配 |
智算中心 |
训练任务网络故障自愈-通信重试 |
如何配置NCCL通信重试次数 |
可靠性·NCCL Retry |
Step1: NCCL通信失败时自动重试,默认重试次数Nretry=3。Step2: 配置 |
重试5次;成功率>99.9% |
NCCL Retry、Reliability |
软:NCCL;硬:GPU;部署:训练配置 |
-
推理服务:模型并行推理的通信模式、KV cache offloading、disaggregated serving等。
-
训练:混合专家模型(MoE)的通信优化、序列并行、长上下文训练网络需求。
-
国产化:天数智芯、摩尔线程等GPU的RoCE适配,以及异构通信库。
-
运维:网络自动化验证、混沌工程、容量规划等。
-
存储:新一代存储协议如CXL over fabric等。
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1115 |
网络适配 |
智算中心 |
推理服务Disaggregated Serving网络 |
如何设计分离式推理(prefill+decode分离)的网络拓扑 |
架构·Disaggregated Serving |
Step1: Prefill节点负责prompt处理,产生KV Cache;Decode节点负责token生成,需接收KV Cache。Step2: KV Cache传输需低延迟高带宽,使用RoCE网络。Step3: 要求KV Cache传输延迟<5ms。Step4: 数学表达式:Tkv_transfer=BWnetKV_size。Step5: 若KV_size=1GB,BW=200Gbps=25GB/s,则T=40ms,超过5ms。Step6: 优化:将KV Cache分块流水线传输,与decode计算重叠。Step7: 推荐:Prefill和Decode节点通过高速RoCE直连。 |
KV传输<5ms;分块流水线 |
Disaggregated Serving、KV Cache Transfer |
软:vLLM、Triton;硬:RoCE网卡;部署:分离式架构 |
|
N-1116 |
网络适配 |
智算中心 |
推理服务Prompt Cache网络 |
如何优化Prompt Cache的跨节点共享,减少重复计算 |
性能·Prompt Cache |
Step1: 公共prompt(如system prompt)的KV Cache可缓存并共享给多个请求。Step2: 缓存命中时需从缓存节点拉取KV Cache。Step3: 要求缓存命中时额外延迟<10ms。Step4: 数学表达式:Tcache_hit=Tlookup+Ttransfer。Step5: 若Tlookup=1ms,Ttransfer=5ms(100MB/20GB/s),则T=6ms。Step6: 配置:使用分布式缓存(如Redis)存储KV Cache索引。Step7: 推荐:将热门prompt缓存到本地SSD。 |
缓存命中延迟<10ms;分布式缓存 |
Prompt Cache、KV Cache Sharing |
软:vLLM、Redis;硬:NVMe SSD;部署:推理集群 |
|
N-1117 |
网络适配 |
智算中心 |
推理服务MQA/GQA网络优化 |
如何优化Multi-Query Attention(MQA)的KV Cache广播 |
性能·MQA |
Step1: MQA中多个head共享一组KV,减少KV Cache大小和广播量。Step2: 广播量Commmqa=Commmha/Hkv,其中Hkv为KV head数。Step3: 要求广播带宽降低>50%。Step4: 数学表达式:若MHA有32个KV head,MQA有1个KV head,则广播量降低32倍。Step5: 配置:模型架构中设置num_key_value_heads=1。Step6: 推荐:推理场景使用MQA/GQA。Step7: 验证:比较MHA和MQA的通信量。 |
广播量降低32倍;MQA |
MQA、GQA、KV Cache |
软:模型配置;硬:GPU;部署:模型训练 |
|
N-1118 |
网络适配 |
智算中心 |
推理服务PagedAttention网络 |
PagedAttention如何影响KV Cache的碎片化和网络传输 |
性能·PagedAttention |
Step1: PagedAttention将KV Cache分页管理,减少碎片,但页表需同步。Step2: 跨节点传输时,页表大小Spage_table=Npages×page_entry_size。Step3: 要求页表传输延迟<1ms。Step4: 数学表达式:若Npages=1000,page_entry=8B,则S=8KB,传输延迟可忽略。Step5: 配置:vLLM中 |
页表8KB;延迟可忽略 |
PagedAttention、Page Table |
软:vLLM;硬:GPU;部署:推理框架 |
|
N-1119 |
网络适配 |
智算中心 |
推理服务TensorRT-LLM网络集成 |
如何配置TensorRT-LLM的多节点推理网络 |
性能·TensorRT-LLM |
Step1: TensorRT-LLM支持多节点TP/PP,使用NCCL通信。Step2: 配置 |
跨节点TP延迟60μs;总延迟<100ms |
TensorRT-LLM、Multi-node Inference |
软:TensorRT-LLM、NCCL;硬:GPU、RoCE;部署:推理集群 |
|
N-1120 |
网络适配 |
智算中心 |
训练任务MoE All-to-All通信优化 |
如何优化MoE模型中All-to-All通信的负载均衡 |
性能·MoE All-to-All |
Step1: MoE的All-to-All通信中,每个GPU向其他GPU发送token,负载可能不均。Step2: 使用动态容量因子(capacity factor)控制每个专家的token数。Step3: 要求各链路负载偏差<10%。Step4: 数学表达式:Capacity=expertstokens_per_batch×capacity_factor。Step5: 若capacity_factor=1.2,则每个专家最多接收120%的平均token数。Step6: 配置:DeepSpeed-MoE中 |
容量因子1.2;负载偏差<10% |
MoE All-to-All、Capacity Factor |
软:DeepSpeed-MoE;硬:GPU、RoCE;部署:训练配置 |
|
N-1121 |
网络适配 |
智算中心 |
训练任务MoE Token Dropping |
如何配置MoE的Token Dropping策略,减少通信量 |
性能·Token Dropping |
Step1: 当某个专家过载时,丢弃部分token,减少通信。Step2: 丢弃率Ddrop=5%,通信量减少5%。Step3: 要求模型精度下降<0.1%。Step4: 数学表达式:Tokens_kept=Tokens_total×(1−Ddrop)。Step5: 配置:DeepSpeed-MoE中 |
丢弃5%;精度下降<0.1% |
Token Dropping、MoE |
软:DeepSpeed-MoE;硬:GPU;部署:训练配置 |
|
N-1122 |
网络适配 |
智算中心 |
训练任务FSDP通信优化 |
如何配置Fully Sharded Data Parallel(FSDP)的通信策略 |
性能·FSDP |
Step1: FSDP将模型参数分片到各GPU,前向时all-gather参数,反向时reduce-scatter梯度。Step2: 通信量Commfsdp=2×model_size×(Ngpu−1)/Ngpu。Step3: 要求通信与计算重叠。Step4: 数学表达式:Tcomm_overlap=max(Tcompute,Tcomm)。Step5: 配置:PyTorch FSDP中 |
通信量2×模型大小;重叠 |
FSDP、Sharding |
软:PyTorch FSDP;硬:GPU;部署:训练配置 |
|
N-1123 |
网络适配 |
智算中心 |
训练任务TorchTitan网络配置 |
如何配置TorchTitan的分布式训练网络 |
性能·TorchTitan |
Step1: TorchTitan支持多种并行策略组合,使用DTensor和DeviceMesh。Step2: 配置mesh shape为(DP, TP, PP)。Step3: 要求通信拓扑匹配mesh。Step4: 数学表达式:Mesh=(Dsize,Tsize,Psize)。Step5: 配置: |
mesh (4,8,2);拓扑对齐 |
TorchTitan、DeviceMesh |
软:TorchTitan、PyTorch;硬:GPU;部署:训练框架 |
|
N-1124 |
网络适配 |
智算中心 |
训练任务JAX网络配置 |
如何配置JAX的分布式训练网络(pjit/xmap) |
性能·JAX |
Step1: JAX使用 |
分区规格匹配;XLA优化 |
JAX、pjit、Mesh |
软:JAX、XLA;硬:GPU;部署:训练框架 |
|
N-1125 |
网络适配 |
智算中心 |
国产化天数智芯GPU RoCE适配 |
如何配置天数智芯GPU的RoCE网卡驱动和参数 |
兼容性·Iluvatar RoCE |
Step1: 天数智芯GPU使用自研通信库(BCL),需与RoCE网卡适配。Step2: 安装BCL驱动,配置RoCE参数(PFC、ECN)。Step3: 要求BCL allreduce带宽>90%线速。Step4: 数学表达式:BWbcl=Tbcldata_size×(N−1)/N。Step5: 若data=1GB,N=8,T=2.8ms,则BW=312.5GB/s(聚合),线速400Gbps=50GB/s,单卡50GB/s,8卡聚合400GB/s,312.5/400=78%。Step6: 优化:调整BCL参数(如QP数)。Step7: 推荐:与厂商合作调优。 |
BCL带宽>90%线速;QP调优 |
Iluvatar GPU、BCL、RoCE |
软:BCL库;硬:天数智芯GPU、RoCE网卡;部署:驱动配置 |
|
N-1126 |
网络适配 |
智算中心 |
国产化摩尔线程GPU RoCE适配 |
如何配置摩尔线程GPU的RoCE网卡驱动和参数 |
兼容性·Moore Threads RoCE |
Step1: 摩尔线程GPU使用MUSA SDK,支持RoCE via MUSALink。Step2: 安装MUSA驱动,配置RoCE。Step3: 要求MUSA allreduce带宽>90%线速。Step4: 数学表达式:BWmusa=Tmusadata_size×(N−1)/N。Step5: 测试方法与天数类似。Step6: 配置: |
MUSA带宽>90%线速;MCCL |
Moore Threads GPU、MUSA、MCCL |
软:MUSA SDK、MCCL;硬:摩尔线程GPU、RoCE网卡;部署:驱动配置 |
|
N-1127 |
网络适配 |
智算中心 |
国产化GPU异构通信库UCCL调优 |
如何调优UCCL在国产GPU上的性能 |
性能·UCCL Tuning |
Step1: UCCL支持多种算法(ring、tree、rabenseifner),需选择最优。Step2: 测试不同算法和报文大小的带宽。Step3: 要求UCCL性能>95%原生NCCL。Step4: 数学表达式:Algo_selected=argmaxalgoBW(algo,size)。Step5: 配置: |
性能>95% NCCL;算法选择 |
UCCL Tuning、Algorithm |
软:UCCL;硬:国产GPU、RoCE;部署:环境变量 |
|
N-1128 |
网络适配 |
智算中心 |
国产化GPU PCIe带宽测试 |
如何测试国产GPU的PCIe带宽,确保不成为瓶颈 |
性能·PCIe Test |
Step1: 使用 |
实测≥90%理论值;PCIe 4.0 x16 |
PCIe Bandwidth、GPU Test |
软:bandwidthTest、xpu-smi;硬:国产GPU;部署:验收测试 |
|
N-1129 |
网络适配 |
智算中心 |
国产化GPU NCCL兼容层 |
如何实现国产GPU的NCCL兼容层,运行主流框架 |
兼容性·NCCL Compat |
Step1: 国产GPU提供NCCL兼容API(如RCCL、MCCL),上层框架无需修改。Step2: 安装兼容库,设置LD_PRELOAD或symlink。Step3: 要求框架(PyTorch)可直接运行。Step4: 数学表达式:API_compat=(function_signature==NCCL)。Step5: 配置: |
API兼容;框架无需修改 |
NCCL Compat、RCCL、MCCL |
软:兼容库、PyTorch;硬:国产GPU;部署:环境配置 |
|
N-1130 |
网络适配 |
智算中心 |
国产化GPU集合通信benchmark |
如何设计国产GPU的集合通信基准测试 |
测试·Comm Benchmark |
Step1: 使用厂商提供的benchmark(如xpu_allreduce_perf、mx_allreduce_perf)。Step2: 测试allreduce、allgather、reduce_scatter等操作。Step3: 要求结果可与NCCL对比。Step4: 数学表达式:BWop=Topdata_size×(N−1)/N。Step5: 配置:运行标准测试脚本。Step6: 推荐:记录并归档结果。Step7: 验证:与NVIDIA GPU对比。 |
与NCCL对比;标准测试 |
Comm Benchmark、Allreduce |
软:厂商benchmark;硬:国产GPU;部署:验收测试 |
|
N-1131 |
网络适配 |
智算中心 |
国产化GPU RoCE网卡多队列优化 |
如何配置国产GPU的RoCE网卡多队列,提升并发 |
性能·Multi-queue |
Step1: 国产GPU的RoCE网卡支持多队列,需配置RSS。Step2: 队列数Nqueue=8,绑定到不同CPU核。Step3: 要求多队列并发吞吐提升>20%。Step4: 数学表达式:Throughputmq=min(Nqueue×BWper_queue,BWtotal)。Step5: 配置: |
队列数8;吞吐提升>20% |
Multi-queue、RSS |
软:ethtool;硬:RoCE网卡;部署:网卡配置 |
|
N-1132 |
网络适配 |
智算中心 |
国产化GPU RoCE网卡中断亲缘性 |
如何配置中断亲缘性,减少跨NUMA访问 |
性能·IRQ Affinity |
Step1: 将网卡中断绑定到同一NUMA的CPU核。Step2: 使用 |
跨NUMA<5%;中断绑定 |
IRQ Affinity、NUMA |
软:irqbalance、脚本;硬:RoCE网卡;部署:OS配置 |
|
N-1133 |
网络适配 |
智算中心 |
国产化GPU RDMA内存注册 |
如何优化国产GPU的RDMA内存注册性能 |
性能·Memory Registration |
Step1: RDMA通信前需注册内存区域(MR),注册耗时Treg。Step2: 使用内存池预注册,减少动态注册开销。Step3: 要求注册延迟<10μs。Step4: 数学表达式:Treg_pool=Treg_once/Nuse。Step5: 若一次注册100μs,池中复用100次,则平均1μs。Step6: 配置:UCCL中启用内存池。Step7: 推荐:大块连续内存预注册。 |
注册延迟<10μs;内存池 |
Memory Registration、MR Pool |
软:UCCL、ibv_reg_mr;硬:RoCE网卡;部署:通信库配置 |
|
N-1134 |
网络适配 |
智算中心 |
国产化GPU RDMA GDR |
如何配置国产GPU的GPU Direct RDMA(GDR) |
性能·GPU Direct RDMA |
Step1: GDR允许网卡直接读写GPU显存,绕过CPU。Step2: 需要BAR映射和驱动支持。Step3: 要求GDR带宽>90%网卡线速。Step4: 数学表达式:BWgdr=Tgdrdata_size。Step5: 配置: |
GDR带宽>90%线速;BAR映射 |
GPU Direct RDMA、BAR |
软:网卡驱动;硬:国产GPU、RoCE网卡;部署:BIOS/驱动配置 |
|
N-1135 |
网络适配 |
智算中心 |
网络自动化混沌工程 |
如何设计网络混沌工程,验证故障自愈能力 |
测试·Chaos Engineering |
Step1: 定期注入网络故障(丢包、延迟、链路down),观察系统反应。Step2: 使用tc或chaosblade模拟故障。Step3: 要求故障恢复时间<5分钟。Step4: 数学表达式:Trecovery=Tinject+Tdetect+Theal。Step5: 若注入延迟100ms,检测2s,恢复3s,则总时间5s。Step6: 配置:SA分析器集成混沌实验。Step7: 推荐:每周执行一次。 |
恢复<5min;模拟故障 |
Chaos Engineering、Fault Injection |
软:chaosblade、tc;硬:RoCE网络;部署:自动化测试 |
|
N-1136 |
网络适配 |
智算中心 |
网络容量规划模型 |
如何建立网络容量规划模型,预测未来带宽需求 |
规划·Capacity Planning |
Step1: 根据GPU增长率和训练任务带宽需求预测。Step2: 年增长率G=50%,当前带宽BWcur=100Tbps。Step3: 要求规划提前1年。Step4: 数学表达式:BWfuture=BWcur×(1+G)Y。Step5: 若Y=1,则BW_future=150Tbps。Step6: 配置:规划时预留20%余量。Step7: 推荐:每年更新规划。 |
年增长50%;预留20%余量 |
Capacity Planning、Growth Model |
软:规划工具;硬:交换机、光模块;部署:规划流程 |
|
N-1137 |
网络适配 |
智算中心 |
网络成本优化模型 |
如何优化网络建设成本,平衡性能和投资 |
规划·Cost Optimization |
Step1: 比较不同方案:400G vs 800G,多模 vs 单模。Step2: 成本函数C=Csw+Coptics+Cfiber+Cpower。Step3: 要求单位带宽成本最低。Step4: 数学表达式:Cost_per_Gbps=BWtotalCtotal。Step5: 若400G方案总成本1亿,带宽100T,则100元/Gbps;800G方案1.5亿,带宽200T,则75元/Gbps。Step6: 推荐:选择800G。Step7: 验证:TCO分析。 |
单位带宽成本最低;TCO |
Cost Optimization、TCO |
软:成本模型;硬:网络设备;部署:采购决策 |
|
N-1138 |
网络适配 |
智算中心 |
网络绿色节能设计 |
如何设计节能网络,降低PUE |
规划·Green Networking |
Step1: 使用低功耗交换机、智能风扇、端口休眠。Step2: 功耗模型P=Pbase+Pper_port×Nactive。Step3: 要求PUE<1.2。Step4: 数学表达式:PUE=PitPtotal。Step5: 若IT设备功耗10MW,总功耗11.5MW,则PUE=1.15。Step6: 配置:启用EEE(Energy Efficient Ethernet)。Step7: 推荐:使用液冷交换机。 |
PUE<1.2;EEE |
Green Networking、PUE |
软:电源管理;硬:低功耗交换机;部署:机房设计 |
|
N-1139 |
网络适配 |
智算中心 |
网络自动化验证框架 |
如何设计网络配置变更的自动化验证流程 |
自动化·Validation |
Step1: 配置变更前在测试环境预演,验证连通性、性能、安全。Step2: 使用Batfish或pyATS进行静态分析。Step3: 要求验证时间<10分钟。Step4: 数学表达式:Tvalidate=Tparse+Tanalyze+Ttest。Step5: 若Tparse=1min,Tanalyze=3min,Ttest=5min,则T=9min。Step6: 配置:CI/CD pipeline集成。Step7: 推荐:变更前必须通过验证。 |
验证<10min;静态+动态测试 |
Automation Validation、Batfish |
软:Batfish、pyATS;硬:无;部署:DevOps流程 |
|
N-1140 |
网络适配 |
智算中心 |
网络配置回滚自动化 |
如何设计网络配置变更失败时的自动回滚 |
自动化·Rollback |
Step1: 变更前备份当前配置,变更后监控关键指标(连通性、丢包率)。Step2: 若指标异常,自动回滚到备份配置。Step3: 要求回滚时间<1分钟。Step4: 数学表达式:Trollback=Tdetect+Tapply_backup。Step5: 若Tdetect=30s,Tapply=20s,则T=50s。Step6: 配置:SE控制器支持配置回滚。Step7: 推荐:关键变更启用自动回滚。 |
回滚<1min;自动检测 |
Configuration Rollback、Automation |
软:SE控制器;硬:RoCE交换机;部署:变更流程 |
|
N-1141 |
网络适配 |
智算中心 |
网络数字孪生 |
如何构建网络数字孪生,用于仿真和预测 |
规划·Digital Twin |
Step1: 使用网络仿真平台(如NS-3、OMNeT++)建立数字孪生模型。Step2: 导入真实拓扑、流量模型、配置。Step3: 要求仿真精度>90%。Step4: 数学表达式:(Accuracy = 1 - \frac{ |
Sim_metric - Real_metric |
}{Real_metric})。Step5: 若仿真延迟10μs,实际9.5μs,则精度=1-0.5/9.5=94.7%。Step6: 配置:定期同步真实数据到孪生模型。Step7: 推荐:用于what-if分析和容量规划。 |
精度>90%;仿真 |
|
N-1142 |
网络适配 |
智算中心 |
网络AI智能运维 |
如何利用AI进行网络异常检测和根因分析 |
运维·AIOps |
Step1: 收集网络指标(延迟、丢包、流量),使用孤立森林或LSTM检测异常。Step2: 异常时自动关联告警,定位根因。Step3: 要求根因定位准确率>80%。Step4: 数学表达式:Root_cause=argmaxnodeanomaly_scorenode。Step5: 配置:SA分析器集成ML模型。Step6: 推荐:从简单规则开始,逐步引入AI。Step7: 验证:历史故障复盘。 |
定位准确率>80%;AI模型 |
AIOps、Anomaly Detection |
软:SA分析器、Python ML;硬:无;部署:SA集成 |
|
N-1143 |
网络适配 |
智算中心 |
网络知识图谱 |
如何构建网络知识图谱,辅助故障排查 |
运维·Knowledge Graph |
Step1: 将网络设备、链路、配置、告警、工单等实体和关系构建成知识图谱。Step2: 使用Neo4j存储,SPARQL查询。Step3: 要求故障关联查询时间<1s。Step4: 数学表达式:Query_result=graph.query("MATCH...WHERE...")。Step5: 配置:SE控制器集成知识图谱。Step6: 推荐:积累历史故障案例。Step7: 验证:输入故障现象,输出根因建议。 |
查询<1s;图数据库 |
Knowledge Graph、Neo4j |
软:Neo4j、SE控制器;硬:无;部署:运维平台 |
|
N-1144 |
网络适配 |
智算中心 |
网络技能传承与培训 |
如何设计网络运维知识的沉淀和培训体系 |
运维·Knowledge Transfer |
Step1: 将网络设计、配置、故障案例整理为文档和视频教程。Step2: 搭建Wiki和模拟环境供练习。Step3: 要求新员工上手时间<1个月。Step4: 数学表达式:Tonboard=Tstudy+Tpractice。Step5: 配置:使用Confluence和GNS3。Step6: 推荐:定期组织培训和考核。Step7: 验证:新员工独立处理故障。 |
上手<1月;模拟环境 |
Knowledge Transfer、Training |
软:Confluence、GNS3;硬:无;部署:团队建设 |
-
多数据中心互联(DCI)的网络适配
-
网络安全等级保护(等保2.0)在网络上的落地
-
IPv6单栈改造对参数网的影响
-
意图网络(IBN)的实现
-
网络自动驾驶分级
-
网络切片在智算中心的应用
-
确定性网络(DetNet)对训练任务的支持
-
卫星网络与地面智算中心的融合
-
量子密钥分发(QKD)在数据中心互联中的应用
-
多数据中心互联带宽规划:BWdci=Ngpu×BWper_gpu×overlap_ratio
-
等保2.0要求日志留存6个月,计算存储需求
-
IPv6地址规划:Nipv6=264等等
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1145 |
网络适配 |
智算中心 |
多数据中心互联(DCI)带宽规划 |
如何规划两个智算中心之间的DCI带宽,满足分布式训练需求 |
规划·DCI Bandwidth |
Step1: 分布式训练跨数据中心时,参数同步需要DCI带宽。Step2: 每GPU需要带宽BWper_gpu=400Gbps,跨DC通信比例Rcross=10%。Step3: 要求DCI带宽满足峰值。Step4: 数学表达式:BWdci=Ngpu×BWper_gpu×Rcross。Step5: 若Ngpu=16000,则BWdci=16000×400G×0.1=640Tbps。Step6: 实际受限于光传输系统,建议采用波分复用(DWDM)。Step7: 推荐:DCI带宽预留20%余量。 |
DCI带宽640Tbps;跨DC通信10% |
DCI、Distributed Training、DWDM |
软:光传输网管;硬:DWDM设备、ROADM;部署:跨DC互联 |
|
N-1146 |
网络适配 |
智算中心 |
多数据中心互联时延要求 |
如何确定DCI的最大单向时延,保证训练收敛 |
性能·DCI Latency |
Step1: 分布式训练中梯度同步对时延敏感,时延过大降低效率。Step2: 要求DCI单向时延Ldci<1ms(同城)或<10ms(异地)。Step3: 数学表达式:Ldci=c×nDistance+Tprocessing。Step4: 若距离100km,光纤折射率n=1.5,光速c=3e5km/s,则传播时延=100/(3e5/1.5)=0.5ms,加上处理0.1ms,总0.6ms。Step5: 配置:选择最短光纤路径。Step6: 推荐:同城DC间距<50km。Step7: 验证:使用OWAMP测量。 |
同城<1ms;异地<10ms;距离100km时0.6ms |
DCI Latency、Training Efficiency |
软:OWAMP、TWAMP;硬:光传输设备;部署:链路规划 |
|
N-1147 |
网络适配 |
智算中心 |
多数据中心互联可靠性 |
如何设计DCI的冗余保护,避免单点故障 |
可靠性·DCI Protection |
Step1: DCI链路采用1+1或1:1保护,主备路径自动切换。Step2: 保护倒换时间Tswitch<50ms。Step3: 要求业务不中断。Step4: 数学表达式:Tswitch=Tdetect+Tprotection。Step5: 若采用OTN的APS,检测10ms,切换20ms,则总30ms。Step6: 配置:光层1+1保护。Step7: 推荐:至少两条物理路径。 |
切换<50ms;1+1保护 |
DCI Protection、APS |
软:光传输网管;硬:OTN设备;部署:光缆双路由 |
|
N-1148 |
网络适配 |
智算中心 |
多数据中心互联加密 |
如何对DCI流量进行加密,满足安全合规 |
安全·DCI Encryption |
Step1: DCI承载训练数据和模型参数,需加密传输。Step2: 使用MACsec或IPsec加密,加密开销Oenc=5%。Step3: 要求加密后带宽损失<10%。Step4: 数学表达式:BWenc=BWraw×(1−Oenc)。Step5: 若原始640Tbps,加密后608Tbps。Step6: 配置:DWDM设备内置加密板卡。Step7: 推荐:采用AES-256加密。 |
带宽损失5%;AES-256 |
DCI Encryption、MACsec |
软:加密管理;硬:加密板卡;部署:DCI端点 |
|
N-1149 |
网络适配 |
智算中心 |
多数据中心互联时钟同步 |
如何实现跨DC的高精度时钟同步,支持PTP |
性能·Clock Sync |
Step1: 分布式训练需要跨DC时间同步,用于trace和调试。Step2: 使用PTP over DCI,精度要求<1μs。Step3: 数学表达式:Tsync_error=Tprop_asymmetry+Ttimestamp_error。Step4: 若光纤不对称性补偿后误差200ns,时间戳误差100ns,则总300ns。Step5: 配置:边界时钟(BC)或透明时钟(TC)。Step6: 推荐:每个DC部署PTP Grandmaster。Step7: 验证: |
精度<1μs;PTP BC/TC |
PTP、Clock Synchronization |
软:linuxptp;硬:PTP交换机、GNSS;部署:DC间同步 |
|
N-1150 |
网络适配 |
智算中心 |
网络安全等级保护(等保2.0)网络要求 |
如何满足等保2.0对智算中心网络的安全要求 |
安全·Level Protection |
Step1: 等保2.0要求网络区域划分、访问控制、入侵防范、审计。Step2: 参数网和存储网划入安全计算环境,业务网划入安全区域边界。Step3: 要求审计日志保存≥6个月。Step4: 数学表达式:Log_storage=Ndevices×log_rate×180days。Step5: 若600台交换机,每台每天1GB日志,则6个月需600×1×180=108TB。Step6: 配置:部署堡垒机、IDS/IPS、日志审计系统。Step7: 推荐:通过等保三级测评。 |
日志保存6个月;108TB |
Level Protection、Security Compliance |
软:日志审计、堡垒机;硬:IDS/IPS;部署:安全架构 |
|
N-1151 |
网络适配 |
智算中心 |
网络安全态势感知 |
如何构建网络态势感知平台,实时监控安全事件 |
安全·Situational Awareness |
Step1: 采集网络流量、日志、告警,通过大数据分析识别威胁。Step2: 要求威胁检出率>95%,误报率<5%。Step3: 数学表达式:Detection_rate=TP+FNTP。Step4: 配置:部署SIEM(如Splunk)或SOC平台。Step5: 推荐:结合UEBA行为分析。Step6: 验证:红蓝对抗测试。Step7: 数据源:NetFlow、Syslog、SNMP Trap。 |
检出率>95%;误报率<5% |
Situational Awareness、SIEM |
软:Splunk、ELK;硬:无;部署:安全运营中心 |
|
N-1152 |
网络适配 |
智算中心 |
网络安全微分段 |
如何在智算中心内部实施微分段(Micro-segmentation) |
安全·Micro-seg |
Step1: 基于租户或应用划分安全组,限制东西向流量。Step2: 使用VXLAN+ACL或分布式防火墙。Step3: 要求租户间零信任。Step4: 数学表达式:Policy=deny_all except_allowed。Step5: 配置:在Leaf上应用ACL或使用软件定义防火墙。Step6: 推荐:参数网和存储网默认隔离。Step7: 验证:租户间ping不通。 |
默认拒绝;白名单 |
Micro-segmentation、Zero Trust |
软:SDN控制器、防火墙;硬:RoCE交换机;部署:全网策略 |
|
N-1153 |
网络适配 |
智算中心 |
网络安全DDoS防护 |
如何防御针对智算中心网络的DDoS攻击 |
安全·DDoS |
Step1: DDoS攻击可能来自外部或内部(如恶意租户)。Step2: 在边界部署Anti-DDoS设备,清洗异常流量。Step3: 要求攻击流量清洗能力>1Tbps。Step4: 数学表达式:Clean_capacity=∑Nscrubber×BWper_scrubber。Step5: 若4台清洗设备各400G,则总1.6Tbps。Step6: 配置:BGP Flowspec引流到清洗中心。Step7: 推荐:云清洗+本地清洗结合。 |
清洗能力>1Tbps;BGP Flowspec |
DDoS Mitigation、Scrubbing Center |
软:Anti-DDoS控制器;硬:清洗设备;部署:互联网边界 |
|
N-1154 |
网络适配 |
智算中心 |
网络安全零信任网络访问 |
如何实现智算中心的零信任网络访问(ZTNA) |
安全·ZTNA |
Step1: 所有访问请求都需要认证和授权,不信任任何网络。Step2: 部署身份代理(如Cloudflare Access)或SDP。Step3: 要求访问延迟增加<10ms。Step4: 数学表达式:Taccess=Tauth+Tproxy。Step5: 若Tauth=5ms,Tproxy=3ms,则T=8ms。Step6: 配置:管理面和业务面均启用ZTNA。Step7: 推荐:先对管理面实施。 |
延迟增加<10ms;SDP |
Zero Trust、SDP |
软:身份提供商、SDP网关;硬:无;部署:管理网络 |
|
N-1155 |
网络适配 |
智算中心 |
IPv6单栈改造对参数网的影响 |
如何将参数网从IPv4迁移到IPv6单栈 |
协议·IPv6 Migration |
Step1: IPv6地址空间充足,可简化地址规划。Step2: 参数网使用IPv6地址,RoCEv2支持IPv6。Step3: 要求迁移过程中业务不中断。Step4: 数学表达式:Address_spacev6=264≫2v432。Step5: 配置:双栈过渡,逐步关闭IPv4。Step6: 推荐:新建集群直接使用IPv6。Step7: 验证:NCCL allreduce over IPv6。 |
双栈过渡;地址空间无限 |
IPv6 Single Stack、RoCEv2 |
软:NCCL、UCCL;硬:RoCE交换机;部署:逐步迁移 |
|
N-1156 |
网络适配 |
智算中心 |
IPv6地址自动配置 |
如何利用SLAAC或DHCPv6自动配置参数网IPv6地址 |
自动化·IPv6 Autoconfig |
Step1: 使用SLAAC(无状态)或DHCPv6(有状态)分配IPv6地址。Step2: 参数网使用静态地址,但可通过DHCPv6分配。Step3: 要求地址分配时间<1s。Step4: 数学表达式:Tassign=Tsolicit+Tadvertise+Trequest+Treply。Step5: 若RTT=1ms,则总<10ms。Step6: 配置:SE控制器作为DHCPv6服务器。Step7: 推荐:使用静态地址避免依赖DHCP。 |
分配<1s;DHCPv6 |
IPv6 Autoconfiguration、SLAAC |
软:SE控制器、DHCPv6;硬:RoCE网卡;部署:可选 |
|
N-1157 |
网络适配 |
智算中心 |
IPv6安全邻居发现(SEND) |
如何配置SEND防止IPv6邻居欺骗 |
安全·SEND |
Step1: SEND使用加密生成地址(CGA)和RSA签名保护NDP。Step2: 参数网物理安全,可不启用。Step3: 要求不启用。Step4: 数学表达式:SEND=disabled。Step5: 配置:不配置。Step6: 推荐:不启用,使用RA Guard。Step7: 验证:无。 |
不启用SEND |
SEND、CGA |
软:无;硬:无;部署:不启用 |
|
N-1158 |
网络适配 |
智算中心 |
意图网络(IBN)实现 |
如何将网络运维从配置驱动转为意图驱动 |
自动化·Intent-based Networking |
Step1: 管理员声明意图(如“为租户A提供100Gbps带宽”),系统自动翻译为配置。Step2: 持续验证意图是否满足。Step3: 要求意图兑现时间<5分钟。Step4: 数学表达式:Intent_fulfillment=(actual_BW≥requested_BW)∧(latency≤threshold)。Step5: 配置:SE控制器集成意图引擎。Step6: 推荐:从简单的带宽保障开始。Step7: 验证:监控面板显示意图状态。 |
兑现<5min;持续验证 |
Intent-based Networking、Closed-loop |
软:SE控制器、意图引擎;硬:无;部署:控制器升级 |
|
N-1159 |
网络适配 |
智算中心 |
网络自动驾驶分级 |
如何评估智算中心网络的自动驾驶级别(L0-L5) |
规划·Autonomous Driving |
Step1: L0人工运维,L1辅助自动化,L2部分自治,L3条件自治,L4高度自治,L5完全自治。Step2: 当前智算中心网络处于L2(部分自治:自动部署、监控、告警)。Step3: 目标L4(自动决策、自愈、优化)。Step4: 数学表达式:Level=f(automation_coverage,decision_autonomy)。Step5: 配置:逐步引入AI运维。Step6: 推荐:3年内达到L3。Step7: 验证:每年评估。 |
当前L2;目标L4 |
Autonomous Network、TM Forum |
软:AIOps平台;硬:无;部署:演进路线 |
|
N-1160 |
网络适配 |
智算中心 |
网络切片在智算中心的应用 |
如何为不同租户或任务创建独立的网络切片 |
虚拟化·Network Slicing |
Step1: 每个切片拥有独立的VXLAN、QoS、带宽保障。Step2: 使用FlexE或信道化子接口实现物理隔离。Step3: 要求切片间性能互不影响。Step4: 数学表达式:Slicei=(VNIi,BWi,Latencyi,Priorityi)。Step5: 配置:SE控制器创建和管理切片。Step6: 推荐:为关键训练任务创建专属切片。Step7: 验证:同时运行多个切片任务。 |
切片隔离;专属资源 |
Network Slicing、FlexE |
软:SE控制器;硬:支持FlexE的交换机;部署:按需创建 |
|
N-1161 |
网络适配 |
智算中心 |
确定性网络(DetNet)支持 |
如何为实时推理提供确定性低延迟网络 |
QoS·Deterministic Network |
Step1: DetNet通过预留资源和时钟同步,提供有界延迟。Step2: 配置TSN(时间敏感网络)或DetNet over MPLS。Step3: 要求端到端延迟抖动<10μs。Step4: 数学表达式:Jittermax=max(Li)−min(Li)。Step5: 配置:在Leaf出口启用802.1Qbv(时间感知整形)。Step6: 推荐:仅对推理流量启用。Step7: 验证:示波器测量延迟抖动。 |
抖动<10μs;TSN |
Deterministic Network、TSN |
软:交换机配置;硬:支持TSN的交换机;部署:推理网络 |
|
N-1162 |
网络适配 |
智算中心 |
卫星网络与地面智算中心融合 |
如何通过卫星链路扩展智算中心到偏远地区 |
架构·Satellite Integration |
Step1: 卫星链路带宽有限(通常<1Gbps),延迟高(>250ms)。Step2: 只能用于非实时任务(如数据上传、模型同步)。Step3: 要求卫星链路利用率>80%。Step4: 数学表达式:BWsat=500Mbps,RTT=500ms。Step5: 配置:TCP优化(Hybla、BBR)。Step6: 推荐:使用多径卫星+地面混合。Step7: 验证:大文件传输测试。 |
带宽500Mbps;RTT 500ms |
Satellite Communication、Hybrid Network |
软:TCP优化;硬:卫星终端;部署:边缘节点 |
|
N-1163 |
网络适配 |
智算中心 |
量子密钥分发(QKD)在DCI中的应用 |
如何利用QKD为DCI链路提供量子安全的加密密钥 |
安全·QKD |
Step1: QKD通过量子态传输密钥,理论上不可窃听。Step2: 密钥生成速率Rkey=100kbps,需满足加密密钥更新需求。Step3: 要求密钥更新频率>1次/秒。Step4: 数学表达式:Key_bits_per_second=Rkey。Step5: 若AES-256需要256位密钥,每秒可生成100kbps/256≈390个密钥。Step6: 配置:QKD设备与加密板卡集成。Step7: 推荐:在核心DCI链路上试点。 |
密钥速率100kbps;AES-256 |
Quantum Key Distribution、Post-quantum |
软:QKD管理软件;硬:QKD设备;部署:DCI试点 |
|
N-1164 |
网络适配 |
智算中心 |
网络运维自动化ChatOps |
如何通过聊天机器人(如Slack、钉钉)执行网络运维操作 |
运维·ChatOps |
Step1: 集成SE控制器到聊天平台,通过自然语言指令执行操作。Step2: 支持查询状态、执行命令、创建工单。Step3: 要求操作响应时间<5s。Step4: 数学表达式:Tresponse=Tnlp+Texec。Step5: 若Tnlp=1s,Texec=2s,则T=3s。Step6: 配置:部署Bot到聊天平台。Step7: 推荐:只开放查询权限,谨慎开放写操作。 |
响应<5s;自然语言 |
ChatOps、Bot |
软:Slack/钉钉、SE Bot;硬:无;部署:运维工具 |
|
N-1165 |
网络适配 |
智算中心 |
网络运维自动化Runbook |
如何设计自动化的故障处理Runbook |
运维·Runbook |
Step1: 将常见故障的处理步骤编写为可执行的Runbook。Step2: 故障触发时自动执行Runbook。Step3: 要求MTTR降低>50%。Step4: 数学表达式:MTTRafter=MTTRbefore×(1−reduction)。Step5: 若原来MTTR=2h,降低50%则1h。Step6: 配置:使用Ansible Tower或StackStorm。Step7: 推荐:优先处理高频故障。 |
MTTR降低50%;自动化执行 |
Runbook Automation、MTTR |
软:Ansible、StackStorm;硬:无;部署:运维平台 |
|
N-1166 |
网络适配 |
智算中心 |
网络资产管理与CMDB |
如何建立网络配置管理数据库(CMDB) |
运维·CMDB |
Step1: 自动发现网络设备、链路、配置,存入CMDB。Step2: 关联关系(设备-端口-链路-租户)。Step3: 要求资产数据准确率>99%。Step4: 数学表达式:Accuracy=total_entriescorrect_entries。Step5: 配置:使用开源iTop或商业ServiceNow。Step6: 推荐:每日自动同步。Step7: 验证:抽样人工核对。 |
准确率>99%;自动发现 |
CMDB、Asset Management |
软:iTop、ServiceNow;硬:无;部署:运维平台 |
|
N-1167 |
网络适配 |
智算中心 |
网络变更管理流程 |
如何设计标准化的网络变更审批和执行流程 |
运维·Change Management |
Step1: 变更申请→风险评估→审批→实施→验证→关闭。Step2: 使用ITSM工具(如Jira Service Management)。Step3: 要求变更成功率>99%。Step4: 数学表达式:Success_rate=total_changessuccessful_changes。Step5: 配置:自动化变更与回滚。Step6: 推荐:紧急变更走简化流程。Step7: 验证:月度变更回顾。 |
成功率>99%;标准化流程 |
Change Management、ITIL |
软:Jira、ServiceNow;硬:无;部署:运维制度 |
|
N-1168 |
网络适配 |
智算中心 |
网络性能基线与容量预警 |
如何建立网络性能基线并设置容量预警 |
运维·Capacity Alert |
Step1: 收集历史流量数据,建立每周/每日基线。Step2: 当前利用率超过基线+3σ时触发预警。Step3: 要求预警提前>7天。Step4: 数学表达式:Alert=(utilcurrent>meanbaseline+3×stdbaseline)。Step5: 配置:SA分析器定时计算基线。Step6: 推荐:结合趋势预测。Step7: 验证:查看预警准确性。 |
提前7天预警;3σ |
Capacity Baseline、Trend Prediction |
软:SA分析器;硬:无;部署:监控集成 |
|
N-1169 |
网络适配 |
智算中心 |
网络能耗优化策略 |
如何根据业务负载动态调整网络设备功耗 |
节能·Dynamic Power |
Step1: 低负载时关闭部分端口或降低端口速率。Step2: 使用LLDP和802.3az(EEE)。Step3: 要求不影响业务性能。Step4: 数学表达式:Powerdynamic=Pbase+Pper_port×Nactive×scaling_factor。Step5: 配置:夜间关闭非关键端口。Step6: 推荐:结合AI预测负载。Step7: 验证:测量PUE变化。 |
动态调整;不影响性能 |
Energy Optimization、EEE |
软:电源管理软件;硬:支持EEE的交换机;部署:策略配置 |
|
N-1170 |
网络适配 |
智算中心 |
网络设备生命周期管理 |
如何管理网络设备的生命周期(EOL/EOS) |
运维·Lifecycle |
Step1: 跟踪设备固件版本、保修状态、EOL日期。Step2: 提前12个月规划替换。Step3: 要求无EOL设备运行。Step4: 数学表达式:Remaining_life=EOL_date−current_date。Step5: 配置:CMDB中记录生命周期。Step6: 推荐:每年审计。Step7: 验证:检查EOL设备清单。 |
提前12月规划;无EOL运行 |
Lifecycle Management、EOL |
软:CMDB、资产管理;硬:网络设备;部署:运维流程 |
|
N-1171 |
网络适配 |
智算中心 |
网络供应商管理 |
如何评估和管理网络设备供应商的服务质量 |
运维·Vendor Management |
Step1: 建立供应商KPI:交付准时率、故障响应时间、解决时间。Step2: 要求RMA响应<4小时,解决<24小时。Step3: 数学表达式:Vendor_score=w1×delivery+w2×response+w3×resolution。Step4: 配置:定期评分。Step5: 推荐:至少两家供应商备份。Step6: 验证:年度供应商评审。 |
RMA响应<4h;解决<24h |
Vendor Management、SLA |
软:供应商管理系统;硬:无;部署:采购管理 |
|
N-1172 |
网络适配 |
智算中心 |
网络灾备与演练 |
如何设计网络灾备方案并定期演练 |
可靠性·Disaster Recovery |
Step1: 主备数据中心网络独立,通过DCI同步。Step2: 灾难发生时切换DNS和BGP路由。Step3: 要求RTO<30分钟,RPO<5分钟。Step4: 数学表达式:RTO=Tdetect+Tdecision+Tswitch。Step5: 若Tdetect=1min,Tdecision=5min,Tswitch=10min,则RTO=16min。Step6: 配置:定期演练(每季度一次)。Step7: 推荐:自动化切换。 |
RTO<30min;RPO<5min |
Disaster Recovery、Failover |
软:DNS、BGP策略;硬:网络设备;部署:灾备中心 |
|
N-1173 |
网络适配 |
智算中心 |
网络合规审计 |
如何通过自动化工具进行网络配置合规审计 |
安全·Compliance Audit |
Step1: 定义合规基线(如密码强度、加密协议、访问控制)。Step2: 自动扫描所有设备配置,比对基线。Step3: 要求不合规项<1%。Step4: 数学表达式:Compliance_rate=total_itemscompliant_items。Step5: 配置:使用SolarWinds或自研脚本。Step6: 推荐:每月审计。Step7: 验证:生成合规报告。 |
合规率>99%;自动扫描 |
Compliance Audit、Baseline |
软:SolarWinds、Ansible;硬:无;部署:安全运维 |
|
N-1174 |
网络适配 |
智算中心 |
网络技术债务管理 |
如何识别和消除网络中的技术债务(如老旧配置、废弃VLAN) |
运维·Tech Debt |
Step1: 扫描全网配置,识别废弃VLAN、未使用的ACL、过期密码。Step2: 清理计划按风险排序。Step3: 要求技术债务减少>50%/年。Step4: 数学表达式:Debt_ratio=total_configsproblematic_configs。Step5: 配置:SE控制器提供配置健康度评分。Step6: 推荐:纳入季度运维目标。Step7: 验证:对比前后评分。 |
债务减少50%/年;配置健康度 |
Technical Debt、Configuration Hygiene |
软:SE控制器;硬:无;部署:运维治理 |
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1175 |
网络适配 |
智算中心 |
网络测试自动化框架 |
如何设计网络自动化测试框架,覆盖功能、性能、可靠性 |
测试·Automation Framework |
Step1: 使用pytest或Robot Framework编写测试用例,覆盖连通性、带宽、延迟、容错。Step2: 测试用例自动执行,结果自动对比基线。Step3: 要求测试覆盖率>90%。Step4: 数学表达式:Coverage=total_casespassed_cases。Step5: 配置:CI/CD pipeline中集成。Step6: 推荐:每次网络变更后自动触发。Step7: 验证:测试报告自动生成。 |
覆盖率>90%;自动触发 |
Test Automation、pytest |
软:pytest、Robot Framework;硬:无;部署:DevOps流程 |
|
N-1176 |
网络适配 |
智算中心 |
多租户网络计费模型 |
如何根据租户网络使用量进行计费 |
运营·Usage Billing |
Step1: 计费因子:带宽占用、时长、QoS等级。Step2: 计费公式Cost=BWavg×Tduration×Priceper_unit。Step3: 要求计费准确率>99%。Step4: 数学表达式:Cost=∫0TBW(t)dt×P。Step5: 配置:SA分析器采集流量数据,对接计费系统。Step6: 推荐:支持预付费和后付费。Step7: 验证:账单与实际用量对比。 |
计费准确率>99%;带宽×时长 |
Usage Billing、Metering |
软:SA分析器、计费系统;硬:无;部署:运营平台 |
|
N-1177 |
网络适配 |
智算中心 |
网络可视化大屏 |
如何设计网络运维可视化大屏,展示关键指标 |
运维·Dashboard |
Step1: 展示拓扑、链路利用率、设备健康度、告警统计。Step2: 数据刷新周期<5s。Step3: 要求大屏加载时间<3s。Step4: 数学表达式:Refresh_interval=5s。Step5: 配置:使用Grafana或自研前端。Step6: 推荐:支持钻取到详细页面。Step7: 验证:用户反馈易用性。 |
刷新5s;加载<3s |
Visualization、Dashboard |
软:Grafana、ECharts;硬:大屏显示器;部署:NOC |
|
N-1178 |
网络适配 |
智算中心 |
AI驱动的流量预测 |
如何利用LSTM预测未来1小时的网络流量 |
预测·Traffic Forecast |
Step1: 输入历史流量时序(过去7天),预测未来1小时。Step2: 模型使用LSTM,输入维度=168(小时)×24(天)=4032点。Step3: 要求预测MAPE<10%。Step4: 数学表达式:(MAPE = \frac{1}{N}\sum |
\frac{actual - predicted}{actual} |
)。Step5: 配置:SA分析器集成预测模型。Step6: 推荐:用于容量规划和告警。Step7: 验证:对比预测与实际。 |
MAPE<10%;LSTM |
|
N-1179 |
网络适配 |
智算中心 |
网络故障根因分析因果图 |
如何构建因果图(Causal Graph)辅助根因定位 |
运维·Causal Graph |
Step1: 从历史告警和故障数据中学习因果关系。Step2: 构建有向无环图(DAG),节点为指标,边为因果方向。Step3: 要求根因定位Top3准确率>85%。Step4: 数学表达式:Root_cause=argmaxnodePageRank(node)。Step5: 配置:使用PC算法或NOTEARS学习因果结构。Step6: 推荐:结合专家知识修正。Step7: 验证:历史故障复盘。 |
Top3准确率>85%;因果图 |
Causal Discovery、Root Cause Analysis |
软:SA分析器、Python(causal-learn);硬:无;部署:SA集成 |
|
N-1180 |
网络适配 |
智算中心 |
网络配置漂移检测 |
如何检测网络配置的意外变更(漂移) |
运维·Config Drift |
Step1: 定期(每小时)采集设备配置,与基线比对。Step2: 差异部分标记为漂移。Step3: 要求漂移检测时间<1小时。Step4: 数学表达式:Drift=configcurrent−configbaseline。Step5: 配置:SE控制器定时任务。Step6: 推荐:漂移自动告警并回滚。Step7: 验证:模拟配置变更测试。 |
检测<1h;自动告警 |
Configuration Drift、Baseline |
软:SE控制器;硬:RoCE交换机;部署:自动化运维 |
|
N-1181 |
网络适配 |
智算中心 |
网络变更影响分析 |
如何评估网络变更对现有业务的影响范围 |
运维·Impact Analysis |
Step1: 利用网络拓扑和依赖关系,计算变更波及的设备、链路、租户。Step2: 影响范围(Impact = {device, link, tenant |
dependent_on_changed_entity})。Step3: 要求分析时间<10s。Step4: 数学表达式:(Impact_size = |
N_{affected_devices} |
+ |
|
N-1182 |
网络适配 |
智算中心 |
网络SLA管理 |
如何为租户定义和监控网络SLA |
运营·SLA Management |
Step1: SLA指标:可用性≥99.99%、延迟<10μs、丢包率<1e-6。Step2: 实时监控并计算SLA达标率。Step3: 要求SLA达标率>99.9%。Step4: 数学表达式:SLA_compliance=total_timetime_within_SLA。Step5: 配置:SA分析器定期生成SLA报告。Step6: 推荐:SLA违约自动触发赔偿。Step7: 验证:第三方审计。 |
达标率>99.9%;自动报告 |
SLA Management、Availability |
软:SA分析器;硬:无;部署:运营平台 |
|
N-1183 |
网络适配 |
智算中心 |
网络设备自动发现与拓扑更新 |
如何自动发现新加入的网络设备并更新拓扑 |
自动化·Discovery |
Step1: 使用LLDP/CDP/STP协议发现邻居,通过SNMP或NETCONF采集设备信息。Step2: 新设备加入时自动纳入CMDB和监控。Step3: 要求发现时间<5分钟。Step4: 数学表达式:Tdiscover=Tpoll+Tparse+Tupdate。Step5: 若Tpoll=2min,Tparse=1min,Tupdate=1min,则T=4min。Step6: 配置:SE控制器定时扫描。Step7: 推荐:支持手动确认。 |
发现<5min;自动纳入 |
Auto Discovery、LLDP |
软:SE控制器、SNMP;硬:RoCE交换机;部署:自动化 |
|
N-1184 |
网络适配 |
智算中心 |
网络设备配置合规检查 |
如何自动检查网络设备配置是否符合安全基线 |
安全·Compliance Check |
Step1: 定义合规规则(如禁用telnet、启用SSHv2、密码加密)。Step2: 自动扫描配置,标记不合规项。Step3: 要求不合规项<1%。Step4: 数学表达式:Violations=count(rulei==false)。Step5: 配置:使用Ansible或SaltStack的检查模块。Step6: 推荐:每月生成合规报告。Step7: 验证:手动抽查。 |
不合规<1%;自动扫描 |
Compliance Check、Security Baseline |
软:Ansible、SaltStack;硬:无;部署:安全运维 |
|
N-1185 |
网络适配 |
智算中心 |
网络设备固件漏洞扫描 |
如何自动扫描网络设备固件的已知漏洞(CVE) |
安全·Vulnerability Scan |
Step1: 采集设备型号和固件版本,与CVE数据库比对。Step2: 高危漏洞触发紧急升级流程。Step3: 要求扫描周期<1周。Step4: 数学表达式:Vulnerabilities=∑cvematch(device_fw,cve_affected)。Step5: 配置:使用Nessus或OpenVAS。Step6: 推荐:与供应商安全公告联动。Step7: 验证:修复后重新扫描。 |
扫描周期<1周;CVE匹配 |
Vulnerability Scanning、CVE |
软:Nessus、OpenVAS;硬:无;部署:安全运维 |
|
N-1186 |
网络适配 |
智算中心 |
网络设备日志异常检测 |
如何利用机器学习检测交换机日志中的异常模式 |
运维·Log Anomaly |
Step1: 收集syslog,使用word2vec或BERT转换为向量。Step2: 使用孤立森林检测异常日志。Step3: 要求异常检出率>90%。Step4: 数学表达式:Anomaly_score=isolation_forest(log_vector)。Step5: 配置:SA分析器集成日志分析。Step6: 推荐:结合规则引擎减少误报。Step7: 验证:人工复核异常日志。 |
检出率>90%;ML模型 |
Log Anomaly Detection、Word2Vec |
软:SA分析器、Python sklearn;硬:无;部署:SA集成 |
|
N-1187 |
网络适配 |
智算中心 |
网络设备配置版本控制 |
如何像Git一样管理网络设备配置的版本历史 |
运维·Config Versioning |
Step1: 每次配置变更自动提交到Git仓库,记录变更人和时间。Step2: 支持diff对比和回滚。Step3: 要求版本历史保留≥1年。Step4: 数学表达式:Version_history=Git_commit_log。Step5: 配置:SE控制器集成Git。Step6: 推荐:分支管理(生产、测试)。Step7: 验证: |
保留≥1年;Git集成 |
Config Versioning、Git |
软:Git、SE控制器;硬:无;部署:运维工具 |
|
N-1188 |
网络适配 |
智算中心 |
网络设备配置代码审查 |
如何对网络配置变更进行代码审查(Code Review) |
运维·Code Review |
Step1: 变更提交后,自动触发Review请求,指派Reviewer。Step2: Review通过后自动部署。Step3: 要求Review时间<4小时。Step4: 数学表达式:Treview=Tassign+Tcomment+Tapprove。Step5: 配置:使用GitLab/GitHub Pull Request。Step6: 推荐:至少两人Review。Step7: 验证:Review记录存档。 |
Review<4h;至少两人 |
Code Review、Peer Review |
软:GitLab、GitHub;硬:无;部署:变更流程 |
|
N-1189 |
网络适配 |
智算中心 |
网络设备配置自动化生成 |
如何根据模板和参数自动生成设备配置 |
自动化·Config Generation |
Step1: 使用Jinja2模板,输入参数(IP、VLAN、VNI等)生成配置。Step2: 模板分层:基础模板、角色模板(Leaf/Spine)、租户模板。Step3: 要求配置生成时间<1s/台。Step4: 数学表达式:Tgen=Ttemplate_render+Tvariable_substitution。Step5: 配置:SE控制器内置模板引擎。Step6: 推荐:模板版本管理。Step7: 验证:生成的配置与预期一致。 |
生成<1s/台;Jinja2 |
Config Generation、Templating |
软:SE控制器、Jinja2;硬:无;部署:自动化 |
|
N-1190 |
网络适配 |
智算中心 |
网络设备配置合规修复 |
如何自动修复不合规的网络配置 |
自动化·Auto Remediation |
Step1: 检测到不合规项后,自动生成修复配置并应用。Step2: 修复前备份,失败自动回滚。Step3: 要求修复成功率>95%。Step4: 数学表达式:Fix_success=attempted_fixessuccessful_fixes。Step5: 配置:SE控制器集成修复playbook。Step6: 推荐:先修复低风险项。Step7: 验证:修复后重新扫描。 |
成功率>95%;自动回滚 |
Auto Remediation、Self-healing |
软:SE控制器、Ansible;硬:无;部署:自动化运维 |
|
N-1191 |
网络适配 |
智算中心 |
网络设备配置基线管理 |
如何建立和维护网络配置基线 |
运维·Baseline Management |
Step1: 选定黄金配置作为基线,所有设备配置与基线保持一致。Step2: 基线随版本升级而更新。Step3: 要求配置一致率>99%。Step4: 数学表达式:Consistency=total_devicesdevices_matching_baseline。Step5: 配置:SE控制器管理基线。Step6: 推荐:基线变更需审批。Step7: 验证:定期审计。 |
一致率>99%;黄金配置 |
Baseline Management、Golden Config |
软:SE控制器;硬:无;部署:运维规范 |
|
N-1192 |
网络适配 |
智算中心 |
网络设备配置合规评分 |
如何对设备配置进行合规评分,量化安全状态 |
安全·Compliance Score |
Step1: 定义评分规则:每项合规得10分,不合规扣分。Step2: 总分100分,低于80分告警。Step3: 要求平均得分>90。Step4: 数学表达式:Score=100−∑violationsi×penaltyi。Step5: 配置:SA分析器计算评分。Step6: 推荐:纳入运维考核。Step7: 验证:评分变化趋势。 |
平均分>90;量化评分 |
Compliance Scoring、Quantification |
软:SA分析器;硬:无;部署:安全运维 |
|
N-1193 |
网络适配 |
智算中心 |
网络设备配置合规报告 |
如何自动生成网络配置合规报告 |
安全·Compliance Report |
Step1: 每月自动生成报告,包含合规率、不合规项列表、趋势图。Step2: 报告格式PDF/HTML。Step3: 要求生成时间<5分钟。Step4: 数学表达式:Treport=Tscan+Trender。Step5: 配置:SA分析器定时任务。Step6: 推荐:自动发送给管理层。Step7: 验证:报告内容准确。 |
生成<5min;自动发送 |
Compliance Report、Automation |
软:SA分析器、Jinja2;硬:无;部署:安全运维 |
|
N-1194 |
网络适配 |
智算中心 |
网络设备配置合规整改跟踪 |
如何跟踪不合规项的整改进度 |
安全·Remediation Tracking |
Step1: 不合规项创建工单,分配给责任人,设定截止日期。Step2: 跟踪工单状态(待处理、处理中、已完成)。Step3: 要求整改完成率>95%。Step4: 数学表达式:Completion_rate=total_ticketsclosed_tickets。Step5: 配置:ITSM系统集成。Step6: 推荐:逾期自动升级。Step7: 验证:复查已整改项。 |
完成率>95%;工单跟踪 |
Remediation Tracking、Ticketing |
软:ITSM系统;硬:无;部署:安全运维 |
|
N-1195 |
网络适配 |
智算中心 |
网络设备配置合规审计日志 |
如何记录和审计所有配置变更操作 |
安全·Audit Log |
Step1: 所有配置变更(人工或自动)记录到审计日志:谁、什么时间、改了哪里、改了什么。Step2: 日志不可篡改,保存≥2年。Step3: 要求审计日志完整性100%。Step4: 数学表达式:Audit_log=(user,timestamp,device,before,after)。Step5: 配置:SE控制器记录操作日志。Step6: 推荐:日志加密存储。Step7: 验证:随机抽样核对。 |
保存≥2年;不可篡改 |
Audit Log、Traceability |
软:SE控制器、日志系统;硬:无;部署:安全运维 |
|
N-1196 |
网络适配 |
智算中心 |
网络设备配置合规自动化修复策略 |
如何设计不合规配置的自动修复策略,按风险分级 |
自动化·Risk-based Remediation |
Step1: 高风险(如密码明文)立即自动修复;中风险(如日志未开启)24小时内修复;低风险(如横幅未配置)一周内修复。Step2: 修复顺序按风险降序。Step3: 要求高风险修复时间<1小时。Step4: 数学表达式:Fix_priority=⎩⎨⎧immediate,24h,7d,risk=highrisk=mediumrisk=low。Step5: 配置:SE控制器策略引擎。Step6: 推荐:高风险自动修复需审批。Step7: 验证:检查修复时效。 |
高风险<1h;分级修复 |
Risk-based Remediation、Prioritization |
软:SE控制器;硬:无;部署:自动化运维 |
|
N-1197 |
网络适配 |
智算中心 |
网络设备配置合规豁免管理 |
如何处理无法修复的合规例外(如遗留设备) |
安全·Exception Management |
Step1: 申请豁免,说明理由、风险、计划修复时间。Step2: 审批通过后加入豁免列表,定期复审。Step3: 要求豁免比例<5%。Step4: 数学表达式:Exception_rate=total_itemsexempted_items。Step5: 配置:ITSM系统中管理豁免。Step6: 推荐:豁免最长有效期6个月。Step7: 验证:到期前提醒。 |
豁免比例<5%;定期复审 |
Exception Management、Waiver |
软:ITSM系统;硬:无;部署:安全运维 |
|
N-1198 |
网络适配 |
智算中心 |
网络设备配置合规自助查询 |
如何让租户自助查询其网络资源的合规状态 |
运营·Self-service Query |
Step1: 租户门户提供合规仪表盘,展示其VXLAN、ACL、QoS配置的合规情况。Step2: 支持导出报告。Step3: 要求查询响应时间<2s。Step4: 数学表达式:Tquery=Tauth+Tdb_lookup+Trender。Step5: 配置:SE控制器提供API。Step6: 推荐:仅展示租户自身资源。Step7: 验证:租户测试。 |
响应<2s;租户门户 |
Self-service、Tenant Portal |
软:SE控制器、前端;硬:无;部署:运营平台 |
|
N-1199 |
网络适配 |
智算中心 |
网络设备配置合规与CI/CD集成 |
如何将网络配置合规检查嵌入CI/CD流水线 |
DevOps·CI/CD Integration |
Step1: 代码仓库中网络配置变更触发合规检查。Step2: 检查不通过则阻断合并。Step3: 要求检查时间<1分钟。Step4: 数学表达式:Pipeline_stage=compliance_check。Step5: 配置:GitLab CI中集成SE控制器API。Step6: 推荐:基础设施即代码(IaC)。Step7: 验证:提交不合规配置测试。 |
检查<1min;阻断合并 |
CI/CD、Infrastructure as Code |
软:GitLab CI、SE控制器;硬:无;部署:DevOps流程 |
|
N-1200 |
网络适配 |
智算中心 |
网络设备配置合规与自动化测试 |
如何将合规检查与自动化测试结合,验证修复效果 |
测试·Compliance Testing |
Step1: 修复后自动执行合规测试用例,验证修复是否生效。Step2: 测试用例覆盖所有合规规则。Step3: 要求测试通过率100%。Step4: 数学表达式:Test_pass=∀rulei,check(device,rulei)==true。Step5: 配置:pytest脚本。Step6: 推荐:修复后自动触发。Step7: 验证:测试报告。 |
通过率100%;自动验证 |
Compliance Testing、Validation |
软:pytest、SE控制器;硬:无;部署:自动化运维 |
|
N-1201 |
网络适配 |
智算中心 |
网络设备配置合规与告警联动 |
如何将合规事件与告警系统联动 |
运维·Alert Integration |
Step1: 检测到不合规项时,自动生成告警并通知相关人员。Step2: 告警级别按风险分级。Step3: 要求告警延迟<1分钟。Step4: 数学表达式:Alert_level=⎩⎨⎧critical,warning,info,risk=highrisk=mediumrisk=low。Step5: 配置:SA分析器集成告警通道(邮件、短信、钉钉)。Step6: 推荐:告警自动关联工单。Step7: 验证:模拟不合规测试。 |
告警延迟<1min;分级通知 |
Alert Integration、Notification |
软:SA分析器、告警平台;硬:无;部署:运维集成 |
|
N-1202 |
网络适配 |
智算中心 |
网络设备配置合规与容量规划 |
如何利用合规数据辅助网络容量规划 |
规划·Capacity Planning |
Step1: 合规数据中包含端口利用率、ACL规则数、VLAN使用率。Step2: 分析趋势,预测何时达到容量上限。Step3: 要求预测提前>3个月。Step4: 数学表达式:Time_to_exhaustion=Growth_rateCapacity_remaining。Step5: 配置:SA分析器生成容量报告。Step6: 推荐:提前扩容。Step7: 验证:与实际达到时间对比。 |
提前3月预测;趋势分析 |
Capacity Planning、Trend Analysis |
软:SA分析器;硬:无;部署:运维规划 |
|
N-1203 |
网络适配 |
智算中心 |
网络设备配置合规与成本优化 |
如何通过合规数据识别成本优化机会 |
运营·Cost Optimization |
Step1: 分析未使用的VLAN、闲置端口、过度配置的QoS策略。Step2: 清理闲置资源,降低License费用。Step3: 要求成本降低>10%。Step4: 数学表达式:Savings=∑resourcecostresource×utilization_rate。Step5: 配置:SA分析器生成优化建议。Step6: 推荐:每季度执行。Step7: 验证:对比优化前后成本。 |
成本降低>10%;清理闲置 |
Cost Optimization、Resource Cleanup |
软:SA分析器;硬:无;部署:运营管理 |
|
N-1204 |
网络适配 |
智算中心 |
网络设备配置合规与知识库 |
如何将合规知识沉淀为知识库,辅助运维人员 |
运维·Knowledge Base |
Step1: 将合规规则、修复步骤、常见问题整理成知识库文章。Step2: 支持全文检索。Step3: 要求知识库覆盖率>80%。Step4: 数学表达式:Coverage=total_issuesissues_covered_by_kb。Step5: 配置:Confluence或MediaWiki。Step6: 推荐:运维人员共同维护。Step7: 验证:新员工使用反馈。 |
覆盖率>80%;全文检索 |
Knowledge Base、Documentation |
软:Confluence、MediaWiki;硬:无;部署:团队建设 |
。
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1205 |
组网架构 |
智算中心 |
Fat-Tree拓扑带宽分析 |
如何计算Fat-Tree拓扑下Allreduce的bisection带宽 |
拓扑·Bisection BW |
Step1: Fat-Tree中,每个Pod内Leaf数L,Spine数S,收敛比1:1时S=L。Step2: Bisection带宽为跨Pod通信的最大带宽。Step3: 数学表达式:Bbisection=2S×BWspine_link。Step4: 若S=32,Spine链路400G,则Bbisection=16×400G=6.4Tbps。Step5: Allreduce通信量Vallreduce=2×(N−1)/N×model_size,要求Vallreduce/Tallreduce≤Bbisection。Step6: 配置:Spine数量需满足bisection带宽≥聚合通信带宽。Step7: 推荐:万卡集群Spine数≥32。 |
Bisection带宽6.4Tbps;Spine数32 |
Fat-Tree、Bisection Bandwidth、Allreduce |
软:无;硬:Spine交换机;部署:拓扑规划 |
|
N-1206 |
组网架构 |
智算中心 |
Dragonfly拓扑延迟分析 |
如何计算Dragonfly拓扑中Allreduce的跨组延迟 |
拓扑·Dragonfly Latency |
Step1: Dragonfly分为Group,Group内全连接,Group间通过少数Global链路连接。Step2: Allreduce跨Group时需经过2跳Global链路。Step3: 数学表达式:Lcross_group=2×Lglobal_link+Lgroup_internal。Step4: 若Global链路延迟2μs,Group内1μs,则L=5μs。Step5: 相比Fat-Tree(3跳Spine),Dragonfly延迟更低。Step6: 配置:Group内节点数需平衡。Step7: 推荐:延迟敏感场景选择Dragonfly。 |
跨组延迟5μs;2跳Global |
Dragonfly、Latency、Allreduce |
软:无;硬:交换机;部署:拓扑选型 |
|
N-1207 |
组网架构 |
智算中心 |
Torus拓扑带宽分析 |
如何计算3D-Torus中Allreduce的最坏情况带宽 |
拓扑·Torus BW |
Step1: 3D-Torus中,每个节点有6个邻居(三维各两个方向)。Step2: Allreduce通信量沿各维度均摊。Step3: 数学表达式:BWtorus=Ndim6×BWlink(假设均匀分布)。Step4: 若BWlink=400G,3维,则理想带宽6×400G/3=800G,但实际受限于切割带宽。Step5: 最坏情况:所有通信集中在某一维度,带宽仅为2×BWlink=800G。Step6: 配置:需配合路由算法避免热点。Step7: 推荐:小规模集群(<1000节点)适用。 |
最坏800G;3D-Torus |
Torus、Bandwidth、Routing |
软:无;硬:交换机;部署:拓扑选型 |
|
N-1208 |
组网架构 |
智算中心 |
混合拓扑(Fat-Tree+Dragonfly) |
如何设计混合拓扑平衡成本和性能 |
拓扑·Hybrid |
Step1: 机柜内使用Fat-Tree(低成本),机柜间使用Dragonfly(低延迟)。Step2: 机柜内Leaf连接Spine,Spine再通过Global链路连接其他机柜。Step3: 要求机柜内带宽>90%线速,机柜间延迟<10μs。Step4: 数学表达式:BWrack_internal=L×BWleaf,Linter_rack=2μs+1μs=3μs。Step5: 配置:机柜内收敛比1:1,机柜间收敛比4:1。Step6: 推荐:大型智算中心采用。Step7: 验证:模拟测试。 |
机柜内>90%;机柜间<10μs |
Hybrid Topology、Fat-Tree+Dragonfly |
软:无;硬:交换机;部署:拓扑设计 |
|
N-1209 |
Allreduce |
智算中心 |
Ring Allreduce带宽模型 |
如何计算Ring Allreduce的理论带宽 |
通信·Ring Allreduce |
Step1: Ring Allreduce分为scatter-reduce和allgather两阶段,每阶段N-1步。Step2: 每步传输数据量Vstep=NVtotal。Step3: 数学表达式:Tring=2×(N−1)×BWlinkVtotal/N。Step4: 简化后Tring=2×NN−1×BWlinkVtotal。Step5: 当N很大时,Tring≈2×BWlinkVtotal。Step6: 若Vtotal=1GB,BWlink=50GB/s,则Tring=40ms。Step7: 配置:Ring大小N建议为偶数。 |
时间40ms;带宽50GB/s |
Ring Allreduce、Bandwidth Model |
软:NCCL;硬:RoCE网卡;部署:算法选择 |
|
N-1210 |
Allreduce |
智算中心 |
Tree Allreduce带宽模型 |
如何计算Binary Tree Allreduce的理论带宽 |
通信·Tree Allreduce |
Step1: Binary Tree中,叶子节点向上发送,根节点向下广播。Step2: 树高度H=log2N,每层传输Vtotal。Step3: 数学表达式:Ttree=2×H×BWlinkVtotal。Step4: 若N=1024,H=10,则Ttree=20×Vtotal/BWlink。Step5: 相比Ring的2倍,Tree为2log2N倍,当N大时Tree更差。Step6: 优化:使用k-ary tree减少高度。Step7: 推荐:小规模集群(N<64)使用Tree。 |
时间20×V/BW;N=1024 |
Tree Allreduce、Height |
软:NCCL;硬:RoCE网卡;部署:算法选择 |
|
N-1211 |
Allreduce |
智算中心 |
Recursive Halving Doubling带宽模型 |
如何计算Recursive Halving Doubling(RHD)的带宽 |
通信·RHD |
Step1: RHD将节点分成两半递归,每步通信量减半。Step2: 共log2N步,每步传输Vtotal/2k。Step3: 数学表达式:Trhd=∑k=1log2NBWlinkVtotal/2k−1=BWlink2Vtotal×(1−N1)。Step4: 当N大时,Trhd≈2Vtotal/BWlink,与Ring相同。Step5: 但RHD需要节点数为2的幂。Step6: 配置:节点数补零到2的幂。Step7: 推荐:N为2的幂时使用。 |
时间≈2V/BW;2的幂 |
Recursive Halving Doubling、Power of Two |
软:NCCL;硬:RoCE网卡;部署:算法选择 |
|
N-1212 |
Allreduce |
智算中心 |
Allreduce延迟模型 |
如何计算Allreduce的延迟(小消息) |
通信·Latency Model |
Step1: 小消息时延迟主导,带宽影响小。Step2: Ring Allreduce延迟Lring=2×(N−1)×Lhop。Step3: 数学表达式:Lhop=Lser+Lprop+Lswitch。Step4: 若Lser=0.1μs(小包),Lprop=0.5μs(10m光纤),Lswitch=0.5μs,则Lhop=1.1μs。Step5: 当N=1024时,Lring=2×1023×1.1μs=2.25ms。Step6: 优化:使用Tree或RHD减少跳数。Step7: 推荐:小消息使用Tree。 |
延迟2.25ms;N=1024 |
Allreduce Latency、Hop Latency |
软:NCCL;硬:RoCE交换机;部署:算法选择 |
|
N-1213 |
Allreduce |
智算中心 |
多节点Allreduce带宽利用率 |
如何计算Allreduce的带宽利用率(相对于线速) |
性能·Utilization |
Step1: 理论带宽BWtheory=2×Vtotal/Tcomm,实际带宽BWactual。Step2: 利用率U=BWactual/BWtheory。Step3: 数学表达式:U=1+TcommLoverhead1。Step4: 若Tcomm=40ms,Loverhead=2ms(协议开销),则U=95.2%。Step5: 优化:减少开销(如使用硬件卸载)。Step6: 配置:NCCL中设置 |
利用率95.2%;开销2ms |
Bandwidth Utilization、Overhead |
软:NCCL;硬:RoCE网卡;部署:调优 |
|
N-1214 |
Allreduce |
智算中心 |
分级Allreduce(Hierarchical) |
如何设计分级Allreduce(节点内NVLink+节点间RoCE) |
通信·Hierarchical |
Step1: 节点内使用NVLink(600GB/s)进行allreduce,节点间使用RoCE(400Gbps)。Step2: 先节点内reduce-scatter,再节点间allreduce,最后节点内allgather。Step3: 数学表达式:Thier=Tlocal_rs+Tglobal_ar+Tlocal_ag。Step4: 若节点内8 GPU,NVLink BW=600GB/s,数据1GB,则Tlocal=2×1GB/600GB/s=3.3ms;节点间16节点,RoCE BW=50GB/s,数据1GB/8=128MB,则Tglobal=2×128MB/50GB/s=5.12ms;总8.42ms。Step5: 相比纯RoCE(2×1GB/50GB/s=40ms),大幅提升。Step6: 配置:UCCL中启用层次化算法。Step7: 推荐:必须利用NVLink。 |
总时间8.42ms;提升4.75倍 |
Hierarchical Allreduce、NVLink+RoCE |
软:UCCL;硬:NVLink、RoCE;部署:训练配置 |
|
N-1215 |
Allreduce |
智算中心 |
Allreduce与计算重叠 |
如何将Allreduce与反向计算重叠,隐藏通信 |
性能·Overlap |
Step1: 反向传播时梯度逐步产生,可边计算边allreduce。Step2: 重叠度O=min(1,TcommTcompute)。Step3: 数学表达式:Tstep_eff=max(Tcompute,Tcomm)。Step4: 若Tcompute=80ms,Tcomm=60ms,则Tstep=80ms,完全隐藏。Step5: 配置:DeepSpeed中 |
完全隐藏;T_compute>T_comm |
Overlap、Async Allreduce |
软:DeepSpeed、NCCL;硬:GPU;部署:训练配置 |
|
N-1216 |
AlltoAll |
智算中心 |
MoE AlltoAll通信量计算 |
如何计算MoE模型中AlltoAll的通信量 |
通信·MoE AlltoAll |
Step1: 每个GPU将token发送给对应的专家所在GPU。Step2: 每个GPU发送的token数Tsend=batch_size×topk/Nexpert。Step3: 数学表达式:Va2a=Tsend×hidden_size×2bytes。Step4: 若batch_size=1024,topk=2,Nexpert=64,hidden_size=4096,则Tsend=1024×2/64=32,Va2a=32×4096×2=262KB。Step5: 每个GPU需要发送和接收,总通信量2×Va2a×(Nexpert−1)。Step6: 配置:DeepSpeed-MoE中 |
每GPU发送262KB;总通信量 |
MoE AlltoAll、Communication Volume |
软:DeepSpeed-MoE;硬:GPU、RoCE;部署:训练配置 |
|
N-1217 |
AlltoAll |
智算中心 |
AlltoAll带宽模型 |
如何计算AlltoAll的理论带宽 |
通信·AlltoAll BW |
Step1: AlltoAll中每个节点向其他N-1个节点发送数据,总发送量Vtotal。Step2: 理想情况下,每个节点同时收发,带宽受限于链路带宽。Step3: 数学表达式:Ta2a=BWlinkVtotal(假设全双工)。Step4: 若Vtotal=1GB,BWlink=50GB/s,则T=20ms。Step5: 实际受限于网络拓扑(如bisection带宽)。Step6: 配置:需确保网络无阻塞。Step7: 推荐:使用全连接拓扑。 |
时间20ms;1GB数据 |
AlltoAll Bandwidth、Bisection |
软:NCCL;硬:RoCE网络;部署:算法选择 |
|
N-1218 |
AlltoAll |
智算中心 |
AlltoAll延迟模型 |
如何计算AlltoAll的延迟(小消息) |
通信·AlltoAll Latency |
Step1: 小消息时,延迟由握手和协议开销主导。Step2: 每个点对点通信延迟Lp2p,共N-1次。Step3: 数学表达式:La2a=(N−1)×Lp2p。Step4: 若Lp2p=10μs,N=64,则L=630μs。Step5: 优化:使用MPI_Alltoallv的优化实现。Step6: 配置:使用NCCL的alltoall实现。Step7: 推荐:小消息时考虑合并。 |
延迟630μs;N=64 |
AlltoAll Latency、Point-to-point |
软:NCCL、MPI;硬:RoCE网卡;部署:算法选择 |
|
N-1219 |
AlltoAll |
智算中心 |
MoE AlltoAll负载均衡 |
如何衡量MoE AlltoAll的负载均衡程度 |
性能·Load Balance |
Step1: 每个专家接收的token数可能不均,导致某些链路拥塞。Step2: 负载均衡度LB=\mean(tokeni)max(tokeni)。Step3: 要求LB<1.2。Step4: 数学表达式:LB=E1∑itokens_received_by_expertimaxi(tokens_received_by_experti)。Step5: 配置:使用auxiliary loss鼓励均衡。Step6: 推荐:容量因子设为1.2。Step7: 验证:监控各专家token数。 |
LB<1.2;容量因子1.2 |
Load Balance、Auxiliary Loss |
软:DeepSpeed-MoE;硬:GPU;部署:训练配置 |
|
N-1220 |
AlltoAll |
智控中心 |
AlltoAll与Allreduce混合 |
如何设计MoE+DP混合并行中的通信调度 |
通信·Hybrid Comm |
Step1: MoE使用AlltoAll,DP使用Allreduce,两者可重叠。Step2: 先进行AlltoAll(前向),再进行Allreduce(反向)。Step3: 数学表达式:Tstep=max(Ta2a_fwd,Tar_bwd)。Step4: 若Ta2a=10ms,Tar=20ms,则T=20ms。Step5: 优化:将AlltoAll与计算重叠。Step6: 配置:DeepSpeed中调度策略。Step7: 推荐:使用异步通信。 |
总时间20ms;重叠 |
Hybrid Communication、Scheduling |
软:DeepSpeed;硬:GPU、RoCE;部署:训练配置 |
|
N-1221 |
数据并行 |
智算中心 |
数据并行通信量计算 |
如何计算数据并行中梯度同步的通信量 |
通信·DP Volume |
Step1: 数据并行中,每个GPU计算完整梯度,然后allreduce同步。Step2: 通信量Vdp=2×model_size×precision_bytes。Step3: 数学表达式:Vdp=2×M×B。Step4: 若模型175B参数,FP16(2字节),则Vdp=2×175e9×2=700GB。Step5: 每个step通信700GB,若BW=50GB/s,则T=14s,不可接受。Step6: 优化:使用ZeRO减少通信量。Step7: 推荐:大模型必须使用ZeRO或模型并行。 |
通信量700GB;14s |
Data Parallelism、Gradient Sync |
软:DeepSpeed、NCCL;硬:GPU、RoCE;部署:训练配置 |
|
N-1222 |
数据并行 |
智算中心 |
数据并行缩放效率 |
如何计算数据并行的缩放效率(Scaling Efficiency) |
性能·Scaling Efficiency |
Step1: 缩放效率E=NgpuSpeedup。Step2: Speedup受通信开销影响。Step3: 数学表达式:E=1+TcomputeTcomm1。Step4: 若Tcomm=14s,Tcompute=10s,则E=1/(1+1.4)=41.7%。Step5: 优化:增大batch size或减少通信。Step6: 配置:梯度累积。Step7: 推荐:保持E>80%。 |
效率41.7%;通信占比大 |
Scaling Efficiency、Amdahl's Law |
软:无;硬:GPU;部署:训练配置 |
|
N-1223 |
数据并行 |
智算中心 |
PS架构与Allreduce对比 |
对比Parameter Server和Allreduce的通信量 |
架构·PS vs Allreduce |
Step1: PS架构中,每个worker发送梯度到server,server更新后广播。Step2: 通信量Vps=2×M×B×(Nworker+Nserver)。Step3: Allreduce通信量Var=2×M×B。Step4: 当N_worker=1024,N_server=64时,Vps=2×M×B×1088,远大于Allreduce。Step5: 因此现代训练几乎都用Allreduce。Step6: 配置:使用Allreduce。Step7: 推荐:PS仅用于稀疏模型。 |
PS通信量1088倍;Allreduce更优 |
Parameter Server、Allreduce |
软:无;硬:无;部署:架构选择 |
|
N-1224 |
模型并行 |
智算中心 |
张量并行(TP)通信量计算 |
如何计算TP中每个Transformer层的通信量 |
通信·TP Volume |
Step1: TP将线性层切分,前向时需要allreduce(或allgather+reduce scatter)。Step2: 每个Transformer层通信量Vtp=4×hidden_size×seq_len×precision_bytes。Step3: 数学表达式:Vtp=4×H×S×B。Step4: 若H=12288,S=2048,FP16,则Vtp=4×12288×2048×2=201MB。Step5: 每个step有L层,总通信量L×Vtp。Step6: 配置:Megatron-LM中 |
每层201MB;NVLink加速 |
Tensor Parallelism、Communication |
软:Megatron-LM;硬:NVLink;部署:训练配置 |
|
N-1225 |
模型并行 |
智算中心 |
张量并行延迟模型 |
如何计算TP中allreduce的延迟 |
通信·TP Latency |
Step1: TP组内allreduce延迟Ltp=2×(Ntp−1)×Lhop。Step2: 若Ntp=8,NVLink hop延迟0.5μs,则L=2×7×0.5=7μs。Step3: 若跨节点RoCE,hop延迟5μs,则L=70μs。Step4: 因此TP必须在节点内。Step5: 配置:TP size ≤ 节点内GPU数。Step6: 推荐:TP=8(DGX H100)。Step7: 验证:NCCL allreduce benchmark。 |
节点内7μs;跨节点70μs |
TP Latency、NVLink vs RoCE |
软:NCCL;硬:NVLink、RoCE;部署:硬件规划 |
|
N-1226 |
模型并行 |
智算中心 |
流水线并行(PP)通信量计算 |
如何计算PP中相邻stage之间的通信量 |
通信·PP Volume |
Step1: PP中每个micro-batch在stage之间传输activation和gradient。Step2: 通信量Vpp=2×hidden_size×seq_len×micro_batch_size×precision_bytes。Step3: 数学表达式:Vpp=2×H×S×M×B。Step4: 若H=12288,S=2048,M=4,FP16,则Vpp=2×12288×2048×4×2=402MB。Step5: 每个step传输次数=2×(P-1)(前向+反向)。Step6: 配置:Megatron-LM中 |
每传输402MB;P个stage |
Pipeline Parallelism、Activation Transfer |
软:Megatron-LM;硬:RoCE;部署:训练配置 |
|
N-1227 |
模型并行 |
智算中心 |
流水线并行Bubble计算 |
如何计算PP的Bubble占比 |
性能·PP Bubble |
Step1: Bubble占比公式Bubble=P×M(P−1)×(M−1)(错误,实际为M+P−1P−1)。Step2: 正确公式:Bubble=M+P−1P−1。Step3: 数学表达式:若P=8,M=32,则Bubble=7/39=17.9%。Step4: 若P=8,M=64,则Bubble=7/71=9.86%。Step5: 增大M可降低Bubble。Step6: 配置:设置 |
Bubble 17.9%(P=8,M=32);M越大越好 |
Pipeline Bubble、Micro-batch |
软:Megatron-LM;硬:GPU;部署:训练配置 |
|
N-1228 |
模型并行 |
智算中心 |
1F1B调度与通信重叠 |
如何配置1F1B调度实现通信与计算重叠 |
性能·1F1B Overlap |
Step1: 1F1B调度中,每个stage前向和反向交错,通信(发送activation/gradient)与计算可重叠。Step2: 重叠度取决于通信时间与计算时间的相对大小。Step3: 数学表达式:Tstep_eff=max(Tcompute_per_micro,Tcomm_per_micro)×(M+P−1)。Step4: 若Tcompute=5ms,Tcomm=2ms,则每micro-step时间5ms,总时间5×(32+8-1)=195ms。Step5: 配置:Megatron-LM中 |
总时间195ms;通信完全隐藏 |
1F1B、Overlap |
软:Megatron-LM;硬:GPU、RoCE;部署:训练配置 |
|
N-1229 |
模型并行 |
智算中心 |
虚拟流水线(Virtual Pipeline) |
如何通过虚拟流水线进一步降低Bubble |
性能·Virtual Pipeline |
Step1: Virtual Pipeline将每个stage划分为V个虚拟stage,等效增加流水线深度。Step2: Bubble公式变为Bubblevp=M+P×V−1P×V−1。Step3: 若P=8,V=2,M=32,则Bubble=15/47=31.9%,反而增大?Step4: 实际上Virtual Pipeline通过增加微批次数量来降低Bubble,但这里M不变,所以Bubble增大。Step5: 正确用法:保持总micro-batch数不变,但每个virtual stage处理更少的micro-batch,从而减少等待。Step6: 配置:Megatron-LM中 |
Bubble 31.9%(V=2);需配合M调整 |
Virtual Pipeline、Bubble Reduction |
软:Megatron-LM;硬:GPU;部署:训练配置 |
|
N-1230 |
模型并行 |
智算中心 |
专家并行(EP)通信量计算 |
如何计算MoE专家并行的通信量 |
通信·EP Volume |
Step1: EP将专家分布到不同GPU,前向时AlltoAll发送token,反向时AlltoAll发送梯度。Step2: 通信量Vep=2×batch_size×topk×hidden_size×precision_bytes。Step3: 数学表达式:Vep=2×B×K×H×P。Step4: 若B=1024,K=2,H=4096,FP16,则Vep=2×1024×2×4096×2=33.5MB。Step5: 每个step一次AlltoAll。Step6: 配置:DeepSpeed-MoE中 |
33.5MB;AlltoAll |
Expert Parallelism、MoE |
软:DeepSpeed-MoE;硬:GPU、RoCE;部署:训练配置 |
|
N-1231 |
模型并行 |
智算中心 |
序列并行(SP)通信量计算 |
如何计算序列并行的通信量 |
通信·SP Volume |
Step1: 序列并行将序列维度切分,在self-attention前需要allgather,之后reduce scatter。Step2: 通信量Vsp=2×hidden_size×seq_len/Nsp×precision_bytes。Step3: 数学表达式:Vsp=2×H×S/Nsp×B。Step4: 若H=12288,S=2048,Nsp=2,FP16,则Vsp=2×12288×1024×2=50.3MB。Step5: 相比TP,SP通信量更小。Step6: 配置:Megatron-LM中 |
50.3MB;N_sp=2 |
Sequence Parallelism、Communication |
软:Megatron-LM;硬:GPU、RoCE;部署:训练配置 |
|
N-1232 |
模型并行 |
智算中心 |
上下文并行(CP)通信量 |
如何计算上下文并行(Context Parallelism)的通信量 |
通信·CP Volume |
Step1: CP将长序列切分到多个GPU,每个GPU处理一段,通过allgather获取完整KV Cache。Step2: 通信量Vcp=2×hidden_size×seq_len×layers×precision_bytes/Ncp。Step3: 数学表达式:Vcp=2×H×S×L×B/Ncp。Step4: 若H=12288,S=128K,L=80,Ncp=8,FP16,则Vcp=2×12288×128K×80×2/8=629GB,极大。Step5: 优化:使用Ring attention减少单次通信量。Step6: 配置:Ring Attention实现。Step7: 推荐:超长序列(>128K)使用。 |
629GB;N_cp=8 |
Context Parallelism、Ring Attention |
软:Ring Attention、vLLM;硬:GPU、RoCE;部署:训练配置 |
|
N-1233 |
模型并行 |
智算中心 |
混合并行通信占比分析 |
如何计算DP+TP+PP+EP混合并行中各部分的通信占比 |
性能·Communication Profile |
Step1: 总通信时间Tcomm=Tdp_ar+Ttp_ar+Tpp_p2p+Tep_a2a。Step2: 各部分占比Rx=Tx/Tcomm。Step3: 数学表达式:Tdp_ar=2×M×B/BWdp,Ttp_ar=4×H×S×L×B/BWtp,Tpp_p2p=2×(P−1)×Vpp/BWpp,Tep_a2a=2×B×K×H×B/BWep。Step4: 典型值:M=175B,H=12288,S=2048,L=80,P=8,K=2,BW_dp=50GB/s,BW_tp=600GB/s(NVLink),BW_pp=50GB/s,BW_ep=50GB/s。Step5: 计算得T_dp=14s,T_tp=0.02s,T_pp=0.04s,T_ep=0.003s,可见DP占绝对主导。Step6: 优化:使用ZeRO减少DP通信。Step7: 推荐:大模型必须使用ZeRO或TP/PP。 |
DP占99%;TP/PP极小 |
Communication Profile、Bottleneck |
软:Profiler;硬:GPU、RoCE;部署:训练分析 |
|
N-1234 |
模型并行 |
智算中心 |
并行策略选择指南 |
如何根据模型规模和集群拓扑选择最优并行策略 |
架构·Strategy Selection |
Step1: 小模型(<1B):DP足够。Step2: 中等模型(1B-10B):DP+TP(TP=8节点内)。Step3: 大模型(10B-100B):DP+TP+PP(PP跨节点)。Step4: 超大模型(>100B):DP+TP+PP+EP(MoE)。Step5: 数学表达式:Memory_per_gpu=DP×TP×PPmodel_size×(1+overhead)。Step6: 若模型175B,DP=64,TP=8,PP=16,则每GPU显存=175e9/(64 * 8 * 16)2bytes=42.7GB,可行。Step7*: 推荐:使用自动并行工具(如Galvatron)。 |
每GPU 42.7GB;并行度乘积 |
Strategy Selection、Auto Parallelism |
软:Galvatron、Megatron-LM;硬:GPU;部署:训练规划 |
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1235 |
网络架构 |
智算中心 |
Spine-Leaf组网规模计算 |
如何根据服务器数量和网口密度计算Spine和Leaf的数量 |
架构·规模计算 |
Step1: 单台Leaf下行端口数Dleaf,每服务器网口数Nnic,服务器总数S。Step2: Leaf数量L=⌈S×Nnic/Dleaf⌉。Step3: 每Leaf上行端口数Uleaf,Spine数量Sp=⌈L×Uleaf/Pspine⌉,其中Pspine为单台Spine的总端口数。Step4: 例:S=128,Nnic=8,Dleaf=32,则L=32;Uleaf=16,Pspine=32(CE9860),则Sp=16。Step5: 验证收敛比1:1,需Uleaf×L=Sp×Pspine。Step6: 配置:根据实际需求选择CE9860或CE16800系列。Step7: 推荐:Spine数量为2的幂。 |
Leaf=32,Spine=16;收敛比1:1 |
Spine-Leaf Scale、Convergence Ratio |
软:无;硬:CE9860、CE16800;部署:拓扑规划 |
|
N-1236 |
网络架构 |
智算中心 |
M-LAG组网Peer-link带宽计算 |
如何确定M-LAG组中Peer-link的带宽需求 |
可靠性·Peer-link BW |
Step1: Peer-link用于同步MAC/ARP信息和转发跨设备流量。Step2: 带宽需求为单Leaf上行带宽的一半。Step3: 数学表达式:BWpeer=2Uleaf×BWport。Step4: 若Uleaf=12,BWport=100G,则BWpeer=600G,需6个100G端口。Step5: 配置:CE8850E共32端口,分配6口做peer-link。Step6: 推荐:peer-link使用独立端口,不与业务口共享。Step7: 验证:监控peer-link利用率。 |
带宽600G;6个100G端口 |
M-LAG、Peer-link |
软:交换机配置;硬:CE8850E;部署:存储面组网 |
|
N-1237 |
网络架构 |
智算中心 |
去堆叠组网ARP双发机制 |
如何理解去堆叠组网中服务器ARP双发的工作原理 |
协议·ARP Dual Send |
Step1: 服务器双网口绑定(mode1主备),但Leaf之间无横连,主Leaf故障时备Leaf需学习ARP。Step2: 依赖服务器ARP双发:服务器发送ARP请求时,两个网口都发送,两台Leaf都能学习。Step3: 要求ARP双发功能在服务器侧开启(待验证)。Step4: 数学表达式:ARP_learn_time=Tsend+Tprocess。Step5: 若Tsend=1ms,Tprocess=1ms,则T=2ms。Step6: 配置:服务器网卡驱动支持ARP双发。Step7: 推荐:M-LAG更成熟,去堆叠慎用。 |
ARP学习2ms;依赖服务器 |
ARP Dual Send、去堆叠 |
软:网卡驱动;硬:服务器网卡;部署:存储面组网 |
|
N-1238 |
网络架构 |
智算中心 |
EBGP路由邻居数量计算 |
如何计算Spine和Leaf的EBGP邻居数量 |
路由·EBGP Neighbors |
Step1: Leaf与所有Spine建立EBGP邻居,每Leaf邻居数=Spine数。Step2: Spine与所有Leaf建立EBGP邻居,每Spine邻居数=Leaf数。Step3: 数学表达式:Nleaf_neigh=Sp,Nspine_neigh=L。Step4: 例:1024卡场景,Sp=16,L=32,则Leaf邻居16个,Spine邻居32个。Step5: 大规模18432卡,Sp=16,L=576,Spine邻居576个。Step6: 配置:允许AS号重复一次(allowas-in)。Step7: 推荐:Spine使用路由反射器减少邻居数。 |
Leaf邻居16,Spine邻居576 |
EBGP Full Mesh、Allowas-in |
软:交换机配置;硬:CE9860/CE16800;部署:参数面路由 |
|
N-1239 |
网络架构 |
智算中心 |
分布式网关ARP代理 |
如何配置分布式网关实现ARP终结 |
路由·ARP Proxy |
Step1: 多台Leaf配置相同VLANIF接口IP和MAC,作为分布式网关。Step2: 服务器ARP请求在接入Leaf上终结,不扩散到其他Leaf。Step3: 数学表达式:ARP_reply=leaf_mac。Step4: 配置:Leaf上使能arp proxy或vlink直连路由。Step5: 优势:减少ARP广播,支持ECMP。Step6: 推荐:参数面和存储面均使用。Step7: 验证: |
网关IP/MAC一致;ARP终结 |
Distributed Gateway、ARP Proxy |
软:交换机配置;硬:CE9860;部署:参数面/存储面 |
|
N-1240 |
网络架构 |
智算中心 |
多租户VLAN+ACL隔离策略 |
如何通过VLAN和ACL实现租户间二层隔离 |
安全·VLAN ACL |
Step1: 不同租户分配不同VLAN,Leaf接入端口划分对应VLAN。Step2: 在VLANIF接口上应用ACL,仅允许本租户网段互通。Step3: 数学表达式:ACL_rule=permitsrc_iptenant_subnet,其余deny。Step4: 配置示例:租户A VLAN 10,网段192.168.10.0/24,ACL允许192.168.10.0/24。Step5: 要求:跨租户流量默认丢弃。Step6: 推荐:按单租户交付时不配ACL。Step7: 验证:跨租户ping不通。 |
租户隔离;ACL deny其余 |
Multi-tenant Isolation、VLAN |
软:交换机ACL配置;硬:CE9860;部署:参数面 |
|
N-1241 |
存储 |
智算中心 |
HPFS存储集群节点比例 |
如何确定MDS、OSS、CM节点的数量比例 |
架构·Node Ratio |
Step1: MDS节点管理元数据,OSS节点存储数据,CM节点管理集群。Step2: 经验比例:每100台OSS配1台MDS,CM通常3台。Step3: 数学表达式:Nmds=⌈Noss/100⌉,Ncm=3。Step4: 例:18432卡对应1230台OSS,则MDS=13台,CM=3台。Step5: 配置:根据实际性能调优。Step6: 推荐:MDS和OSS分开部署。Step7: 验证:元数据操作延迟。 |
MDS:OSS=1:100;CM固定3台 |
HPFS、Metadata Server |
软:HPFS管理软件;硬:存储服务器;部署:存储集群 |
|
N-1242 |
存储 |
智算中心 |
存储面M-LAG组网上下行收敛比 |
如何计算存储面Leaf的上下行收敛比 |
架构·Convergence Ratio |
Step1: 存储面Leaf上行端口数U,下行端口数D,收敛比R=U/D。Step2: 华为设计采用1:1收敛(U=D)。Step3: 数学表达式:R=1。Step4: 例:CE8850E上行12口,下行12口,收敛比1:1。Step5: 优势:无带宽收敛,保障存储IO性能。Step6: 配置:确保上下行端口数相等。Step7: 推荐:始终1:1。 |
收敛比1:1;上下行相等 |
Convergence Ratio、Storage Network |
软:无;硬:CE8850E;部署:存储面组网 |
|
N-1243 |
存储 |
智算中心 |
存储节点双网口负载分担 |
如何配置存储服务器的网口绑定模式 |
可靠性·Bond Mode |
Step1: 存储服务器双网口接入一对Leaf,使用mode4(802.3ad动态聚合)。Step2: 计算节点使用mode1(主备)。Step3: 数学表达式:BWagg=2×BWport(mode4),BWactive=BWport(mode1)。Step4: 配置:存储侧LACP协商,计算侧主备。Step5: 要求:存储侧负载分担,计算侧故障切换。Step6: 推荐:存储侧使用mode4提升带宽。Step7: 验证: |
存储聚合200G;计算主备100G |
Bonding、LACP |
软:操作系统bond配置;硬:CX6网卡;部署:服务器侧 |
|
N-1244 |
存储 |
智算中心 |
存储IO路径延迟分析 |
如何计算计算节点到存储节点的IO延迟 |
性能·IO Latency |
Step1: IO路径:计算节点→Leaf→Spine→存储Leaf→存储节点。Step2: 延迟组成:Ltotal=Lcalc_leaf+Lleaf_spine+Lspine_stor_leaf+Lstor_leaf_stor。Step3: 每跳约5μs(含串行化+传播+交换),共4跳,则L=20μs。Step4: 加上存储节点处理延迟(约100μs),总约120μs。Step5: 要求RTT 200~300μs,符合。Step6: 配置:使用低延迟RoCE网卡。Step7: 推荐:减少跳数,如存储Leaf直连计算Leaf(非必需)。 |
总延迟约120μs;RTT 200-300μs |
IO Latency、RoCE |
软:无;硬:RoCE网卡、交换机;部署:存储面 |
|
N-1245 |
存储 |
智算中心 |
冷存储与热存储分层 |
如何设计冷热数据分层存储策略 |
架构·Tiering |
Step1: 热存储使用全闪(OceanDisk全闪),冷存储使用混闪(OceanDisk混闪)。Step2: 数据根据访问频率自动迁移,迁移阈值Thot=7天未访问则降冷。Step3: 数学表达式:Tier={hot,cold,last_access<7dotherwise。Step4: 配置:HPFS支持自动分层。Step5: 要求:热存储容量满足活跃数据,冷存储容量大。Step6: 推荐:热冷比例1:3。Step7: 验证:监控分层迁移流量。 |
7天阈值;热冷比例1:3 |
Hot/Cold Tiering、HPFS |
软:HPFS管理;硬:全闪/混闪盘框;部署:存储集群 |
|
N-1246 |
存储 |
智算中心 |
并行文件存储带宽模型 |
如何计算并行文件系统(HPFS)的聚合带宽 |
性能·Aggregate BW |
Step1: 每个OSS节点提供带宽BWoss,总OSS数Noss,网络带宽瓶颈。Step2: 聚合带宽BWagg=min(Noss×BWoss,BWnetwork)。Step3: 数学表达式:BWagg=min(Noss×10GB/s,3.84TB/s)。Step4: 若Noss=1230,每OSS 10GB/s,则12.3TB/s,受限于网络3.84TB/s。Step5: 实际瓶颈在网络。Step6: 配置:增加Spine数量提升bisection带宽。Step7: 推荐:网络带宽应与存储带宽匹配。 |
聚合带宽3.84TB/s;网络瓶颈 |
Parallel File System、Aggregate Bandwidth |
软:HPFS;硬:OSS节点、RoCE网络;部署:存储集群 |
|
N-1247 |
存储 |
智算中心 |
存储多租户安全隔离(QoS组+ACL) |
如何配置存储面多租户隔离,仅允许计算节点访问存储 |
安全·Storage Isolation |
Step1: 计算节点接入Leaf配置QoS组,应用ACL只允许存储网段。Step2: 存储节点接入Leaf不做限制。Step3: 数学表达式:ACL_rule=permitdst_ipstorage_subnet。Step4: 配置:计算节点端口加入QoS组,ACL deny其他。Step5: 要求:计算节点之间不能互访,计算节点只能访问存储。Step6: 推荐:使用单独VLAN(如VLAN30/31)。Step7: 验证:计算节点间ping不通。 |
仅允许存储网段;计算节点隔离 |
Storage Security、QoS Group |
软:交换机ACL;硬:CE8850E;部署:存储面 |
|
N-1248 |
计算 |
智算中心 |
昇腾NPU混合精度训练Loss Scaling |
如何配置Loss Scaling防止梯度下溢 |
精度·Loss Scaling |
Step1: FP16梯度可能过小(<2^-24),乘以缩放因子S放大。Step2: 静态缩放:固定S=232,动态缩放:根据溢出情况调整。Step3: 数学表达式:Loss_scaled=Loss×S,反向传播后梯度也缩放S倍。Step4: 配置:使用NPULossScaleOptimizer。Step5: 要求:不出现NaN梯度。Step6: 推荐:动态缩放,初始S=232。Step7: 验证:监控loss是否稳定。 |
缩放因子2^32;动态调整 |
Mixed Precision、Loss Scaling |
软:NPULossScaleOptimizer;硬:Ascend 910;部署:训练脚本 |
|
N-1249 |
计算 |
智算中心 |
昇腾NPU分布式训练HCCL初始化 |
如何配置HCCL的IP地址和网络参数 |
通信·HCCL Init |
Step1: 每个NPU对应一个RoCE网卡,需配置IP地址在同一网段。Step2: 同一服务器内网卡0/4同网段,1/5同网段等。Step3: 数学表达式:IPdevice_i=192.168.i.10,子网掩码255.255.255.0。Step4: 配置:使用hccn_tool设置IP。Step5: 要求:跨服务器相同位置的网卡在同一网段。Step6: 推荐:使用脚本批量配置。Step7: 验证: |
同服务器内网卡分组;跨服务器对应 |
HCCL、IP Configuration |
软:hccn_tool;硬:Ascend 910、RoCE网卡;部署:服务器网络 |
|
N-1250 |
计算 |
智算中心 |
昇腾NPU分布式训练AllReduce梯度分段 |
如何调整梯度分段策略优化通信与计算重叠 |
性能·Gradient Segmentation |
Step1: 默认将梯度分为两段,第一段占96.54%,第二段占3.46%。Step2: 通过set_split_strategy_by_size调整比例。Step3: 数学表达式:Tstep=max(Tcompute,Tar1)+Tar2。Step4: 优化目标:Tar1完全隐藏在Tcompute内,Tar2尽可能短。Step5: 例:若计算时间长,可增大第一段比例至90%。Step6: 配置:调用API前先初始化HCCL。Step7: 推荐:通过profiling分析后调整。 |
分段比例可调;隐藏AR1 |
Gradient Segmentation、Overlap |
软:hccl.split.api;硬:Ascend 910;部署:训练脚本 |
|
N-1251 |
计算 |
智算中心 |
昇腾NPU算子性能替换 |
如何将低效算子替换为NPU高性能算子 |
性能·Operator Replacement |
Step1: 原生TensorFlow的dropout和gelu在NPU上性能不佳。Step2: 替换为npu_ops.dropout和npu_unary_ops.gelu。Step3: 数学表达式:Tnew_op=Told_op×speedup。Step4: 实测gelu替换后速度提升约2倍。Step5: 配置:导入npu_bridge相应模块。Step6: 推荐:所有自定义算子优先使用NPU原生实现。Step7: 验证:profiling对比算子耗时。 |
速度提升2倍;替换gelu/dropout |
High-performance Op、NPU |
软:npu_bridge;硬:Ascend 910;部署:训练脚本 |
|
N-1252 |
计算 |
智算中心 |
昇腾NPU数据预处理卸载 |
如何将数据预处理卸载到NPU设备侧 |
性能·Data Preproc Offload |
Step1: 部分数据预处理算子(map、batch)可在NPU上执行,减少Host-Device交互。Step2: 使用prefetch插入后可能阻止卸载。Step3: 数学表达式:Tpreproc=Thost+Tdevice。Step4: 配置:在NPURunConfig中设置enable_data_pre_proc=True。Step5: 要求:shuffle不能在设备侧,需放在Host。Step6: 推荐:将map和batch放在设备侧。Step7: 验证:观察Host CPU利用率下降。 |
设备侧执行map/batch;减少交互 |
Data Preprocessing、Offload |
软:NPURunConfig;硬:Ascend 910;部署:训练配置 |
|
N-1253 |
计算 |
智算中心 |
昇腾NPU Profiling数据采集 |
如何采集NPU训练的profiling数据进行分析 |
性能·Profiling Collection |
Step1: 设置环境变量PROFILING_MODE=true,指定FP_POINT和BP_POINT。Step2: 采集training_trace和task_trace。Step3: 数学表达式:Tfp+bp=Tbp_point−Tfp_point。Step4: 配置:在脚本中通过ProfilingConfig或在sess.run中设置。Step5: 要求:先确定FP和BP的算子名称(从graph.pbtxt获取)。Step6: 推荐:只采集少量迭代。Step7: 分析:使用chrome://tracing查看timeline。 |
采集FP/BP时间;graph.pbtxt |
Profiling、Timeline |
软:Profiling工具;硬:Ascend 910;部署:训练调优 |
|
N-1254 |
计算 |
智算中心 |
昇腾NPU精度对比(dump数据) |
如何对比NPU和GPU的算子输出精度 |
精度·Dump Comparison |
Step1: 在NPU上使能dump,保存算子输入输出。Step2: 在GPU上使用tfdbg保存npy文件。Step3: 使用compare_vector.pyc进行余弦相似度等对比。Step4: 数学表达式:(CosineSimilarity = \frac{A \cdot B}{ |
A |
||
|
N-1255 |
计算 |
智算中心 |
昇腾NPU PS-Worker分布式训练 |
如何配置PS-Worker架构的分布式训练 |
分布式·PS-Worker |
Step1: 设置TF_CONFIG环境变量,指定worker和ps的地址。Step2: 使用NPUEstimator和ParameterServerStrategy。Step3: 数学表达式:Titer=2×X×Nworker/B(PS架构)。Step4: 配置:mix_compile_mode=True,iterations_per_loop=1。Step5: 要求:每个worker只用一个NPU。Step6: 推荐:小规模使用,大规模用AllReduce。Step7: 验证:loss正常下降。 |
PS架构通信量线性增长;小规模适用 |
PS-Worker、TF_CONFIG |
软:NPUEstimator、NPUDistributedOptimizer;硬:Ascend 910;部署:训练集群 |
|
N-1256 |
计算 |
智算中心 |
昇腾NPU AllReduce分布式训练(Horovod迁移) |
如何将Horovod训练脚本迁移到NPU |
分布式·Horovod Migration |
Step1: 替换hvd.DistributedOptimizer为NPUDistributedOptimizer。Step2: 替换hvd.local_rank为get_local_rank_id等。Step3: 数学表达式:Tallreduce=2×(N−1)×X/(N×B)。Step4: 配置:注释掉hvd.init,NPU自动初始化。Step5: 要求:数据并行时使用dataset.shard。Step6: 推荐:使用NPUDistributedOptimizer。Step7: 验证:多卡训练速度线性提升。 |
替换Horovod API;自动初始化 |
Horovod Migration、AllReduce |
软:NPUDistributedOptimizer;硬:Ascend 910;部署:训练脚本 |
|
N-1257 |
计算 |
智算中心 |
昇腾NPU单服务器8卡训练配置 |
如何配置单服务器内8卡分布式训练 |
分布式·Single Server |
Step1: 8张NPU通过HCCL通信,使用Ring AllReduce。Step2: 配置IP:网卡0/4同网段,1/5同网段等。Step3: 数学表达式:Tar_8card=2×(8−1)×X/(8×B)。Step4: 配置:使用NPUDistributedOptimizer。Step5: 要求:所有NPU在同一台服务器,通过PCIe/NVLink互联。Step6: 推荐:batch size按8卡线性扩大。Step7: 验证: |
8卡Ring AllReduce;PCIe互联 |
Single-server Training、HCCL |
软:NPUDistributedOptimizer;硬:Ascend 910服务器;部署:单机训练 |
|
N-1258 |
计算 |
智算中心 |
昇腾NPU多服务器集群训练规模 |
如何确定多服务器集群的最大规模(128服务器) |
分布式·Cluster Scale |
Step1: 当前HCCL支持最多128台服务器,每台8卡,共1024卡。Step2: 数学表达式:Ngpu_max=128×8=1024。Step3: 配置:所有服务器在同一二层网络,PFC/ECN开启。Step4: 要求:服务器数量为2的幂时性能最佳。Step5: 推荐:初期部署64台(512卡)。Step6: 验证:allreduce benchmark测试。 |
最大1024卡;2的幂最佳 |
Cluster Scale、HCCL Limit |
软:HCCL;硬:Ascend 910、RoCE交换机;部署:集群规划 |
|
N-1259 |
计算 |
智算中心 |
昇腾NPU训练脚本迁移(Estimator模式) |
如何将TensorFlow Estimator训练脚本迁移到NPU |
迁移·Estimator |
Step1: 替换tf.estimator.RunConfig为NPURunConfig。Step2: 替换tf.estimator.Estimator为NPUEstimator。Step3: 数学表达式:Tmigrate=Toriginal×(1+overhead),通常overhead很小。Step4: 配置:设置precision_mode、iterations_per_loop。Step5: 要求:移除不支持的参数(train_distribute等)。Step6: 推荐:使用NPU高性能算子(dropout、gelu)。Step7: 验证:loss曲线与GPU一致。 |
迁移工作量小;配置NPURunConfig |
Migration、Estimator |
软:npu_bridge;硬:Ascend 910;部署:训练脚本 |
|
N-1260 |
计算 |
智算中心 |
昇腾NPU训练脚本迁移(sess.run模式) |
如何将TensorFlow sess.run训练脚本迁移到NPU |
迁移·sess.run |
Step1: 创建session前添加NpuOptimizer配置。Step2: 设置use_off_line=True,precision_mode等。Step3: 数学表达式:Tmigrate=Toriginal+Tgraph_optimize。Step4: 配置:关闭remapping(RewriterConfig.OFF)。Step5: 要求:导入npu_bridge。Step6: 推荐:使用Estimator模式更简单。Step7: 验证:运行后检查loss。 |
添加NpuOptimizer;关闭remap |
Migration、sess.run |
软:npu_bridge;硬:Ascend 910;部署:训练脚本 |
|
N-1261 |
计算 |
智算中心 |
昇腾NPU混合精度模式选择 |
如何选择allow_mix_precision或force_fp16 |
精度·Precision Mode |
Step1: allow_mix_precision自动将部分算子降为FP16,保留关键算子FP32。Step2: force_fp16强制所有支持FP16的算子使用FP16。Step3: 数学表达式:Accmix≈Accfp32,Accforce可能略低。Step4: 配置:在NPURunConfig中设置precision_mode。Step5: 要求:force_fp16需验证精度。Step6: 推荐:默认allow_mix_precision。Step7: 验证:对比训练曲线。 |
混合精度精度损失小;force_fp16性能更高 |
Mixed Precision、Mode Selection |
软:NPURunConfig;硬:Ascend 910;部署:训练配置 |
|
N-1262 |
计算 |
智算中心 |
昇腾NPU内存管理(graph_memory_max_size) |
如何调整NPU内存分配避免OOM |
资源·Memory Management |
Step1: graph_memory_max_size控制网络静态和动态内存,variable_memory_max_size控制变量内存。Step2: 两者之和不超过31GB。Step3: 数学表达式:Memtotal=Memgraph+Memvar≤31GB。Step4: 配置:默认graph=26GB,var=5GB。Step5: 若OOM,减小batch size或调整比例。Step6: 推荐:先尝试减小batch size。Step7: 验证: |
总和≤31GB;默认26+5 |
NPU Memory、OOM |
软:NPURunConfig;硬:Ascend 910;部署:训练调优 |
|
N-1263 |
计算 |
智算中心 |
昇腾NPU混合计算模式 |
如何处理NPU不支持的算子(混合计算) |
兼容性·Mixed Computation |
Step1: 对于NPU不支持的算子(如tf.signal.fft),使用混合计算模式,在Host CPU上执行。Step2: 设置mix_compile_mode=True,iterations_per_loop=1。Step3: 数学表达式:Tmixed=Tnpu+Tcpu。Step4: 配置:使用without_npu_compile_scope包裹不支持算子。Step5: 要求:混合计算模式下性能下降。Step6: 推荐:尽量开发TBE算子替代。Step7: 验证:功能正确性。 |
混合计算性能下降;iterations_per_loop=1 |
Mixed Computation、Unsupported Op |
软:NPURunConfig;硬:Ascend 910;部署:训练兼容 |
|
N-1264 |
计算 |
智算中心 |
昇腾NPU训练性能优化总结 |
如何综合运用各种优化手段提升训练吞吐 |
性能·Overall Optimization |
Step1: 优化手段:混合精度、数据卸载、算子替换、梯度分段、CPU绑定、增大iterations_per_loop。Step2: 预期加速比Speedup=∏(1+improvementi)。Step3: 数学表达式:Topt=Tbase/Speedup。Step4: 例:混合精度1.5x,数据卸载1.2x,算子替换1.1x,梯度分段1.1x,总加速约2.18x。Step5: 配置:逐一启用并profiling验证。Step6: 推荐:优先混合精度和数据卸载。Step7: 验证:最终吞吐对比。 |
综合加速约2x;逐项优化 |
Performance Tuning、Best Practices |
软:Profiling工具;硬:Ascend 910;部署:训练调优 |
AI 阅读
补充;单次30个编号
超出字数限制,元宝已阅读93%
已深度思考(用时1秒)
我们继续补充30个编号(N-1265 ~ N-1294),聚焦于网络架构、存储(含冷存储、并行文件存储、热存储)、计算,基于之前文档和华为方案。保持中文描述和逐步推理的数学表达式。
以下为新增的30个编号(N-1265 ~ N-1294),聚焦于网络架构、存储(含冷存储、并行文件存储、热存储)、计算,基于华为文档内容,每个条目包含逐步推理的数学表达式推导,全部中文描述。
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1265 |
网络架构 |
智算中心 |
参数面2级CLOS组网设备数量计算 |
如何根据服务器规模计算所需交换机总数 |
架构·设备数量 |
Step1: 服务器台数S,每服务器网口数Nnic,每Leaf下行端口数Dleaf。Step2: Leaf数量L=⌈S×Nnic/Dleaf⌉。Step3: Spine数量固定为16(最大配置),每Spine端口数Pspine需满足L×Uleaf≤Sp×Pspine。Step4: 例:1024卡(128台服务器,每台8口200G),Dleaf=32,L=32,Spine=16台CE9860(每台32口400G)。Step5: 总交换机数T=L+Sp=48台。Step6: 配置:Spine初始部署最大数量,Leaf按需增加。Step7: 推荐:Spine数量为2的幂。 |
1024卡需48台交换机;Spine固定16 |
CLOS Scale、Device Count |
软:无;硬:CE9860/CE16800;部署:参数面 |
|
N-1266 |
网络架构 |
智算中心 |
存储面M-LAG组网Spine端口利用率 |
如何计算Spine交换机端口的使用率 |
性能·Port Utilization |
Step1: 每台Spine连接的Leaf对数Nleaf_pair,每对Leaf上行12口,总上行口数Utotal=Lpairs×12。Step2: 每台Spine端口数Pspine,利用率R=Utotal/(Sp×Pspine)。Step3: 数学表达式:R=Sp×PspineLpairs×12。Step4: 例:1024卡,计算Leaf 11对,存储Leaf 7对,共18对,Spine=4台CE9860(每台128口100G),则R=18×12/(4×128)=216/512=42.2%。Step5: 配置:Spine端口有余量,可扩展。Step6: 推荐:利用率控制在60%-80%。Step7: 验证:监控端口利用率。 |
利用率42.2%;Spine端口有余量 |
Port Utilization、Spine |
软:无;硬:CE9860;部署:存储面 |
|
N-1267 |
网络架构 |
智算中心 |
参数面Y型线缆一分二原理 |
如何理解400G端口一分二成两个200G端口 |
硬件·Y Cable |
Step1: CE9860的400G端口通过一分二线缆(Y型)拆分为两个200G端口,分别连接两个NPU网卡。Step2: 每个NPU网卡使用200G,共享400G物理端口带宽。Step3: 数学表达式:BWphy=400G,BWper_np=200G。Step4: 配置:每台Atlas 800-9000 A2服务器有8个NPU,需4个400G端口(一分二得8个200G)。Step5: 要求:两个200G端口不能同时跑满400G,否则拥塞。Step6: 推荐:训练场景下流量均匀分布,通常不会同时打满。Step7: 验证:监控端口利用率。 |
400G拆2×200G;共享带宽 |
Y Cable、Port Splitting |
软:无;硬:CE9860、Y型线缆;部署:参数面接入 |
|
N-1268 |
网络架构 |
智算中心 |
参数面子卡与服务器对应关系 |
如何理解CE9860的子卡与服务器的绑定关系 |
硬件·Subcard Mapping |
Step1: CE9860有4个子卡,每个子卡4个400G端口。Step2: 每个子卡的4个400G端口下行连接一台Atlas 800-9000 A2服务器(一分二成8个200G)。Step3: 数学表达式:Servers_per_leaf=4。Step4: 配置:子卡的另外4个400G端口上行到Spine。Step5: 优势:故障隔离,一个子卡故障只影响一台服务器。Step6: 推荐:按子卡规划服务器接入。Step7: 验证: |
每Leaf接4台服务器;子卡隔离 |
Subcard、Server Mapping |
软:交换机配置;硬:CE9860;部署:参数面 |
|
N-1269 |
网络架构 |
智算中心 |
参数面PFC水线调优 |
如何调整PFC Xoff水线避免欠吞吐或丢包 |
性能·PFC Watermark |
Step1: Xoff水线过低导致带宽利用率低(欠吞吐),过高导致丢包。Step2: 推荐初始值:dcb pfc buffer xoff dynamic 4(对应α=1/8,最大使用11.11%)。Step3: 数学表达式:Buffer_usage=α/(α+1)。Step4: 调参方法:若出方向丢包,降低Xoff值(减小dynamic值);若欠吞吐,提高Xoff值。Step5: 配置:在Leaf和Spine端口上配置。Step6: 推荐:以步长1调整。Step7: 验证:监控PFC暂停帧计数和吞吐。 |
Dynamic 4对应11.11%;步长1调整 |
PFC Watermark、Xoff |
软:交换机配置;硬:CE9860/CE8850E;部署:参数面/存储面 |
|
N-1270 |
网络架构 |
智算中心 |
参数面ECN水线调优 |
如何调整ECN标记门限平衡延迟和吞吐 |
性能·ECN Threshold |
Step1: ECN低水线Kmin和高水线Kmax,标记概率Pmax。Step2: 100G端口推荐初始值:Kmin=5K−15Kcells,Kmax=500K−2Mcells,Pmax=10%。Step3: 数学表达式:Mark_prob=Pmax×Kmax−KminQavg−Kmin。Step4: 调参:若延迟过高,降低水线;若吞吐不足,提高水线。Step5: 配置:在Leaf和Spine端口上配置。Step6: 推荐:使用二分法逐步调整。Step7: 验证:监控ECN标记数和吞吐。 |
低水线5K-15K;高水线500K-2M |
ECN Threshold、Congestion Control |
软:交换机配置;硬:CE9860/CE8850E;部署:参数面/存储面 |
|
N-1271 |
网络架构 |
智算中心 |
参数面PFC死锁检测与恢复 |
如何配置PFC死锁检测参数自动恢复 |
可靠性·Deadlock Recovery |
Step1: 死锁检测周期Tdetect=10ms,恢复周期Trecover=10ms,turn-off阈值Nturnoff=5。Step2: 检测到死锁后,忽略PFC反压帧,恢复发送。Step3: 数学表达式:Tdeadlock_recover=Tdetect+Trecover。Step4: 配置: |
检测+恢复=20ms;turn-off阈值5 |
PFC Deadlock、Auto Recovery |
软:交换机配置;硬:CE9860/CE8850E;部署:参数面/存储面 |
|
N-1272 |
存储 |
智算中心 |
HPFS存储集群元数据操作延迟 |
如何计算MDS节点处理元数据请求的延迟 |
性能·Metadata Latency |
Step1: 计算节点发起读请求,先向MDS查询元数据。Step2: MDS处理时间Tmds,网络往返RTT。Step3: 数学表达式:Lmeta=RTT+Tmds。Step4: 若RTT=100μs,Tmds=50μs,则Lmeta=150μs。Step5: 配置:MDS使用高性能CPU和NVMe。Step6: 要求:元数据延迟<200μs。Step7: 推荐:MDS节点使用全闪存储。 |
元数据延迟150μs;MDS处理50μs |
Metadata Latency、MDS |
软:HPFS;硬:MDS服务器;部署:存储集群 |
|
N-1273 |
存储 |
智算中心 |
HPFS存储集群数据读写带宽模型 |
如何计算HPFS集群的读写带宽 |
性能·Read/Write BW |
Step1: 每个OSS节点提供读带宽BWread和写带宽BWwrite,总OSS数Noss。Step2: 聚合带宽BWagg_read=Noss×BWread,受限于网络。Step3: 数学表达式:BWagg=min(Noss×BWper_oss,BWnetwork)。Step4: 例:每OSS读10GB/s,写5GB/s,Noss=1230,则读12.3TB/s,写6.15TB/s,网络3.84TB/s,实际读受限网络。Step5: 配置:增加Spine数量提升网络带宽。Step6: 推荐:读写比例1:2。Step7: 验证:fio测试。 |
读12.3TB/s(网络瓶颈3.84TB/s);写6.15TB/s |
Aggregate Bandwidth、OSS |
软:HPFS;硬:OSS节点;部署:存储集群 |
|
N-1274 |
存储 |
智算中心 |
全闪与混闪存储备份流量 |
如何计算全闪到混闪的备份带宽需求 |
性能·Backup BW |
Step1: 全闪作为热存储,混闪作为冷存储,周期性备份数据。Step2: 备份周期Tbackup=1天,全闪容量Cflash,备份窗口W=4小时。Step3: 数学表达式:BWbackup=Cflash/W。Step4: 若Cflash=100TB,W=4h,则BWbackup=100TB/4h=6.94GB/s。Step5: 配置:备份流量走存储面网络,时延不敏感。Step6: 推荐:在业务低峰期执行。Step7: 验证:监控备份流量。 |
备份带宽6.94GB/s;4小时窗口 |
Backup Traffic、Hot/Cold Tiering |
软:HPFS备份策略;硬:全闪/混闪盘框;部署:存储集群 |
|
N-1275 |
存储 |
智算中心 |
存储面PFC配置要点 |
如何在存储面交换机上配置PFC |
可靠性·PFC Config |
Step1: 整网规划一个优先级(如priority 4),根据DSCP映射。Step2: 在所有端口(互联、接入、peer-link)上开启PFC。Step3: 数学表达式:PFC_enable=trueon priority 4。Step4: 配置示例: |
单优先级;全网开启 |
PFC Configuration、DSCP Mapping |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1276 |
存储 |
智算中心 |
存储面ECN配置要点 |
如何在存储面交换机上配置ECN |
性能·ECN Config |
Step1: ECN静态标记,低水线5K-15K cells,高水线500K-2M cells,标记概率10%。Step2: M-LAG场景需增加peer-link的ECN水线(同100G配置)。Step3: 数学表达式:ECN_threshold=(Kmin,Kmax,Pmax)。Step4: 配置: |
低水线5K;高水线500K;标记概率10% |
ECN Configuration、Threshold |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1277 |
存储 |
智算中心 |
存储面PFC死锁预防(钩子流检测) |
如何配置PFC死锁预防避免钩子流 |
可靠性·Deadlock Prevention |
Step1: 将Leaf上行口(连接Spine)加入PFC上联端口组。Step2: 检测到同一业务流从上联端口组进入又出去,即为钩子流。Step3: 数学表达式:Hookup_flow=(ingress_port∈uplink_group)∧(egress_port∈uplink_group)。Step4: 处理:修改钩子流的优先级,使其从另一队列转发。Step5: 配置: |
钩子流检测;修改优先级 |
Deadlock Prevention、Hookup Flow |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1278 |
计算 |
智算中心 |
昇腾NPU HCCL AllReduce算法选择 |
如何选择Ring或Tree算法 |
通信·Algorithm Selection |
Step1: Ring适合大消息,Tree适合小消息。Step2: 临界消息大小Sthreshold通常为几MB。Step3: 数学表达式:Algo={Ring,Tree,msg_size>Sthmsg_size≤Sth。Step4: 配置:HCCL自动选择,也可通过环境变量强制。Step5: 推荐:默认自动。Step6: 验证:profiling查看算法。 |
自动选择;Ring大消息,Tree小消息 |
AllReduce Algorithm、Ring/Tree |
软:HCCL;硬:Ascend 910;部署:训练配置 |
|
N-1279 |
计算 |
智算中心 |
昇腾NPU HCCL拓扑感知 |
如何配置HCCL的拓扑文件提升性能 |
性能·Topology Aware |
Step1: HCCL根据NPU的互联拓扑(PCIe Switch、NUMA)优化通信路径。Step2: 生成拓扑文件 |
拓扑优化;提升带宽 |
Topology Aware、HCCL |
软:HCCL、HCCN工具;硬:Ascend 910;部署:训练配置 |
|
N-1280 |
计算 |
智算中心 |
昇腾NPU HCCL通信超时设置 |
如何配置通信超时防止训练hang |
可靠性·Timeout |
Step1: HCCL通信超时默认1800s,过长。Step2: 设置 |
超时300s;防止永久hang |
HCCL Timeout、Hang Detection |
软:HCCL;硬:Ascend 910;部署:训练配置 |
|
N-1281 |
计算 |
智算中心 |
昇腾NPU HCCL通信重试次数 |
如何配置通信重试提高鲁棒性 |
可靠性·Retry |
Step1: 默认重试次数Nretry=3。Step2: 设置 |
重试5次;成功率>99.999% |
HCCL Retry、Reliability |
软:HCCL;硬:Ascend 910;部署:训练配置 |
|
N-1282 |
计算 |
智算中心 |
昇腾NPU训练脚本迁移(Keras模式) |
如何将Keras训练脚本迁移到NPU |
迁移·Keras |
Step1: Keras迁移有两种方式:原生Keras(仅支持单次sess.run)或转换为NPUEstimator。Step2: 推荐使用model_to_npu_estimator转换。Step3: 数学表达式:Tmigrate=Tadapt+Tconvert。Step4: 配置:替换优化器为NPUDistributedOptimizer。Step5: 要求:动态学习率不能在callback中设置。Step6: 推荐:使用Estimator模式。Step7: 验证:loss正常下降。 |
转换为NPUEstimator;优化器替换 |
Keras Migration、model_to_npu_estimator |
软:npu_bridge;硬:Ascend 910;部署:训练脚本 |
|
N-1283 |
计算 |
智算中心 |
昇腾NPU训练脚本迁移常见问题 |
如何处理迁移过程中的常见错误 |
迁移·Troubleshooting |
Step1: 常见错误:ModuleNotFoundError(缺npu_bridge)、GE OOM(显存溢出)、算子不支持。Step2: 解决:安装TFPlugin、调整graph_memory_max_size、使用混合计算。Step3: 数学表达式:Error_rate=total_stepserrors。Step4: 配置:检查环境变量和依赖。Step5: 推荐:参考华为官方FAQ。Step6: 验证:逐个解决后重跑。Step7: 日志:查看/var/log/npu/slog/host-0。 |
常见错误处理;日志定位 |
Troubleshooting、FAQ |
软:npu_bridge;硬:Ascend 910;部署:训练调优 |
|
N-1284 |
计算 |
智算中心 |
昇腾NPU训练性能Profiling分析 |
如何解读Profiling结果定位性能瓶颈 |
性能·Profiling Analysis |
Step1: 查看timeline中aicore、aicpu、all_reduce三段耗时。Step2: 若aicore占比高,优化算子;若all_reduce占比高,调整梯度分段。Step3: 数学表达式:Tstep=Taicore+Taicpu+Tallreduce。Step4: 例:T_aicore=50ms,T_aicpu=10ms,T_allreduce=40ms,则通信占比40%。Step5: 优化:增大batch size或使用梯度累积。Step6: 推荐:每次优化后重新profiling。Step7: 验证:step时间缩短。 |
通信占比40%;优化算子或分段 |
Profiling Analysis、Timeline |
软:Profiling工具;硬:Ascend 910;部署:训练调优 |
|
N-1285 |
计算 |
智算中心 |
昇腾NPU训练CPU绑定 |
如何将训练进程绑定到指定CPU核提升性能 |
性能·CPU Binding |
Step1: 多NPU场景下,将每个训练进程绑定到不同CPU核组,避免竞争。Step2: 总CPU核数Ctotal,NPU数Nnpu,每组核数Cgroup=Ctotal/Nnpu。Step3: 数学表达式:Taskset_cmd=taskset−cstart−end。Step4: 例:96核,8 NPU,每组12核,device0绑定0-11,device7绑定84-95。Step5: 配置:在启动脚本中使用taskset。Step6: 推荐:开启。Step7: 验证:观察CPU利用率均衡。 |
每组12核;绑定后性能提升 |
CPU Binding、Affinity |
软:taskset;硬:CPU;部署:训练启动脚本 |
|
N-1286 |
计算 |
智算中心 |
昇腾NPU训练iterations_per_loop优化 |
如何设置iterations_per_loop减少Host-Device交互 |
性能·Iterations Per Loop |
Step1: iterations_per_loop控制每次sess.run执行的迭代数,默认1。Step2: 增大该值减少交互次数,提升吞吐。Step3: 数学表达式:Tstep_avg=Tloop/Niter,其中Tloop包含一次交互开销。Step4: 配置:在NPURunConfig中设置,建议10-100。Step5: 要求:混合计算模式下必须为1。Step6: 推荐:非混合计算设为10。Step7: 验证:对比step时间。 |
设为10;减少交互 |
Iterations Per Loop、Host-Device |
软:NPURunConfig;硬:Ascend 910;部署:训练配置 |
|
N-1287 |
计算 |
智算中心 |
昇腾NPU训练数据并行shard |
如何在分布式训练中对数据集分片 |
分布式·Data Shard |
Step1: 每个NPU处理一部分数据,使用dataset.shard(get_rank_size(), get_rank_id())。Step2: 数学表达式:Data_per_rank=Total_data/Nrank。Step3: 配置:在input_fn中调用。Step4: 要求:每个rank的数据不重叠。Step5: 推荐:同时使用dataset.repeat()确保epoch完整。Step6: 验证:检查各rank处理样本数。 |
数据均分;shard+repeat |
Data Sharding、Distributed Dataset |
软:TensorFlow dataset;硬:Ascend 910;部署:训练脚本 |
|
N-1288 |
计算 |
智算中心 |
昇腾NPU训练广播初始权重 |
如何确保所有NPU初始权重一致 |
分布式·Broadcast |
Step1: 分布式训练开始时,rank 0广播初始权重到其他rank。Step2: HCCL自动插入Broadcast算子。Step3: 数学表达式:Weightrank_i=Weightrank_0。Step4: 配置:使用NPUDistributedOptimizer时自动处理。Step5: 要求:所有rank使用相同的随机种子。Step6: 推荐:无需手动调用。Step7: 验证:检查各rank权重一致。 |
自动广播;权重一致 |
Broadcast、Initial Weights |
软:NPUDistributedOptimizer;硬:Ascend 910;部署:训练脚本 |
|
N-1289 |
计算 |
智算中心 |
昇腾NPU训练Checkpoint保存 |
如何在NPU训练中保存和恢复模型 |
运维·Checkpoint |
Step1: 使用NPUEstimator时,checkpoint自动保存在model_dir。Step2: 设置save_checkpoints_steps=1000。Step3: 数学表达式:Tsave=Tserialize+Twrite。Step4: 配置:NPURunConfig中设置。Step5: 要求:model_dir为共享存储(如NFS)。Step6: 推荐:每1000步保存一次。Step7: 验证:从checkpoint恢复训练。 |
每1000步保存;共享存储 |
Checkpoint、Model Persistence |
软:NPUEstimator;硬:共享存储;部署:训练配置 |
|
N-1290 |
计算 |
智算中心 |
昇腾NPU训练TensorBoard可视化 |
如何在NPU训练中使用TensorBoard |
运维·TensorBoard |
Step1: 在训练脚本中添加summary操作,NPUEstimator自动收集。Step2: 设置save_summary_steps=1。Step3: 数学表达式:Summary_data=scalar/loss,histogram/weights。Step4: 配置:NPURunConfig中设置。Step5: 要求:model_dir可读。Step6: 推荐:每步记录loss。Step7: 验证:启动TensorBoard查看。 |
每步记录;自动收集 |
TensorBoard、Summary |
软:TensorBoard;硬:Ascend 910;部署:训练监控 |
|
N-1291 |
计算 |
智算中心 |
昇腾NPU训练混合精度Loss Scaling动态调整 |
如何配置动态Loss Scaling参数 |
精度·Dynamic Loss Scale |
Step1: 动态Loss Scaling根据溢出情况调整缩放因子。Step2: 初始值S0=232,每1000步无溢出则加倍,每出现NaN则减半。Step3: 数学表达式:St+1={St×2,St/2,no overflow for 1000 stepsoverflow。Step4: 配置:使用ExponentialUpdateLossScaleManager。Step5: 要求:初始值不宜过大。Step6: 推荐:默认参数。Step7: 验证:监控loss_scale值变化。 |
初始2^32;每1000步加倍 |
Dynamic Loss Scaling、Overflow |
软:ExponentialUpdateLossScaleManager;硬:Ascend 910;部署:训练脚本 |
|
N-1292 |
计算 |
智算中心 |
昇腾NPU训练混合精度Loss Scaling静态设置 |
如何配置静态Loss Scaling |
精度·Static Loss Scale |
Step1: 固定缩放因子S=216。Step2: 适用于梯度幅度稳定的网络。Step3: 数学表达式:Loss_scaled=Loss×S。Step4: 配置:使用FixedLossScaleManager。Step5: 要求:选择合适的S避免溢出或下溢。Step6: 推荐:先从2^16开始尝试。Step7: 验证:检查梯度是否在FP16范围内。 |
固定2^16;梯度稳定 |
Static Loss Scaling、Fixed |
软:FixedLossScaleManager;硬:Ascend 910;部署:训练脚本 |
|
N-1293 |
计算 |
智算中心 |
昇腾NPU训练自定义TBE算子 |
如何开发NPU不支持的算子(TBE) |
开发·TBE Operator |
Step1: TBE(Tensor Boost Engine)是华为的算子开发框架。Step2: 编写算子描述文件(DSL)和调度代码。Step3: 数学表达式:Op_output=TBE_kernel(input,params)。Step4: 配置:编译生成.so文件,在训练脚本中加载。Step5: 要求:熟悉TBE DSL。Step6: 推荐:优先使用华为提供的算子库。Step7: 验证:精度对比。 |
自定义算子;TBE DSL |
TBE Operator、Custom Op |
软:TBE工具链;硬:Ascend 910;部署:算子开发 |
|
N-1294 |
计算 |
智算中心 |
昇腾NPU训练环境准备与验证 |
如何验证NPU训练环境是否正常 |
运维·Environment Verification |
Step1: 检查NPU驱动、固件、HCCL、TFPlugin版本。Step2: 运行简单的allreduce benchmark测试。Step3: 数学表达式:BWmeasured=Tallreducedata_size×(N−1)/N。Step4: 配置:使用HCCL自带测试工具。Step5: 要求:带宽达到预期值(如8卡400G线速的90%)。Step6: 推荐:每次环境变更后执行。Step7: 验证: |
带宽达线速90%;环境验证 |
Environment Check、Benchmark |
软:HCCL测试工具;硬:Ascend 910;部署:运维流程 |
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1295 |
网络架构 |
智算中心 |
盒式与框式交换机端口密度对比 |
如何比较CE9860(盒式)与CE16816(框式)的端口密度 |
架构·设备选型 |
Step1: CE9860盒式固定32×400G端口,CE16816框式最大16块业务板×每板36×400G=576×400G。Step2: 端口密度比Dratio=576/32=18倍。Step3: 数学表达式:Portsbox=32,Portsframe=576。Step4: 例:18432卡场景需Spine 16台CE16816(总端口9216个400G),若用CE9860需288台。Step5: 配置:大规模选框式,小规模选盒式。Step6: 推荐:万卡以上用框式。Step7: 验证:计算总端口需求。 |
密度比18倍;框式576口 |
Box vs Chassis、Port Density |
软:无;硬:CE9860、CE16816;部署:设备选型 |
|
N-1296 |
网络架构 |
智算中心 |
Spine数量与Leaf数量的数学关系 |
如何根据Leaf上行端口数确定最小Spine数量 |
架构·Spine Count |
Step1: 每个Leaf上行U个端口,总Leaf数L,总上行口数Utotal=L×U。Step2: 每台Spine提供P个端口,最小Spine数Spmin=⌈Utotal/P⌉。Step3: 数学表达式:Spmin=⌈(L×U)/P⌉。Step4: 例:L=32,U=16,P=32(CE9860),则Spmin=16。Step5: 若L=576,U=16,P=576(CE16816),则Spmin=16。Step6: 配置:Spine数量应为2的幂。Step7: 推荐:Spine数量取满足条件的最小2的幂。 |
最小Spine=16;2的幂 |
Spine Count、Port Calculation |
软:无;硬:CE9860/CE16816;部署:拓扑规划 |
|
N-1297 |
网络架构 |
智算中心 |
Y型线缆信号衰减与链路预算 |
如何评估400G一分二后的信号质量 |
硬件·Signal Integrity |
Step1: 400G端口拆分为两个200G,每个200G使用4 lanes×50G PAM4。Step2: 链路预算Lbudget=Ptx−Prx_min−Lcable−Lconnector。Step3: 数学表达式:Lbudget≥Lmargin。Step4: 典型值:发射功率-2dBm,接收灵敏度-8dBm,线缆损耗3dB,连接器1dB,裕量2dB。Step5: 配置:Y型线缆长度不超过3米。Step6: 推荐:使用原厂线缆。Step7: 验证:检查光模块误码率。 |
裕量2dB;线缆≤3m |
Y Cable、Signal Budget |
软:无;硬:Y型线缆、光模块;部署:参数面接入 |
|
N-1298 |
网络架构 |
智算中心 |
子卡故障域分析与冗余设计 |
如何评估单个子卡故障对业务的影响 |
可靠性·Failure Domain |
Step1: 每个子卡连接一台服务器,子卡故障仅影响该服务器。Step2: 故障影响范围Impact=1/Ltotal×100%。Step3: 数学表达式:Impact=1/(L×4)(每Leaf 4子卡)。Step4: 例:32台Leaf,128台服务器,子卡故障影响1台服务器(0.78%)。Step5: 配置:无额外冗余,依靠训练任务自身的容错(如checkpoint)。Step6: 推荐:子卡故障后尽快更换。Step7: 验证:监控子卡状态。 |
影响0.78%;单服务器 |
Failure Domain、Subcard Redundancy |
软:无;硬:CE9860;部署:参数面 |
|
N-1299 |
存储 |
智算中心 |
MDS节点主备切换时间 |
如何计算MDS节点故障后的切换时间 |
可靠性·MDS Failover |
Step1: MDS采用主备模式,备用MDS检测到主MDS心跳超时后接管。Step2: 心跳间隔Theartbeat=1s,超时倍数Nmiss=3,切换时间Tfailover=Theartbeat×Nmiss+Ttakeover。Step3: 数学表达式:Tfailover=3s+1s=4s。Step4: 配置:HPFS集群参数可调。Step5: 要求:切换期间元数据操作暂停。Step6: 推荐:减小心跳间隔。Step7: 验证:模拟主MDS故障。 |
切换时间约4s;心跳1s |
MDS Failover、Heartbeat |
软:HPFS;硬:MDS服务器;部署:存储集群 |
|
N-1300 |
存储 |
智算中心 |
存储集群故障域(Rack-aware) |
如何设计存储节点的机架分布避免单点故障 |
可靠性·Failure Domain |
Step1: 将OSS节点分散到不同机架,每个机架的OSS数Noss_per_rack。Step2: 数据副本数R=3,容忍机架故障数F=R−1=2。Step3: 数学表达式:Nracks≥R×Noss_per_rack。Step4: 例:1230台OSS,每机架30台,需至少3×30=90机架,实际更多。Step5: 配置:HPFS支持数据副本跨机架。Step6: 推荐:每机架不超过30台。Step7: 验证:模拟机架断电。 |
容忍2个机架故障;副本数3 |
Failure Domain、Rack Awareness |
软:HPFS;硬:存储服务器;部署:机房规划 |
|
N-1301 |
存储 |
智算中心 |
冷热数据迁移触发条件 |
如何设置数据从热存储降冷存储的策略 |
策略·Migration Trigger |
Step1: 基于文件最后访问时间Tlast_access,超过阈值Tthreshold=7天则迁移。Step2: 迁移带宽BWmigrate需满足在窗口内完成。Step3: 数学表达式:Migrate=(now−Tlast_access)>Tthreshold。Step4: 配置:HPFS策略中设置。Step5: 要求:迁移期间不影响前台IO。Step6: 推荐:阈值设为7-30天。Step7: 验证:查看文件层级标签。 |
7天未访问降冷;后台迁移 |
Data Tiering、Migration Policy |
软:HPFS;硬:全闪/混闪;部署:存储策略 |
|
N-1302 |
存储 |
智算中心 |
备份流量时间窗口计算 |
如何确定全闪到混闪备份的合理时间窗口 |
规划·Backup Window |
Step1: 全闪容量Cflash,备份带宽BWbackup,窗口长度W=Cflash/BWbackup。Step2: 考虑业务高峰期避开,选择凌晨低峰期。Step3: 数学表达式:W=Cflash/BWbackup。Step4: 例:Cflash=100TB,BWbackup=10GB/s,则W=100×1024/10=10240s≈2.84h。Step5: 配置:设置备份开始时间为凌晨2点。Step6: 推荐:窗口不超过4小时。Step7: 验证:监控备份完成时间。 |
窗口2.84h;凌晨执行 |
Backup Window、Bandwidth |
软:HPFS备份策略;硬:全闪/混闪;部署:存储运维 |
|
N-1303 |
计算 |
智算中心 |
NPU AI Core与AI CPU任务划分 |
如何理解NPU中AI Core和AI CPU的分工 |
架构·Compute Unit |
Step1: AI Core负责矩阵运算(卷积、全连接),AI CPU负责标量运算(reshape、cast、非矩阵算子)。Step2: 典型比例:AI Core承担90%计算量,AI CPU承担10%。Step3: 数学表达式:Ttotal=Taicore+Taicpu。Step4: 配置:算子自动分配到合适的单元。Step5: 要求:尽量减少AI CPU上的算子。Step6: 推荐:使用NPU原生算子避免AI CPU。Step7: 验证:profiling查看aicore/aicpu耗时。 |
AI Core占90%;AI CPU占10% |
AI Core、AI CPU、Task Division |
软:Profiling;硬:Ascend 910;部署:训练调优 |
|
N-1304 |
计算 |
智算中心 |
HCCL链路建立握手时间 |
如何计算HCCL通信链路建立的初始延迟 |
通信·Handshake Latency |
Step1: HCCL在训练开始前建立所有rank之间的连接,包括TCP握手和RDMA连接。Step2: 握手时间Thandshake=Ttcp+Trdma_setup。Step3: 数学表达式:Thandshake≈Nranks×(RTT+Tproc)。Step4: 例:1024 rank,RTT=100μs,处理时间50μs,则Thandshake≈1024×150μs=153.6ms。Step5: 配置:HCCL自动完成。Step6: 推荐:连接建立后复用。Step7: 验证:首次allreduce延迟较高。 |
握手约154ms;1024 rank |
HCCL Handshake、Connection Setup |
软:HCCL;硬:Ascend 910;部署:训练启动 |
|
N-1305 |
计算 |
智算中心 |
梯度分段API set_split_strategy_by_idx 使用示例 |
如何根据梯度索引设置分段点 |
性能·Split Strategy |
Step1: 获取网络中所有梯度的索引列表(按创建顺序)。Step2: 调用 |
分段点20,100,159;4段 |
Gradient Segmentation、API |
软:hccl.split.api;硬:Ascend 910;部署:训练脚本 |
|
N-1306 |
计算 |
智控中心 |
混合精度中算子降精度判定条件 |
如何判断哪些算子会被降为FP16 |
精度·Precision Rule |
Step1: allow_mix_precision模式下,算子若支持FP16且精度损失可接受则降精度。Step2: 判定依据:算子类型(Conv2D、MatMul通常降,Softmax、LayerNorm通常保留)。Step3: 数学表达式:Op_precision={FP16,FP32,op∈{Conv,MatMul}op∈{Softmax,LayerNorm}。Step4: 配置:可通过修改aic-ascend910-ops-info.json文件强制指定。Step5: 要求:验证精度。Step6: 推荐:使用默认策略。Step7: 验证:dump对比FP16和FP32输出。 |
卷积/矩阵乘降FP16;归一化保留FP32 |
Mixed Precision、Operator Precision |
软:ops-info.json;硬:Ascend 910;部署:训练配置 |
|
N-1307 |
计算 |
智算中心 |
数据预处理卸载约束(shuffle不能卸载) |
为什么shuffle算子不能在NPU上执行 |
性能·Data Offload Constraint |
Step1: shuffle需要全局随机打乱数据,涉及大量索引操作,NPU不适合。Step2: map和batch是element-wise操作,适合NPU。Step3: 数学表达式:Offloadable={map,batch,prefetch},Not_offloadable={shuffle,TFRecordDataset}。Step4: 配置:确保shuffle在host执行,map/batch在device执行。Step5: 要求:使用prefetch会阻止卸载。Step6: 推荐:shuffle放在map之前。Step7: 验证:查看算子调度位置。 |
shuffle不能卸载;map/batch可卸载 |
Data Preprocessing、Offload Constraints |
软:TensorFlow dataset;硬:Ascend 910;部署:训练脚本 |
|
N-1308 |
计算 |
智算中心 |
CPU绑定的核数计算方法 |
如何为8卡训练分配最优CPU核数 |
性能·Core Allocation |
Step1: 总CPU核数Ctotal,NPU数Nnpu=8,每NPU分配核数Cper=Ctotal/8。Step2: 考虑超线程,物理核数需除以2。Step3: 数学表达式:Cper_physical=(Ctotal/2)/Nnpu。Step4: 例:96逻辑核(48物理核),每NPU分配12逻辑核(6物理核)。Step5: 配置:taskset -c 0-11,48-59(跨NUMA需小心)。Step6: 推荐:绑定到同一NUMA的核。Step7: 验证: |
每NPU 12逻辑核;绑定同NUMA |
CPU Binding、NUMA |
软:taskset、numactl;硬:CPU;部署:训练启动 |
|
N-1309 |
计算 |
智算中心 |
iterations_per_loop与内存的关系 |
增大iterations_per_loop为何可能增加内存占用 |
资源·Memory Impact |
Step1: iterations_per_loop增大意味着每次sess.run执行更多迭代,Host侧需缓存更多数据。Step2: 内存占用Mhost=Mgraph+Mdata_queue×Niter。Step3: 数学表达式:Mhost∝Niter。Step4: 例:N_iter=10时数据队列缓存10个batch,N_iter=100时缓存100个batch。Step5: 配置:根据Host内存调整。Step6: 推荐:不超过100。Step7: 验证:监控Host内存使用。 |
内存随N_iter线性增长;建议≤100 |
Iterations Per Loop、Memory |
软:NPURunConfig;硬:Host内存;部署:训练配置 |
|
N-1310 |
运维 |
智控中心 |
Telemetry队列缓存上报条件 |
何时会上报队列缓存数据 |
监控·Queue Telemetry |
Step1: 队列缓存数据仅在队列积压时上报,正常时不报以减少数据量。Step2: 积压阈值Tqueue=0,即只要有数据在队列中就上报。Step3: 数学表达式:Report=(queue_depth>0)。Step4: 配置:默认周期30秒,但仅在积压时有效。Step5: 要求:用于识别拥塞。Step6: 推荐:结合ECN标记分析。Step7: 验证:查看telemetry数据中队列字段。 |
队列深度>0时上报;周期30s |
Queue Telemetry、Congestion Detection |
软:Telemetry系统;硬:CE交换机;部署:监控系统 |
|
N-1311 |
运维 |
智算中心 |
网络健康看板“三看”方法 |
如何通过三步快速检查网络健康 |
运维·Health Dashboard |
Step1: 一看事件:查看故障和风险数量,点击查看详情。Step2: 二看状态:查看设备、端口、光模块是否在线。Step3: 三看性能:查看丢包、队列拥塞、带宽利用率与前一天对比。Step4: 数学表达式:Health_status=(events==0)∧(assets_normal)∧(performance_stable)。Step5: 配置:iMaster NCE-Fabric看板。Step6: 推荐:每日巡检。Step7: 验证:模拟故障看告警。 |
三步:事件→状态→性能 |
Health Dashboard、Daily Check |
软:iMaster NCE;硬:无;部署:运维流程 |
|
N-1312 |
运维 |
智算中心 |
网络风险评估5个维度 |
如何从5个维度评估网络风险 |
运维·Risk Assessment |
Step1: 五个维度:性能、可靠性、容量、一致性、稳定性。Step2: 每个维度下有若干评估项,共40+项。Step3: 数学表达式:Risk_score=∑dimwdim×scoredim。Step4: 例:性能维度包括端口利用率、队列深度等。Step5: 配置:iMaster NCE自动评估。Step6: 推荐:每周生成报告。Step7: 验证:对比评估结果与实际故障。 |
5维度40+项;自动评估 |
Risk Assessment、5 Dimensions |
软:iMaster NCE;硬:无;部署:运维平台 |
|
N-1313 |
运维 |
智算中心 |
故障1-3-5典型场景举例 |
如何自动分析光链路亚健康 |
运维·Fault Analysis |
Step1: 1分钟发现,3分钟定位,5分钟恢复。Step2: 光链路亚健康表现为误码率升高但未达到告警阈值。Step3: 数学表达式:BERcurrent>BERbaseline×10。Step4: 配置:iMaster NCE通过Telemetry采集FEC纠错计数。Step5: 要求:自动识别并派单。Step6: 推荐:定期清洁光模块。Step7: 验证:更换光模块后BER恢复正常。 |
误码率超基线10倍;1-3-5 |
Fault 1-3-5、Optical Health |
软:iMaster NCE;硬:光模块;部署:运维流程 |
|
N-1314 |
安全 |
智算中心 |
VXLAN+EVPN实现多租户隔离 |
如何通过EVPN VXLAN实现租户间L3隔离 |
安全·EVPN Isolation |
Step1: 每个租户分配一个L3 VNI,不同租户的VTEP之间不建立EVPN邻居。Step2: 数学表达式:VNItenant_A=VNItenant_B。Step3: 配置:Leaf上配置EVPN实例,导入对应RT。Step4: 要求:租户间路由隔离。Step5: 推荐:结合VLAN+ACL使用。Step6: 验证:租户A的VM ping不通租户B的VM。Step7: 相比纯VLAN+ACL,EVPN支持更大规模。 |
不同VNI;路由隔离 |
EVPN VXLAN、Multi-tenancy |
软:交换机EVPN配置;硬:CE9860;部署:参数面 |
|
N-1315 |
安全 |
智算中心 |
BGP Flowspec限速配置 |
如何通过BGP Flowspec对特定流限速 |
安全·Rate Limiting |
Step1: 定义Flowspec规则匹配五元组,动作为rate-limit。Step2: 限速值Rlimit=100Gbps。Step3: 数学表达式:Rate_action=min(packet_rate,Rlimit)。Step4: 配置: |
限速100Gbps;精确匹配 |
BGP Flowspec、Rate Limiting |
软:SE控制器;硬:CE交换机;部署:参数面 |
|
N-1316 |
安全 |
智算中心 |
ACL资源耗尽风险 |
如何评估ACL表项容量是否够用 |
安全·ACL Capacity |
Step1: 每台Leaf的ACL表项有限,如CE9860支持约16K条。Step2: 每租户需2条ACL(permit+deny),租户数Ntenant。Step3: 数学表达式:Used_acl=Ntenant×2×Nports。Step4: 例:100租户,每Leaf 32端口,则需100×2×32=6400条,小于16K。Step5: 配置:监控ACL利用率。Step6: 推荐:租户数不超过8000/端口数。Step7: 验证: |
6400条;16K容量 |
ACL Capacity、Resource Planning |
软:交换机命令;硬:CE9860;部署:安全规划 |
|
N-1317 |
网络架构 |
智算中心 |
参数面EBGP allowas-in次数 |
为何需要允许AS号重复一次 |
路由·Allowas-in |
Step1: Leaf与Spine EBGP对等体,Leaf之间通过Spine传递路由。Step2: 由于所有Leaf在同一AS,路由更新中会包含自身AS号,默认被BGP忽略。Step3: 数学表达式:Allowas_in=1。Step4: 配置: |
allowas-in 1次;同一AS |
EBGP Allowas-in、AS Number |
软:交换机配置;硬:CE9860;部署:参数面路由 |
|
N-1318 |
网络架构 |
智算中心 |
参数面ECMP负载均衡哈希算法 |
如何配置ECMP哈希因子使流量均匀分布 |
性能·ECMP Hash |
Step1: ECMP基于五元组(源IP、目的IP、源端口、目的端口、协议)哈希选路。Step2: 哈希结果均匀性Uniformity=1−avg(flow_count)max(flow_count)−min(flow_count)。Step3: 数学表达式:Hash_key=hash(src_ip,dst_ip,src_port,dst_port,proto)。Step4: 配置: |
五元组哈希;均匀性>90% |
ECMP Hash、Load Balancing |
软:交换机配置;硬:CE9860;部署:参数面 |
|
N-1319 |
存储 |
智算中心 |
存储面M-LAG peer-link故障影响 |
peer-link中断对业务有何影响 |
可靠性·Peer-link Failure |
Step1: peer-link用于同步MAC/ARP和转发跨设备流量。Step2: 中断后,双活M-LAG变为独立Leaf,流量可能丢失。Step3: 数学表达式:Timpact=Tdetect+Tconverge。Step4: 配置:peer-link使用多链路聚合,增加可靠性。Step5: 要求:检测时间<1s。Step6: 推荐:使用独立端口组。Step7: 验证:模拟peer-link断连。 |
影响时间秒级;多链路聚合 |
M-LAG Peer-link、Reliability |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1320 |
计算 |
智算中心 |
NPU训练Checkpoint恢复后Allreduce一致性 |
恢复训练时如何保证梯度同步状态一致 |
分布式·Checkpoint Consistency |
Step1: 从checkpoint恢复时,所有rank加载相同的模型参数和优化器状态。Step2: 数据加载使用相同的shard策略,确保各rank数据不重叠。Step3: 数学表达式:Staterank_irestored=Statecheckpoint。Step4: 配置:使用相同的随机种子。Step5: 要求:数据集的shuffle顺序需可重现。Step6: 推荐:设置固定的seed。Step7: 验证:恢复后loss与中断前一致。 |
状态一致;seed固定 |
Checkpoint Restore、Consistency |
软:NPUEstimator;硬:Ascend 910;部署:训练运维 |
|
N-1321 |
计算 |
智算中心 |
NPU训练动态学习率设置 |
如何在NPU上配置动态学习率 |
精度·Learning Rate |
Step1: NPU支持tf.train.exponential_decay等动态学习率。Step2: 在Estimator模式的model_fn中定义。Step3: 数学表达式:lr=lr0×decay_rateglobal_step/decay_steps。Step4: 配置:在optimizer中传入。Step5: 要求:Keras模式下不能在callback中设置。Step6: 推荐:使用warmup+cosine decay。Step7: 验证:打印学习率变化。 |
指数衰减;warmup推荐 |
Learning Rate Schedule、Decay |
软:TensorFlow API;硬:Ascend 910;部署:训练脚本 |
|
N-1322 |
计算 |
智算中心 |
NPU训练梯度裁剪 |
如何配置梯度裁剪防止梯度爆炸 |
精度·Gradient Clipping |
Step1: 在model_fn中,计算梯度后应用clip_by_global_norm。Step2: 裁剪阈值Cclip=1.0。Step3: 数学表达式:(g{clipped} = g \times \min(1, C{clip} / |
g |
||
|
N-1323 |
计算 |
智算中心 |
NPU训练Batch Size与学习率缩放 |
如何根据GPU数量线性缩放学习率 |
精度·LR Scaling |
Step1: 线性缩放法则:lrnew=lrbase×(Ngpu/Nbase)。Step2: 数学表达式:lrnew=lrbase×k。Step3: 例:base batch 256,lr 0.1,扩至1024,lr=0.4。Step4: 配置:在训练脚本中计算。Step5: 要求:同时调整warmup步数。Step6: 推荐:warmup步数也线性缩放。Step7: 验证:收敛速度。 |
线性缩放;warmup同步调整 |
LR Scaling、Linear Scaling Rule |
软:训练脚本;硬:Ascend 910;部署:训练调优 |
|
N-1324 |
计算 |
智算中心 |
NPU训练性能调优Checklist |
如何系统性地进行性能调优 |
性能·Tuning Checklist |
Step1: 检查项:混合精度、数据卸载、算子替换、梯度分段、CPU绑定、iterations_per_loop、网络PFC/ECN。Step2: 每项预期收益:混合精度1.5x,数据卸载1.2x,算子替换1.1x,梯度分段1.1x,CPU绑定1.05x,iterations_per_loop 1.1x。Step3: 数学表达式:Speedup=∏(1+gaini)。Step4: 例:全部优化后理论加速约2.5x。Step5: 配置:逐一启用并profiling。Step6: 推荐:从收益最大的开始。Step7: 验证:最终吞吐对比。 |
理论加速2.5x;逐项验证 |
Performance Tuning、Checklist |
软:Profiling;硬:Ascend 910;部署:训练调优 |
补充
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1325 |
网络架构 |
智算中心 |
参数面Leaf端口分配方案 |
如何在一台Leaf上分配上下行端口 |
架构·Port Allocation |
Step1: CE9860共32×400G端口,下行16×400G(一分二成32×200G接服务器),上行16×400G接Spine。Step2: 每台Leaf接入4台服务器(每台服务器需4个400G下行口)。Step3: 数学表达式:Down_ports=16,Up_ports=16,Servers=Down_ports/4=4。Step4: 配置:下行端口使用Y型线缆。Step5: 要求:上下行端口数相等以保证1:1收敛。Step6: 推荐:子卡对应单台服务器。Step7: 验证: |
下行16×400G;上行16×400G |
Port Allocation、Leaf Design |
软:无;硬:CE9860;部署:参数面 |
|
N-1326 |
网络架构 |
智算中心 |
参数面Spine端口分配方案 |
如何计算Spine上每个Leaf所需的端口数 |
架构·Spine Port Allocation |
Step1: 每台Spine连接所有Leaf,每个Leaf上行16口平均分配到各Spine。Step2: 若Spine=16台,每Leaf每Spine分配1个上行口。Step3: 数学表达式:Ports_per_leaf_per_spine=Uleaf/Sp=16/16=1。Step4: 若Spine=4台,则每Leaf每Spine分配4个上行口。Step5: 配置:Spine端口按Leaf数量均匀分配。Step6: 推荐:Spine数量为2的幂。Step7: 验证:检查Spine端口使用率。 |
每Spine每Leaf 1口(Sp=16);均匀分配 |
Spine Port Allocation、Uniform Distribution |
软:无;硬:CE9860/CE16800;部署:参数面 |
|
N-1327 |
网络架构 |
智算中心 |
存储面Leaf端口分配(M-LAG) |
M-LAG组网中Leaf端口如何分配上下行和peer-link |
架构·M-LAG Port Allocation |
Step1: CE8850E共32×100GE端口,上行12口,下行12口,peer-link 6口,DAD 1口,剩余1口备用。Step2: 数学表达式:Total=32,Up=12,Down=12,Peer=6,DAD=1。Step3: 配置:上下行收敛比1:1。Step4: 要求:peer-link带宽为单Leaf上行带宽的一半(12×100G/2=600G,6口×100G=600G)。Step5: 推荐:peer-link使用独立端口。Step6: 验证: |
上行12,下行12,peer-link 6 |
M-LAG Port Allocation、CE8850E |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1328 |
网络架构 |
智算中心 |
存储面去堆叠组网端口分配 |
去堆叠组网中Leaf端口如何分配 |
架构·Non-stack Port Allocation |
Step1: 去堆叠无peer-link,上行16口,下行16口。Step2: 数学表达式:Total=32,Up=16,Down=16。Step3: 配置:上下行收敛比1:1。Step4: 优势:节省peer-link端口,增加接入能力。Step5: 缺点:依赖服务器ARP双发,待验证。Step6: 推荐:M-LAG更成熟。Step7: 验证:检查ARP表项。 |
上行16,下行16;无peer-link |
Non-stack Port Allocation |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1329 |
网络架构 |
智算中心 |
参数面光模块类型选择 |
如何根据距离选择400G光模块 |
硬件·Optics Selection |
Step1: 短距(<100m)使用400G SR8(多模),中距(<2km)使用400G FR4(单模),长距(<10km)使用400G LR4。Step2: 数学表达式:CostSR<CostFR<CostLR。Step3: 例:机柜内互联使用SR8,跨机柜使用FR4。Step4: 配置:根据实际布线距离选择。Step5: 要求:光模块与线缆类型匹配。Step6: 推荐:机柜内SR8,机柜间FR4。Step7: 验证:检查光功率。 |
SR8<100m;FR4<2km;LR4<10km |
Optics Type、400G Module |
软:无;硬:400G光模块;部署:硬件选型 |
|
N-1330 |
网络架构 |
智算中心 |
参数面光纤类型选择 |
多模与单模光纤的选择依据 |
硬件·Fiber Type |
Step1: 多模(OM4)支持100m@400G,单模(OS2)支持10km+。Step2: 成本:多模光纤便宜,但光模块贵;单模光纤贵,但光模块便宜。Step3: 数学表达式:TCO=Cfiber+Coptics+Cinstall。Step4: 例:100m以内,多模TCO更低;超过100m,单模更优。Step5: 配置:机柜内用多模,机柜间用单模。Step6: 推荐:统一使用单模简化管理。Step7: 验证:测试链路误码率。 |
多模≤100m;单模>100m |
Fiber Type、Multi-mode vs Single-mode |
软:无;硬:光纤;部署:布线规划 |
|
N-1331 |
存储 |
智算中心 |
HPFS数据分布策略(条带化) |
如何将数据条带化分布到多个OSS节点 |
性能·Striping |
Step1: 文件被切分为条带(stripe),每个条带大小为Sstripe=4MB,分布到多个OSS。Step2: 条带宽度Wstripe(即OSS数),通常为4或8。Step3: 数学表达式:File_size=Nstripes×Sstripe,Nstripes=⌈File_size/Sstripe⌉。Step4: 配置:HPFS自动条带化。Step5: 要求:条带宽度不宜过大,以免小文件浪费。Step6: 推荐:大文件使用宽条带。Step7: 验证:查看文件分布。 |
条带4MB;宽度4-8 |
Striping、Object Storage |
软:HPFS;硬:OSS节点;部署:存储集群 |
|
N-1332 |
存储 |
智算中心 |
HPFS纠删码(Erasure Coding) |
如何配置纠删码以节省存储空间 |
可靠性·Erasure Coding |
Step1: 纠删码参数(k, m),k为数据块,m为校验块,存储效率E=k/(k+m)。Step2: 数学表达式:Storage_overhead=(k+m)/k。Step3: 例:(8,2)纠删码,存储效率80%,容忍2个块故障。Step4: 配置:HPFS支持多种纠删码策略。Step5: 要求:CPU开销高于副本。Step6: 推荐:冷数据用纠删码,热数据用副本。Step7: 验证:模拟磁盘故障数据重建。 |
(8,2)效率80%;容忍2故障 |
Erasure Coding、Storage Efficiency |
软:HPFS;硬:OSS节点;部署:存储策略 |
|
N-1333 |
存储 |
智算中心 |
HPFS快照与克隆 |
如何创建存储快照用于数据保护 |
可靠性·Snapshot |
Step1: 快照使用写时复制(Copy-on-Write)技术,初始不占空间。Step2: 快照空间增长速率Rsnap=Δdata×(Nsnapshots)。Step3: 数学表达式:Spacesnap=∑i=1NΔdatai。Step4: 配置:HPFS支持秒级快照。Step5: 要求:快照数量不宜过多(建议≤100)。Step6: 推荐:每日快照保留7天。Step7: 验证: |
写时复制;建议≤100个 |
Snapshot、Copy-on-Write |
软:HPFS;硬:存储集群;部署:数据保护 |
|
N-1334 |
存储 |
智算中心 |
HPFS配额管理 |
如何为租户设置存储配额 |
运营·Quota |
Step1: 设置目录级或用户级配额,包括容量配额Qcap和文件数配额Qfiles。Step2: 数学表达式:Usagecap≤Qcap,Usagefiles≤Qfiles。Step3: 配置: |
容量+文件数配额;超出拒绝写入 |
Quota Management、Tenant Isolation |
软:HPFS;硬:存储集群;部署:运营管理 |
|
N-1335 |
计算 |
智算中心 |
NPU算子融合(Operator Fusion) |
如何通过算子融合减少kernel启动开销 |
性能·Operator Fusion |
Step1: 将多个连续的小算子合并为一个kernel,减少启动次数。Step2: 启动开销Tlaunch=10μs,融合后Tfused=Tcompute+Tlaunch。Step3: 数学表达式:Speedup=Tlaunch+Tcompute_fused∑Tlaunch_i+∑Tcompute_i。Step4: 例:5个算子各1μs计算+10μs启动=55μs,融合后5μs计算+10μs启动=15μs,加速3.67倍。Step5: 配置:GE图编译器自动融合。Step6: 推荐:使用allow_mix_precision时自动优化。Step7: 验证:profiling查看kernel数量。 |
启动10μs;融合减少启动 |
Operator Fusion、Kernel Launch |
软:GE编译器;硬:Ascend 910;部署:训练优化 |
|
N-1336 |
计算 |
智算中心 |
NPU内存复用(Memory Reuse) |
如何通过内存复用降低显存占用 |
资源·Memory Reuse |
Step1: 中间张量生命周期不重叠时可复用同一块显存。Step2: 复用率Rreuse=1−Peak_memory/Sum_tensor_sizes。Step3: 数学表达式:Peak_mem=maxt∑live_tensors(t)size。Step4: 配置:GE编译器自动优化。Step5: 要求:模型结构固定时效果最好。Step6: 推荐:启用graph_memory_max_size自动管理。Step7: 验证: |
复用率可达30%-50%;自动优化 |
Memory Reuse、Tensor Lifetime |
软:GE编译器;硬:Ascend 910;部署:训练优化 |
|
N-1337 |
计算 |
智算中心 |
NPU数据并行梯度累积 |
如何配置梯度累积增大有效batch size |
性能·Gradient Accumulation |
Step1: 每N步累积梯度后再更新参数,等效batch size BSeff=BS×N。Step2: 数学表达式:Gaccum=∑i=1Ngi,Wt+1=Wt−lr×Gaccum。Step3: 配置:在model_fn中手动实现。Step4: 要求:loss scaling需相应调整。Step5: 推荐:N=2-8。Step6: 验证:loss曲线平滑。 |
等效batch×N;N=2-8 |
Gradient Accumulation、Effective Batch Size |
软:训练脚本;硬:Ascend 910;部署:训练配置 |
|
N-1338 |
计算 |
智算中心 |
NPU通信与计算重叠(AllReduce overlap) |
如何配置异步AllReduce实现重叠 |
性能·Comm Overlap |
Step1: 将梯度分为两部分,第一部分梯度计算完成后立即启动AllReduce,同时计算第二部分。Step2: 重叠度O=min(1,Tcompute_part2/Tar_part1)。Step3: 数学表达式:Tstep_eff=max(Tcompute_total,Tar_total)。Step4: 配置:NPUDistributedOptimizer默认启用。Step5: 要求:梯度分段策略合理。Step6: 推荐:通过profiling调整分段比例。Step7: 验证:观察step时间是否接近计算时间。 |
完全重叠时step时间=计算时间 |
Comm Overlap、Async AllReduce |
软:NPUDistributedOptimizer;硬:Ascend 910;部署:训练配置 |
|
N-1339 |
计算 |
智算中心 |
NPU训练日志级别设置 |
如何设置日志级别减少性能干扰 |
运维·Log Level |
Step1: 默认日志级别为info,会产生大量日志影响性能。Step2: 设置为error级别。Step3: 数学表达式:Log_volume∝10level_diff(info比error多约100倍)。Step4: 配置: |
error级别;减少日志量 |
Log Level、Performance Impact |
软:环境变量;硬:Ascend 910;部署:训练配置 |
|
N-1340 |
计算 |
智算中心 |
NPU训练Dump数据清理 |
如何清理Dump数据释放磁盘空间 |
运维·Dump Cleanup |
Step1: Dump数据量大(几十GB/步),需及时清理。Step2: 数学表达式:Space_dump=Nsteps×Size_per_step。Step3: 配置:设置dump_step为单步。Step4: 推荐:只在调试时开启。Step5: 清理: |
单步几十GB;调试后清理 |
Dump Data、Disk Space |
软:Linux命令;硬:无;部署:运维操作 |
|
N-1341 |
网络架构 |
智算中心 |
参数面PFC headroom缓存计算 |
如何计算headroom缓存大小 |
性能·Headroom Buffer |
Step1: Headroom用于吸收PFC反压帧发送期间的飞行报文。Step2: 计算公式:Headroom=RTT×BWport+cable_buffer。Step3: 数学表达式:Headroom=(Tprop+Tresp)×BWport。Step4: 例:100G端口,RTT=1μs(100米光纤),则Headroom=1μs×100Gbps=100Kb=12.5KB。Step5: 配置:100G端口推荐330 cells(约13KB)。Step6: 调参:长距线缆适当调高。Step7: 验证:检查入方向丢包。 |
330 cells;100米 |
Headroom Buffer、PFC |
软:交换机配置;硬:CE交换机;部署:参数面/存储面 |
|
N-1342 |
网络架构 |
智算中心 |
参数面ECN响应时间分析 |
如何计算ECN从标记到响应的闭环时间 |
性能·ECN Response Time |
Step1: ECN标记后,接收端反馈CNP报文,发送端降速。Step2: 闭环时间Tecn_loop=Tmark+Tcnp_tx+Tprop+Treact。Step3: 数学表达式:Tecn_loop≈2×RTT+Treact。Step4: 例:RTT=10μs,Treact=1μs,则T=21μs。Step5: 配置:需确保ECN水线对应的队列深度能容纳这段时间的报文。Step6: 推荐:RTT越长,ECN水线应越高。Step7: 验证:监测ECN标记到降速的延迟。 |
约2×RTT+1μs;RTT决定水线 |
ECN Response、Closed-loop |
软:交换机配置;硬:CE交换机;部署:参数面/存储面 |
|
N-1343 |
网络架构 |
智算中心 |
存储面M-LAG DAD链路用途 |
DAD链路的作用是什么 |
可靠性·DAD Link |
Step1: DAD(Dual-Active Detection)链路用于检测M-LAG对端设备是否存活。Step2: 当peer-link故障时,通过DAD链路判断对端是否仍为主设备。Step3: 数学表达式:DAD_interval=1s,DAD_timeout=3s。Step4: 配置:使用独立端口或带外管理网。Step5: 要求:DAD链路必须可靠。Step6: 推荐:使用独立物理端口。Step7: 验证: |
间隔1s;超时3s |
DAD Link、M-LAG Reliability |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1344 |
存储 |
智算中心 |
HPFS存储集群扩容流程 |
如何在线扩容OSS节点 |
运维·Expansion |
Step1: 新增OSS节点,加入集群,数据自动重新平衡。Step2: 重新平衡带宽BWrebalance需控制以免影响业务。Step3: 数学表达式:Trebalance=Datato_move/BWrebalance。Step4: 例:新增10%容量,数据移动10TB,BW=1GB/s,则T=10000s≈2.8h。Step5: 配置:设置rebalance限速。Step6: 推荐:在业务低峰期进行。Step7: 验证: |
限速1GB/s;2.8小时 |
Online Expansion、Rebalance |
软:HPFS;硬:OSS节点;部署:存储运维 |
|
N-1345 |
存储 |
智算中心 |
HPFS存储集群缩容流程 |
如何安全下线OSS节点 |
运维·Decommission |
Step1: 标记节点为下线状态,数据迁移到其他节点。Step2: 迁移完成后节点自动脱离集群。Step3: 数学表达式:Tdecom=Dataon_node/BWmigrate。Step4: 例:节点存储50TB,迁移BW=2GB/s,则T=25000s≈6.9h。Step5: 配置: |
迁移6.9h;限速2GB/s |
Decommission、Data Migration |
软:HPFS;硬:OSS节点;部署:存储运维 |
|
N-1346 |
计算 |
智算中心 |
NPU训练多进程启动(mpi) |
如何使用mpi启动分布式训练 |
分布式·MPI Launch |
Step1: 使用 |
进程数=服务器×8;rank_table |
MPI Launch、Process Management |
软:mpirun、rank_table;硬:Ascend 910;部署:训练启动 |
|
N-1347 |
计算 |
智算中心 |
NPU训练rank_table文件配置 |
如何编写rank_table.json文件 |
分布式·Rank Table |
Step1: rank_table包含服务器IP、设备ID、网卡IP等信息。Step2: 数学表达式:Rank_table={server_list:[device:[ip,nic]]}。Step3: 配置:使用 |
自动生成;包含IP映射 |
Rank Table、HCCL Config |
软:hccl_tools;硬:Ascend 910;部署:训练配置 |
|
N-1348 |
计算 |
智算中心 |
NPU训练HCCL环境变量汇总 |
常用HCCL环境变量及其作用 |
分布式·Env Variables |
Step1: |
grep HCCL`。Step6: 注意:不同版本可能有差异。Step7: 文档:参考华为HCCL用户指南。 |
超时300s;重试5次 |
HCCL Env Variables、Configuration |
|
N-1349 |
计算 |
智算中心 |
NPU训练HCCL通信带宽测试 |
如何测试HCCL的实际通信带宽 |
性能·Bandwidth Test |
Step1: 使用HCCL提供的 |
1G消息;线速90% |
Bandwidth Test、HCCL Benchmark |
软:hccn_tool;硬:Ascend 910;部署:验收测试 |
|
N-1350 |
计算 |
智算中心 |
NPU训练HCCL通信延迟测试 |
如何测试HCCL的点对点延迟 |
性能·Latency Test |
Step1: 使用 |
8字节;同服务器<5μs |
Latency Test、Pingpong |
软:hccn_tool;硬:Ascend 910;部署:验收测试 |
|
N-1351 |
计算 |
智算中心 |
NPU训练HCCL通信模式选择 |
如何选择AllReduce的通信模式(Simple/PLL) |
性能·Communication Mode |
Step1: Simple模式使用普通RDMA,PLL模式使用Pipelined Low Latency。Step2: PLL适合小消息,Simple适合大消息。Step3: 数学表达式:Mode={PLL,Simple,size<1MBsize≥1MB。Step4: 配置: |
1MB阈值;自动选择 |
Communication Mode、PLL |
软:HCCL;硬:Ascend 910;部署:训练配置 |
|
N-1352 |
计算 |
智算中心 |
NPU训练HCCL通信组(communicator) |
如何创建和使用子通信组 |
分布式·Communicator |
Step1: HCCL支持创建多个communicator,实现组内通信隔离。Step2: 数学表达式:Comm_world=all_ranks,Comm_sub=subset_ranks。Step3: 配置:使用 |
子组通信;框架自动 |
Communicator、Subgroup |
软:HCCL API;硬:Ascend 910;部署:训练配置 |
|
N-1353 |
计算 |
智算中心 |
NPU训练HCCL通信异常处理 |
通信异常时如何定位 |
运维·Communication Debug |
Step1: 常见异常:超时、连接断开、数据校验错误。Step2: 查看日志: |
查看日志;debug模式 |
Communication Debug、Error Code |
软:HCCL debug;硬:Ascend 910;部署:运维 |
|
N-1354 |
计算 |
智算中心 |
NPU训练HCCL与NCCL对比 |
HCCL与NCCL在功能和性能上的异同 |
架构·HCCL vs NCCL |
Step1: HCCL是华为自研,NCCL是NVIDIA自研,两者API不完全兼容。Step2: 性能:同等条件下HCCL可达NCCL的95%以上。Step3: 数学表达式:BWHCCL≈0.95×BWNCCL。Step4: 功能:HCCL支持AllReduce、AllGather、ReduceScatter等,与NCCL基本一致。Step5: 配置:HCCL通过环境变量调优,NCCL通过nccl.conf。Step6: 推荐:华为平台使用HCCL。Step7: 验证:运行标准benchmark对比。 |
性能95%+;API不同 |
HCCL vs NCCL、Comparison |
软:HCCL、NCCL;硬:Ascend 910、NVIDIA GPU;部署:平台对比 |
聚焦于网络架构、存储、计算的更深层细节,基于华为文档内容,每个条目包含逐步推理的数学表达式推导,全部中文描述。
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1355 |
网络架构 |
智算中心 |
参数面Spine端口利用率均衡 |
如何确保所有Spine的端口利用率均衡 |
性能·Spine Load Balance |
Step1: 每个Leaf的上行端口均匀分配到所有Spine,采用轮询或哈希方式。Step2: 若Spine数量为S,每Leaf上行U口,则每Leaf向每Spine连接U/S条链路。Step3: 数学表达式:Linksleaf_to_spine=U/S,需为整数。Step4: 例:U=16,S=16,则每Leaf每Spine 1条链路。Step5: 配置:确保U能被S整除。Step6: 推荐:Spine数量选为U的因数。Step7: 验证:监控各Spine端口流量偏差<10%。 |
每Leaf每Spine 1链路;整除 |
Load Balance、Spine Utilization |
软:无;硬:CE9860;部署:参数面 |
|
N-1356 |
网络架构 |
智算中心 |
参数面BGP路由收敛时间 |
如何计算链路故障后BGP路由收敛时间 |
可靠性·BGP Convergence |
Step1: BGP收敛时间包括故障检测、路由撤销、新路由传播。Step2: 使用BFD快速检测,检测时间Tbfd=3×Tinterval,通常Tinterval=10ms,则Tbfd=30ms。Step3: 数学表达式:Tconverge=Tbfd+Twithdraw+Tpropagation。Step4: 若Twithdraw=10ms,Tpropagation=20ms,则Tconverge=60ms。Step5: 配置:启用BFD for BGP。Step6: 推荐:BFD间隔10ms,倍数3。Step7: 验证: |
收敛约60ms;BFD 10ms×3 |
BGP Convergence、BFD |
软:交换机配置;硬:CE9860;部署:参数面 |
|
N-1357 |
网络架构 |
智算中心 |
参数面BGP路由条目数量估算 |
如何估算参数面BGP路由表中的路由条目数 |
路由·Route Scale |
Step1: 每台服务器有8个NPU,每个NPU一个IP,服务器总数S。Step2: 每条路由对应一个NPU IP,总路由数R=S×8。Step3: 数学表达式:R=8S。Step4: 例:1024卡对应128台服务器,路由数=1024条。Step5: 加上Loopback和管理地址,约1100条。Step6: 配置:Spine和Leaf需支持至少10K路由条目。Step7: 验证: |
1024卡约1024条;支持10K |
Route Scale、BGP Table |
软:无;硬:CE9860;部署:参数面 |
|
N-1358 |
网络架构 |
智算中心 |
参数面VXLAN隧道数量估算 |
如何估算EVPN VXLAN场景下的隧道数量 |
虚拟化·VXLAN Tunnel |
Step1: 每个Leaf作为VTEP,与其他所有Leaf建立VXLAN隧道。Step2: 隧道数T=L×(L−1)/2(Full-mesh)。Step3: 数学表达式:T=L(L−1)/2。Step4: 例:32台Leaf,隧道数=32×31/2=496条。Step5: 配置:Leaf需支持至少500条VXLAN隧道。Step6: 推荐:使用EVPN自动建立。Step7: 验证: |
32 Leaf共496条隧道;Full-mesh |
VXLAN Tunnel、EVPN |
软:交换机配置;硬:CE9860;部署:参数面 |
|
N-1359 |
网络架构 |
智算中心 |
参数面QoS队列映射 |
如何将RoCEv2流量映射到指定优先级队列 |
QoS·Priority Mapping |
Step1: 根据DSCP值映射到本地优先级,RoCEv2通常使用DSCP 26(CS3)。Step2: 映射关系:DSCP 26 → 本地优先级4。Step3: 数学表达式:Local_pri=DSCP_to_local[DSCP]。Step4: 配置: |
DSCP 26 → 优先级4;单优先级 |
QoS Mapping、DSCP |
软:交换机配置;硬:CE9860;部署:参数面/存储面 |
|
N-1360 |
网络架构 |
智算中心 |
参数面PFC开启端口范围 |
哪些端口需要开启PFC |
可靠性·PFC Scope |
Step1: 所有可能承载RoCEv2流量的端口都必须开启PFC。Step2: 包括:服务器接入端口、Leaf-Spine互联端口、Spine-Leaf互联端口、Peer-link端口。Step3: 数学表达式:Portspfc={all_ports_carrying_roce}。Step4: 配置:在系统视图下批量配置。Step5: 要求:不能遗漏。Step6: 推荐:全局开启。Step7: 验证: |
所有RoCE端口;全局开启 |
PFC Scope、RoCE Ports |
软:交换机配置;硬:CE9860/CE8850E;部署:参数面/存储面 |
|
N-1361 |
存储 |
智算中心 |
HPFS客户端缓存策略 |
如何配置客户端缓存减少网络IO |
性能·Client Cache |
Step1: 客户端缓存热数据,缓存命中率H,减少网络IO比例。Step2: 有效IO带宽BWeff=BWnet/(1−H)。Step3: 数学表达式:IOsaved=H×IOtotal。Step4: 例:H=40%,则网络IO减少40%。Step5: 配置: |
命中率40%;缓存为内存10% |
Client Cache、Cache Hit Ratio |
软:HPFS客户端;硬:计算节点内存;部署:存储客户端 |
|
N-1362 |
存储 |
智算中心 |
HPFS小文件性能优化 |
如何优化小文件(<64KB)的读写性能 |
性能·Small File |
Step1: 小文件合并为大文件存储(Harvesting),减少元数据开销。Step2: 合并后IOPS提升倍数G=IOPSseparateIOPSmerged。Step3: 数学表达式:IOPSmerged≈SizemergedBWdisk。Step4: 例:10000个小文件各4KB,合并为100个大文件各400KB,IOPS提升约100倍。Step5: 配置:HPFS自动合并或手动归档。Step6: 推荐:小文件先打包再存储。Step7: 验证:对比合并前后IOPS。 |
合并提升100倍;4KB→400KB |
Small File Optimization、Harvesting |
软:HPFS;硬:存储集群;部署:存储策略 |
|
N-1363 |
存储 |
智算中心 |
HPFS元数据缓存 |
如何配置MDS的元数据缓存提高性能 |
性能·Metadata Cache |
Step1: MDS将热点元数据缓存在内存中,减少磁盘访问。Step2: 缓存命中率Hmeta,平均元数据延迟Lmeta=Hmeta×Lcache+(1−Hmeta)×Ldisk。Step3: 数学表达式:Lmeta_avg=H×10μs+(1−H)×1ms。Step4: 例:H=90%,则L=0.9×10+0.1×1000=109μs。Step5: 配置:MDS内存至少64GB。Step6: 推荐:缓存大小为元数据总量的10%。Step7: 验证: |
命中率90%;延迟109μs |
Metadata Cache、MDS |
软:HPFS;硬:MDS服务器;部署:存储集群 |
|
N-1364 |
存储 |
智算中心 |
HPFS数据一致性模型 |
HPFS提供哪种一致性模型 |
可靠性·Consistency |
Step1: HPFS提供强一致性(Strong Consistency),写入成功后立即可读。Step2: 通过分布式锁和日志实现。Step3: 数学表达式:Write_complete⇒Read_visible。Step4: 配置:默认。Step5: 要求:训练场景需要强一致性保证checkpoint正确。Step6: 推荐:保持默认。Step7: 验证:并发读写测试。 |
强一致性;写入立即可见 |
Consistency Model、Strong Consistency |
软:HPFS;硬:存储集群;部署:存储策略 |
|
N-1365 |
计算 |
智算中心 |
NPU算子Profiling详细分析方法 |
如何分析单个算子的耗时和带宽 |
性能·Op Profiling |
Step1: 使用Profiling的op_trace模式,记录每个算子的开始和结束时间。Step2: 计算算子带宽BWop=Output_size/Top。Step3: 数学表达式:Top=Tend−Tstart。Step4: 例:Conv2D输出10MB,耗时100μs,带宽=100GB/s。Step5: 配置:设置 |
算子带宽100GB/s;op_trace |
Op Profiling、Bandwidth |
软:Profiling工具;硬:Ascend 910;部署:训练调优 |
|
N-1366 |
计算 |
智算中心 |
NPU AI Core利用率计算 |
如何计算AI Core的计算利用率 |
性能·AI Core Utilization |
Step1: AI Core理论算力Ppeak=256TFLOPS(FP16)。Step2: 实际有效算力Pactual=TcomputeFLOPs。Step3: 数学表达式:Utilization=Pactual/Ppeak。Step4: 例:ResNet-50一次前向需要7.7GFLOPs,耗时10ms,则Pactual=770GFLOPS,利用率=0.77/256=0.3%。Step5: 实际利用率受限于内存带宽和算子效率。Step6: 配置:通过Profiling获取FLOPs。Step7: 推荐:优化内存访问模式。 |
利用率0.3%(ResNet-50);受限于带宽 |
AI Core Utilization、FLOPs |
软:Profiling;硬:Ascend 910;部署:训练调优 |
|
N-1367 |
计算 |
智算中心 |
NPU内存带宽测试 |
如何测试NPU的HBM带宽 |
性能·Memory Bandwidth |
Step1: 使用自定义kernel进行连续读写测试。Step2: 数学表达式:BWmem=Data_size/Tread_or_write。Step3: 例:Ascend 910 HBM带宽约1.2TB/s,实测应>1TB/s。Step4: 配置:运行 |
理论1.2TB/s;实测>1TB/s |
Memory Bandwidth、HBM |
软:测试工具;硬:Ascend 910;部署:验收测试 |
|
N-1368 |
计算 |
智算中心 |
NPU训练FP16与FP32混合精度Loss对比 |
如何验证混合精度训练的Loss曲线是否正常 |
精度·Loss Comparison |
Step1: 分别在FP32和混合精度下训练相同步数,记录Loss。Step2: 计算Loss差异(D = |
Loss{fp32} - Loss{mixed} |
)。Step3: 数学表达式:(D_{avg} = \frac{1}{N}\sum |
Loss{fp32} - Loss{mixed} |
|
N-1369 |
计算 |
智算中心 |
NPU训练梯度直方图分析 |
如何通过梯度直方图诊断训练问题 |
精度·Gradient Histogram |
Step1: 收集梯度值,绘制直方图。Step2: 正常梯度分布近似正态分布,均值接近0。Step3: 数学表达式:Histogram(g)=count(g∈bini)。Step4: 异常:梯度消失(集中在0附近)、梯度爆炸(有大值)。Step5: 配置:在训练脚本中添加summary。Step6: 推荐:监控梯度范数。Step7: 验证:TensorBoard查看histogram。 |
正态分布;监控消失/爆炸 |
Gradient Histogram、Diagnosis |
软:TensorBoard;硬:Ascend 910;部署:训练调优 |
|
N-1370 |
计算 |
智算中心 |
NPU训练学习率warmup策略 |
如何配置学习率warmup |
精度·Warmup |
Step1: 前W步学习率从0线性增加到lrbase。Step2: 数学表达式:lr(t)=lrbase×min(1,t/W)。Step3: 配置:在model_fn中实现。Step4: 例:W=1000,lrbase=0.001,第500步lr=0.0005。Step5: 推荐:W约为总步数的5%。Step6: 验证:打印学习率。Step7: 注意:大batch需要更长的warmup。 |
线性warmup;W=总步数5% |
Warmup、Learning Rate Schedule |
软:TensorFlow API;硬:Ascend 910;部署:训练脚本 |
|
N-1371 |
计算 |
智算中心 |
NPU训练Batch Normalization同步 |
分布式训练中BN层如何同步均值和方差 |
分布式·Sync BN |
Step1: 分布式训练中,每个NPU计算本地的均值和方差,然后通过AllReduce同步。Step2: 数学表达式:μglobal=N1∑μi,σglobal2=N1∑σi2。Step3: 配置:使用 |
全局均值/方差;AllReduce |
Sync BN、Batch Normalization |
软:TensorFlow API;硬:Ascend 910;部署:训练脚本 |
|
N-1372 |
计算 |
智算中心 |
NPU训练权重衰减(Weight Decay) |
如何正确配置权重衰减 |
精度·Weight Decay |
Step1: 权重衰减在损失中加入正则项(\lambda |
W |
||
|
N-1373 |
运维 |
智算中心 |
Telemetry数据北向对接Kafka |
如何将Telemetry数据推送到Kafka |
监控·Kafka Integration |
Step1: 交换机通过gRPC将Telemetry数据上报到采集器,采集器写入Kafka。Step2: 数据格式为Protobuf。Step3: 数学表达式:Topic=telemetry_device_metrics。Step4: 配置:采集器配置Kafka broker地址。Step5: 要求:Kafka集群可用。Step6: 推荐:使用3副本保证可靠性。Step7: 验证: |
Protobuf格式;3副本 |
Kafka Integration、Telemetry |
软:Kafka、采集器;硬:CE交换机;部署:监控平台 |
|
N-1374 |
运维 |
智算中心 |
网络健康度评分模型 |
如何计算网络整体健康度分数 |
运维·Health Score |
Step1: 健康度由多个维度加权计算:设备健康度、链路健康度、性能健康度、安全健康度。Step2: 数学表达式:Health=w1×Hdevice+w2×Hlink+w3×Hperf+w4×Hsecurity。Step3: 例:w=[0.3,0.3,0.3,0.1],各项满分100,则总分100。Step4: 配置:iMaster NCE自动计算。Step5: 要求:低于80分触发告警。Step6: 推荐:每周查看趋势。Step7: 验证:模拟故障观察分数下降。 |
加权平均;满分100 |
Health Score、Weighted Model |
软:iMaster NCE;硬:无;部署:运维平台 |
|
N-1375 |
运维 |
智算中心 |
网络变更自动化回滚脚本 |
如何编写自动回滚脚本 |
自动化·Rollback Script |
Step1: 变更前备份当前配置到TFTP服务器。Step2: 变更后执行连通性测试,失败则自动恢复备份配置。Step3: 数学表达式:Trollback=Tdetect+Tapply_backup。Step4: 例:检测30s,恢复20s,总50s。Step5: 配置:使用Python脚本调用NETCONF。Step6: 推荐:关键变更启用。Step7: 验证:模拟配置错误。 |
回滚50s;NETCONF |
Rollback Script、Automation |
软:Python、NETCONF;硬:CE交换机;部署:运维流程 |
|
N-1376 |
运维 |
智算中心 |
网络配置备份策略 |
如何制定配置备份频率和保留策略 |
运维·Backup Policy |
Step1: 每日备份一次,保留最近30天的配置。Step2: 备份存储空间Space=Ndevices×Sizeconfig×30。Step3: 数学表达式:Space=600×100KB×30=1.8GB。Step4: 配置:使用SFTP上传到备份服务器。Step5: 推荐:变更前后手动备份。Step6: 验证: |
每日备份;保留30天 |
Backup Policy、Configuration Backup |
软:脚本、SFTP;硬:备份服务器;部署:运维流程 |
|
N-1377 |
网络架构 |
智算中心 |
参数面MTU配置 |
如何配置MTU以获得最佳性能 |
性能·MTU |
Step1: RoCEv2建议使用巨型帧(MTU 9000),减少CPU开销。Step2: 数学表达式:Throughput_gain=PayloadstandardPayloadjumbo≈6倍。Step3: 配置:交换机端口和服务器网卡均设置MTU 9000。Step4: 要求:整网一致。Step5: 推荐:9000字节。Step6: 验证: |
MTU 9000;吞吐提升6倍 |
MTU、Jumbo Frame |
软:交换机/网卡配置;硬:CE9860、RoCE网卡;部署:参数面 |
|
N-1378 |
网络架构 |
智算中心 |
参数面流控模式选择(PFC vs ECN) |
何时只用PFC,何时配合ECN |
QoS·Flow Control |
Step1: PFC提供无损保证,ECN提供拥塞通知。Step2: 两者配合使用时,PFC作为最后手段,ECN主动降速避免PFC。Step3: 数学表达式:Strategy=PFC_only∪ECN+PFC。Step4: 推荐:同时开启PFC和ECN。Step5: 配置:PFC开启,ECN开启。Step6: 验证:监控PFC暂停帧和ECN标记。Step7: 注意:纯PFC可能导致PFC死锁。 |
同时开启;ECN主动,PFC兜底 |
PFC vs ECN、Flow Control |
软:交换机配置;硬:CE9860;部署:参数面/存储面 |
|
N-1379 |
存储 |
智算中心 |
HPFS存储池(Pool)设计 |
如何划分存储池以满足不同性能需求 |
架构·Storage Pool |
Step1: 将不同性能的磁盘(全闪、混闪)划分为不同的存储池。Step2: 每个池有自己的QoS策略。Step3: 数学表达式:Pool={disk_type,QoS_policy}。Step4: 配置: |
全闪池+混闪池;不同QoS |
Storage Pool、Tiering |
软:HPFS;硬:全闪/混闪盘框;部署:存储策略 |
|
N-1380 |
计算 |
智算中心 |
NPU训练自动混合精度(AMP) |
如何使用AMP API简化混合精度配置 |
精度·AMP |
Step1: TensorFlow的AMP自动管理Loss Scaling和精度转换。Step2: 使用 |
自动重写图;简化配置 |
Automatic Mixed Precision、AMP |
软:TensorFlow AMP;硬:Ascend 910;部署:训练脚本 |
|
N-1381 |
计算 |
智算中心 |
NPU训练Horovod Timeline分析 |
如何使用Horovod Timeline分析通信性能 |
性能·Horovod Timeline |
Step1: 设置环境变量 |
生成timeline.json;chrome查看 |
Horovod Timeline、Visualization |
软:Horovod;硬:Ascend 910;部署:训练调优 |
|
N-1382 |
计算 |
智算中心 |
NPU训练分布式策略选择指南 |
何时使用数据并行、模型并行、流水线并行 |
架构·Strategy Selection |
Step1: 模型大小决定并行策略:小模型(<1B)用数据并行,中等(1B-10B)用数据+模型并行,大模型(>10B)用数据+模型+流水线并行。Step2: 数学表达式:Strategy=f(model_size,GPU_memory)。Step3: 例:175B模型,每GPU显存80GB,TP=8,PP=16,DP=64,则每GPU显存=175e9/(8 * 16 * 64)2≈42.7GB。Step4: 配置:使用Megatron-LM或DeepSpeed。Step5: 推荐:TP在节点内,PP跨节点,DP跨所有节点。Step6: 验证:检查显存使用和通信占比。Step7*: 注意:通信开销随并行度增加。 |
175B模型需TP+PP+DP;显存42.7GB |
Strategy Selection、Megatron-LM |
软:Megatron-LM、DeepSpeed;硬:Ascend 910;部署:训练配置 |
|
N-1383 |
计算 |
智算中心 |
NPU训练ZeRO优化器使用 |
如何在NPU上配置ZeRO优化器 |
分布式·ZeRO |
Step1: ZeRO将优化器状态、梯度、参数分片到各NPU。Step2: ZeRO-3通信量Comm=3×model_size×(N−1)/N。Step3: 数学表达式:Memper_gpu=model_size/N×(2+2+4)=model_size/N×8(FP16参数+梯度+FP32优化器状态)。Step4: 例:175B模型,N=1024,每GPU显存=175e9/1024×8≈1.37GB,加上激活值等,总计约40GB。Step5: 配置:DeepSpeed中 |
ZeRO-3每GPU 1.37GB参数;通信量3倍模型 |
ZeRO、DeepSpeed |
软:DeepSpeed;硬:Ascend 910;部署:训练配置 |
|
N-1384 |
计算 |
智算中心 |
NPU训练性能调优总结与最佳实践 |
综合所有优化手段的最佳实践清单 |
性能·Best Practice |
Step1: 必选:混合精度(allow_mix_precision)、数据卸载(enable_data_pre_proc)、iterations_per_loop=10、CPU绑定。Step2: 可选:算子替换(dropout/gelu)、梯度分段调优、增大batch size。Step3: 数学表达式:Expected_speedup=1.5×1.2×1.1×1.05×1.1≈2.3x。Step4: 配置:逐一验证。Step5: 推荐:使用Profiling指导调优。Step6: 验证:最终吞吐对比基线。Step7: 注意:不同网络收益不同。 |
综合加速约2.3x;逐项验证 |
Best Practice、Performance Summary |
软:Profiling;硬:Ascend 910;部署:训练调优 |
🌐 网络方向(N-1385 ~ N-1402,共18条)
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1385 |
网络架构 |
智算中心 |
参数面2级CLOS三种规模对比 |
对比1024/9216/18432卡三种组网的Spine-Leaf配比 |
架构·Scale Comparison |
Step1: 1024卡:Leaf=32(CE9860盒式),Spine=16(CE9860),单Spine 32×400G。Step2: 9216卡:Leaf=288(CE9860),Spine=16(CE16808,每Spine 288×400G)。Step3: 18432卡:Leaf=576(CE9860),Spine=16(CE16816,每Spine 576×400G)。Step4: 收敛比均为1:1,Leaf上行16×400G,Spine总端口需≥L×16。Step5: 数学表达式:Spine端口校验 Pspine×Sp≥L×16。Step6: 1024卡:32×16=512 ≤ 16×32=512 ✓;9216卡:288×16=4608 ≤ 16×288=4608 ✓;18432卡:576×16=9216 ≤ 16×576=9216 ✓。Step7: 推荐:超过9216卡用CE16816框式。 |
三种规模均1:1收敛;Spine端口完全利用 |
2级CLOS、Scale-out |
软:无;硬:CE9860/CE16808/CE16816;部署:参数面 |
|
N-1386 |
网络架构 |
智算中心 |
存储面M-LAG与去堆叠设备数量对比 |
对比同规模下M-LAG vs 去堆叠的Leaf数量差异 |
架构·M-LAG vs Non-stack |
Step1: 1024卡场景,M-LAG:计算Leaf 11对=22台,存储Leaf 7对=14台,共36台Leaf+4 Spine=40台。Step2: 去堆叠:计算Leaf 8对=16台,存储Leaf 5对=10台,共26台Leaf+4 Spine=30台。Step3: 差异:去堆叠省6台Leaf(每对Leaf上下行各多4口,因无peer-link)。Step4: 数学表达式:Saving=(Pairsmlag−Pairsnonstack)×2。Step5: 代价:去堆叠依赖服务器ARP双发(文档标注"待验证")。Step6: 推荐:生产用M-LAG更稳。Step7: 验证:对比Peer-link故障场景。 |
去堆叠省6台Leaf;ARP双发待验证 |
M-LAG、去堆叠 |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1387 |
网络架构 |
智算中心 |
存储面Spine端口压力(18432卡) |
18432卡存储面Spine端口数校验 |
性能·Spine Port Pressure |
Step1: 18432卡对应2304台计算服务器+1230台存储服务器=3534台,每服务器2×100GE接入。Step2: 计算Leaf对数=2304/16=144对=288台;存储Leaf对数=1230/16≈77对=154台;合计Leaf 442台。Step3: 每台Leaf上行16×100GE,总上行口=442×16=7072。Step4: 16台CE16816,每Spine 768×100GE,总Spine端口=16×768=12288,利用率=7072/12288=57.5%。Step5: 数学表达式:Util=Sp×PspineL×16。Step6: 配置:CE16816每业务板48×100GE,16板。Step7: 推荐:利用率<60%留余量。 |
利用率57.5%;留余量 |
Spine Port Pressure、CE16816 |
软:无;硬:CE16816;部署:存储面 |
|
N-1388 |
网络架构 |
智算中心 |
参数面EBGP邻居规模极限 |
Spine的EBGP邻居数是否会成为瓶颈 |
路由·EBGP Scale |
Step1: 18432卡场景,Leaf=576台,每台Spine与576台Leaf建EBGP邻居。Step2: 单Spine邻居数=576,4台Spine共2304邻居(但每台Spine独立算)。Step3: CE16816的BGP邻居规格通常≥8K,576远未达上限。Step4: 数学表达式:Neighborspine=L=576。Step5: 若扩展到万卡以上(Leaf>2000),需注意BGP进程内存。Step6: 配置:Spine AS统一,Leaf AS统一+allowas-in 1。Step7: 推荐:超大规模可考虑路由反射器。 |
单Spine 576邻居;CE16816规格够 |
EBGP Neighbor、Scale Limit |
软:BGP配置;硬:CE16816;部署:参数面 |
|
N-1389 |
网络架构 |
智算中心 |
RoCEv2 DSCP与PFC优先级映射 |
整网DSCP规划为何只用一个优先级 |
QoS·DSCP Planning |
Step1: 文档规定整网RoCEv2流量规划1个优先级(DSCP→本地优先级映射)。Step2: 原因:多优先级会导致不同队列缓存隔离,小优先级易被饿死;且PFC按优先级独立反压,多优先级增加死锁风险。Step3: 数学表达式:Priorityroce=1(整网唯一)。Step4: 配置:DSCP 26(CS3)→本地优先级4,PFC仅在优先级4开启。Step5: 要求:网卡、Leaf、Spine、Peer-link四者一致。Step6: 推荐:不要为管理/存储流量复用此优先级。Step7: 验证: |
单优先级;DSCP 26→Prio 4 |
DSCP Mapping、RoCEv2 QoS |
软:交换机配置;硬:CE9860/CE8850E+RoCE网卡;部署:参数面+存储面 |
|
N-1390 |
网络架构 |
智算中心 |
PFC水线dynamic值与缓存占比对照 |
如何理解dynamic 0~10对应的α/(α+1) |
流控·PFC Watermark |
Step1: 文档给出dynamic值与最大可使用百分比:dynamic=4→α=1/8→11.11%;dynamic=9→α=4→80%。Step2: 数学表达式:Bufferusable=α+1α,α=1/27−dynamic(dynamic≥4时)。Step3: 推荐初始值dynamic=4(11.11%),若欠吞吐上调,若丢包下调。Step4: 例:400G端口总缓存约40MB,11.11%≈4.4MB Xoff阈值。Step5: 配置: |
dynamic=4→11.11%;400G缓存4.4MB |
PFC Xoff、Buffer Percentage |
软:交换机配置;硬:CE9860/CE8850E;部署:参数面+存储面 |
|
N-1391 |
网络架构 |
智算中心 |
Headroom与线缆长度的定量关系 |
长距线缆如何调整hdrm |
流控·Headroom |
Step1: 文档:100G端口hdrm推荐330 cells,吸收100米突发。光缆5ns/米,100米=500ns传播。Step2: 100G端口每cell≈128B,330 cells≈42KB。BW100G=100Gbps=12.5GB/s,500ns内飞行数据=12.5GB/s×500ns≈6.25KB,加处理余量→42KB合理。Step3: 数学表达式:Hdrmnew=Hdrmbase+ΔL×5ns/m×BW。Step4: 例:300米,ΔL=200m=1000ns,增量为12.5GB/s×1ns×1000=12.5KB,总hdrm≈54.5KB→约428 cells。Step5: 配置: |
300米→428 cells;每100米+98 cells |
Headroom、Cable Length |
软:交换机配置;硬:CE交换机;部署:长距场景 |
|
N-1392 |
网络架构 |
智算中心 |
PFC死锁钩子流形成条件 |
什么拓扑+故障组合会形成钩子流 |
可靠性·Hook Flow |
Step1: 文档场景:Leaf1下Server1故障(链路down或ARP缺失)→流量改走上行→Spine2→Leaf4→Spine1→Leaf1形成环。Step2: 4台设备缓存同时达Xoff,互发PFC反压,形成死锁。Step3: 数学表达式:Hook=(ingress∈uplink)∧(egress∈uplink)∧(same_subnet)。Step4: 钩子流特征:同一业务流从Leaf的上联端口组进、上联端口组出。Step5: 配置:将Leaf上行口加入 |
4跳环路;上行口组进出 |
Hook Flow、Deadlock Prevention |
软:交换机配置;硬:CE8850E/CE9860;部署:存储面+参数面 |
|
N-1393 |
网络架构 |
智算中心 |
PFC死锁检测与恢复参数 |
死锁检测周期+恢复周期的取值逻辑 |
可靠性·Deadlock Recovery |
Step1: 文档:检测周期Tdet=10ms,恢复周期Trec=10ms,turn-off阈值N=5。Step2: 若在10ms内队列持续XOFF,判定死锁,忽略PFC反压帧恢复发送(或丢包),10ms后恢复PFC。Step3: 数学表达式:Ttotal_recover=Tdet+Trec=20ms。Step4: 若下一周期仍死锁,继续新一轮恢复。Step5: 配置: |
检测10ms+恢复10ms=20ms;阈值5 |
PFC Deadlock、Turn-off |
软:交换机配置;硬:CE交换机;部署:参数面+存储面 |
|
N-1394 |
网络架构 |
智算中心 |
ECN水线与RTT的定量关系 |
长距场景为何要提高ECN水线 |
拥塞·ECN Tuning |
Step1: 文档:100G端口1μs转发100Kb,队列积压1Mb=10μs排空延迟。Step2: RTT增大→ECN标记到发送端降速的闭环时间变长→过早反压会导致长距欠吞吐。Step3: 数学表达式:Tecn_loop=2×RTT+Treact,RTT长则需更高ECN水线容纳闭环期内报文。Step4: 例:RTT从10μs增至100μs(长距DCI),ECN高水线从500K cells提到2M cells。Step5: 配置:M-LAG的peer-link也要配ECN(同100G配置)。Step6: 推荐:二分法调参。Step7: 验证:监控吞吐+延迟。 |
RTT↑→ECN水线↑;peer-link同配 |
ECN Threshold、RTT Correlation |
软:交换机配置;硬:CE交换机;部署:长距/存储面 |
|
N-1395 |
网络架构 |
智算中心 |
参数面分布式网关ARP vlink直连路由 |
分布式网关如何实现多Leaf同IP/MAC |
路由·Distributed GW |
Step1: 多台Leaf配置相同VLANIF IP+MAC,ARP请求在本地Leaf终结,不扩散。Step2: 使能ARP转vlink直连路由,直连路由引入BGP通告给其他Leaf/Spine。Step3: 数学表达式:RouteleafA=Direct(Vlanif)BGPLeafB,Spine。Step4: 计算节点网关指向单Leaf(上联单Leaf),ARP在单Leaf终结。Step5: 配置: |
同IP/MAC;ARP本地终结 |
Distributed GW、vlink Route |
软:交换机BGP配置;硬:CE9860;部署:参数面 |
|
N-1396 |
网络架构 |
智算中心 |
存储面分布式网关Bond差异 |
计算侧mode1 vs 存储侧mode4的设计原因 |
组网·Bond Mode |
Step1: 计算侧Bond1(主备):训练任务存储IO突发性强但连接数少,主备切换秒级可接受,简化Leaf无堆叠/去堆叠设计。Step2: 存储侧Bond4(LACP):存储节点需双向高带宽,LACP聚合2×100G=200G。Step3: 数学表达式:BWcalc=100G(主备),BWstor=200G(LACP)。Step4: 配置:计算侧服务器 |
计算100G主备;存储200G LACP |
Bond Mode、M-LAG |
软:OS bond配置;硬:CX6网卡;部署:存储面 |
|
N-1397 |
网络架构 |
智算中心 |
M-LAG Peer-link带宽=单Leaf上行一半 |
为何是"一半"不是"全量" |
可靠性·Peer-link BW |
Step1: 文档:Peer-link带宽=单Leaf上行带宽的一半。单Leaf上行12×100G=1.2T,peer-link=6×100G=600G。Step2: 原因:M-LAG双活场景下,跨设备转发流量仅是部分(另一部分本地转发),峰值不会超过上行一半。Step3: 数学表达式:BWpeer=2Uleaf×BWport。Step4: 若上行全打满+跨设备流量全走peer-link的极端场景,6×100G会成为瓶颈。Step5: 配置:CE8850E 32口分配:上行12+下行12+peer6+DAD1+备1。Step6: 推荐:监控peer-link利用率,超40%告警。Step7: 验证:模拟单Leaf故障看peer-link流量。 |
12×100G上行→6×100G peer;监控<40% |
Peer-link BW、M-LAG Design |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1398 |
网络架构 |
智算中心 |
DAD链路独立性的必要性 |
为何DAD不能用peer-link复用 |
可靠性·DAD |
Step1: peer-link故障(如板卡/光纤问题)可能导致双主,此时需要DAD链路检测对端是否存活以触发隔离。Step2: 若DAD走peer-link,peer-link故障则DAD也失效→双主无法检测→脑裂。Step3: 数学表达式:DADpath=Peer_linkpath(物理独立)。Step4: 配置:DAD用带外管理网或独立100GE业务口。Step5: 推荐:带外管理网最稳。Step6: 验证:断开peer-link看DAD是否仍能通。Step7: 注意:CE8850E每Leaf DAD占1口。 |
DAD与peer-link物理独立;防脑裂 |
DAD、M-LAG Brain Split |
软:交换机配置;硬:CE8850E;部署:存储面 |
|
N-1399 |
网络架构 |
智算中心 |
Telemetry采集周期与异常上报逻辑 |
队列为何"仅积压时上报" |
监控·Telemetry |
Step1: 文档:接口/光模块1min周期,队列30s周期但"仅队列积压时上报,正常不上报"。Step2: 原因:队列空时上报无意义数据,浪费Kafka带宽;积压才表征拥塞事件。Step3: 数学表达式:Report(queue)=(queue_depth>0)→send;否则静默。Step4: 配套采集:PFC帧数、ECN标记数同期30s上报。Step5: 配置:gRPC+Telemetry订阅,Kafka对接上层。Step6: 推荐:队列阈值与ECN水线联动分析。Step7: 验证:注入拥塞看Kafka是否有数据。 |
队列积压才上报;减Kafka负载 |
Telemetry、gRPC |
软:iMaster NCE、Kafka;硬:CE交换机;部署:运维平台 |
|
N-1400 |
网络架构 |
智算中心 |
光模块亚健康检测(FEC纠错计数) |
如何用FEC纠错数识别光链路亚健康 |
运维·Optical Health |
Step1: 文档"故障1-3-5"提到"疑似光链路亚健康"是传统监控盲区(无Syslog/Trap)。Step2: FEC纠错计数持续增长但误码率未达告警阈值→亚健康。Step3: 数学表达式:BERtrend=Total_bitsFEC_corrected呈上升趋势→预警。Step4: 采集:Telemetry秒级采光模块(收发光功率、电流、电压、温度)+ FEC计数。Step5: 配置:动态基线比对,"当前值>基线+3σ"触发Issue。Step6: 推荐:清洁光模块/更换光纤。Step7: 验证:替换后FEC计数斜率归零。 |
FEC持续增长→亚健康;3σ动态基线 |
Optical Health、FEC |
软:iMaster NCE;硬:400G/100G光模块;部署:运维 |
|
N-1401 |
网络架构 |
智算中心 |
网络风险评估40+项分类 |
5维度(性能/可靠性/容量/一致性/稳定性)如何覆盖 |
运维·Risk Assessment |
Step1: 文档:5维度40+评估项,含MLAG配置一致性、EthTrunk负载不均、Leaf-Spine未建Full Mesh EBGP等。Step2: 性能维度:端口利用率、微突发、缓冲;可靠性:M-LAG双主、端口假死;容量:Spine端口余量;一致性:BGP邻居、配置漂移;稳定性:CPU/内存/表项持续增长。Step3: 数学表达式:Risk_score=∑dimwdim×total_itemsdimabnormal_items。Step4: 配置:iMaster NCE自动日检,推送健康报告。Step5: 推荐:每周review风险项。Step6: 验证:对比传统巡检(仅单设备)vs 整网评估。Step7: 注意:10+项是传统工具识别不了的(如微突发、EthTrunk不均)。 |
5维40+项;10+项传统盲区 |
Risk Assessment、5 Dimensions |
软:iMaster NCE;硬:无;部署:运维平台 |
|
N-1402 |
网络架构 |
智算中心 |
北向API对接(Restful+Kafka+Syslog) |
三类北向接口分别承载什么数据 |
运维·Northbound |
Step1: Restful:资源管理(网元/链路/端口/单板/光模块)+ 健康度Issue + IP360 + 系统管理,HTTPS。Step2: Kafka:性能KPI流式(设备CPU/内存、接口丢包/错包/流量、光模块、队列PFC/ECN、TCAM)。Step3: Syslog:故障Issue实时通知。Step4: 数学表达式:Data_flow=Restful(pull)+Kafka(push_stream)+Syslog(push_event)。Step5: 配置:Kafka topic按KPI类型分。Step6: 推荐:上层平台(如自研运维系统)消费Kafka做实时告警。Step7: 验证:Postman调Restful查网元列表。 |
Restful拉;Kafka推流;Syslog推事件 |
Northbound API、Kafka |
软:iMaster NCE;硬:无;部署:运维集成 |
🗄️ 并行文件存储HPFS方向(N-1403 ~ N-1413,共11条)
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1403 |
存储 |
智算中心 |
HPFS节点角色与配比 |
CM/MDS/OSS三角色的职能与数量配比 |
架构·Node Role |
Step1: CM=集群管理(3台固定,奇数防脑裂),MDS=元数据(每100 OSS配1 MDS),OSS=数据存储。Step2: 18432卡场景:OSS=1230台 → MDS=⌈1230/100⌉=13台,CM=3台。Step3: 数学表达式:Nmds=⌈Noss/100⌉,Ncm=3。Step4: 总存储节点=1230+13+3=1246台。Step5: 配置:CM三台组成Raft,MDS主备,OSS无状态。Step6: 推荐:MDS与OSS分部署,避免争CPU。Step7: 验证: |
OSS:MDS≈100:1;CM固定3 |
HPFS、CM/MDS/OSS |
软:HPFS管理;硬:存储服务器;部署:存储集群 |
|
N-1404 |
存储 |
智算中心 |
HPFS IO路径延迟分解 |
计算节点→MDS→OSS的RTT构成 |
性能·IO Path |
Step1: 路径:计算节点→存储Leaf→Spine→存储Leaf→OSS(读元数据+读数据两次RTT,或写两次)。Step2: 文档:RTT 200~300μs(时延敏感)。Step3: 数学表达式:RTT=Tcalc_leaf+Tleaf_spine+Tspine_stor_leaf+Tstor_leaf_oss+Tproc_mds/oss。Step4: 每跳约5μs(交换+传播),4跳=20μs,MDS处理50μs,OSS处理100μs,合计170μs,落200~300μs区间。Step5: 配置:存储Leaf/Spine均1:1收敛,避免拥塞增延迟。Step6: 推荐:同机房部署计算与存储集群,控制Spine跳数。Step7: 验证:fio测试latency percentile。 |
4跳20μs+MDS50+OSS100≈170μs;符合200-300μs |
IO Path、RTT |
软:HPFS;硬:CE8850E+存储服务器;部署:存储面 |
|
N-1405 |
存储 |
智算中心 |
HPFS条带化(Stripe)大小选择 |
条带宽度与条带单元如何影响大文件吞吐 |
性能·Striping |
Step1: 文件切分为stripe,每个stripe分布到不同OSS,并行读写。Step2: 条带单元Sstripe=4MB(文档隐含),条带宽度W(OSS数)。Step3: 数学表达式:Read_BWfile=min(W×BWper_oss,BWclient_nic)。Step4: 例:W=8,BWper_oss=1GB/s,则8GB/s,受限于计算侧2×100G=25GB/s,仍够。Step5: 配置:大文件W=8,小文件W=1(不条带)。Step6: 推荐:W不超过OSS故障域容忍数。Step7: 验证:fio测试不同W的seq read BW。 |
条带4MB;W=8时8GB/s |
Striping、Parallel Read |
软:HPFS;硬:OSS节点;部署:存储策略 |
|
N-1406 |
存储 |
智算中心 |
HPFS副本与纠删码选择 |
热存储全闪单副本 vs 混闪备份的可靠性权衡 |
可靠性·Replica vs EC |
Step1: 文档:全闪单副本(性能优先,故障由混闪备份兜底)+ 混闪开备份机制(周期性大流量)。Step2: 单副本风险:单OSS故障→数据不可用直到重建;混闪备份周期性同步。Step3: 数学表达式:RPObackup=Tbackup_cycle(如每天凌晨同步,RPO=24h)。Step4: 配置:全闪做主存储,混闪做冷备+周期性rsync类同步。Step5: 要求:全闪故障需在备份窗口内恢复。Step6: 推荐:关键训练数据双写(全闪+混闪同步)。Step7: 验证:模拟OSS故障看恢复时间。 |
全闪单副本+RPO 24h;备份周期流量 |
Replica、Erasure Code |
软:HPFS;硬:OceanDisk全闪/混闪;部署:存储集群 |
|
N-1407 |
存储 |
智算中心 |
HPFS集群内备份流量带宽规划 |
全闪→混闪备份的带宽与时窗计算 |
性能·Backup BW |
Step1: 全闪容量Cflash,备份周期Tcycle=1天,备份窗口W=4h(凌晨)。Step2: 备份带宽BWbackup=WCflash,但仅为增量ΔC。Step3: 数学表达式:BWneeded=WΔCflash,ΔCflash=Write_rate×Tcycle。Step4: 例:全闪100TB,日增量10TB,W=4h→BW=10TB/4h=2.78GB/s。Step5: 配置:备份流量走存储面网络,时延不敏感,但与业务IO共享Spine→需限速。Step6: 推荐:备份限速≤存储面总BW的30%。Step7: 验证:监控备份时段Spine利用率。 |
日增量10TB→2.78GB/s;限速30% |
Backup Traffic、Bandwidth Planning |
软:HPFS备份策略;硬:全闪/混闪;部署:存储运维 |
|
N-1408 |
存储 |
智算中心 |
HPFS MDS元数据操作延迟与瓶颈 |
MDS成为瓶颈的判断标准 |
性能·MDS Bottleneck |
Step1: 每open/read/write需查MDS,MDS延迟Tmds叠加到IO。Step2: 若Opsmds>Capamds,排队延迟陡增。Step3: 数学表达式:Tmds_total=Tproc+CapamdsOpsarrive−Capamds×Tproc(排队模型)。Step4: 例:Capamds=200Kops/s,Opsarrive=250K→排队延迟=50K/200K×Tproc=0.25Tproc→总T=1.25Tproc。Step5: 配置:MDS用高主频CPU+NVMe,缓存热点元数据。Step6: 推荐:MDS:OSS=1:100是经验值,小文件场景需更密(1:50)。Step7: 验证: |
MDS容量200K ops/s;小文件1:50 |
MDS Bottleneck、Metadata Ops |
软:HPFS;硬:MDS服务器(NVMe);部署:存储集群 |
|
N-1409 |
存储 |
智算中心 |
HPFS客户端缓存命中率模型 |
客户端缓存如何减少网络IO |
性能·Client Cache |
Step1: 训练场景:同checkpoint/同数据集被多任务重复读→客户端缓存命中省网络IO。Step2: 命中率H,有效网络IO BWnet_eff=(1−H)×BWapp。Step3: 数学表达式:Saving=H×BWapp。Step4: 例:H=50%,APP读BW=50GB/s→网络仅需25GB/s。Step5: 配置:客户端缓存大小=Host内存10%,LRU淘汰。Step6: 推荐:Checkpoint只读场景命中率极高。Step7: 验证: |
命中50%→省一半网络IO;缓存=内存10% |
Client Cache、Hit Ratio |
软:HPFS客户端;硬:计算节点内存;部署:计算侧 |
|
N-1410 |
存储 |
智算中心 |
HPFS存储多租户隔离(QoS组+ACL) |
为何计算节点间不能互访,仅能访存储 |
安全·Storage Isolation |
Step1: 文档:计算节点接入Leaf配QoS组+ACL,仅允许存储网段通过,禁其他(含同网段)。Step2: 存储节点Leaf无ACL(存储节点间+计算↔存储均可通)。Step3: 数学表达式:ACLcalc=permitdst_ip∈Storage_Subnets,其余deny(含同计算子网)。Step4: 配置:计算端口加入QoS组,应用ACL。Step5: 要求:租户A/B计算节点即使同网段也互不通(防侧信道)。Step6: 推荐:存储子网单独VLAN 31,计算VLAN 30。Step7: 验证:计算节点ping同租户另计算节点→不通。 |
计算仅→存储;同计算子网也deny |
Storage Multi-tenant、QoS ACL |
软:交换机ACL;硬:CE8850E;部署:存储面 |
|
N-1411 |
存储 |
智算中心 |
HPFS扩容时数据Rebalance带宽控制 |
在线扩容OSS如何不影响业务 |
运维·Rebalance |
Step1: 新增OSS后,数据需重新分布(条带迁移)到新OSS以实现负载均衡。Step2: Rebalance带宽BWreb需限速,否则挤占业务IO。Step3: 数学表达式:Treb=BWrebData_to_move,BWreb≤30%×BWtotal_stor。Step4: 例:新增10%容量→移10TB,BWreb=1GB/s→T=10000s≈2.8h。Step5: 配置: |
限速1GB/s;窗口2.8h;≤30%总BW |
Online Expansion、Rebalance |
软:HPFS;硬:OSS节点;部署:存储运维 |
|
N-1412 |
存储 |
智算中心 |
HPFS缩容数据迁移时间 |
下线OSS前数据迁出时间窗 |
运维·Decommission |
Step1: 标记OSS为decom,数据迁到其他OSS,迁完脱离集群。Step2: 单OSS存储量Doss,迁移BW限速BWmig。Step3: 数学表达式:Tdecom=BWmigDoss。Step4: 例:OSS存50TB,BWmig=2GB/s→T=50TB/2GB/s=25000s≈6.9h。Step5: 配置: |
50TB→6.9h;先降权再迁 |
Decommission、Data Migration |
软:HPFS;硬:OSS节点;部署:存储运维 |
|
N-1413 |
存储 |
智算中心 |
HPFS小文件性能优化(Harvesting) |
训练中小文件(checkpoint shard、tokenizer)如何优化 |
性能·Small File |
Step1: 小文件(<64KB)每个都要MDS查+单OSS IO→MDS成瓶颈。Step2: Harvesting:多个小文件打包成大文件(tar/zip)存HPFS,读时解包。Step3: 数学表达式:IOPSmerged≈SizemergedBWdisk,vs 单小文件IOPSsep≈SizesmallBWdisk。Step4: 例:4KB小文件→合并400KB大文件,IOPS提升100倍(受限于MDS→受限于BW)。Step5: 配置:训练前 |
4KB→400KB;IOPS提100倍 |
Small File、Harvesting |
软:HPFS客户端;硬:存储集群;部署:数据准备 |
🧊 冷热存储方向(N-1414 ~ N-1424,共11条)
|
编号 |
类型 |
领域 |
子领域 |
问题 |
问题类型·子问题 |
详细的数学分析(逐步推理的数学表达式) |
参数列表及数值范围及边界条件 |
关联知识 |
加工工具及软硬件及机床装备及部署模式 |
|---|---|---|---|---|---|---|---|---|---|
|
N-1414 |
存储 |
智算中心 |
热存储(OceanDisk全闪)容量规划 |
训练集群热数据容量如何估算 |
规划·Hot Capacity |
Step1: 热数据=训练数据集+Checkpoint+中间结果。数据集Dtrain,Checkpoint Cckpt,副本数R=1(全闪单副本)。Step2: 单任务热数据Stask=Dtrain+Nepoch×Cckpt(若每epoch存)。Step3: 数学表达式:Chot=∑taskStask×Concurrency。Step4: 例:10个任务并发,每任务D=5TB,Cckpt=500GB,存3份ckpt→S=5TB+1.5TB=6.5TB,并发10→65TB,加30%余量→84.5TB。Step5: 配置:OceanDisk全闪盘框,按84.5TB/节点容量规划OSS数。Step6: 推荐:热数据容量按并发任务数×单任务峰值。Step7: 验证:监控全闪池使用率。 |
并发10×6.5TB=65TB;+30%余量 |
Hot Storage、Capacity Planning |
软:HPFS;硬:OceanDisk全闪;部署:存储规划 |
|
N-1415 |
存储 |
智算中心 |
冷存储(OceanDisk混闪)容量规划 |
冷数据(备份/归档/日志)容量估算 |
规划·Cold Capacity |
Step1: 冷数据=全闪备份+训练日志+模型归档+原始数据冷副本。Step2: 全闪日增量ΔCflash,备份保留Tret=7天→备份量=7ΔCflash。Step3: 数学模型:Ccold=Tret×ΔCflash+Carchive+Clog。Step4: 例:ΔCflash=10TB/天→备份70TB,归档200TB,日志30TB→Ccold=300TB。Step5: 配置:OceanDisk混闪,容量型盘框(HDD+SSD缓存)。Step6: 推荐:冷:热容量比≈4:1(300:84.5)。Step7: 验证:监控混闪池使用率。 |
冷:热≈4:1;7天备份保留 |
Cold Storage、Capacity Planning |
软:HPFS;硬:OceanDisk混闪;部署:存储规划 |
|
N-1416 |
存储 |
智算中心 |
冷热数据迁移阈值(Access Time) |
如何设置降冷阈值平衡性能与成本 |
策略·Tiering Threshold |
Step1: 文档:全闪→混闪备份是周期性大流量,隐含降冷策略(访问时间阈值)。Step2: 阈值Tth:最后访问时间>Tth则降冷。Tth=7天是常见值。Step3: 数学表达式:Migrate=(now−Tlast_access)>Tth。Step4: 例:Checkpoint训练后7天未读→降冷;数据集持续被读→留热。Step5: 配置:HPFS生命周期策略 |
阈值7天;活跃期可延30天 |
Data Tiering、Lifecycle |
软:HPFS;硬:全闪+混闪;部署:存储策略 |
|
N-1417 |
存储 |
智算中心 |
冷热存储成本模型 |
全闪vs混闪的TCO对比 |
经济·TCO |
Step1: 全闪Priceflash=1/GB/月(估),混闪Pricecold=0.1/GB/月。Step2: 热数据Chot=84.5TB,冷Ccold=300TB。Step3: 数学表达式:TCOmonth=Chot×Pflash+Ccold×Pcold=84.5×1+300×0.1=114.5/月。Step4: 若全放混闪(性能降)→TCO=384.5×0.1=38.45/月但训练慢;若全放全闪→384.5/月太贵。Step5: 分层最优:114.5vs 全闪384.5→省70%。Step6: 推荐:按访问频率严格分层。Step7: 验证:对比训练吞吐(全闪vs混闪单放)。 |
分层TCO 114.5 vs 全闪384.5;省70% |
TCO、Hot/Cold Tiering |
软:成本模型;硬:OceanDisk;部署:存储规划 |
|
N-1418 |
存储 |
智算中心 |
冷数据归档格式(Tar+Compress) |
降冷前是否压缩 |
策略·Archive Format |
Step1: 训练日志/checkpoint旧版本可压缩后归档,压缩比rcomp=0.3(zstd)。Step2: 归档后容量Carchived=rcomp×Corig。Step3: 数学表达式:Saving=(1−rcomp)×Corig。Step4: 例:旧ckpt 10TB,压缩后3TB→省7TB冷存储。Step5: 配置:降冷流水线 |
压缩比0.3;zstd l3 |
Archive Compression、zstd |
软:tar+zstd;硬:混闪;部署:数据归档 |
|
N-1419 |
存储 |
智算中心 |
Checkpoint冷热分层策略 |
Checkpoint哪些留热、哪些降冷 |
策略·Checkpoint Tiering |
Step1: 最近N个ckpt需热存储(快速恢复),更早的降冷。Step2: 设保留K=5个热ckpt,每ckpt C=500GB→热Chot_ckpt=2.5TB。Step3: 数学表达式:Chot_ckpt=K×Cckpt,$C_{cold_ckpt} = (Total_ckpt - K) \times C |
openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构
更多推荐




所有评论(0)