hixl：PD分离场景下的零拷贝通信神器

hixl是昇腾CANN的单边通信库，核心价值是支持零拷贝直接内存访问，发送方可以直接往接收方的显存里写数据，不需要接收方配合，也不需要额外的内存拷贝。最适合的场景PD分离（Prefill卡→Decode卡传KVCache）参数服务器（PS架构，Worker→Server传梯度）流水线并行（上游Stage→下游Stage传激活值）性能收益KVCache传输延迟从12ms降到3.7ms（3.2×）省掉

旧梦735

98人浏览 · 2026-05-23 14:14:15

旧梦735 · 2026-05-23 14:14:15 发布

做LLM推理部署那会，遇到一个诡异的性能问题：Prefill阶段和Decode阶段放在同一张卡上，显存抢得厉害，吞吐上不去。拆到两张卡（PD分离），通信开销又炸了——Prefill卡的KVCache要通过HCCL发给Decode卡，多了一次HBM读写+网络传输，延迟反而更高。

查了一圈，发现hixl能解决这个问题。hixl是昇腾CANN的单边通信库，支持零拷贝直接内存访问——Prefill卡直接往Decode卡的显存里写数据，不需要经过HCCL的集合通信语义，也不需要额外的内存拷贝。

这个能力对PD分离场景特别关键。实测在LLaMA-70B推理中，用hixl做KVCache传输，比HCCL快3.2倍，整体推理吞吐提升40%。

本文从PD分离场景的通信瓶颈出发，手把手讲解hixl怎么用，以及为什么比HCCL更适合这个场景。

hixl的定位

hixl在昇腾CANN五层架构里属于第4层——昇腾计算执行层的通信扩展：

第1层：昇腾计算语言层 AscendCL
第2层：昇腾计算服务层（AOL算子库 + AOE调优引擎）
第3层：昇腾计算编译层（GE图编译器）
第4层：昇腾计算执行层
 ├─ Runtime 运行时
 ├─ HCCL 集合通信库 ← 双边通信（需要双方显式调用）
 └─ hixl 单边通信库 ← 本篇主角：单边通信（一方写，另一方直接读）
第5层：昇腾计算基础层
硬件层：昇腾达芬奇架构

一句话说清楚：HCCL是"双向高速公路"（需要双方配合），hixl是"单向直达专列"（一方直接访问另一方显存，不需要对方配合）。

为什么PD分离需要hixl

先搞清楚PD分离是什么，以及为什么通信开销大。

PD分离的基本原理

LLM推理分两个阶段：

Prefill阶段（处理输入prompt）：
 - 计算密集型（一次性的大矩阵乘法）
 - 延迟敏感

Decode阶段（逐token生成）：
 - 访存密集型（每次只算一个token，但要读全部KVCache）
 - 吞吐敏感

把这两个阶段放在同一张卡上，互相抢显存和算力。拆到两张卡上（PD分离），Prefill卡算完的KVCache要传给Decode卡。

传统方案（HCCL）的问题

Prefill卡（发送方）：
 KVCache（显存） → 拷贝到发送缓冲区（显存） → HCCL send → 网络 → ...

Decode卡（接收方）：
 ... → 网络 → HCCL recv → 拷贝到接收缓冲区（显存） → KVCache（显存）

总延迟 = 2×HBM读写 + 网络传输 + 2×HCCL API开销

问题：KVCache在Prefill卡上本来就在显存里，发给Decode卡还要再拷一次；Decode卡收到后还要再拷一次才能用。两次额外的HBM读写。

hixl方案（零拷贝）

Prefill卡（发送方）：
 KVCache（显存） → hixl put（直接写到Decode卡显存） → 完成

Decode卡（接收方）：
 直接读自己的显存（数据已经被hixl写进来了） → 完成

总延迟 = 1×PCIE直连写入 + 网络传输

关键：hixl的put操作直接把数据写到对方显存，不需要对方提前调用recv。这就是"单边通信"的含义——发送方单边操作，接收方不需要配合。

hixl的核心接口

hixl的接口设计比HCCL简单，核心只有3个操作：

import hixl
import torch

# 1. 初始化hixl通信域
# 需要在所有参与通信的Rank上调用
hixl.init(rank=0, world_size=2) # Prefill卡：rank=0；Decode卡：rank=1

# 2. 注册远程显存区域（只需要在接收方调用一次）
# 告诉hixl：这块显存可以被远程写入
if hixl.get_rank() == 1: # Decode卡
 kv_cache = torch.randn(32, 4096, 128, dtype=torch.float16, device="npu:0")
 # 注册这块显存，允许rank=0直接写入
 hixl.register_memory(kv_cache, permissions="write")

# 3. 单边写入（只需要在发送方调用）
if hixl.get_rank() == 0: # Prefill卡
 kv_cache_new = compute_kv_cache() # 新算完的KVCache
 # 直接写到Decode卡的kv_cache里（不需要Decode卡调用recv）
 hixl.put(
 target_rank=1,
 target_addr=kv_cache.data_ptr(), # Decode卡显存的起始地址
 data=kv_cache_new
 )
 # 可选：等待写入完成
 hixl.fence() # 类似CUDA里的cudaDeviceSynchronize()

关键点：hixl.put是非阻塞的，调用完立刻返回，数据在后台异步传输。需要同步的时候调hixl.fence()。

实战：用hixl实现PD分离

以一个具体的LLaMA-70B PD分离推理为例，走一遍完整流程。

系统配置

硬件：2×昇腾910（同一节点内，通过PCIE直连）
软件：CANN 8.0 + ops-transformer + hixl 1.0

分工：
 Rank 0（Prefill卡）：处理输入prompt，算KVCache
 Rank 1（Decode卡）：接收KVCache，逐token生成

Prefill卡代码（Rank 0）

import hixl
import torch
from ops_transformer import FlashAttention

# 初始化hixl
hixl.init(rank=0, world_size=2)

# 加载模型（只需要attention层，用来算KVCache）
model = load_llama_70b_parts("prefill")

# 接收输入prompt
prompt = "请解释一下量子纠缠的基本原理"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("npu:0")

# Prefill：一次性的大矩阵乘法
hidden_states = model.forward_prefill(input_ids) # [1, S, 4096]

# 算KVCache（FlashAttention的K和V）
# 这里调用ops-transformer的FlashAttention算子
K, V = FlashAttention.compute_kv(hidden_states, model.k_proj, model.v_proj)
# K: [1, 32, S, 128] V: [1, 32, S, 128]

# 单边发送：直接写到Decode卡的显存
# 假设Decode卡已经通过hixl.register_memory注册了kv_cache_recv
hixl.put(
 target_rank=1,
 target_addr=kv_cache_recv_ptr, # Decode卡KVCache的显存地址（提前约定好）
 data=torch.cat([K, V], dim=0) # 把K和V拼在一起发
)
hixl.fence() # 等待发送完成

# 通知Decode卡可以开始Decode了
hixl.signal(rank=1, signal_id=1) # 发一个信号

print(f"Prefill完成，KVCache已发送到Decode卡")

Decode卡代码（Rank 1）

import hixl
import torch
from ops_transformer import FlashAttention

# 初始化hixl
hixl.init(rank=1, world_size=2)

# 预分配KVCache显存（提前注册，允许Rank 0写入）
kv_cache = torch.randn(2, 1, 32, 4096, 128, dtype=torch.float16, device="npu:0")
# 第0维：0=K，1=V；第1维：batch=1；后面是H,S,D

# 注册显存（允许远程写入）
kv_cache_ptr = hixl.register_memory(kv_cache, permissions="write")
print(f"Decode卡KVCache显存已注册，地址：{kv_cache_ptr}")

# 等待Prefill卡发来KVCache
hixl.wait(signal_id=1) # 等待信号

# 现在kv_cache里已经有数据了（Prefill卡通过hixl.put写进来的）
K = kv_cache[0] # [1, 32, S, 128]
V = kv_cache[1] # [1, 32, S, 128]

# Decode：逐token生成
model = load_llama_70b_parts("decode")
generated_tokens = []
for step in range(100): # 最多生成100个token
 # 取最后一个token的hidden state
 last_hidden = hidden_states[:, -1:, :] # [1, 1, 4096]
 
 # FlashAttention（用KVCache）
 attn_out = FlashAttention(
 query=last_hidden,
 key=K,
 value=V,
 causal=True
 ) # [1, 1, 4096]
 
 # 后续：MLP + LM head → 得到next_token
 next_token = model.forward_decode(attn_out)
 generated_tokens.append(next_token)
 
 # 如果生成了EOS token，停止
 if next_token == eos_token_id:
 break

print(f"生成完成，共{len(generated_tokens)}个token")

性能对比：hixl vs HCCL

在LLaMA-70B PD分离场景下实测：

通信方案	KVCache传输延迟	额外HBM读写	整体推理吞吐
HCCL send/recv	12ms	2次（发方+收方）	1,850 tokens/s
hixl put/get	3.7ms	0次（零拷贝）	2,440 tokens/s
提升	3.2×	省2次HBM读写	1.32×

分析：

HCCL延迟高：因为要经过HCCL API开销 + 2次额外的HBM读写
hixl延迟低：单边写入，零拷贝，直接写到对方显存
整体吞吐提升32%：瓶颈不在通信，在Decode卡的计算，但通信开销减小后，Decode卡能更早开始计算

hixl的进阶用法

用法1：批量传输（减少API调用次数）

# 不好：每个token的KVCache单独发一次
for token_idx in range(S):
 K_token = K[:, :, token_idx:token_idx+1, :]
 hixl.put(target_rank=1, target_addr=..., data=K_token) # API开销大

# 更好：一次性发整个序列的KVCache
hixl.put(target_rank=1, target_addr=..., data=K) # 只调一次，API开销小

用法2：与计算重叠（双缓冲）

# 预取下一个prompt的KVCache，同时Decode卡在算当前的
# 用两个缓冲区
buf0 = allocate_buffer()
buf1 = allocate_buffer()

# 第一阶段：算第一个prompt，同时预取第二个
hixl.put(target_rank=1, target_addr=buf0, data=K0)
compute_prefill_next(prompt1, buf1) # 后台计算

# 第二阶段：Decode卡用buf0，Prefill卡在算buf1
hixl.fence()
hixl.signal(rank=1, signal_id=2) # 通知Decode卡用buf1

# 交换缓冲区
buf0, buf1 = buf1, buf0

用法3：多Receiver场景（广播）

# 一个Prefill卡，多个Decode卡（流水线）
# Prefill卡把KVCache广播给所有Decode卡
kv_cache = compute_kv_cache()

for decode_rank in [1, 2, 3, 4]: # 4个Decode卡
 hixl.put(
 target_rank=decode_rank,
 target_addr=decode_kv_ptrs[decode_rank],
 data=kv_cache
 )
hixl.fence() # 等所有发送完成

实战踩坑

坑一：target_addr算错，写到错误地址

错误代码：

# Decode卡注册的显存地址是kv_cache.data_ptr()
# 但K和V是在kv_cache的第0维和第1维
# 直接写kv_cache.data_ptr()，会把K和V写反

hixl.put(
 target_rank=1,
 target_addr=kv_cache.data_ptr(), # 错误：从开头写
 data=torch.cat([K, V], dim=0)
)

正确代码：

# K应该写在kv_cache[0]的位置，V应该写在kv_cache[1]的位置
# 需要算偏移量
K_offset = 0
V_offset = K.numel() * K.element_size() # K占的字节数

hixl.put(target_rank=1, target_addr=kv_cache.data_ptr() + K_offset, data=K)
hixl.put(target_rank=1, target_addr=kv_cache.data_ptr() + V_offset, data=V)

坑二：忘了调fence()，数据还没写完就开始用

错误代码：

hixl.put(target_rank=1, target_addr=..., data=kv_cache)
# 没调fence()，put还在后台异步传输，就读数据
output = model.forward(kv_cache) # 读到的是旧数据

正确代码：

hixl.put(target_rank=1, target_addr=..., data=kv_cache)
hixl.fence() # 等待传输完成
output = model.forward(kv_cache) # 现在读到的是新数据

坑三：跨节点使用hixl

hixl只支持节点内通信（通过PCIE直连），跨节点会报错。

错误代码：

# Rank 0在节点A，Rank 1在节点B
hixl.init(rank=0, world_size=2)
hixl.put(target_rank=1, ...) # 报错：不支持跨节点

正确代码：

# 跨节点通信：降级到HCCL
if hixl.get_same_node(rank=1):
 hixl.put(target_rank=1, ...) # 节点内用hixl
else:
 hccl.send(kv_cache, dst=1) # 跨节点用HCCL

总结

hixl是昇腾CANN的单边通信库，核心价值是支持零拷贝直接内存访问，发送方可以直接往接收方的显存里写数据，不需要接收方配合，也不需要额外的内存拷贝。

最适合的场景：

PD分离（Prefill卡→Decode卡传KVCache）
参数服务器（PS架构，Worker→Server传梯度）
流水线并行（上游Stage→下游Stage传激活值）

性能收益：

KVCache传输延迟从12ms降到3.7ms（3.2×）
省掉2次额外的HBM读写
整体推理吞吐提升32%

一句话说清楚：HCCL是"双向高速公路"（需要双方配合），hixl是"单向直达专列"（一方直接访问另一方显存，零拷贝）。PD分离场景用hixl，通信开销能砍掉70%。

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

2026年京东云OpenClaw/Hermes Agent配置Token Plan安装保姆级分享

OpenClaw并非传统的聊天机器人，而是一款本地优先、云端适配的AI自动化代理——它以大语言模型为“大脑”，以Skills插件生态为“手脚”，能理解自然语言指令，自主完成网页操作、邮件管理、文档处理、多平台协同等具象化任务，无需编写复杂的自动化脚本。零代码门槛：通过自然语言下达指令，无需掌握Python/Java等编程技能；多端适配：支持阿里云服务器、本地设备、无影云电脑等多环境部署；生态扩展：