05-vllm-PagedAttention 核心创新深度分析

happyprince

70人浏览 · 2026-07-01 01:38:08

happyprince · 2026-07-01 01:38:08 发布

PagedAttention 核心创新深度分析

📌 定位

PagedAttention 是 vLLM 的核心创新，它通过借鉴操作系统的虚拟内存管理思想，将 KV cache 以固定大小的 Block（页）为单位进行分配和管理，从而解决了传统 LLM 推理系统中 KV cache 内存利用率低的根本问题。PagedAttention 不仅大幅提升了内存效率（2-4x），还天然支持内存共享（Memory Sharing）和前缀缓存（Prefix Caching）等高级优化。

🎯 核心价值总览

一、问题背景：传统 KV Cache 的内存困境

1.1 KV Cache 的本质

在自回归语言模型推理中，每个 token 的生成需要访问之前所有已生成 token 的 Key-Value（KV）状态。这些 KV 状态必须被缓存以避免重复计算，形成 KV Cache。

内存占用公式：

KV Cache 大小 = 2 × num_layers × num_heads × head_size × seq_len × dtype_size

对于典型配置（Llama-7B: 32层, 32头, 128维, fp16）:

序列长度 2048: ~1GB/request
序列长度 8192: ~4GB/request
序列长度 32768: ~16GB/request

1.2 传统方案的三大缺陷

❌ 缺陷一：固定分配导致的内部碎片

传统系统为每个请求 预分配最大序列长度 的连续内存：

# 伪代码：传统固定分配方式
max_seq_len = 2048
actual_seq_len = 100  # 实际只用了 100 个 token
allocated_memory = max_seq_len * memory_per_token  # 分配了 2048 个 slot
wasted_memory = (max_seq_len - actual_seq_len) * memory_per_token  # 浪费 95%！

实际场景示例：

场景	最大序列长	平均序列长	利用率
对话系统	4096	512	12.5%
代码补全	8192	256	3.1%
长文档 QA	32768	4096	12.5%

❌ 缺陷二：外部碎片问题

即使总空闲内存足够，但由于 地址不连续，无法满足新的分配请求：

❌ 缺陷三：无法共享相同前缀

多个请求可能具有相同的 prompt 前缀（如系统提示词），但传统方案每个请求都维护独立的副本：

# 场景：10个请求共享相同的 system prompt (1024 tokens)
num_requests = 10
shared_prefix_length = 1024
total_wasted = num_requests * shared_prefix_length * memory_per_token  # 重复存储 10 份！

二、PagedAttention 设计思想

2.1 操作系统虚拟内存类比

PagedAttention 深度借鉴了操作系统中的 虚拟内存分页机制：

核心概念映射：

操作系统概念	PagedAttention 概念	说明
页面 (Page)	Block (块)	固定大小的内存单元
虚拟地址	逻辑 Token 位置	Request 视角的连续地址
物理帧 (Frame)	物理 Block ID	GPU 内存中的实际位置
页表 (Page Table)	Block Table	逻辑→物理映射
页面置换算法	缓存驱逐策略	LRU/LFU 变体

2.2 Block（页）的概念与设计

Block Size 选择

vLLM 默认使用 16 tokens/block，这个值经过精心权衡：

# 来源: /workspace/vllm/v1/kv_cache_interface.py - KVCacheSpec 定义
@dataclass(frozen=True)
class KVCacheSpec:
    block_size: int  # 每个 block 包含的 token 数量（默认 16）

选择依据：

内部碎片计算：

最坏情况内部碎片 = (block_size - 1) / block_size = 15/16 = 6.25%
平均内部碎片 ≈ block_size / 2 / block_size = 50%/16 = 3.125%

2.3 逻辑地址 → 物理地址映射（BlockTable）

BlockTable 是连接逻辑序列和物理内存的核心数据结构：

# 来源: /workspace/vllm/v1/worker/block_table.py - BlockTable 类定义
class BlockTable:
    def __init__(
        self,
        block_size: int,                    # Block 大小 (tokens)
        max_num_reqs: int,                  # 最大并发请求数
        max_num_blocks_per_req: int,         # 每请求最大 Block 数
        max_num_batched_tokens: int,         # 最大 batch token 数
        pin_memory: bool,                   # 是否 pin memory
        device: torch.device,               # 设备类型
        kernel_block_size: int,             # kernel 使用的 block size
        cp_kv_cache_interleave_size: int,   # CP 交错大小
    ):
        # 核心：block_table 存储逻辑 → 物理映射
        # 维度: [max_num_reqs, max_num_blocks_per_req]
        self.block_table = self._make_buffer(
            self.max_num_reqs,
            self.max_num_blocks_per_req,
            dtype=torch.int32
        )
        # 记录每行实际使用的 block 数量
        self.num_blocks_per_row = np.zeros(max_num_reqs, dtype=np.int32)

        # slot_mapping: 将每个 token 映射到具体的物理 slot
        # 用于 attention kernel 直接寻址
        self.slot_mapping = self._make_buffer(
            self.max_num_batched_tokens,
            dtype=torch.int64
        )

映射过程可视化：

Slot Mapping 计算核心逻辑（Triton Kernel）：

# 来源: /workspace/vllm/v1/worker/block_table.py - _compute_slot_mapping_kernel
@triton.jit
def _compute_slot_mapping_kernel(
    num_tokens,
    max_num_tokens,
    query_start_loc_ptr,       # [num_reqs + 1], int32
    positions_ptr,             # [num_tokens], int64
    block_table_ptr,           # [max_num_reqs, max_num_blocks_per_req], int32
    block_table_stride,        # max_num_blocks_per_req
    block_size,
    slot_mapping_ptr,          # [max_num_tokens], int64
    TOTAL_CP_WORLD_SIZE: tl.constexpr,
    TOTAL_CP_RANK: tl.constexpr,
    CP_KV_CACHE_INTERLEAVE_SIZE: tl.constexpr,
    PAD_ID: tl.constexpr,
    BLOCK_SIZE: tl.constexpr,
):
    req_idx = tl.program_id(0)
    start_idx = tl.load(query_start_loc_ptr + req_idx).to(tl.int64)
    end_idx = tl.load(query_start_loc_ptr + req_idx + 1).to(tl.int64)

    virtual_block_size = block_size * TOTAL_CP_WORLD_SIZE
    row_offset = req_idx * block_table_stride

    for i in range(start_idx, end_idx, BLOCK_SIZE):
        offsets = i + tl.arange(0, BLOCK_SIZE)
        mask = offsets < end_idx
        pos = tl.load(positions_ptr + offsets, mask=mask, other=0)

        # 1. 计算逻辑 block 编号
        block_indices = pos // virtual_block_size

        # 2. 从 Block Table 查找物理 block 编号
        block_numbers = tl.load(
            block_table_ptr + row_offset + block_indices
        ).to(tl.int64)

        # 3. 计算 block 内偏移
        virtual_block_offsets = pos - block_indices * virtual_block_size

        # 4. 处理 Context Parallelism 的数据分布
        is_local = (
            virtual_block_offsets // CP_KV_CACHE_INTERLEAVE_SIZE
        ) % TOTAL_CP_WORLD_SIZE == TOTAL_CP_RANK
        local_block_offsets = (
            virtual_block_offsets // (TOTAL_CP_WORLD_SIZE * CP_KV_CACHE_INTERLEAVE_SIZE)
        ) * CP_KV_CACHE_INTERLEAVE_SIZE + (
            virtual_block_offsets % CP_KV_CACHE_INTERLEAVE_SIZE
        )

        # 5. 组合最终的物理 slot ID
        slot_ids = block_numbers * block_size + local_block_offsets
        slot_ids = tl.where(is_local, slot_ids, PAD_ID)
        tl.store(slot_mapping_ptr + offsets, slot_ids, mask=mask)

2.4 Block Pool（物理内存池）

BlockPool 是所有物理 Block 的集中管理者：

# 来源: /workspace/vllm/v1/core/block_pool.py - BlockPool 类定义
class BlockPool:
    """BlockPool 管理 KVCacheBlocks。
    提供 allocate、free 和 cache 方法。free_block_queue 存储空闲 blocks
    （包括缓存启用时的驱逐候选）。cached_block_hash_to_block 实现
    block hash 到 cached block 的映射，支持前缀缓存查找。
    """
    def __init__(
        self,
        num_gpu_blocks: int,              # GPU 上总的 block 数量
        enable_caching: bool,             # 是否启用前缀缓存
        hash_block_size: int,             # hash 计算的粒度
        enable_kv_cache_events: bool=False,# 是否启用事件追踪
        metrics_collector=None,           # 性能指标收集器
    ):
        assert isinstance(num_gpu_blocks, int) and num_gpu_blocks > 0
        self.num_gpu_blocks = num_gpu_blocks
        self.enable_caching = enable_caching
        self.hash_block_size = hash_block_size

        # 所有 KV-cache blocks（预分配）
        self.blocks: list[KVCacheBlock] = [
            KVCacheBlock(idx) for idx in range(num_gpu_blocks)
        ]

        # 空闲 block 队列（双向链表，支持高效插入/删除）
        self.free_block_queue = FreeKVCacheBlockQueue(self.blocks)

        # 前缀缓存查找表: {block_hash -> KVCacheBlock}
        self.cached_block_hash_to_block: BlockHashToBlockMap = BlockHashToBlockMap()

        # 特殊的 null block（占位符，block_id=0）
        self.null_block = self.free_block_queue.popleft()
        self.null_block.is_null = True

Block 数据结构：

# 来源: /workspace/vllm/v1/core/kv_cache_utils.py - KVCacheBlock 定义
@dataclass
class KVCacheBlock:
    block_id: int                # 物理块编号
    ref_cnt: int = 0             # 引用计数（用于共享和回收）
    block_hash: BlockHashWithGroupId | None = None  # 前缀缓存的 hash 值
    is_null: bool = False        # 是否是 null block（占位符）

三、关键实现深度解析

3.1 KVCacheManager：统一入口与协调者

KVCacheManager 是对外暴露的核心接口，负责协调多个 SingleTypeKVCacheManager：

# 来源: /workspace/vllm/v1/core/kv_cache_manager.py - KVCacheManager 类
class KVCacheManager:
    def __init__(
        self,
        kv_cache_config: KVCacheConfig,
        max_model_len: int,
        hash_block_size: int,
        max_num_batched_tokens: int | None = None,
        enable_caching: bool = True,
        use_eagle: bool = False,
        log_stats: bool = False,
        ...
    ) -> None:
        self.max_model_len = max_model_len
        self.enable_caching = enable_caching
        self.use_eagle = use_eagle

        # 创建 coordinator 来管理多个 KV cache group
        self.coordinator = get_kv_cache_coordinator(
            kv_cache_config=kv_cache_config,
            max_model_len=self.max_model_len,
            max_num_batched_tokens=max_num_batched_tokens,
            use_eagle=self.use_eagle,
            enable_caching=self.enable_caching,
            hash_block_size=hash_block_size,
            ...
        )

        # 核心组件
        self.num_kv_cache_groups = len(kv_cache_config.kv_cache_groups)
        self.block_pool = self.coordinator.block_pool  # 全局内存池
        self.kv_cache_config = kv_cache_config

        # 预创建空对象（避免 GC 开销）
        self.empty_kv_cache_blocks = KVCacheBlocks(
            tuple(() for _ in range(self.num_kv_cache_groups))
        )

3.1.1 allocate_slots()：核心分配方法

这是最复杂也最重要的方法，实现了完整的分配流程：

# 来源: /workspace/vllm/v1/core/kv_cache_manager.py - allocate_slots 方法
def allocate_slots(
    self,
    request: Request,
    num_new_tokens: int,
    num_new_computed_tokens: int = 0,
    new_computed_blocks: KVCacheBlocks | None = None,
    num_lookahead_tokens: int = 0,
    num_external_computed_tokens: int = 0,
    delay_cache_blocks: bool = False,
    num_encoder_tokens: int = 0,
    full_sequence_must_fit: bool = False,
) -> KVCacheBlocks | None:
    """为请求分配 slots 以追加新 token。

    分配包含三个阶段：
    1. 释放 comp 中不必要的 blocks 并检查是否有足够空闲 blocks
    2. 处理 prefix tokens (comp + new_comp + ext_comp):
       - 释放不必要的 blocks（如在滑动窗口外）
       - 为 sliding window 内的 ext_comp tokens 分配新 blocks
    3. 分配待计算的 tokens 的新 blocks (new + lookahead)

    Blocks 布局示意：
    ----------------------------------------------------------------------
    | < comp > | < new_comp > | < ext_comp >  | < new >  | < lookahead > |
    ----------------------------------------------------------------------
                                                  |   < to be computed >     |
    """

    # 参数验证
    if num_new_tokens == 0 and num_external_computed_tokens == 0:
        raise ValueError("num_new_tokens must be greater than 0...")

    # 计算各种 token 数量
    num_local_computed_tokens = (
        request.num_computed_tokens + num_new_computed_tokens
    )
    total_computed_tokens = min(
        num_local_computed_tokens + num_external_computed_tokens,
        self.max_model_len,
    )

    # ===== 阶段 0: 可选的全序列适配检查 =====
    if full_sequence_must_fit:
        num_blocks_to_allocate = self.coordinator.get_num_blocks_to_allocate(...)
        if num_blocks_to_allocate > self.block_pool.get_num_free_blocks():
            return None  # 无法容纳完整序列

    # ===== 阶段 1: 释放滑动窗口外的 blocks =====
    self.coordinator.remove_skipped_blocks(
        request.request_id, total_computed_tokens
    )

    # ===== 阶段 2: 计算需要的 block 数量 =====
    num_blocks_to_allocate = self.coordinator.get_num_blocks_to_allocate(...)

    # 检查是否有足够的空闲 blocks
    if num_blocks_to_allocate > self.block_pool.get_num_free_blocks():
        return None  # 分配失败

    # ===== 阶段 3: 处理前缀缓存命中的 blocks =====
    if (new_computed_block_list is not self.empty_kv_cache_blocks.blocks
            or num_external_computed_tokens > 0):
        self.coordinator.allocate_new_computed_blocks(
            request_id=request.request_id,
            new_computed_blocks=new_computed_block_list,
            num_local_computed_tokens=num_local_computed_tokens,
            num_external_computed_tokens=num_external_computed_tokens,
        )

    # ===== 阶段 4: 分配新 blocks =====
    new_blocks = self.coordinator.allocate_new_blocks(
        request.request_id,
        num_tokens_need_slot,
        num_tokens_main_model,
        num_encoder_tokens,
    )

    # ===== 阶段 5: 缓存已完成的 blocks =====
    if not self.enable_caching or delay_cache_blocks:
        return self.create_kv_cache_blocks(new_blocks)

    # 只缓存 "finalized" 的 tokens（排除 draft tokens）
    num_tokens_to_cache = min(
        total_computed_tokens + num_new_tokens,
        request.num_tokens,
    )
    self.coordinator.cache_blocks(request, num_tokens_to_cache)

    return self.create_kv_cache_blocks(new_blocks)

分配流程图：

3.1.2 free()：释放方法

# 来源: /workspace/vllm/v1/core/kv_cache_manager.py - free 方法
def free(self, request: Request) -> None:
    """释放请求分配的所有 blocks。

    按 reverse order 释放，这样尾部 blocks 先被释放，
    这在启用 caching 时有利于缓存驱逐策略。
    """
    self.coordinator.free(request.request_id)

释放流程详解：

3.1.3 can_allocate()：容量检查

虽然源码中没有显式的 can_allocate() 方法，但容量检查逻辑内嵌在 allocate_slots() 中：

# 来源: /workspace/vllm/v1/core/kv_cache_manager.py - allocate_slots 中的检查
if num_blocks_to_allocate > self.block_pool.get_num_free_blocks():
    return None  # 返回 None 表示无法分配

容量检查的关键点：

实时检查：每次分配前都查询当前可用 blocks
全局视角：BlockPool.get_num_free_blocks() 提供全局可用数量
保守估计：考虑了可能的缓存驱逐开销

3.2 BlockPool：内存池的精细管理

3.2.1 get_new_blocks()：分配新 blocks

# 来源: /workspace/vllm/v1/core/block_pool.py - get_new_blocks 方法
def get_new_blocks(self, num_blocks: int) -> list[KVCacheBlock]:
    """从空闲 block 池中获取新 blocks。

    注意：此函数不检查 block cache。
    """
    if num_blocks > self.get_num_free_blocks():
        raise ValueError(f"Cannot get {num_blocks} free blocks from the pool")

    # 从队列头部取出 blocks（O(1) 操作）
    ret: list[KVCacheBlock] = self.free_block_queue.popleft_n(num_blocks)

    # 初始化新分配的 blocks
    if self.enable_caching:
        for block in ret:
            # 如果该 block 在缓存中，先驱逐
            self._maybe_evict_cached_block(block)
            assert block.ref_cnt == 0
            block.ref_cnt += 1  # 引用计数 +1
            if self.metrics_collector:
                self.metrics_collector.on_block_allocated(block)
    else:
        for block in ret:
            assert block.ref_cnt == 0
            block.ref_cnt += 1
            if self.metrics_collector:
                self.metrics_collector.on_block_allocated(block)

    return ret

关键设计点：

O(1) 分配：使用双向链表实现 free_block_queue，头部弹出为常数时间
自动驱逐：如果取出的 block 正好是被缓存的 block，自动执行驱逐
引用计数：维护准确的引用计数以支持共享

3.2.2 _maybe_evict_cached_block()：智能驱逐

# 来源: /workspace/vllm/v1/core/block_pool.py - _maybe_evict_cached_block 方法
def _maybe_evict_cached_block(self, block: KVCacheBlock) -> bool:
    """如果 block 在 cached_block_hash_to_block 中，
    则重置其 hash 元数据并从缓存中驱逐。
    """
    # 清理指标跟踪（防止泄漏）
    if self.metrics_collector:
        self.metrics_collector.on_block_evicted(block)

    block_hash = block.block_hash
    if block_hash is None:
        return False  # 没有 hash，无需驱逐

    # 尝试从缓存中移除
    if self.cached_block_hash_to_block.pop(block_hash, block.block_id) is None:
        return False  # 不在缓存中

    # 重置 hash 元数据
    block.reset_hash()

    # 记录事件（如果启用）
    if self.enable_kv_cache_events:
        self.kv_event_queue.append(
            BlockRemoved(
                block_hashes=[maybe_convert_block_hash(get_block_hash(block_hash))],
                medium=MEDIUM_GPU,
                group_idx=get_group_id(block_hash),
            )
        )
    return True

3.2.3 touch()：增加引用计数（用于共享）

# 来源: /workspace/vllm/v1/core/block_pool.py - touch 方法
def touch(self, blocks: Sequence[KVCacheBlock]) -> None:
    """touch 一个 block 会将其引用计数增加 1，
    并可能将其从 free queue 中移除。

    当一个 block 被另一个具有相同前缀的请求命中时使用。
    """
    for block in blocks:
        # ref_cnt==0 表示 block 在 free list 中（即驱逐候选），
        # 所以将其移除
        if block.ref_cnt == 0 and not block.is_null:
            self.free_block_queue.remove(block)
        block.ref_cnt += 1
        if self.metrics_collector:
            self.metrics_collector.on_block_accessed(block)

3.2.4 free_blocks()：释放 blocks 回池

# 来源: /workspace/vllm/v1/core/block_pool.py - free_blocks 方法
def free_blocks(self, ordered_blocks: Iterable[KVCacheBlock]) -> None:
    """释放一系列 blocks。blocks 应按驱逐优先级排序，
    第一个 block 会被首先驱逐。
    """
    blocks_list = list(ordered_blocks)

    # 减少所有 blocks 的引用计数
    for block in blocks_list:
        block.ref_cnt -= 1

    # 将 ref_cnt==0 且不是 null_block 的 blocks 加入空闲队列
    self.free_block_queue.append_n([
        block for block in blocks_list
        if block.ref_cnt == 0 and not block.is_null
    ])

BlockPool 状态转换图：

3.3 SingleTypeKVCacheManager：特定注意力类型的精细管理

SingleTypeKVCacheManager 是抽象基类，针对不同注意力类型有不同实现：

# 来源: /workspace/vllm/v1/core/single_type_kv_cache_manager.py - 类层次结构
class SingleTypeKVCacheManager(ABC):
    """处理特定类型注意力层的 KV cache 管理逻辑的抽象基类。"""

    def __init__(self, kv_cache_spec, block_pool, ...):
        self.block_size = kv_cache_spec.block_size
        self.block_pool = block_pool
        self.enable_caching = enable_caching

        # 核心数据结构：request_id -> 分配的 blocks 列表
        self.req_to_blocks: defaultdict[str, list[KVCacheBlock]] = defaultdict(list)

        # 记录每个 request 已缓存的 block 数量
        self.num_cached_block: dict[str, int] = {}

    @abstractmethod
    def find_longest_cache_hit(cls, block_hashes, max_length, ...):
        """查找最长缓存命中前缀"""
        raise NotImplementedError

    @abstractmethod
    def get_num_common_prefix_blocks(self, running_request_id):
        """获取公共前缀 block 数量"""
        raise NotImplementedError

具体实现类：

Manager 类	适用场景	特殊行为
FullAttentionManager	标准 Transformer	保留所有 blocks 直到请求结束
SlidingWindowManager	滑动窗口注意力	只保留窗口内的 blocks
ChunkedLocalAttentionManager	分块局部注意力	按 chunk 回收 blocks
MambaManager	Mamba 架构	只保留最后状态
CrossAttentionManager	编码器-解码器	不启用前缀缓存

3.3.1 get_num_blocks_to_allocate()：精确计算需求

# 来源: /workspace/vllm/v1/core/single_type_kv_cache_manager.py - get_num_blocks_to_allocate
def get_num_blocks_to_allocate(
    self,
    request_id: str,
    num_tokens: int,
    new_computed_blocks: Sequence[KVCacheBlock],
    total_computed_tokens: int,
    num_tokens_main_model: int,
    apply_admission_cap: bool = False,
) -> int:
    """计算需要分配的 block 数量。"""

    # 基本需求：向上取整到 block 边界
    num_required_blocks = cdiv(num_tokens, self.block_size)

    # 应用 admission cap（用于 SWA/chunked-local 的循环利用）
    if apply_admission_cap and self._max_admission_blocks_per_request is not None:
        num_required_blocks = min(
            num_required_blocks, self._max_admission_blocks_per_request
        )

    # 当前已分配的 block 数
    num_req_blocks = len(self.req_to_blocks.get(request_id, ()))

    # 快速路径：运行中的请求（无新的前缀缓存命中）
    if request_id in self.num_cached_block:
        assert len(new_computed_blocks) == 0
        return max(num_required_blocks - num_req_blocks, 0)

    # 计算跳过的 tokens（滑动窗口等）
    num_skipped_tokens = self.get_num_skipped_tokens(total_computed_tokens)
    num_local_computed_blocks = len(new_computed_blocks) + num_req_blocks
    num_skipped_blocks = num_skipped_tokens // self.block_size

    # 计算真正需要的新 blocks
    num_new_blocks = max(
        num_required_blocks - max(num_skipped_blocks, num_local_computed_blocks),
        0,
    )

    # 考虑可驱逐的 computed blocks（它们在 free queue 中，ref_cnt==0）
    num_skipped_new_computed_blocks = max(0, num_skipped_blocks - num_req_blocks)
    num_evictable_blocks = self._get_num_evictable_blocks(
        new_computed_blocks[num_skipped_new_computed_blocks:]
    )

    return num_new_blocks + num_evictable_blocks

3.3.2 allocate_new_blocks()：执行分配

# 来源: /workspace/vllm/v1/core/single_type_kv_cache_manager.py - allocate_new_blocks
def allocate_new_blocks(
    self, request_id: str, num_tokens: int, num_tokens_main_model: int
) -> list[KVCacheBlock]:
    """为请求分配至少能容纳 num_tokens 个 token slots 的新 blocks。"""
    req_blocks = self.req_to_blocks[request_id]
    num_required_blocks = cdiv(num_tokens, self.block_size)
    num_new_blocks = num_required_blocks - len(req_blocks)

    if num_new_blocks <= 0:
        return []
    else:
        # 从 BlockPool 获取新 blocks
        new_blocks = self.block_pool.get_new_blocks(num_new_blocks)
        req_blocks.extend(new_blocks)

        # 记录新分配的 block IDs（用于 zeroing）
        if type(self.kv_cache_spec) in (FullAttentionSpec, TQFullAttentionSpec):
            self.new_block_ids.extend(b.block_id for b in new_blocks)

        return new_blocks

3.4 MultiGroupBlockTable：多组 BlockTable 管理

现代模型可能有多种注意力类型（如同时存在 full attention 和 sliding window），需要多组 BlockTable：

# 来源: /workspace/vllm/v1/worker/block_table.py - MultiGroupBlockTable 类
class MultiGroupBlockTable:
    """每个 KV cache group 的 BlockTables。"""

    def __init__(
        self,
        max_num_reqs: int,
        max_model_len: int,
        max_num_batched_tokens: int,
        pin_memory: bool,
        device: torch.device,
        block_sizes: list[int],          # 每个 group 的 block size
        kernel_block_sizes: list[int],   # 每个 group 的 kernel block size
        max_num_blocks: list[int] | None = None,
        cp_kv_cache_interleave_size: int = 1,
    ) -> None:
        # 为每个 group 创建独立的 BlockTable
        self.block_tables = [
            BlockTable(
                block_size,
                max_num_reqs,
                max_num_blocks_per_req,
                max_num_batched_tokens,
                pin_memory,
                device,
                kernel_block_size,
                cp_kv_cache_interleave_size,
            )
            for block_size, kernel_block_size, max_num_blocks_per_req in zip(
                block_sizes, kernel_block_sizes, max_num_blocks
            )
        ]

    def append_row(self, block_ids: tuple[list[int], ...], row_idx: int) -> None:
        """向所有 groups 的 block table 添加一行。"""
        for i, block_table in enumerate(self.block_tables):
            block_table.append_row(block_ids[i], row_idx)

Hybrid Blocks 支持（不同 block size）：

# 来源: /workspace/vllm/v1/worker/block_table.py - map_to_kernel_blocks
@staticmethod
def map_to_kernel_blocks(
    kv_manager_block_ids: np.ndarray,
    blocks_per_kv_block: int,
    kernel_block_arange: np.ndarray,
) -> np.ndarray:
    """将 kv_manager_block_id 转换为 kernel block id。

    示例：
        kv_manager_block_ids: 32 tokens
        Kernel block size: 16 tokens
        blocks_per_kv_block = 2

        >>> kv_manager_block_ids = np.array([0, 1, 2])
        >>> Result: [0, 1, 2, 3, 4, 5]

        每个 kv_manager_block_id 映射到 2 个 kernel block id：
        kv_manager_block_id 0 → kernel block id [0, 1]
        kv_manager_block_id 1 → kernel block id [2, 3]
        kv_manager_block_id 2 → kernel block id [4, 5]
    """
    if blocks_per_kv_block == 1:
        return kv_manager_block_ids

    kernel_block_ids = (
        kv_manager_block_ids.reshape(-1, 1) * blocks_per_kv_block
        + kernel_block_arange
    )
    return kernel_block_ids.reshape(-1)

3.5 KVCacheInterface：接口规范体系

KVCacheInterface 定义了完整的 KV cache 配置和规格体系：

# 来源: /workspace/vllm/v1/kv_cache_interface.py - 核心数据结构

@dataclass(frozen=True)
class KVCacheConfig:
    """模型的 KV cache 配置。"""
    num_blocks: int                        # KV cache block 总数
    kv_cache_tensors: list[KVCacheTensor]  # 如何初始化 KV cache tensor
    kv_cache_groups: list[KVCacheGroupSpec] # KV cache groups

@dataclass(frozen=True)
class KVCacheGroupSpec:
    """一组共享同一 block table 的模型层。"""
    layer_names: list[str]      # 该组中的层名称
    kv_cache_spec: KVCacheSpec  # 该组的 KV cache spec
    is_eagle_group: bool = False  # 是否包含 EAGLE/MTP 层

@dataclass(frozen=True)
class KVCacheSpec:
    """指定一层 KV cache 格式的基类。"""
    block_size: int  # 每个 block 中的 token 数量

@dataclass(frozen=True, kw_only=True)
class AttentionSpec(KVCacheSpec):
    """Attention 层的 KV cache spec。"""
    num_kv_heads: int               # KV head 数量
    head_size: int                  # head 维度
    dtype: torch.dtype              # 数据类型
    kv_quant_mode: KVQuantMode = KVCacheMode.NONE  # 量化模式

支持的 Attention Spec 类型：

四、内存共享机制（Memory Sharing）

4.1 Copy-on-Write (COW) 语义

PagedAttention 天然支持 Copy-on-Write 语义，允许多个请求安全地共享相同的物理 blocks：

COW 实现细节：

# 来源: /workspace/vllm/v1/core/block_pool.py - touch() 实现共享
def touch(self, blocks: Sequence[KVCacheBlock]) -> None:
    """touch block 增加其引用计数，实现共享。"""
    for block in blocks:
        # 如果 block 在 free list 中（ref_cnt==0），移除它
        if block.ref_cnt == 0 and not block.is_null:
            self.free_block_queue.remove(block)
        block.ref_cnt += 1  # 引用计数 +1，表示被另一个请求共享

4.2 Beam Search 共享

Beam Search 是 Memory Sharing 的典型应用场景：

内存节省计算（beam_width=4, prompt=1024 tokens）：

传统方案: 4 × 1024 = 4096 blocks (prompt 部分)
PagedAttention: 1024 + 4×1 = 1028 blocks (共享 prompt + 各自分支)
节省比例: (4096 - 1028) / 4096 = 74.9%

4.3 Parallel Sampling 共享

Parallel Sampling（如 nucleus sampling 的多个候选）也可以受益于共享：

# 场景：对同一 prompt 进行多次采样（temperature sampling）
num_samples = 5
prompt_length = 512  # tokens
shared_blocks = cdiv(prompt_length, block_size)  # 32 blocks

# 传统方案: 5 × 32 = 160 blocks
# PagedAttention: 32 (shared) + 5 × ε (unique suffix) ≈ 37 blocks
# 节省: 76.9%

五、Prefix Caching 公共前缀自动识别与复用

5.1 核心原理

Prefix Caching 是 PagedAttention 的重要扩展，能够自动检测并复用公共前缀：

5.2 自动检测公共前缀

find_longest_cache_hit() 实现（FullAttention 版本）：

# 来源: /workspace/vllm/v1/core/single_type_kv_cache_manager.py - FullAttentionManager
@classmethod
def find_longest_cache_hit(
    cls,
    block_hashes: BlockHashList,          # 请求的 block hash 列表
    max_length: int,                       # 最大匹配长度
    kv_cache_group_ids: list[int],         # KV cache group IDs
    block_pool: BlockPool,                 # 全局 BlockPool
    kv_cache_spec: KVCacheSpec,            # KV cache spec
    use_eagle: bool,                       # 是否使用 EAGLE
    alignment_tokens: int,                 # 对齐粒度
    dcp_world_size: int = 1,
    pcp_world_size: int = 1,
) -> tuple[list[KVCacheBlock], ...]:
    """查找最长缓存命中前缀（不超过 max_length）。"""
    computed_blocks: tuple[list[KVCacheBlock], ...] = tuple(
        [] for _ in range(len(kv_cache_group_ids))
    )
    block_size = kv_cache_spec.block_size
    if dcp_world_size * pcp_world_size > 1:
        block_size *= dcp_world_size * pcp_world_size
    max_num_blocks = max_length // block_size

    # 逐个 block 检查是否命中缓存
    for block_hash in itertools.islice(block_hashes, max_num_blocks):
        # block_hashes 是一个 chain of block hashes
        # 如果某个 block hash 不在缓存中，后续的肯定也不在
        if cached_block := block_pool.get_cached_block(
            block_hash, kv_cache_group_ids
        ):
            for computed, cached in zip(computed_blocks, cached_block):
                computed.append(cached)
        else:
            break  # 第一个未命中就停止

    # EAGLE 特殊处理：丢弃最后一个匹配的 block
    if use_eagle and computed_blocks[0]:
        for computed in computed_blocks:
            computed.pop()

    # 对齐处理：确保返回长度是 alignment_tokens 的整数倍
    while (
        block_size != alignment_tokens
        and len(computed_blocks[0]) * block_size % alignment_tokens != 0
    ):
        for computed in computed_blocks:
            computed.pop()

    return computed_blocks

关键特性：

提前终止：一旦遇到第一个未命中的 block，立即停止搜索
多组一致性：所有 KV cache groups 必须同时命中才算有效
EAGLE 兼容：特殊处理 EAGLE drafting head 的需求
对齐保证：返回的缓存 hit 长度必须是 block_size 的整数倍

5.3 缓存命中/未命中处理

缓存命中时的处理流程：

# 来源: /workspace/vllm/v1/core/kv_cache_manager.py - get_computed_blocks
def get_computed_blocks(self, request: Request) -> tuple[KVCacheBlocks, int]:
    """获取请求的计算（缓存）blocks。注意 computed blocks 必须是完整的。"""
    # 检查是否应该跳过前缀缓存查找
    if not self.enable_caching or request.skip_reading_prefix_cache:
        return self.empty_kv_cache_blocks, 0

    # 重要：当所有 tokens 都命中缓存时，必须重新计算最后一个 token
    # 以获得 logits。因此设置 max_cache_hit_length = prompt_length - 1
    max_cache_hit_length = request.num_tokens - 1

    # 查找最长缓存命中
    computed_blocks, num_new_computed_tokens = (
        self.coordinator.find_longest_cache_hit(
            request.block_hashes, max_cache_hit_length
        )
    )

    # 记录统计信息（如果启用）
    if self.log_stats:
        assert self.prefix_cache_stats is not None
        self.prefix_cache_stats.record(
            num_tokens=request.num_tokens,
            num_hits=num_new_computed_tokens,
            preempted=request.num_preemptions > 0,
        )

    return self.create_kv_cache_blocks(computed_blocks), num_new_computed_tokens

缓存写入流程：

# 来源: /workspace/vllm/v1/core/block_pool.py - cache_full_blocks
def cache_full_blocks(
    self,
    request: Request,
    blocks: list[KVCacheBlock],
    num_cached_blocks: int,
    num_full_blocks: int,
    block_size: int,
    kv_cache_group_id: int,
) -> None:
    """缓存一系列完整的 blocks 用于前缀缓存。"""
    if num_cached_blocks >= num_full_blocks:
        return

    # 获取需要缓存的新 blocks
    new_full_blocks = blocks[num_cached_blocks:num_full_blocks]
    assert len(request.block_hashes) >= num_full_blocks

    # 处理不同的 block size（hybrid models）
    if block_size == self.hash_block_size:
        block_hashes: BlockHashList = request.block_hashes
    else:
        # block_size 是 hash_block_size 的倍数（混合模型）
        assert block_size % self.hash_block_size == 0
        block_hashes = BlockHashListWithBlockSize(
            request.block_hashes, self.hash_block_size, block_size
        )

    new_block_hashes = block_hashes[num_cached_blocks:]

    # 逐个缓存 block
    for i, blk in enumerate(new_full_blocks):
        # 跳过 null blocks（稀疏注意力或 Mamba 模型）
        if blk.is_null:
            continue

        assert blk.block_hash is None
        block_hash = new_block_hashes[i]

        # 更新并添加到缓存
        block_hash_with_group_id = make_block_hash_with_group_id(
            block_hash, kv_cache_group_id
        )
        blk.block_hash = block_hash_with_group_id
        self.cached_block_hash_to_block.insert(block_hash_with_group_id, blk)

        # 可选：记录 KV cache 事件
        if new_hashes is not None:
            new_hashes.append(maybe_convert_block_hash(block_hash))

5.4 与调度器的集成

Prefix Caching 与 vLLM 的调度器紧密集成：

 渲染错误: Mermaid 渲染失败: Parse error on line 5: ...nator as Coordinator BP as BlockPool -----------------------^ Expecting '()', 'SOLID_OPEN_ARROW', 'DOTTED_OPEN_ARROW', 'SOLID_ARROW', 'SOLID_ARROW_TOP', 'SOLID_ARROW_BOTTOM', 'STICK_ARROW_TOP', 'STICK_ARROW_BOTTOM', 'SOLID_ARROW_TOP_DOTTED', 'SOLID_ARROW_BOTTOM_DOTTED', 'STICK_ARROW_TOP_DOTTED', 'STICK_ARROW_BOTTOM_DOTTED', 'SOLID_ARROW_TOP_REVERSE', 'SOLID_ARROW_BOTTOM_REVERSE', 'STICK_ARROW_TOP_REVERSE', 'STICK_ARROW_BOTTOM_REVERSE', 'SOLID_ARROW_TOP_REVERSE_DOTTED', 'SOLID_ARROW_BOTTOM_REVERSE_DOTTED', 'STICK_ARROW_TOP_REVERSE_DOTTED', 'STICK_ARROW_BOTTOM_REVERSE_DOTTED', 'BIDIRECTIONAL_SOLID_ARROW', 'DOTTED_ARROW', 'BIDIRECTIONAL_DOTTED_ARROW', 'SOLID_CROSS', 'DOTTED_CROSS', 'SOLID_POINT', 'DOTTED_POINT', got 'NEWLINE'

集成要点：

调度前预检：在调度决策前检查缓存命中率
优先级提升：高缓存命中率的请求可以优先调度
自适应批处理：根据缓存命中率调整 batch 组成
资源预估：准确估算实际需要的计算资源

六、实际效果数据与分析

6.1 内存节省的具体场景

场景一：对话系统（多变长输入）

定量分析：

假设条件：
- GPU: A100 80GB
- 模型: Llama-7B (fp16)
- Max sequence length: 4096
- 每个 token KV cache: ~1MB (简化)

传统方案：
- 每请求预留: 4096 × 1MB = 4GB
- 实际平均使用: 1331 × 1MB = 1.33GB
- 内存利用率: 33%
- 最大并发: 80GB / 4GB = 20 requests

PagedAttention：
- 每请求实际: ceil(1331/16) × 16 × 1MB ≈ 1.37GB
- 内存利用率: 97%
- 最大并发: 80GB / 1.37GB ≈ 58 requests

提升倍数: 58 / 20 = **2.9x**

场景二：API 服务（共享 System Prompt）

场景特征：
- System prompt: 1024 tokens (固定，所有请求共享)
- User message: 平均 256 tokens
- Response: 平均 512 tokens

传统方案：
- 每请求: (1024 + 256 + 512) = 1792 tokens → 预留 4096 slots
- 100 requests: 100 × 4096 = 409,600 slots
- 其中 system prompt: 100 × 1024 = 102,400 slots (重复!)

PagedAttention + Prefix Caching：
- System prompt: 1024 tokens → 64 blocks (只存 1 份!)
- Per-request: (256 + 512) = 768 tokens → 48 blocks
- Total: 64 + 100 × 48 = 4,864 blocks

节省: (409,600 - 4,864×16) / 409,600 = **81%**
等效并发提升: **~5x**

场景三：Beam Search 推理

参数：
- Beam width: 4
- Prompt length: 2048 tokens
- Generation length: 256 tokens per beam

传统方案：
- 每个 beam: (2048 + 256) × 1MB = 2.3GB
- Total: 4 × 2.3GB = 9.2GB
- Prompt 存储: 4 × 2GB = 8GB (4 份副本!)

PagedAttention + COW：
- Shared prompt: 2048 tokens → 128 blocks (1 份)
- Per-beam suffix: 256 tokens → 16 blocks
- Total: 128 + 4 × 16 = 192 blocks ≈ 3GB

节省: (9.2 - 3) / 9.2 = **67%**
Prompt 部分节省: **75%** (4份 → 1份)

6.2 综合性能提升总结

场景	传统利用率	PagedAttention 利用率	提升倍数	主要原因
对话系统	~30%	~95%	3x	消除内部碎片
API 服务	~25%	~98%	4x	Prefix Caching
Beam Search	~35%	~92%	2.6x	Memory Sharing
代码补全	~10%	~96%	9x	极端变长场景
长文档 QA	~15%	~94%	6x	动态分配

6.3 Block 分配流程完整数据流

6.4 核心数据结构关系图

七、总结与展望

7.1 PagedAttention 的核心优势总结

维度	传统方案	PagedAttention	提升幅度
内存利用率	10-50%	90-98%	2-10x
内存碎片	严重（内外部碎片）	仅 6.25% 内部碎片	近乎消除
前缀共享	不支持	原生支持 (COW)	功能新增
缓存复用	无	自动 Prefix Caching	功能新增
适应性	固定分配	动态按需分配	架构级改进
并发能力	受限于预留	接近物理极限	2-4x

7.2 设计哲学

PagedAttention 的成功源于以下几个核心设计原则：

借鉴成熟技术：直接采用操作系统的虚拟内存管理思想，经过几十年验证的可靠性
关注点分离：BlockTable（映射）、BlockPool（资源）、Manager（策略）各司其职
渐进式优化：基础 PagedAttention → Memory Sharing → Prefix Caching，层层递进
实用主义：接受 6.25% 的内部碎片换取实现的简洁性和性能

7.3 对行业的影响

PagedAttention 已经成为 LLM 推理系统的 事实标准：

主流框架（vLLM、TGI、SGLang）均采用类似设计
学术界大量后续研究基于此展开
工业界大规模部署的首选方案

7.4 未来发展方向

更智能的驱逐策略：基于访问模式预测的 adaptive eviction
跨 GPU 的 Block Pool：支持多节点分布式场景
异构内存支持：CPU/GPU/NVMe 统一内存分层
压缩感知的 Block：结合量化/稀疏化的动态 block size

📚 参考资料

核心源码文件

[kv_cache_manager.py](file:///workspace/vllm/v1/core/kv_cache_manager.py) - KVCacheManager 统一入口
- allocate_slots() (L225-L416): 核心分配逻辑
- free() (L418-L426): 释放方法
- get_computed_blocks() (L183-L223): 前缀缓存查找
[block_pool.py](file:///workspace/vllm/v1/core/block_pool.py) - BlockPool 内存池管理
- __init__() (L149-L182): 初始化和数据结构
- get_new_blocks() (L322-L352): 分配新 blocks
- _maybe_evict_cached_block() (L354-L389): 智能驱逐
- touch() (L391-L406): 引用计数增加（共享）
- free_blocks() (L408-L422): 释放 blocks
- cache_full_blocks() (L211-L320): 缓存完整 blocks
[single_type_kv_cache_manager.py](file:///workspace/vllm/v1/core/single_type_kv_cache_manager.py) - 特定注意力类型管理
- SingleTypeKVCacheManager (L30-L443): 抽象基类
- FullAttentionManager (L446-L504): 完整注意力实现
- SlidingWindowManager (L507-L641): 滑动窗口实现
- get_num_blocks_to_allocate() (L88-L167): 需求计算
- allocate_new_blocks() (L242-L269): 执行分配
[block_table.py](file:///workspace/vllm/v1/worker/block_table.py) - BlockTable 映射管理
- BlockTable.__init__() (L18-L100): 初始化
- compute_slot_mapping() (L141-L164): Slot 映射计算
- _compute_slot_mapping_kernel() (L326-L380): Triton kernel
- map_to_kernel_blocks() (L174-201): Hybrid block 映射
[kv_cache_interface.py](file:///workspace/vllm/v1/kv_cache_interface.py) - 接口规范
- KVCacheConfig (L760-L783): 配置数据结构
- KVCacheSpec (L81-L127): 规格基类
- FullAttentionSpec (L174-L284): 完整注意力规格
- SlidingWindowSpec (L414-L462): 滑动窗口规格

所有评论(0)

查看更多评论

happyprince

@ld326

已为社区贡献1条内容

05-vllm-PagedAttention 核心创新深度分析

happyprince

PagedAttention 核心创新深度分析

📌 定位

🎯 核心价值总览

一、问题背景：传统 KV Cache 的内存困境

1.1 KV Cache 的本质

1.2 传统方案的三大缺陷

❌ 缺陷一：固定分配导致的内部碎片

❌ 缺陷二：外部碎片问题

❌ 缺陷三：无法共享相同前缀

二、PagedAttention 设计思想

2.1 操作系统虚拟内存类比

2.2 Block（页）的概念与设计

Block Size 选择

2.3 逻辑地址 → 物理地址映射（BlockTable）

2.4 Block Pool（物理内存池）

三、关键实现深度解析

3.1 KVCacheManager：统一入口与协调者

3.1.1 allocate_slots()：核心分配方法

3.1.2 free()：释放方法

3.1.3 can_allocate()：容量检查

3.2 BlockPool：内存池的精细管理

3.2.1 get_new_blocks()：分配新 blocks

3.2.2 _maybe_evict_cached_block()：智能驱逐

3.2.3 touch()：增加引用计数（用于共享）

3.2.4 free_blocks()：释放 blocks 回池

3.3 SingleTypeKVCacheManager：特定注意力类型的精细管理

3.3.1 get_num_blocks_to_allocate()：精确计算需求

3.3.2 allocate_new_blocks()：执行分配

3.4 MultiGroupBlockTable：多组 BlockTable 管理

3.5 KVCacheInterface：接口规范体系

四、内存共享机制（Memory Sharing）

4.1 Copy-on-Write (COW) 语义

4.2 Beam Search 共享

4.3 Parallel Sampling 共享

五、Prefix Caching 公共前缀自动识别与复用

5.1 核心原理

5.2 自动检测公共前缀

5.3 缓存命中/未命中处理

5.4 与调度器的集成

六、实际效果数据与分析

6.1 内存节省的具体场景

场景一：对话系统（多变长输入）

场景二：API 服务（共享 System Prompt）

场景三：Beam Search 推理

6.2 综合性能提升总结

6.3 Block 分配流程完整数据流

6.4 核心数据结构关系图

七、总结与展望

7.1 PagedAttention 的核心优势总结

7.2 设计哲学

7.3 对行业的影响

7.4 未来发展方向

📚 参考资料

核心源码文件

相关论文

所有评论(0)

温馨提示：您尚未绑定手机号

happyprince