一、前言

仅供参考,未经实验验证。 DeepSeekMath对SFT、RFT、在线RFT、DPO、PPO、GRPO这些算法有统一范式描述,看看与九步认知循环关系。

二、认知循环架构与六种算法的关系

详细分析一下九步认知循环与SFT、RFT、在线RFT、DPO、PPO、GRPO这些算法的区别和联系

这是一个非常深刻的元认知问题。下面我从六个维度系统对比九步认知循环与这六种训练算法,先画一张总览映射图,再逐层拆解。


一、总览映射:九步循环 vs 六种算法

九步认知循环 SFT RFT Online RFT DPO PPO GRPO
1. 确立大目标 无(被动接收任务)
2. 目标分解
3. 获取外部信息/判断优秀样本 人工数据(直接给) 从旧模型采样(离线) 从实时模型采样(在线) 从旧模型采样成对数据(离线) 从实时模型采样(在线) 从实时模型采样组数据(在线)
4. 外源学习(取其精华) 全文背诵(无筛选) 拒绝采样(只保留正确) 成对偏好筛选(对比学习)
5. 内源学习(自我博弈) 边做边筛 奖励模型+Critic 组内PK+KL约束
6. 实践验证 无(无验证) 规则验证(对/错) 规则验证 偏好验证 奖励模型打分 奖励模型打分
7. 分析差异 答案 vs 真值 答案 vs 真值 偏好 vs 厌恶 实际回报 vs Critic预估 组内得分 vs 组内均值
8. 修正理解(贝叶斯更新) GC=1(全量平等) GC=0/1(硬筛选) GC=0/1(硬筛选) GC∈(0,1)(软筛选) GC=A_t(时序差分) GC=Â+KL(组内相对+偏离约束)
9. 粗糙容忍度循环/停机 收敛即停 收敛即停 收敛即停 收敛即停 收敛即停 收敛即停

二、六个维度的详细对比

维度1:目标管理(第1、2、9步)—— 这是最大的断层

九步循环的核心特征:

  • 目标是有结构的:全局目标 → 局部子目标,嵌套分解
  • 粗糙容忍度:不要求一步完美,跑通 demo 就转下一步
  • 显式停机判断:成本-收益性价比、是否阻碍继续、技术债标记

六种算法的核心特征:

  • 目标是标量函数:最大化似然(SFT/RFT)或最大化期望回报(PPO/GRPO)
  • 无粗糙容忍度:优化过程追求数学收敛,没有"差不多就行"的概念
  • 无显式停机:训练到 loss 不降或资源耗尽为止,不存在"标记技术债,转向下一目标"

关键区别:

九步循环是项目管理式学习,算法是函数优化式学习。前者知道"什么时候该停",后者只知道"往哪走"。


维度2:数据来源与"优秀样本"判断(第3步)

九步循环:

  • 主动搜索/调研,判断是否存在优秀样本
  • 搜索方向本身是基于过去经验的直觉,方向错了可能找不到优秀样本

算法对应:

算法 数据从哪来 对应九步的哪种模式
SFT 人工直接给 没有"搜索",直接喂答案(像有人把书塞到你手里)
RFT 固定旧模型 π s f t \pi_{sft} πsft 采样 外源学习:从"过去的自己"(旧模型)产生的作品中筛选
DPO 固定旧模型 π s f t \pi_{sft} πsft 采样成对数据 外源学习+对比:从旧作品里挑"好/差"对比着学
Online RFT 实时模型 π θ \pi_{\theta} πθ 采样 内源学习:边做边筛,用"现在的自己"出题
PPO 实时模型 π θ \pi_{\theta} πθ 采样 内源学习+裁判:自我博弈,但请了专业裁判(奖励模型)和参谋(Critic)
GRPO 实时模型 π θ \pi_{\theta} πθ 采样组数据 内源学习+组内PK:没有参谋,靠同学互评

关键洞察:

九步循环的"外源/内源"切换,恰好对应了论文中 Offline vs Online 的划分。但九步循环多了"搜索方向的选择"(第3步),而算法的数据来源是预设的(要么离线要么在线),没有"先判断有没有优秀样本,再决定学习模式"的元决策。


维度3:学习模式与"取其精华"(第4、5步)

九步循环的外源学习:

  • 模仿、推测、提问、质疑
  • 理解有层级:循环越多,对优秀样本的理解越深
  • 选择性内化:取其精华,去其糟粕(认知层面的筛选)

算法对应:

算法 如何"取其精华" 是否有"理解层级"
SFT 无筛选,全文背诵 ❌ 无,死记硬背
RFT 硬筛选:错的答案直接扔掉( I ( o ) = 0 \mathbb{I}(o)=0 I(o)=0 ❌ 无,只分对错,不分理解深度
DPO 软筛选:成对比较,隐式学习偏好 ❌ 无,学到的是概率偏好,不是概念层级
Online RFT 硬筛选:实时生成,实时扔掉错的 ❌ 无
PPO/GRPO 精细筛选:按分数/排名差异化更新 ❌ 无,只调输出概率,不建概念层级

关键区别:

九步循环的"取其精华"发生在认知表示层面(理解为什么好,内化到自己的知识框架);算法的"筛选"发生在数据层面(扔掉错误样本或降低差样本概率)。前者是结构性的知识重组,后者是统计性的频率调整


维度4:反馈信号与"分析差异"(第6、7步)

九步循环:

  • 实践验证后,比较"自己输出"与"预期/真值"的差异
  • 真值来源:优秀样本(如果有)、物理世界(如果是实验)、逻辑一致性(如果是推理)

算法对应:

算法 反馈信号 与九步的差异
SFT 无反馈,默认人工答案100%正确 没有"分析差异"环节
RFT/Online RFT 规则判断:对/错(二值) 类似"与标准答案比对",但只是结果层面的对错
DPO 人类偏好:好/差(序关系) 没有绝对真值,只有相对偏好
PPO 奖励模型连续打分 + Critic 价值预估 最接近九步的"分析差异",但Critic是事中预估(每个token预估未来回报),而九步是事后复盘(输出后比较)
GRPO 组内相对排名(归一化得分) 没有绝对标准,只有"这次比同组其他人好还是差"

关键区别:

九步循环的"真值"通常是外生且相对可靠的(优秀样本、物理实验、逻辑真值)。而 PPO/GRPO 的"裁判"(奖励模型)是内生且带噪声的,论文明确说 PRM800K 有 20% 错误标注。九步循环没有显式处理"反馈信号不可靠"的问题,而 RL 的核心挑战之一就是噪声鲁棒性


维度5:更新机制与"修正理解"(第8步)

九步循环:

  • 贝叶斯更新:根据反馈调整假设概率
  • 有选择地更新:不是全盘推翻,而是"修正第4/5步的理解"或"修正第3步的搜索直觉"
  • 更新是结构性的(理解框架的调整)

算法对应(梯度系数 G C GC GC 的对比):

算法 G C GC GC(更新力度) 更新选择性 与九步的类比
SFT 1 1 1(恒定) ❌ 无选择性,全量平等 像抄书:每个字都抄,不分重点
RFT I ( o ) ∈ { 0 , 1 } \mathbb{I}(o) \in \{0,1\} I(o){0,1} ✅ 硬筛选,只更新正确的 像批改作业:错的撕掉,对的照抄
Online RFT I ( o ) ∈ { 0 , 1 } \mathbb{I}(o) \in \{0,1\} I(o){0,1} ✅ 同上,但数据实时 像边做边撕错题
DPO σ ( ⋅ ) ∈ ( 0 , 1 ) \sigma(\cdot) \in (0,1) σ()(0,1) ✅ 软筛选,自适应力度 像对比学习:好答案多模仿,差答案少模仿,力度看当前差距
PPO A t ∈ R A_t \in \mathbb{R} AtR ✅ 精细调节,可正可负 像老师逐句批改:这句比预期好(+),那句比预期差(−)
GRPO A ^ i , t + β ( π r e f π θ − 1 ) \hat{A}_{i,t} + \beta(\frac{\pi_{ref}}{\pi_{\theta}}-1) A^i,t+β(πθπref1) ✅ 精细调节+偏离约束 像小组讨论+导师把关:组内PK决定谁的发言值得学,导师防止你走偏

关键区别:

九步循环的"修正理解"是符号层面的(概念、假设、搜索方向的调整),而算法的更新是参数层面的(神经网络权重的梯度下降)。GRPO 的 KL 项最接近九步的"防止走偏"(导师把关),但它是数学约束而非认知约束


维度6:Critic 的缺失——你最敏锐的观察

这是两个框架最深层的差异之一。

PPO 的 Critic(价值网络 V ψ V_{\psi} Vψ):

  • 作用:在每个 token 位置,预估"从这个状态出发,未来还能拿多少分"
  • 特点:事中预估、时序性、细粒度
  • 公式: A t = r t + γ V ( s t + 1 ) − V ( s t ) A_t = r_t + \gamma V(s_{t+1}) - V(s_t) At=rt+γV(st+1)V(st)(时序差分)

九步循环中最接近 Critic 的是什么?

  • 第3步"搜索方向判断":基于经验的直觉预期(但它是事前的,不是事中的)
  • 第9步"成本-收益判断":宏观层面的资源分配(但它是离散决策,不是连续价值预估

关键区别:

九步循环没有显式的、细粒度的、时序的"状态价值函数"。人类的元认知(“我觉得我现在这条路能走通吗?”)确实在扮演类似角色,但九步循环没有把它形式化为"每个中间步骤的未来回报预估"。这是九步循环的一个潜在缺口——如果要在复杂推理任务中应用九步循环,可能需要补充一个"中间步骤价值评估"的机制(类似过程奖励模型 PRM)。


三、两者的互补性:如果把它们融合

如果把九步循环的"元认知层"和 RL 的"优化层"结合,会得到一个更强大的框架:

九步循环提供 RL 算法提供 融合后的增强
目标分解与停机判断 参数优化引擎 课程式 RL:先训子目标,达标后转下一个,避免在单一目标上过度优化
外源/内源模式切换 离线/在线采样机制 自适应采样策略:先判断是否有高质量离线数据,再决定用 RFT 还是 GRPO
"理解层级"与选择性内化 梯度系数差异化 表示层面的课程学习:不仅调概率,还显式维护概念理解的层级结构
成本-收益元认知 收敛性保证 资源受限 RL:训练预算有限时,像九步循环一样做"技术债标记",不追求完美收敛
真值/优秀样本参照 噪声鲁棒优化 弱监督 RL:当真值稀缺或噪声大时,用九步的"质疑-筛选"机制清洗奖励信号

四、一句话总结

九步认知循环是一个"元学习操作系统"(关心学什么、什么时候学、什么时候停),六种 RL 算法是这个操作系统下的"具体优化程序"(关心给定目标后怎么更新参数)。两者在"反馈-选择-更新"的闭环结构上同构,但九步循环在目标管理和认知层级上更高,而 RL 算法在时序价值预估(Critic)和噪声鲁棒优化上更精细。如果把九步循环形式化,它最可能导向"分层强化学习"或"元强化学习"的方向——即让智能体自己决定"当前该用 SFT、RFT 还是 GRPO"。

Logo

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐