认知循环架构与六种算法的关系

十铭忘

37人浏览 · 2026-06-29 17:45:42

十铭忘 · 2026-06-29 17:45:42 发布

文章目录

一、前言
二、认知循环架构与六种算法的关系

一、前言

仅供参考，未经实验验证。 DeepSeekMath对SFT、RFT、在线RFT、DPO、PPO、GRPO这些算法有统一范式描述，看看与九步认知循环关系。

二、认知循环架构与六种算法的关系

详细分析一下九步认知循环与SFT、RFT、在线RFT、DPO、PPO、GRPO这些算法的区别和联系

这是一个非常深刻的元认知问题。下面我从六个维度系统对比九步认知循环与这六种训练算法，先画一张总览映射图，再逐层拆解。

一、总览映射：九步循环 vs 六种算法

九步认知循环	SFT	RFT	Online RFT	DPO	PPO	GRPO
1. 确立大目标	无（被动接收任务）	无	无	无	无	无
2. 目标分解	无	无	无	无	无	无
3. 获取外部信息/判断优秀样本	人工数据（直接给）	从旧模型采样（离线）	从实时模型采样（在线）	从旧模型采样成对数据（离线）	从实时模型采样（在线）	从实时模型采样组数据（在线）
4. 外源学习（取其精华）	全文背诵（无筛选）	拒绝采样（只保留正确）	—	成对偏好筛选（对比学习）	—	—
5. 内源学习（自我博弈）	—	—	边做边筛	—	奖励模型+Critic	组内PK+KL约束
6. 实践验证	无（无验证）	规则验证（对/错）	规则验证	偏好验证	奖励模型打分	奖励模型打分
7. 分析差异	无	答案 vs 真值	答案 vs 真值	偏好 vs 厌恶	实际回报 vs Critic预估	组内得分 vs 组内均值
8. 修正理解（贝叶斯更新）	GC=1（全量平等）	GC=0/1（硬筛选）	GC=0/1（硬筛选）	GC∈(0,1)（软筛选）	GC=A_t（时序差分）	GC=Â+KL（组内相对+偏离约束）
9. 粗糙容忍度循环/停机	收敛即停	收敛即停	收敛即停	收敛即停	收敛即停	收敛即停

二、六个维度的详细对比

维度1：目标管理（第1、2、9步）—— 这是最大的断层

九步循环的核心特征：

目标是有结构的：全局目标 → 局部子目标，嵌套分解
粗糙容忍度：不要求一步完美，跑通 demo 就转下一步
显式停机判断：成本-收益性价比、是否阻碍继续、技术债标记

六种算法的核心特征：

目标是标量函数：最大化似然（SFT/RFT）或最大化期望回报（PPO/GRPO）
无粗糙容忍度：优化过程追求数学收敛，没有"差不多就行"的概念
无显式停机：训练到 loss 不降或资源耗尽为止，不存在"标记技术债，转向下一目标"

关键区别：

九步循环是项目管理式学习，算法是函数优化式学习。前者知道"什么时候该停"，后者只知道"往哪走"。

维度2：数据来源与"优秀样本"判断（第3步）

九步循环：

主动搜索/调研，判断是否存在优秀样本
搜索方向本身是基于过去经验的直觉，方向错了可能找不到优秀样本

算法对应：

算法	数据从哪来	对应九步的哪种模式
SFT	人工直接给	没有"搜索"，直接喂答案（像有人把书塞到你手里）
RFT	从固定旧模型 $\pi_{sft}$ 采样	外源学习：从"过去的自己"（旧模型）产生的作品中筛选
DPO	从固定旧模型 $\pi_{sft}$ 采样成对数据	外源学习+对比：从旧作品里挑"好/差"对比着学
Online RFT	从实时模型 $\pi_{\theta}$ 采样	内源学习：边做边筛，用"现在的自己"出题
PPO	从实时模型 $\pi_{\theta}$ 采样	内源学习+裁判：自我博弈，但请了专业裁判（奖励模型）和参谋（Critic）
GRPO	从实时模型 $\pi_{\theta}$ 采样组数据	内源学习+组内PK：没有参谋，靠同学互评

关键洞察：

九步循环的"外源/内源"切换，恰好对应了论文中 Offline vs Online 的划分。但九步循环多了"搜索方向的选择"（第3步），而算法的数据来源是预设的（要么离线要么在线），没有"先判断有没有优秀样本，再决定学习模式"的元决策。

维度3：学习模式与"取其精华"（第4、5步）

九步循环的外源学习：

模仿、推测、提问、质疑
理解有层级：循环越多，对优秀样本的理解越深
选择性内化：取其精华，去其糟粕（认知层面的筛选）

算法对应：

算法	如何"取其精华"	是否有"理解层级"
SFT	无筛选，全文背诵	❌ 无，死记硬背
RFT	硬筛选：错的答案直接扔掉（ $\mathbb{I}(o)=0$ ）	❌ 无，只分对错，不分理解深度
DPO	软筛选：成对比较，隐式学习偏好	❌ 无，学到的是概率偏好，不是概念层级
Online RFT	硬筛选：实时生成，实时扔掉错的	❌ 无
PPO/GRPO	精细筛选：按分数/排名差异化更新	❌ 无，只调输出概率，不建概念层级

关键区别：

九步循环的"取其精华"发生在认知表示层面（理解为什么好，内化到自己的知识框架）；算法的"筛选"发生在数据层面（扔掉错误样本或降低差样本概率）。前者是结构性的知识重组，后者是统计性的频率调整。

维度4：反馈信号与"分析差异"（第6、7步）

九步循环：

实践验证后，比较"自己输出"与"预期/真值"的差异
真值来源：优秀样本（如果有）、物理世界（如果是实验）、逻辑一致性（如果是推理）

算法对应：

算法	反馈信号	与九步的差异
SFT	无反馈，默认人工答案100%正确	没有"分析差异"环节
RFT/Online RFT	规则判断：对/错（二值）	类似"与标准答案比对"，但只是结果层面的对错
DPO	人类偏好：好/差（序关系）	没有绝对真值，只有相对偏好
PPO	奖励模型连续打分 + Critic 价值预估	最接近九步的"分析差异"，但Critic是事中预估（每个token预估未来回报），而九步是事后复盘（输出后比较）
GRPO	组内相对排名（归一化得分）	没有绝对标准，只有"这次比同组其他人好还是差"

关键区别：

九步循环的"真值"通常是外生且相对可靠的（优秀样本、物理实验、逻辑真值）。而 PPO/GRPO 的"裁判"（奖励模型）是内生且带噪声的，论文明确说 PRM800K 有 20% 错误标注。九步循环没有显式处理"反馈信号不可靠"的问题，而 RL 的核心挑战之一就是噪声鲁棒性。

维度5：更新机制与"修正理解"（第8步）

九步循环：

贝叶斯更新：根据反馈调整假设概率
有选择地更新：不是全盘推翻，而是"修正第4/5步的理解"或"修正第3步的搜索直觉"
更新是结构性的（理解框架的调整）

算法对应（梯度系数 $GC$ 的对比）：

算法	$GC$ （更新力度）	更新选择性	与九步的类比
SFT	$1$ （恒定）	❌ 无选择性，全量平等	像抄书：每个字都抄，不分重点
RFT	$\mathbb{I}(o) \in \{0,1\}$	✅ 硬筛选，只更新正确的	像批改作业：错的撕掉，对的照抄
Online RFT	$\mathbb{I}(o) \in \{0,1\}$	✅ 同上，但数据实时	像边做边撕错题
DPO	$\sigma(\cdot) \in (0,1)$	✅ 软筛选，自适应力度	像对比学习：好答案多模仿，差答案少模仿，力度看当前差距
PPO	$A_t \in \mathbb{R}$	✅ 精细调节，可正可负	像老师逐句批改：这句比预期好（+），那句比预期差（−）
GRPO	$\hat{A}_{i,t} + \beta(\frac{\pi_{ref}}{\pi_{\theta}}-1)$	✅ 精细调节+偏离约束	像小组讨论+导师把关：组内PK决定谁的发言值得学，导师防止你走偏

关键区别：

九步循环的"修正理解"是符号层面的（概念、假设、搜索方向的调整），而算法的更新是参数层面的（神经网络权重的梯度下降）。GRPO 的 KL 项最接近九步的"防止走偏"（导师把关），但它是数学约束而非认知约束。

维度6：Critic 的缺失——你最敏锐的观察

这是两个框架最深层的差异之一。

PPO 的 Critic（价值网络 $V_{\psi}$ ）：

作用：在每个 token 位置，预估"从这个状态出发，未来还能拿多少分"
特点：事中预估、时序性、细粒度
公式： $A_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ （时序差分）

九步循环中最接近 Critic 的是什么？

第3步"搜索方向判断"：基于经验的直觉预期（但它是事前的，不是事中的）
第9步"成本-收益判断"：宏观层面的资源分配（但它是离散决策，不是连续价值预估）

关键区别：

九步循环没有显式的、细粒度的、时序的"状态价值函数"。人类的元认知（“我觉得我现在这条路能走通吗？”）确实在扮演类似角色，但九步循环没有把它形式化为"每个中间步骤的未来回报预估"。这是九步循环的一个潜在缺口——如果要在复杂推理任务中应用九步循环，可能需要补充一个"中间步骤价值评估"的机制（类似过程奖励模型 PRM）。

三、两者的互补性：如果把它们融合

如果把九步循环的"元认知层"和 RL 的"优化层"结合，会得到一个更强大的框架：

九步循环提供	RL 算法提供	融合后的增强
目标分解与停机判断	参数优化引擎	课程式 RL：先训子目标，达标后转下一个，避免在单一目标上过度优化
外源/内源模式切换	离线/在线采样机制	自适应采样策略：先判断是否有高质量离线数据，再决定用 RFT 还是 GRPO
"理解层级"与选择性内化	梯度系数差异化	表示层面的课程学习：不仅调概率，还显式维护概念理解的层级结构
成本-收益元认知	收敛性保证	资源受限 RL：训练预算有限时，像九步循环一样做"技术债标记"，不追求完美收敛
真值/优秀样本参照	噪声鲁棒优化	弱监督 RL：当真值稀缺或噪声大时，用九步的"质疑-筛选"机制清洗奖励信号

四、一句话总结

九步认知循环是一个"元学习操作系统"（关心学什么、什么时候学、什么时候停），六种 RL 算法是这个操作系统下的"具体优化程序"（关心给定目标后怎么更新参数）。两者在"反馈-选择-更新"的闭环结构上同构，但九步循环在目标管理和认知层级上更高，而 RL 算法在时序价值预估（Critic）和噪声鲁棒优化上更精细。如果把九步循环形式化，它最可能导向"分层强化学习"或"元强化学习"的方向——即让智能体自己决定"当前该用 SFT、RFT 还是 GRPO"。

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

虚拟线程深度解析：轻量并发编程的未来趋势

调度器将虚拟线程挂载到平台线程之后，该平台线程叫做虚拟线程的携带器（言外之意就是，平台线程携带着虚拟线程），调度器并不维护虚拟线程和携带器之间的关联关系，因此在一个虚拟线程的生命周期中可以被分配到不同的携带器，即虚拟线程运行了一小段代码后，可能会脱离携带器，此时其他的虚拟线程会被分配到这个携带器上。在程序的执行过程中，虚拟线程遇到阻塞的操作时大部分情况下会被解除挂载，阻塞结束后，虚拟线程会被调度器

openEuler 社区

Linux系统以及虚拟机

Linux是一种开源，免费的操作系统内核，基于Unix设计，由LInux Torvalds与1991年首次发布。其核心特点是多用户、多任务、高稳定性和安全性，广泛应用于服务器、嵌入式设备以及个人计算机。常见的LInux发行版包括Ubuntu、CentO、Debian等。虚拟机是通过软件模拟的完整计算机系统，能够在物理计算机上运用独立的操作系统。虚拟机依赖虚拟化技术，通过虚拟机监视器管理资源分配。