RLVR 算法对比

PPO

https://arxiv.org/abs/1707.06347

共有四个模型：

Policy model (Actor model)
1. 一般由 SFT 模型初始化，不断进行参数更新
Reference model
1. SFT 模型初始化，参数冻结
Reward model
1. 使用 SFT 模型初始化并添加一个回归输出层，然后微调得到
2. 在 RL 训练中被冻结
3. 对 policy model 输出的 token 进行奖励评分
Critic Model (Value model)
1. 对当前 policy model 输出的 token 估计其未来奖励期望
2. 尽可能地使得策略模型能够生成不仅即时奖励高，而且对未来奖励收益高的 token，本质就是给出广义优势估计
3. 在强化学习过程中需要参与参数更新

算法流程（policy model $θ$ , critic model $ϕ$ ）：

收集数据 ${s_{t}, a_{t}, s_{t + 1}}$ ，对应打分 $r_{t + 1}$ ，其中 $s_{t + 1} \sim π_{θ} (a_{t} ∣ s_{t})$ .

对每条数据，计算每个时间步 $t$ 的折扣累计回报 $G_{t}$

$G_{t} = r_{t} + γ r_{t + 1} + γ^{2} r_{t + 2} + \dots$

实际使用 $G_{t} = r_{t} + γ G_{t + 1}$ 迭代计算

对每条数据，计算每个时间步 $t$ 的优势估计值 $A_{t}$

$A_{t} = σ_{t} + γλ σ_{t + 1} + (γλ)^{2} σ_{t + 2} + \dots$ ，其中 $σ_{t} = r_{t} + γV (s_{t + 1}) - V (s_{t})$

$λ$ 用于控制估计的偏差 - 方差之间的权衡， $λ = 1$ 为蒙特卡洛，高方差低偏差； $λ = 0$ 为 TD(0)，高偏差低方差

更新 policy model 和 critic model：

$L_{θ} = - E [min {\frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{ref} ( a _{t} ∣ s _{t} )} A_{t}, clip (\frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{ref} ( a _{t} ∣ s _{t} )}, 1 - ϵ, 1 + ϵ) A_{t}}]$

$L_{ϕ} = \frac{1}{2} (V_{ϕ} (s_{t}) - G_{t})^{2}$

熵奖励 $E [S [π_{θ}]] = - \sum_{t = 1}^{T} π_{θ} (a_{t} ∣ s_{t}) lo g π_{θ} (a_{t} ∣ s_{t})$

总损失函数 $L = L_{θ} + c_{1} L_{ϕ} - c_{2} E [S [π_{θ}]]$ ，一般 $c_{1} \approx 0.5, c_{2} \approx 0.01$

技巧：

重要性采样： $r_{t} (θ) = \frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{ref} ( a _{t} ∣ s _{t} )}$
Clip 机制： $A_{t} > 0$ 时，需要 $r_{t} (θ)$ 更大，通过 $1 + ϵ$ 约束；反之类似。 $min$ 用于采纳更保守的一项作为优化目标

优点：

稳定性高：clip、KL penalty
易于实现，超参数相对少（相较于 TRPO）

缺点：

训练成本大
Clip 机制丢弃大量梯度信息
样本数据利用率低：on policy 架构，引入 off policy 技巧
超参数敏感

DPO

https://arxiv.org/pdf/2305.18290

直接偏好对齐，用于解决 PPO 训练难度大、不容易收敛、资源消耗大的问题。方法为：通过二元交叉熵直接拟合人类偏好数据。

公式：

L_{DPO} = - E_{(x, y_{w}, y_{l}) \sim D} [lo g σ (β \frac{π _{θ} ( y _{w} ∣ x )}{π _{ref} ( y _{w} ∣ x )} - β \frac{π _{θ} ( y _{l} ∣ x )}{π _{ref} ( y _{l} ∣ x )})]

优点：

off policy：直接拟合预先准备好的人类偏好数据
资源消耗低：只需要 policy model 和 reference model，无需 reward model 和 value model。甚至可以提前录好 reference model 的结果进一步减小资源消耗。
有监督学习：通过概率匹配直接优化策略，因此稳定性高、训练难度低（只需关注学习率和偏好权重 $β$

缺点：

容易过拟合：缺少了 reward model 的泛化
更依赖数据标注量，从而还导致多任务适配较难（需要给每一个任务进行大量标注）

$L_{DPO}$ 推导

在 RLHF 中，目标函数为
$π max E_{x \sim D, y \sim π (\cdot ∣ x)} [r (x, y) - β D_{K L} (π (y ∣ x) ∣∣ π_{re f} (y ∣ x))]$
其中 $r (x, y)$ 为奖励函数， $β$ 为控制 KL 惩罚力度的系数。可以证明有一个封闭形式的最优解:
$π^{*} (y ∣ x) = \frac{1}{Z ( x )} π_{re f} (y ∣ x) exp (\frac{1}{β} r (x, y))$
DPO 则使用这个公式反解出 $r (x, y)$ 为：
$r (x, y) = β lo g \frac{π ^{*} ( y ∣ x )}{π _{re f} ( y ∣ x )} + β lo g Z (x)$
在偏好建模中，通常假设人类选择 $y_{w}$ 优于 $y_{l}$ 的概率符合 Bradley-Terry 模型（即 Sigmoid 函数）：
$P (y_{w} ≻ y_{l} ∣ x) = σ (r (x, y_{w}) - r (x, y_{l}))$
则
$P (y_{w} ≻ y_{l} ∣ x) = σ (β lo g \frac{π ^{*} ( y _{w} ∣ x )}{π _{re f} ( y _{w} ∣ x )} - β lo g \frac{π ^{*} ( y _{l} ∣ x )}{π _{re f} ( y _{l} ∣ x )})$
进而就可以得到 $L_{DPO}$ 。同时也可以知道，DPO 中的 $β$ 实际上用来控制 KL 惩罚， $β$ 越大则模型越不关注 KL 散度约束，更激进地拟合偏好数据（容易过拟合或退化）；反之则训练更保守。

为什么不直接使用线性相减作为损失？

首先是从上面的推导出发可以说明不能用线性相减。其次从优化角度来说，DPO 的形式 $L = - lo g (σ (Δ))$ 对应的梯度为 $\frac{\partial L}{\partial Δ} = σ (Δ) - 1$ ——当 $Δ$ 非常小时，会有一个 $- 1$ 的惩罚，而当 $Δ$ 非常大时（ $y_{w}$ 显著好于 $y_{l}$ ），梯度更新为 $0$ ，模型基本不会进行更新（软截断机制）。

而如果使用线性相减的形式 $L = - Δ$ ，则梯度始终为 $- 1$ ，模型不论如何都会去拟合更偏好的答案，更容易过拟合甚至训练崩溃

DPO 会出现 Reward Hacking 吗？

会。首先需要明确 DPO 是有（隐式）奖励的：
$r (x, y) = β lo g \frac{π ^{*} ( y ∣ x )}{π _{re f} ( y ∣ x )} + β lo g Z (x)$

概率比值爆炸：模型可能会通过生成 reference model OOD 的回答來获得极小的 $π_{ref} (y ∣ x)$ ，从而获得极高的奖励 $r (x, y)$

生成重复啰嗦的回答：同 1

偏离漂移： $β$ 较小时， $π_{θ}$ 过分偏离 $π_{ref}$ ，导致输出质量下降

GRPO

目标函数：

L_{GRPO} A_{i} = - \frac{1}{G} i = 1 \sum G \frac{1}{∣ o _{i} ∣} t = 1 \sum ∣ o_{i} ∣ {min (\frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{ref} ( a _{t} ∣ s _{t} )} A_{i}, clip (\frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{ref} ( a _{t} ∣ s _{t} )}, 1 - ϵ, 1 + ϵ) A_{i}) - β D_{KL} (π_{θ} ∣ π_{ref})} = \frac{r _{i} - μ _{i}}{σ _{i}}

优点：

没有价值函数的依赖，提升稳定性
更低的训练难度和训练成本：不需要 PPO 中的 critic model (value model)，reward model 也能够被替代
更强的探索能力：一组策略就是在并行探索不同区域，避免单个策略陷入局部最优
实现简单且易于并行训练

缺点：

计算复杂度高，有新的超参
高方差和训练不稳定：在 token 级别上进行重要性采样，但是每个 token 只会被采样一次，很难做到有效的分布校正，引入了高方差的噪声
奖励函数目标和优化的目标不一致问题： $A_{i}$ 是通过序列级优势计算出的，但是却用在了 token 级别的优势上。例如如果一个 token 是非常错误的，在 $π_{ref}$ 上的概率只有 $1 0^{- 8}$ ，但是却被 $θ$ 以 $p = 1 0^{- 3}$ 的概率采样到了，这会导致 $r_{t} (θ)$ 的量级在 $1 0^{5}$ 级别，极大的引入了噪声。后续 GSPO 在此基础上进行了优化

PPO 和 GRPO 分别属于 MC 和 TD 算法中的哪一种？

PPO 实际上属于基于 TD 算法的 Actor-Critic 框架。这从它的 GAE 项可以看出来： $δ_{t} = r_{t} + γV (s_{t + 1}) - V (s_{t})$ 。

而 GRPO 通过大量采样统计实际结果，不依赖价值函数 $V (s_{t})$ ，故而是 MC 算法。

另外，GRPO 只有在整条数据都生成后才能进行更新，符合 MC 算法的特征。

我们由此还能知道，PPO 偏差较高 (依赖 Critic 准确度) 而方差较低，GRPO 偏差无 (无偏估计)，方差较高 (依赖采样数量)

GRPO 为什么加上 KL 散度，用的 KL 散度是正向 KL 散度还是反向？

GRPO 中使用 KL 散度以避免模型更新后和初始模型差异过大。使用反向 KL 散度。

首先需要知道正向 KL 散度和反向 KL 散度的区别：假设 $P$ 是参考分布， $Q$ 是近似分布，由于 KL 散度的不对称性：
$D_{KL} (P ∥ Q) = x \sum P (x) lo g \frac{P ( x )}{Q ( x )}$
正向 KL 散度中 $\frac{P ( x )}{Q ( x )}$ ：若在 $P (x)$ 并非很小的地方 $Q (x)$ 非常小，则该项值会非常大，会被最小化给“修正”。带来的结果是近似分布 $Q (x)$ 的高峰区域会尽可能覆盖 $P (x)$ 的所有高峰区域。
$D_{KL} (Q ∥ P) = x \sum Q (x) lo g \frac{Q ( x )}{P ( x )}$
同理可以知道， $Q (x)$ 的低概率区域会覆盖 $P (x)$ 的低概率区域，因此 $Q (x)$ 会更倾向于只覆盖 $P (x)$ 的少数高峰区域。

在做分类任务（Cross Entropy Loss）时，实际上就是在最小化正向 KL。我们希望模型能够覆盖所有训练数据（真实分布 $P$ ）的情况。而在 RLHF 中，我们希望生成的回答（ $Q$ ）一定是通顺的、符合参考模型（ $P$ ）逻辑的。与其让模型输出一堆乱码去尝试覆盖所有可能，不如让它锁定在一种高质量的输出模式上。

具体怎么计算 KL 散度，KL 散度和交叉熵的关系是？
在 veRL 中，KL 散度有三种方式进行近似，见 veRL 源码 —— actor 是如何更新的，如下：

模式配置 Forward 数值 (Reward 计算) Backward 梯度 (参数更新) 备注
"k1" / "kl" $lo g π - lo g π_{re f}$ 同 Forward 标准做法，方差大
"k2" / "mse" $\frac{1}{2} (lo g π - lo g π_{re f})^{2}$ 同 Forward 梯度稳，数值近似
"k3" $r - lo g r - 1$ 同 Forward 数值稳，梯度可能有偏
"k3+" (推荐) $r - lo g r - 1$ (K3) $\frac{1}{2} Δ^{2}$ (K2) 数值用 K3，梯度用 K2

其中 k3+ 方法结合了 k3 在数值期望上准确，但是在期望梯度上不准；同时 k2 虽然在数值期望上不准，但是期望梯度上准确的性质，通过
backward_score - backward_score.detach() + forward_score.detach()
的方式，巧妙实现了前向和反向传播的同时正确性。

另外，交叉熵是正向 KL 散度。

模式配置	Forward 数值 (Reward 计算)	Backward 梯度 (参数更新)	备注
`"k1"` / `"kl"`	$lo g π - lo g π_{re f}$	同 Forward	标准做法，方差大
`"k2"` / `"mse"`	$\frac{1}{2} (lo g π - lo g π_{re f})^{2}$	同 Forward	梯度稳，数值近似
`"k3"`	$r - lo g r - 1$	同 Forward	数值稳，梯度可能有偏
`"k3+"` (推荐)	$r - lo g r - 1$ (K3)	$\frac{1}{2} Δ^{2}$ (K2)	数值用 K3，梯度用 K2

为什么 GRPO 和 PPO 都要对 $r A, clip (r, 1 - ϵ, 1 + ϵ)$ 再取一个 min，而不是直接用 $clip (r, 1 - ϵ, 1 + ϵ)$

对 $A > 0$ 的样本，如果其更新幅度较小（ $r < 1 - ϵ$ ），则会依然保留更小的 $r A$ ，保留了梯度；而如果更新幅度过大（ $r > 1 + ϵ$ ），则 $r A$ 会被截断为 $(1 + ϵ) A$ ，没有梯度贡献了。在 veRL 中，这里的截断是使用 torch.clamp 函数。

对 $A < 0$ 的样本，如果其更新幅度较大（ $r > 1 + ϵ$ ），则会依然保留更小的 $r A$ ，保留了梯度；而如果更新幅度过小（ $r < 1 - ϵ$ ），则 $r A$ 会被截断为 $(1 - ϵ) A$ ，没有梯度贡献了。

综上可以知道，使用 $min$ 的原因是 (1) 对于正样本，不要过于自信的进行更新 (2) 对于负样本，尽可能的进行惩罚，但如果新模型 $θ$ 在参考模型的高峰区域采样到了低概率 token，则说明该 token 很可能是噪声，需要进行屏蔽。

GRPO 训练时出现提前收敛的现象，即一个 epoch 尚未训练完成，reward 就已经饱和，这种情况有什么处理思路

调参：学习率调小、batch size 调大、rollout size 调大、KL 惩罚调大、warm up step 合适

检查数据分布，是否有 shuffling

检查 reward score 分布范围和 KL 散度的 scale 是否一致，否则 loss 可能会被 reward 主导，导致和 reference model 的偏差过大

GRPO 能否使用 off-policy 的数据辅助 reward 计算？例如同一个 query，使用几个 step 之前的 rollout，以降低采样压力？

不行。因为在计算优势 $A$ 时，公式为 $A = \frac{r - μ}{σ}$ ，如果使用旧策略的 rollout，则 $μ$ 和 $σ$ 的估计都是有偏的，则 $A$ 的计算就是不准确的。另外在训练初期，rollout 质量往往很差，会很大影响训练进度

DAPO

https://arxiv.org/abs/2503.14476

这篇文章讲得很详细了：https://zhuanlan.zhihu.com/p/31157035727.主要有这几个 trick：

Clip higher：提高 $ϵ_{high}$ 的值
1. 原因是训练中熵会迅速降低，且低概率的 token 受 $ϵ_{high}$ 的影响更大（ $ϵ_{high} = 0.2$ 时，更新前后概率 $0.01 \to 0.012, 0.9 \to 1.08$ ，显然低概率 token 的最大可能概率几乎没有变化，从而限制了模型的探索
Dynamic sampling
1. 当一组回复的值全相等的时候，优势为 0，而根据 $\nabla_{θ} J (θ) \approx E [\sum_{t} \nabla_{θ} lo g π_{θ} (o_{t} ∣ q) \cdot A_{t}]$ ，可知该组对应的梯度也为 0，所以不如直接舍弃这部分样本
Token 级策略梯度损失：同 Dr.GRPO
Overlong Reward Shaping：如下面的公式所示
移除 KL 散度

R_{length} (y) = ⎩ ⎨ ⎧ 0 \frac{( L _{max} - L _{cache} ) - ∣ y ∣}{L _{cache}}, - 1, ∣ y ∣ \leq L_{max} - L_{cache} L_{max} - L_{cache} < ∣ y ∣ \leq L_{max} L_{max} < ∣ y ∣

Lite PPO

https://arxiv.org/abs/2508.08221v1

做了大量实验，然后归纳出如下两个有效 trick，从而得到 Lite PPO 算法：

组级别均值 + 批次级别标准差
Token 级别损失聚合：同 Dr.GRPO

Dr.GRPO

https://arxiv.org/abs/2503.20783

目标函数：

L_{Dr.GRPO} = \frac{1}{L} i = 1 \sum G t = 1 \sum ∣ o_{i} ∣ {min (\frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{ref} ( a _{t} ∣ s _{t} )} \tilde{A}_{i}, clip (\frac{π _{θ} ( a _{t} ∣ s _{t} )}{π _{ref} ( a _{t} ∣ s _{t} )}, 1 - ϵ, 1 + ϵ) \tilde{A}_{i})}

这里 $L = \sum_{i = 1}^{G} ∣ o_{i} ∣, \tilde{A}_{i} = r_{i} - μ_{i}$ . 相较于 GRPO 有两个变化：

去除了 GRPO 序列的归一化（ $\frac{1}{∣ o _{i} ∣}$ ），这是因为虽然这样会使每一个序列的 loss 归一化，但是在进行更新时，梯度也会被除以 $∣ o_{i} ∣$ ，导致正确的（ $\tilde{A}_{i} > 0$ ）且较短的样本，以及错误的（ $\tilde{A}_{i} < 0$ ）且较长的样本的每一个 token 的梯度更大
去除了优势中的分母 $σ_{i}$ 。原因是作者认为 $σ_{i}$ 的存在会使较难和较简单的样本的优势过于放大

GSPO

相较于 GRPO，计算的是整个序列的重要性采样比率：

s_{i} (θ) = (\frac{π _{θ} ( y _{i} ∣ x )}{π _{ref} ( y _{i} ∣ x )})^{1/ ∣ y_{i} ∣} = exp \frac{1}{∣ y _{i} ∣} t = 1 \sum ∣ y_{i} ∣ lo g \frac{π _{θ} ( y _{i, t} ∣ x , y _{i, < t} )}{π _{ref} ( y _{i, t} ∣ x , y _{i, < t} )}

相应的损失为：

L_{GSPO} = \frac{1}{G} i = 1 \sum G min (s_{i} (θ) A_{i}, clip (s_{i} (θ), 1 - ϵ, 1 + ϵ))

注意剪裁也变成了序列级的剪裁。

优点：

对 MoE 架构的模型友好：同一批样本输入 MoE 模型，激活的专家网络都可能不一致，导致计算出的 $r_{t} (θ)$ 有较大波动，触发 clip 机制损失梯度信息，又本身噪声很大。GSPO 在序列角度计算重要性采样，对 token 级的重要性比值波动不敏感
训练稳定性高：在 GRPO 中讨论过

缺点：代码实现稍显复杂

GSPO 计算序列重要性采样为什么用几何平均值，不用算数平均

几何平均对极端值不敏感， $\frac{π _{θ} ( y _{t} ∣ x , y _{< t} )}{π _{ref} ( y _{t} ∣ x , y _{< t} )}$ 极大或极小时都不会受很大的影响（因为有开 $n$ 次方根的操作）

符合序列建模： $\frac{π _{θ} ( y ∣ x )}{π _{ref} ( y ∣ x )} = Π \frac{π _{θ} ( y _{t} ∣ x , y _{< t} )}{π _{ref} ( y _{t} ∣ x , y _{< t} )}$

其他面经

强化学习中如何判断是否出现 reward hacking，有什么解决思路

判断的核心是 reward score 和其他指标或表现有无矛盾的地方：

reward score 上涨，但 eval score 无明显变化甚至下降

KL 散度过高，说明偏离了 reference model 过多

response length 过长，常见于有长度偏见的 reward model

复读现象严重，重复某些特定的高分词汇、短语，或者不断重复用户的 Prompt

解决思路：

重新设计 reward，如长度约束、复读惩罚等，还可以在训练过程中更新 reward 给法

加 KL 散度约束

rollout 出的样本中，过滤掉 old_log_prob 过小的样本（偏离 reference model 太多）

大模型的强化学习训练时出现 entropy collapse，有什么解决思路

调整 KL 惩罚

调整熵正则化项，但是需要注意在大模型中由于词表太大，过大的熵系数会导致模型倾向于输出均匀分布的“乱码”来最大化熵，而不是生成有意义的多样化文本。建议退火或者不要使用

调整奖励模型/规则

调整采样策略：提高采样温度（ $0.7 \sim 1.0$ ），收集多样性更强的数据；同时调整 top-p 和 top-k 來过滤长尾低质量 token

检查数据的质量

Kinnari

探索

PPO

DPO

GRPO

DAPO

Lite PPO

Dr.GRPO

GSPO

其他面经

Reference

关系图谱

目录

反向链接

最近的笔记

Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning

Fedora 环境搭建记录