Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

[2602.01058] Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

这篇文章《Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning》针对当前大语言模型（特别是推理模型）后训练（Post-training）的标准范式——“离线监督微调（SFT）+ 在线强化学习（RL）”，提出了一个非常深刻的洞察：最好的离线 SFT 性能，并不意味着能为后续的 RL 提供最好的初始化。

为了解决离线 SFT 和在线 RL 之间的分布不匹配问题，作者提出了一种名为 PEAR (Policy Evaluation–inspired Algorithm for Offline Learning Loss Reweighting) 的算法。

以下是对该文章提出的算法、创新点、重要实验结果及深度分析的详细讲解：

一、核心动机与创新点

1. 核心动机：Offline $\neq =$ Online

当前很多研究致力于改进 SFT 的损失函数（如根据 token 概率进行重加权、过滤低置信度 token 等），但这些方法大多在孤立地优化离线性能（例如直接提高 SFT 后的准确率）。

作者通过实验发现了一个反直觉的现象：离线阶段表现更强的检查点（Checkpoint），在经过完全相同的在线 RL 训练后，其最终性能甚至可能不如离线表现较弱的模型。这说明仅仅追求离线准确率，对于以“强 RL 最终表现”为目标的流水线来说，可能是适得其反的。

根本原因在于“分布不匹配（Distribution Mismatch）”：

离线 SFT：模型从行为策略（Behavior Policy, 即生成数据的策略 $π_{β}$ ） 产生的数据分布中学习。SFT 是统一地对待所有 token 的。
在线 RL：目标策略（Target Policy, 即当前正在训练的模型 $π_{θ}$ ） 通过自身生成的轨迹进行学习。

在自回归长逻辑推理中，SFT 可能会强迫模型学习一些在 $π_{β}$ 下合理，但在当前 $π_{θ}$ 看来是“死胡同”的轨迹。如果在线 RL 永远不会采样到这些前缀，那么 SFT 在这些轨迹上耗费的梯度更新就是无效甚至有害的。

2. 主要创新点

视角的转变：打破了“好 SFT = 高准确率”的传统认知，提出 SFT 的真正目标应该是为在线 RL 提供有利于持续改进的初始化。
引入离线策略评估（OPE）思想：借鉴强化学习中的 OPE 技术，利用重要性采样（Importance Sampling）来量化并纠正 SFT（行为策略）与 RL（目标策略）之间的分布偏差。
着眼于“未来”的重加权（Suffix-based Weighting）：证明了仅根据当前 token 概率进行重加权（Single-step）是短视的，必须考虑该 token 之后的后缀（Continuation/Suffix） 在当前策略下的合理性。
即插即用的通用性：PEAR 可以在不改变基础损失函数（无论是标准 NLL 还是 KL 散度知识蒸馏 KD）的情况下，仅通过修改 token 的权重（Weighting）来实现，几乎不增加额外的训练开销。

二、PEAR 算法详解

PEAR 的核心思想是：如果一条数据轨迹在当前目标模型 $π_{θ}$ 看来是极不可能生成的，那就降低这条轨迹（或 token）在 SFT 中的损失权重；反之则提高。

具体来说，算法定义了目标策略与行为策略在位置 $t$ 的概率比值：

Δ_{t} = \frac{π _{θ} ( y _{t} ∣ x , y _{< t} )}{π _{β} ( y _{t} ∣ x , y _{< t} )}

这里的 $π_{β}$ 是生成 SFT 数据轨迹所使用的模型（通常是能力更强的 teacher 模型），而 $π_{θ}$ 则是当前正在训练的模型

PEAR 保持基础的 per-token 损失 $ℓ_{θ}$ 不变，只是在外面乘上一个停止梯度更新（stop-gradient）的权重 $\hat{G}_{t}$ 。文章提出了三种计算权重的变体：

1. 序列级别加权 (Sequence-Level Weighting)

最简单的形式，计算整条序列的重要性比率： $w_{1 : T} = \prod_{t = 1}^{T} Δ_{t}$ 。

整条序列中的每一个 token 都共享这同一个权重 $G_{t} = w_{1 : T}$ 。

2. 基于后缀的 Token 级别加权 (Token-level Weighting Based on Continuation) —— 这是默认且表现最好的版本 (PEAR $_{B = 1}$ )

序列级加权粒度太粗。对于序列中的某个 token $y_{t}$ ，PEAR 评估的是：在已经生成 $y_{t}$ 的情况下，后续的真实轨迹（Suffix）在当前模型看来是否仍然合理？

如果后续轨迹在当前模型下概率极低，说明当前模型在 RL 阶段几乎不可能走到那里，那么当前 token $y_{t}$ 的梯度更新就是无意义的。

因此，权重定义为后缀概率比的乘积（并引入折扣因子 $γ$ 控制长序列方差）：

G_{t} = γ^{T - t} j = t + 1 \prod T Δ_{j}

3. 块级别加权 (Block-Level Weighting)

长序列中连乘会导致极大的方差和数值不稳定。为了在粒度和稳定性之间折中，作者将序列划分为大小为 $B$ 的连续块（Blocks）。在一个块内的所有 token 共享相同的、基于该块之后的后缀计算出的权重。

4. 数值稳定与负样本利用

数值稳定：所有的权重计算都在对数空间（log-space）进行，并且对单步比率 $Δ_{t}$ 和最终权重 $\hat{G}_{t}$ 进行了截断（Clipping），防止梯度爆炸。
负样本 (Negative Examples)：如果离线数据集包含验证失败的错误回答，PEAR 可以加入一个排斥项，使用序列级权重执行梯度上升，将模型推离那些与当前策略兼容的错误轨迹。

三、实验结果

作者在纯净可验证的逻辑游戏（SynLogic/Enigmata）和数学推理（MATH-500, AIME 等）上进行了严格的控制实验。使用的模型涵盖 Qwen2.5/3 (0.6B 到 8B) 和 DeepSeek-Distilled 模型

1. RL 后的最终性能全面超越

在保持 RL 阶段算法（GRPO）、超参数和计算预算完全一致的前提下，使用 PEAR 初始化的模型，其最终表现显著优于标准的 SFT 和其他花哨的 SFT 变体

在 Qwen3-1.7B 模型上，相比标准 SFT，PEAR 在逻辑游戏上提升了 40% 的绝对准确率；在 AIME-2025 上实现了 14% 的 Pass@8 提升。
在各种不同规模的模型（0.6B 到 8B）上，PEAR 均稳定带来增益。

2. 打破 “离线好 = 在线好” 的错觉 (Offline $\neq =$ Online)

实验清晰地展示了“排名反转（Rank Reversals）”：

TopLogP （SFT 变体）在纯离线阶段获得了最高的 Pass@1 分数。但用它作为起点跑完 RL 后，其最终表现却是最差的，甚至不如原始的 SFT
相反，PEAR 在离线阶段的准确率可能不如某些算法（因为它本质上是为了迎合 RL，而不是死记硬背离线数据），但在 RL 阶段后，效果却大幅领先

3. 跨分布转移能力 (Transfer to Different RL distributions)

作者用 PEAR 在 SynLogic 任务上做离线训练，然后在一个略有差异的未见任务（Enigmata 的一个子集）上做在线 RL。结果表明，PEAR 的优势并未过拟合于离线数据域，它依然能为偏移后的 RL 分布提供更强的初始化。

4. 完美兼容知识蒸馏 (KD) 与负样本

如果基础的 SFT 损失换成 KL 散度蒸馏（向更强的教师模型学习），PEAR 的加权方案依然有效，并能进一步提升 RL 后的表现。
在加入负样本的对比实验中，结合负样本排斥梯度的 PEAR 进一步拉高了 Pass@1。

四、深入分析

为了理解 PEAR 为什么这么好，作者进行了深入的技术分析：

1. PEAR 到底重点关注了哪些位置？ (RQ1)

作者通过计算 $KL (π_{trained} ∣∣ π_{init})$ 发现，PEAR 给高权重的 token，往往是那些在分布上被大幅偏转的 token。也就是说，PEAR 在离线训练时，系统性地将模型的行为了引导到了那些能够“成功导向合理后缀”的关键决策点上，而不是在整个句子上平均用力。

2. PEAR 的梯度如何与在线 RL 交互？ (RQ2: Gradient Rotation)

这是文章非常精彩的一个分析。作者测量了离线阶段的梯度与在线 GRPO 阶段的梯度之间的平均主视角（Principal Angle）

结论：PEAR 离线训练的梯度方向，与在线 GRPO 的学习方向夹角更小（更一致）
意义：这意味着 PEAR 在离线阶段就已经在做“类似在线 RL 想做的事情”，使得线下线上的更新方向保持一致，减少了 RL 阶段纠正 SFT 错误所带来的内耗

3. 参数漂移（Parameter Drift / NSS）

SFT 加入强 KL 惩罚（SFT+KL）会使得离线模型与基础模型非常接近（漂移小），但这反而损害了后续的 RL 性能
相比之下，PEAR 在离线阶段造成了更大的参数漂移（承担了重活/heavy-lifting），但在进入在线 RL 后，其参数漂移量（NSS 漂移）反而最小。 这说明 PEAR 使得模型以一种使得后续 RL 高效且平滑的方式进行了参数预调

4. 为什么不能只看当前步（Single-step Weighting 失败的原因）

并发工作中有提出仅基于当前步概率比 $w = π_{θ} / π_{β}$ 进行重加权的。但实验表明，这种方法效果微弱。作者指出：这是一种“近视（Myopic）”的目标。一个 action 当前看起来概率很高，但如果它导致了一个死胡同，RL 依然学不到东西。“你需要权衡未来，而不是单个动作”，这也是 PEAR 后缀加权成功的核心原因

五、总结

这篇文章的最大贡献在于重塑了我们对 LLM 后训练 pipeline 的理解：在两阶段（SFT $\to$ RL）训练中，我们不应该单纯评估 SFT 拟合数据的能力，而应该评估它对目标 RL 策略的兼容度

PEAR 算法通过巧妙借鉴强化学习中的 OPE 重要性采样，将“过去（行为策略）”与“未来（目标策略）”桥接起来，通过抑制死胡同前缀、放大可达后缀，为 RL 提供了一个方向一致、阻力最小的绝佳起跑线。其实验极其详实，分析直击本质，是一篇非常扎实且具有高度启发性的工作

Kinnari

探索

Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning