TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

[2603.12529] TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

TERMINATOR 是一个在推理阶段使用的提前退出（early-exit）策略。它的核心思想是通过预测模型内部是否已经首次生成了最终答案，来及时截断无用的后续推理。

利用一个外置的二元判定模块來判断 thinking 过程中是否需要早停
该模块初始化时复制 LLM 最后一层，并加上一个随机初始化的二分类预测头
训练数据合成方法：
- 首先定义长度为 $L$ 的输入提示 $x = (x_{1}, x_{2}, x_{3}, \dots, x_{L})$ ，LRM 会自回归地生成思维链 $r = (r_{1}, r_{2}, r_{3}, \dots, r_{M})$ 以及包含最终答案 $\overset{a}{^}$ 的最终解决方案 $s = (s_{1}, s_{2}, s_{3}, \dots, s_{N})$
- 答案提取：要求 LRM 从最终解决方案 $s$ 中提取出最终答案 $\overset{a}{^}$
- 答案位置识别：要求 LRM 在思维链 $r$ 中寻找一段包含 $\overset{a}{^}$ 首次逻辑出现的文本片段 $d$
- 答案验证：再次询问 LRM 这个片段 $d$ 是否真的包含了 $\overset{a}{^}$ 。如果验证失败，LRM 会收到反馈并重试，以避免陷入死循环
- Token 索引提取：验证成功后，通过文本匹配找到该片段在思维链中的确切 token 索引位置 $i^{*}$
- 最后将 $i^{*}$ 之前的所有 token 标记为 0， $i^{*}$ 及之后的标记为 1
损失函数：使用了类别加权的二元交叉熵损失函数
- $L (θ) = - \frac{1}{M} \sum_{i = 1}^{M} [w_{1} \cdot y_{i} \cdot lo g p_{i} + w_{0} \cdot (1 - y_{i}) \cdot lo g (1 - p_{i})]$
- $y_{i} \in {0, 1}$ 是真实标签，指示答案是否到达。
- $p_{i} = P_{θ} (b_{i} = 1∣ x, r_{\leq i})$ 是模型在位置 $i$ 预测答案已生成的概率。
- $w_{0}$ 和 $w_{1}$ 是类别权重，使用逆频率加权（inverse frequency weighting）从训练数据中自动计算得出
  - $w_{0} = \frac{n _{0} + n _{1}}{2 n _{0}}$ , $w_{1} = \frac{n _{0} + n _{1}}{2 n _{1}}$ ，其中 $n_{0}$ 和 $n_{1}$ 分别是训练集中标签 0 和标签 1 的总数
实际推理时：
- 使用一个包含过去 10 次预测结果的滑动窗口 (sliding window)。
- 模型将预测概率大于 $0.7$ 的 token 判定为标签 1。
- 当滑动窗口中超过 50% 的预测标签为 1（即多数投票机制, majority voting）时，算法会强制将 </think> token 注入到 LRM 的 token 流中，从而终止思考阶段并强制模型输出最终结果
效果：在 MATH-500, AIME 2025, HumanEval, 和 GPQA 上实现了 14% ~ 55% 的 CoT 缩短

description	—
tags	llm, reasoning, efficient-reasoning

Kinnari

探索

TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

关系图谱

最近的笔记

Fedora 环境搭建记录

Welcome

Learning Latent Dynamics for Planning from Pixels