[2603.12529] TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

TERMINATOR 是一个在推理阶段使用的提前退出(early-exit)策略。它的核心思想是通过预测模型内部是否已经首次生成了最终答案,来及时截断无用的后续推理。

  • 利用一个外置的二元判定模块來判断 thinking 过程中是否需要早停
  • 该模块初始化时复制 LLM 最后一层,并加上一个随机初始化的二分类预测头
  • 训练数据合成方法:
    • 首先定义长度为 的输入提示 ,LRM 会自回归地生成思维链 以及包含最终答案 的最终解决方案
    • 答案提取:要求 LRM 从最终解决方案 中提取出最终答案
    • 答案位置识别:要求 LRM 在思维链 中寻找一段包含 首次逻辑出现的文本片段
    • 答案验证:再次询问 LRM 这个片段 是否真的包含了 。如果验证失败,LRM 会收到反馈并重试,以避免陷入死循环
    • Token 索引提取:验证成功后,通过文本匹配找到该片段在思维链中的确切 token 索引位置
    • 最后将 之前的所有 token 标记为 0, 及之后的标记为 1
  • 损失函数:使用了类别加权的二元交叉熵损失函数
    • 是真实标签,指示答案是否到达。
    • 是模型在位置 预测答案已生成的概率。
    • 是类别权重,使用逆频率加权(inverse frequency weighting)从训练数据中自动计算得出
      • , ,其中 分别是训练集中标签 0 和标签 1 的总数
  • 实际推理时:
    • 使用一个包含过去 10 次预测结果的滑动窗口 (sliding window)
    • 模型将预测概率大于 的 token 判定为标签 1。
    • 当滑动窗口中超过 50% 的预测标签为 1(即多数投票机制, majority voting)时,算法会强制将 </think> token 注入到 LRM 的 token 流中,从而终止思考阶段并强制模型输出最终结果
  • 效果:在 MATH-500, AIME 2025, HumanEval, 和 GPQA 上实现了 14% ~ 55% 的 CoT 缩短