方法

在训练 Agent 时,往往需要 Agent 和环境进行多轮交互,交互轨迹长达几十上百 k。而 GRPO 对同一条轨迹中的所有 token 一视同仁,导致优化难度较大,因此需要对 token 进行更精细的信用分配。GiGPO 就是为了缓解这个问题而提出的。

当环境初始条件一致并且策略不成熟时,LLM agent 会经常重复访问相同的状态,将这些状态作为一种“锚点”,称之为 anchor state。可以自然地在 rollout 后手动聚合这些重复出现的相同状态(但不同的输出 action)构成 step-level group。这让“同一状态下进行不同动作的优劣比较”成为可能。

奖励函数由两部分组成:

  1. Episode-level advantage. 和 GRPO 的 reward 相同
  2. Step-level Advantage. 利用上面提到的 anchor state 构建“环境 - 动作 - 最终奖励”组,然后相同环境计算 group-level 的 adv,得到新的 Advantage.

最后将这两部分加权相加即可,文中取权重为 1:1。

实验结果