GiGPO

TL;DR

本文提出了 Group-in-Group Policy Optimization (GiGPO)，一种专为长视界（long-horizon）多轮交互 LLM 智能体设计的无 Critic 强化学习算法，旨在解决现有 Group-based RL（如 GRPO）在稀疏奖励场景下难以进行细粒度信用分配（credit assignment）的难题。GiGPO 采用了一种层次化的双层优势估计架构：在 Episode 层级，基于完整的轨迹组计算宏观相对优势以捕捉全局任务完成质量；在 Step 层级，引入创新的锚点状态分组（anchor state grouping）机制，通过回溯识别跨轨迹的相同环境状态，将同一状态下衍生的不同动作聚合以计算微观相对优势。这种设计在无需额外 Rollout 或辅助价值模型的前提下，成功实现了精确的每步信用分配，实验证明 GiGPO 在保持与 GRPO 相同的显存开销和训练效率的同时，在 ALFWorld、WebShop 及搜索增强 QA 等复杂基准任务上显著优于 PPO 和现有 Group-based 方法。

方法

在训练 Agent 时，往往需要 Agent 和环境进行多轮交互，交互轨迹长达几十上百 k。而 GRPO 对同一条轨迹中的所有 token 一视同仁，导致优化难度较大，因此需要对 token 进行更精细的信用分配。GiGPO 就是为了缓解这个问题而提出的。

当环境初始条件一致并且策略不成熟时，LLM agent 会经常重复访问相同的状态，将这些状态作为一种“锚点”，称之为 anchor state。可以自然地在 rollout 后手动聚合这些重复出现的相同状态（但不同的输出 action）构成 step-level group。这让“同一状态下进行不同动作的优劣比较”成为可能。

奖励函数由两部分组成：

Episode-level advantage. 和 GRPO 的 reward 相同
Step-level Advantage. 利用上面提到的 anchor state 构建“环境 - 动作 - 最终奖励”组，然后相同环境计算 group-level 的 adv，得到新的 Advantage.

最后将这两部分加权相加即可，文中取权重为 1:1。

Kinnari

探索

方法

实验结果

关系图谱

目录

反向链接

最近的笔记

Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning

Fedora 环境搭建记录