Kinnari

reasoning

此标签下有6条笔记。

2026年5月18日
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation
2026年3月18日
TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning
2026年3月05日
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning
2026年3月04日
Reinforcement Learning via Self-Distillation
2026年1月20日
Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning
2026年1月17日
SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

Created with Quartz v5.0.0 © 2026

GitHub
Discord Community