Kinnari
Search
搜索
暗色模式
亮色模式
Explorer
reasoning
此标签下有6条笔记。
2026年5月18日
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation
bytedance-seed
llm
reasoning
unified-model
2026年3月18日
TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning
llm
reasoning
efficient-reasoning
2026年3月05日
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning
ai-generated
llm
reasoning
rlvr
sft
2026年3月04日
Reinforcement Learning via Self-Distillation
ai-generated
in-context-learning
llm
reasoning
self-distillation
2026年1月20日
Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning
ai-generated
dllm
iclr25
reasoning
2026年1月17日
SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models
ai-generated
llm
reasoning
sft