Kinnari
Search
搜索
暗色模式
亮色模式
Explorer
sft
此标签下有3条笔记。
2026年3月05日
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning
ai-generated
llm
reasoning
rlvr
sft
2026年1月17日
SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models
ai-generated
llm
reasoning
sft
2025年12月30日
RL's Razor: Why On-Policy Reinforcement Learning Forgets Less
llm
rlvr
sft