Kinnari

标签: SFT

此标签下有3条笔记。

2026年3月05日
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning
2026年1月17日
SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models
2025年12月30日
RL's Razor: Why On-Policy Reinforcement Learning Forgets Less
- LLM
- RLVR
- SFT

Created with Quartz v4.5.2 © 2026

GitHub
ZhiHu