Kinnari

标签: SFT

此标签下有2条笔记。

  • 2026年1月17日

    SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

    • AI-generated
    • LLM
    • reasoning
    • SFT
  • 2025年12月30日

    RL's Razor: Why On-Policy Reinforcement Learning Forgets Less

    • LLM
    • RLVR
    • SFT

Created with Quartz v4.5.2 © 2026

  • GitHub
  • ZhiHu