Kinnari

sft

此标签下有3条笔记。

  • 2026年3月05日

    Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

    • ai-generated
    • llm
    • reasoning
    • rlvr
    • sft
  • 2026年1月17日

    SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

    • ai-generated
    • llm
    • reasoning
    • sft
  • 2025年12月30日

    RL's Razor: Why On-Policy Reinforcement Learning Forgets Less

    • llm
    • rlvr
    • sft

Created with Quartz v5.0.0 © 2026

  • GitHub
  • Discord Community