Kinnari

reasoning

此标签下有6条笔记。

  • 2026年5月18日

    UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

    • bytedance-seed
    • llm
    • reasoning
    • unified-model
  • 2026年3月18日

    TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

    • llm
    • reasoning
    • efficient-reasoning
  • 2026年3月05日

    Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

    • ai-generated
    • llm
    • reasoning
    • rlvr
    • sft
  • 2026年3月04日

    Reinforcement Learning via Self-Distillation

    • ai-generated
    • in-context-learning
    • llm
    • reasoning
    • self-distillation
  • 2026年1月20日

    Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning

    • ai-generated
    • dllm
    • iclr25
    • reasoning
  • 2026年1月17日

    SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

    • ai-generated
    • llm
    • reasoning
    • sft

Created with Quartz v5.0.0 © 2026

  • GitHub
  • Discord Community