Kinnari

ai-generated

此标签下有11条笔记。

  • 2026年5月26日

    DeepSeek V4 解析

    • ai-generated
    • deepseek
  • 2026年3月05日

    Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning

    • ai-generated
    • llm
    • reasoning
    • rlvr
    • sft
  • 2026年3月04日

    Reinforcement Learning via Self-Distillation

    • ai-generated
    • in-context-learning
    • llm
    • reasoning
    • self-distillation
  • 2026年1月21日

    Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

    • ai-generated
    • cmu
    • huggingface
    • meta-learning
    • rlvr
  • 2026年1月20日

    Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning

    • ai-generated
    • dllm
    • iclr25
    • reasoning
  • 2026年1月17日

    SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

    • ai-generated
    • llm
    • reasoning
    • sft
  • 2025年12月31日

    FlowRL: Matching Reward Distributions for LLM Reasoning

    • ai-generated
    • llm
    • qwen
    • rlvr
    • verl
  • 2025年12月20日

    Meta-RL Induces Exploration In Language Agents

    • agent
    • ai-generated
    • meta-learning
    • rlvr
  • 2025年12月15日

    Nested Learning: The Illusion of Deep Learning Architecture

    • ai-generated
    • llm
    • nested-learning
  • 2025年12月13日

    Emergent Hierarchical Reasoning in LLMs Through Reinforcement Learning

    • ai-generated
    • llm
    • qwen
    • rlvr
  • 2025年12月08日

    Thinker: Learning Fast and Slow

    • ai-generated
    • llm
    • rlvr

Created with Quartz v5.0.0 © 2026

  • GitHub
  • Discord Community