Kinnari

标签: RLVR

此标签下有11条笔记。

  • 2026年1月21日

    Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

    • AI-generated
    • CMU
    • Huggingface
    • meta-learning
    • RLVR
  • 2026年1月12日

    Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm

    • LLM
    • RLVR
  • 2026年1月01日

    The State Of LLMs 2025: Progress, Problems, and Predictions

    • code-agent
    • continual-learning
    • DeepSeek
    • LLM
    • llm-tool-use
    • LoRA
    • mid-train
    • OpenAI
    • PPO
    • pre-train
    • PRM
    • RLHF
    • RLVR
    • 总结
  • 2026年1月01日

    RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析

    • LLM
    • mid-train
    • RLVR
    • 转载
  • 2025年12月31日

    FlowRL: Matching Reward Distributions for LLM Reasoning

    • AI-generated
    • LLM
    • Qwen
    • RLVR
    • verl
  • 2025年12月31日

    GiGPO

    • Agent
    • LLM
    • RLVR
  • 2025年12月30日

    RL's Razor: Why On-Policy Reinforcement Learning Forgets Less

    • LLM
    • RLVR
    • SFT
  • 2025年12月20日

    Meta-RL Induces Exploration In Language Agents

    • agent
    • AI-generated
    • meta-learning
    • RLVR
  • 2025年12月13日

    Emergent Hierarchical Reasoning in LLMs Through Reinforcement Learning

    • AI-generated
    • LLM
    • Qwen
    • RLVR
  • 2025年12月09日

    RLVR 算法对比

    • LLM
    • RLVR
  • 2025年12月08日

    Thinker: Learning Fast and Slow

    • AI-generated
    • LLM
    • RLVR

Created with Quartz v4.5.2 © 2026

  • GitHub
  • ZhiHu