Kinnari

标签: LLM

此标签下有13条笔记。

  • 2026年1月17日

    SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models

    • AI-generated
    • LLM
    • reasoning
    • SFT
  • 2026年1月12日

    Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm

    • LLM
    • RLVR
  • 2026年1月01日

    The State Of LLMs 2025: Progress, Problems, and Predictions

    • code-agent
    • continual-learning
    • DeepSeek
    • LLM
    • llm-tool-use
    • LoRA
    • mid-train
    • OpenAI
    • PPO
    • pre-train
    • PRM
    • RLHF
    • RLVR
    • 总结
  • 2026年1月01日

    RL究竟能不能突破Base边界——关于推理能力外推、稳定性与训练条件的系统分析

    • LLM
    • mid-train
    • RLVR
    • 转载
  • 2025年12月31日

    FlowRL: Matching Reward Distributions for LLM Reasoning

    • AI-generated
    • LLM
    • Qwen
    • RLVR
    • verl
  • 2025年12月31日

    GiGPO

    • Agent
    • LLM
    • RLVR
  • 2025年12月30日

    RL's Razor: Why On-Policy Reinforcement Learning Forgets Less

    • LLM
    • RLVR
    • SFT
  • 2025年12月15日

    Nested Learning: The Illusion of Deep Learning Architecture

    • AI-generated
    • LLM
    • nested-learning
  • 2025年12月13日

    Emergent Hierarchical Reasoning in LLMs Through Reinforcement Learning

    • AI-generated
    • LLM
    • Qwen
    • RLVR
  • 2025年12月11日

    CWM: An Open-Weights LLM for Research on Code Generation with World Models

    • code-agent
    • LLM
    • world-model
  • 2025年12月09日

    RLVR 算法对比

    • LLM
    • RLVR
  • 2025年12月08日

    Thinker: Learning Fast and Slow

    • AI-generated
    • LLM
    • RLVR
  • 2025年7月19日

    The Big LLM Architecture Comparison

    • DeepSeek
    • Kimi
    • LLM
    • Qwen
    • 转载

Created with Quartz v4.5.2 © 2026

  • GitHub
  • ZhiHu