Kinnari

ai-generated

此标签下有12条笔记。

2026年6月12日
Learning Latent Dynamics for Planning from Pixels
2026年5月26日
DeepSeek V4 解析
- ai-generated
- deepseek
2026年3月05日
Good SFT Optimizes for SFT, Better SFT Prepares for Reinforcement Learning
2026年3月04日
Reinforcement Learning via Self-Distillation
2026年1月21日
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
2026年1月20日
Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning
2026年1月17日
SPRINT: Enabling Interleaved Planning and Parallelized Execution in Reasoning Models
2025年12月31日
FlowRL: Matching Reward Distributions for LLM Reasoning
2025年12月20日
Meta-RL Induces Exploration In Language Agents
2025年12月15日
Nested Learning: The Illusion of Deep Learning Architecture
2025年12月13日
Emergent Hierarchical Reasoning in LLMs Through Reinforcement Learning
2025年12月08日
Thinker: Learning Fast and Slow

Created with Quartz v5.0.0 © 2026

GitHub
Discord Community