Kinnari
Search
搜索
暗色模式
亮色模式
Explorer
rlhf
此标签下有2条笔记。
2026年3月20日
Efficient Exploration at Scale
llm
online-learning
rlhf
scaling-law
2026年1月01日
The State Of LLMs 2025: Progress, Problems, and Predictions
code-agent
continual-learning
deepseek
llm
llm-tool-use
lora
mid-train
openai
ppo
pre-train
prm
rlhf
rlvr
总结