Kinnari
Search
搜索
暗色模式
亮色模式
探索
标签: PPO
此标签下有1条笔记。
2026年1月01日
The State Of LLMs 2025: Progress, Problems, and Predictions
code-agent
continual-learning
DeepSeek
LLM
llm-tool-use
LoRA
mid-train
OpenAI
PPO
pre-train
PRM
RLHF
RLVR
总结