WeLinux
ai研究
Sujet
Réponses
Vues
Activité
Le MIT propose le VPO : une récompense vectorielle en remplacement de la récompense scalaire pour préserver la diversité lors de la recherche en temps réel dans les LLM
Normal
ai研究
,
强化学习
,
llm
,
后训练
,
推理
0
5
Mai 23, 2026
Nando de Freitas, ancien vice-président de DeepMind : l’apprentissage par imitation pur peut faire émerger des comportements maximisant les récompenses, sans avoir besoin de concevoir de fonction de récompense
Normal
强化学习
,
ai研究
,
deepmind
,
奖励学习
,
模仿学习
0
3
Mai 22, 2026