WeLinux
奖励学习
Sujet
Réponses
Vues
Activité
Nando de Freitas, ancien vice-président de DeepMind : l’apprentissage par imitation pur peut faire émerger des comportements maximisant les récompenses, sans avoir besoin de concevoir de fonction de récompense
Normal
强化学习
,
ai研究
,
deepmind
,
奖励学习
,
模仿学习
0
3
Mai 22, 2026