ai研究

Sujet		Réponses	Vues	Activité
Le MIT propose le VPO : une récompense vectorielle en remplacement de la récompense scalaire pour préserver la diversité lors de la recherche en temps réel dans les LLM Normal ai研究 , 强化学习 , llm , 后训练 , 推理		0	5	Mai 23, 2026
Nando de Freitas, ancien vice-président de DeepMind : l’apprentissage par imitation pur peut faire émerger des comportements maximisant les récompenses, sans avoir besoin de concevoir de fonction de récompense Normal 强化学习 , ai研究 , deepmind , 奖励学习 , 模仿学习		0	3	Mai 22, 2026