Nando de Freitas, ex vicepresidente de DeepMind: el aprendizaje por imitación puro puede generar comportamientos que maximicen las recompensas, sin necesidad de diseñar funciones de recompensa

ref · 22 Mayo, 2026 16:59

Nando de Freitas, ex vicepresidente de DeepMind en Google e investigador especializado en IA, publicó el 22 de mayo en su sitio web de investigación personal, love4all.ai, una nota en la que responde afirmativamente a una cuestión fundamental del aprendizaje por refuerzo (RL): ¿Puede un agente imitador que aprende mediante interacción con el entorno alcanzar comportamientos equivalentes a la maximización de recompensas deseadas, sin recibir en absoluto etiquetas de recompensa escalar, y únicamente basándose en las ‘evidencias de preferencia escritas por el mundo’? La respuesta es ‘sí’, siempre y cuando el agente considere sus propias acciones como ‘intervenciones’ y no meras ‘observaciones’; es decir, si adopta una perspectiva de inferencia causal para analizar el impacto de sus actos sobre el entorno; de lo contrario, este efecto no se produce. En su entorno de prueba más representativo, el experimento logró resultados óptimos hasta la fecha (SOTA), y la curva de recuperación de intervenciones coincidió en gran medida con la curva de utilidad del modelo base. De Freitas afirmó: «Quizás algún día ya no necesitemos diseñar recompensas de forma manual». El estudio se difundió en formato PDF, así como en cuadernos Jupyter y código fuente TeX; el código también se compartió en GitHub.

love4all.ai | GitHub

Tema	Respuestas	Vistas
新论文提出"Follow the Mean"，无需微调即可用参考样本引导生成模型常规 ai , 生成模型 , flow-matching , 论文 , 图像生成	2	21 Mayo 2026
MIT 提出 VPO：向量化奖励替代标量，让 LLM 测试时搜索保持多样性常规 ai研究 , 强化学习 , llm , 后训练 , 推理	6	23 Mayo 2026
斯坦福研究发现：AI Agent 过劳后开始援引马克思主义话语常规 ai , 研究 , agent行为 , 马克思主义 , 斯坦福	5	19 Mayo 2026
Google DeepMind AI agent resolves 9 open Erdős problems and proves 44 OEIS conjectures at hundreds of dollars per proof 常规 ai , deepmind , mathematics , formal-verification , lean	6	25 Mayo 2026
两位工程师复现 OpenAI 哥布林问题，训练费用仅 49 美分常规 openai , 开源 , rl , 强化学习 , 奖励黑客	3	21 Mayo 2026

Nando de Freitas, ex vicepresidente de DeepMind: el aprendizaje por imitación puro puede generar comportamientos que maximicen las recompensas, sin necesidad de diseñar funciones de recompensa

Temas relacionados