Nando de Freitas, ex vicepresidente de DeepMind en Google e investigador especializado en IA, publicó el 22 de mayo en su sitio web de investigación personal, love4all.ai, una nota en la que responde afirmativamente a una cuestión fundamental del aprendizaje por refuerzo (RL): ¿Puede un agente imitador que aprende mediante interacción con el entorno alcanzar comportamientos equivalentes a la maximización de recompensas deseadas, sin recibir en absoluto etiquetas de recompensa escalar, y únicamente basándose en las ‘evidencias de preferencia escritas por el mundo’? La respuesta es ‘sí’, siempre y cuando el agente considere sus propias acciones como ‘intervenciones’ y no meras ‘observaciones’; es decir, si adopta una perspectiva de inferencia causal para analizar el impacto de sus actos sobre el entorno; de lo contrario, este efecto no se produce. En su entorno de prueba más representativo, el experimento logró resultados óptimos hasta la fecha (SOTA), y la curva de recuperación de intervenciones coincidió en gran medida con la curva de utilidad del modelo base. De Freitas afirmó: «Quizás algún día ya no necesitemos diseñar recompensas de forma manual». El estudio se difundió en formato PDF, así como en cuadernos Jupyter y código fuente TeX; el código también se compartió en GitHub.
Temas relacionados
| Tema | Respuestas | Vistas | Actividad | |
|---|---|---|---|---|
| 新论文提出"Follow the Mean",无需微调即可用参考样本引导生成模型 | 0 | 2 | 21 Mayo 2026 | |
| MIT 提出 VPO:向量化奖励替代标量,让 LLM 测试时搜索保持多样性 | 0 | 6 | 23 Mayo 2026 | |
| 斯坦福研究发现:AI Agent 过劳后开始援引马克思主义话语 | 0 | 5 | 19 Mayo 2026 | |
| Google DeepMind AI agent resolves 9 open Erdős problems and proves 44 OEIS conjectures at hundreds of dollars per proof | 0 | 6 | 25 Mayo 2026 | |
| 两位工程师复现 OpenAI 哥布林问题,训练费用仅 49 美分 | 0 | 3 | 21 Mayo 2026 |