Nando de Freitas, ex vicepresidente de DeepMind: el aprendizaje por imitación puro puede generar comportamientos que maximicen las recompensas, sin necesidad de diseñar funciones de recompensa

Nando de Freitas, ex vicepresidente de DeepMind en Google e investigador especializado en IA, publicó el 22 de mayo en su sitio web de investigación personal, love4all.ai, una nota en la que responde afirmativamente a una cuestión fundamental del aprendizaje por refuerzo (RL): ¿Puede un agente imitador que aprende mediante interacción con el entorno alcanzar comportamientos equivalentes a la maximización de recompensas deseadas, sin recibir en absoluto etiquetas de recompensa escalar, y únicamente basándose en las ‘evidencias de preferencia escritas por el mundo’? La respuesta es ‘sí’, siempre y cuando el agente considere sus propias acciones como ‘intervenciones’ y no meras ‘observaciones’; es decir, si adopta una perspectiva de inferencia causal para analizar el impacto de sus actos sobre el entorno; de lo contrario, este efecto no se produce. En su entorno de prueba más representativo, el experimento logró resultados óptimos hasta la fecha (SOTA), y la curva de recuperación de intervenciones coincidió en gran medida con la curva de utilidad del modelo base. De Freitas afirmó: «Quizás algún día ya no necesitemos diseñar recompensas de forma manual». El estudio se difundió en formato PDF, así como en cuadernos Jupyter y código fuente TeX; el código también se compartió en GitHub.

love4all.ai | GitHub