Una nueva generación de algoritmos ha dominado los videojuegos de Atari 10 veces más rápido que la IA de última generación, con un enfoque innovador para la resolución de problemas.
Diseñar IA que pueda negociar problemas de planificación, especialmente aquellos donde las recompensas no son inmediatamente obvias, es uno de los desafíos de investigación más importantes para avanzar en el campo.
Un famoso estudio de 2015 mostró que Google DeepMind AI aprendió a jugar videojuegos de Atari como Video Pinball a nivel humano, pero notoriamente no aprendió el camino hacia la primera clave en el videojuego de los años 80 Montezuma's Revenge debido a la complejidad del juego.
En el nuevo método desarrollado en la Universidad RMIT en Melbourne, Australia, las computadoras configuradas para jugar de forma autónoma a la venganza de Montezuma aprendieron de los errores e identificaron objetivos secundarios 10 veces más rápido que Google DeepMind para terminar el juego.
El profesor asociado Fabio Zambetta de la Universidad RMIT presenta el nuevo enfoque este viernes en la 33a Conferencia de la AAAI sobre Inteligencia Artificial en los Estados Unidos.
El método, desarrollado en colaboración con el profesor John Thangarajah y Michael Dann de RMIT, combina el aprendizaje de refuerzo de "zanahoria y palo" con un enfoque de motivación intrínseca que recompensa a la IA por ser curioso y explorar su entorno.
"La IA verdaderamente inteligente debe ser capaz de aprender a completar tareas de manera autónoma en entornos ambiguos", dice Zambetta.
"Hemos demostrado que el tipo correcto de algoritmos puede mejorar los resultados utilizando un enfoque más inteligente en lugar de ser puramente bruto forzando un problema de extremo a extremo en computadoras muy potentes".
"Nuestros resultados muestran cuánto más nos acercamos a la IA autónoma y podría ser una línea de investigación clave si queremos seguir avanzando sustancialmente en este campo"
El método de Zambetta recompensa al sistema por explorar de forma autónoma objetivos secundarios útiles como 'subir esa escalera' o 'saltar sobre ese pozo', que puede no ser obvio para una computadora, en el contexto de completar una misión más grande.
Otros sistemas de vanguardia han requerido el aporte humano para identificar estos objetivos secundarios o de lo contrario decidieron qué hacer a continuación al azar.
"No solo nuestros algoritmos identificaron de manera autónoma tareas relevantes aproximadamente 10 veces más rápido que Google DeepMind mientras jugaban la venganza de Montezuma, sino que también exhibieron un comportamiento relativamente humano", dice Zambetta.
"Por ejemplo, antes de que puedas llegar a la segunda pantalla del juego necesitas identificar subtareas como subir escaleras, saltar sobre un enemigo y luego finalmente recoger una llave, aproximadamente en ese orden.
"Esto eventualmente sucedería al azar después de una gran cantidad de tiempo, pero suceder tan naturalmente en nuestras pruebas muestra algún tipo de intención.
"Esto hace que el nuestro sea el primer agente totalmente autónomo orientado a objetivos secundarios que sea verdaderamente competitivo con los agentes más avanzados en estos juegos"
Zambetta dijo que el sistema funcionaría fuera de los videojuegos en una amplia gama de tareas, cuando se suministra con entradas visuales en bruto.
"Crear un algoritmo que pueda completar los videojuegos puede sonar trivial, pero el hecho de que hayamos diseñado uno que pueda hacer frente a la ambigüedad al elegir entre un número arbitrario de posibles acciones es un avance crítico.
"Significa que, con el tiempo, esta tecnología será valiosa para lograr objetivos en el mundo real, ya sea en automóviles autónomos o como asistentes robóticos útiles con reconocimiento del lenguaje natural", dice.
La derivación de submetas de forma autónoma para acelerar el aprendizaje en dominios de recompensa escasa adjunto se presentará en la 33a Conferencia de la AAAI sobre Inteligencia Artificial en Honolulu, Hawai, el 1 de febrero de 2019.
Fuente de la historia :
Materiales proporcionado por Universidad RMIT . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :