Investigadores del Laboratorio de Investigación del Ejército de EE. UU. Y la Universidad de Texas en Austin han desarrollado nuevas técnicas para que los robots o los programas de computadora aprendan a realizar tareas interactuando con un instructor humano. Los resultados del estudio se presentarán y publicarán en elConferencia de la Asociación para el Avance de la Inteligencia Artificial en Nueva Orleans, Luisiana, del 2 al 7 de febrero.
Los investigadores de ARL y UT consideraron un caso específico en el que un humano proporciona retroalimentación en tiempo real en forma de crítica. Primero presentado por el colaborador Dr. Peter Stone, profesor de la Universidad de Texas en Austin, junto con su ex estudiante de doctorado,Brad Knox, como TAMER, o Entrenando a un agente manualmente a través del refuerzo evaluativo, el equipo ARL / UT desarrolló un nuevo algoritmo llamado Deep TAMER.
Es una extensión de TAMER que utiliza el aprendizaje profundo: una clase de algoritmos de aprendizaje automático que están inspirados libremente por el cerebro para proporcionar al robot la capacidad de aprender cómo realizar tareas al ver transmisiones de video en un corto período de tiempo conun entrenador humano
Según el investigador del Ejército, Dr. Garrett Warnell, el equipo consideró situaciones en las que un humano le enseña a un agente cómo comportarse al observarlo y proporcionarle críticas, por ejemplo, "buen trabajo" o "mal trabajo", de forma similar a la forma en que una personaWarnell dijo que los investigadores ampliaron el trabajo anterior en este campo para permitir este tipo de entrenamiento para robots o programas de computadora que actualmente ven el mundo a través de imágenes, que es un primer paso importante en el diseño de agentes de aprendizaje que puedanoperar en el mundo real.
Muchas técnicas actuales en inteligencia artificial requieren que los robots interactúen con su entorno durante largos períodos de tiempo para aprender cómo realizar una tarea de manera óptima. Durante este proceso, el agente puede realizar acciones que pueden no solo estar equivocadas, como un robot que se encuentrauna pared, por ejemplo, pero catastrófica como un robot que se ejecuta al costado de un acantilado. Warnell dijo que la ayuda de los humanos acelerará las cosas para los agentes y los ayudará a evitar posibles peligros.
Como primer paso, los investigadores demostraron el éxito de Deep TAMER al usarlo con 15 minutos de retroalimentación proporcionada por humanos para entrenar a un agente a desempeñarse mejor que los humanos en el juego de bolos de Atari, una tarea que ha resultado difícil incluso para el estadométodos avanzados en inteligencia artificial. Agentes entrenados en Deep TAMER exhibieron un desempeño sobrehumano, superando tanto a sus entrenadores aficionados como, en promedio, a un experto jugador humano Atari.
En los próximos uno o dos años, los investigadores están interesados en explorar la aplicabilidad de su técnica más nueva en una variedad más amplia de entornos: por ejemplo, videojuegos que no sean Atari Bowling y entornos de simulación adicionales para representar mejor los tipos de agentes y entornosencontrado al colocar robots en el mundo real.
Su trabajo se publicará en las actas de la conferencia AAAI 2018.
"El Ejército del futuro estará formado por soldados y compañeros de equipo autónomos que trabajen codo con codo", dijo Warnell. "Si bien los humanos y los agentes autónomos pueden ser entrenados por adelantado, inevitablemente se le pedirá al equipo que realice tareas, porejemplo, búsqueda y rescate o vigilancia, en nuevos entornos que no han visto antes. En estas situaciones, los humanos son notablemente buenos para generalizar su entrenamiento, pero los agentes actuales artificialmente inteligentes no lo son ".
Deep TAMER es el primer paso en una línea de investigación que sus investigadores prevén permitirá equipos de autonomía humana más exitosos en el Ejército. En última instancia, quieren agentes autónomos que puedan aprender de sus compañeros humanos de manera rápida y segura en una amplia variedad de estiloscomo demostración, instrucción de lenguaje natural y crítica.
Fuente de la historia :
Materiales proporcionados por Laboratorio de investigación del ejército de EE. UU. . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :