En el futuro, un soldado y un controlador de juego pueden ser todo lo que se necesita para enseñar a los robots cómo superar a los humanos.
En el Laboratorio de Investigación del Ejército del Comando de Desarrollo de Capacidades de Combate del Ejército de los EE. UU. Y la Universidad de Texas en Austin, los investigadores diseñaron un algoritmo que permite que un vehículo terrestre autónomo mejore sus sistemas de navegación existentes al observar un impulso humano. El equipo probó su enfoque:llamado aprendizaje de parámetros del planificador adaptativo a partir de la demostración, o APPLD, en uno de los vehículos terrestres autónomos experimentales del Ejército.
"Usando enfoques como APPLD, los soldados actuales en las instalaciones de entrenamiento existentes podrán contribuir a las mejoras en los sistemas autónomos simplemente operando sus vehículos con normalidad", dijo el investigador del Ejército, el Dr. Garrett Warnell. "Técnicas como estas serán una contribución importantea los planes del Ejército de diseñar y desplegar vehículos de combate de próxima generación que estén equipados para navegar de forma autónoma en entornos de despliegue fuera de la carretera ".
Los investigadores fusionaron el aprendizaje automático a partir de algoritmos de demostración y sistemas de navegación autónomos más clásicos. En lugar de reemplazar un sistema clásico por completo, APPLD aprende cómo ajustar el sistema existente para que se comporte más como la demostración humana. Este paradigma permite que el sistema implementado retengatodos los beneficios de los sistemas de navegación clásicos, como la optimización, la explicabilidad y la seguridad, al tiempo que permiten que el sistema sea flexible y adaptable a nuevos entornos, dijo Warnell.
"Una única demostración de conducción humana, proporcionada con un controlador inalámbrico Xbox diario, le permitió a APPLD aprender a ajustar el sistema de navegación autónomo existente del vehículo de manera diferente según el entorno local en particular", dijo Warnell. "Por ejemplo, en uncorredor estrecho, el conductor humano redujo la velocidad y condujo con cuidado. Después de observar este comportamiento, el sistema autónomo aprendió a reducir también su velocidad máxima y a aumentar su presupuesto de cálculo en entornos similares. Esto finalmente permitió que el vehículo navegara con éxito de forma autónoma en otros corredores estrechos dondehabía fallado anteriormente. "
Esta investigación es parte de la iniciativa Campus Abierto del Ejército, a través de la cual los científicos del Ejército en Texas colaboran con socios académicos en UT Austin.
"APPLD es otro ejemplo de un flujo creciente de resultados de investigación que ha sido facilitado por el acuerdo de colaboración único entre UT Austin y el Army Research Lab", dijo el Dr. Peter Stone, profesor y presidente del Robotics Consortium en UT Austin"Al tener al Dr. Warnell integrado en UT Austin a tiempo completo, podemos identificar y abordar rápidamente problemas de investigación que son tanto avances científicos de vanguardia como inmediatamente relevantes para el Ejército".
Los experimentos del equipo demostraron que, después del entrenamiento, el sistema APPLD pudo navegar por los entornos de prueba más rápidamente y con menos fallas que con el sistema clásico. Además, el sistema APPLD entrenado a menudo navegaba por el entorno más rápido que el humano que lo entrenó. La revista revisada por pares, Cartas de automatización y robótica IEEE , publicó el trabajo del equipo: APPLD: Adaptive Planner Parameter Learning From Demonstration.
"Desde una perspectiva de aprendizaje automático, APPLD contrasta con los llamados sistemas de aprendizaje de extremo a extremo que intentan aprender todo el sistema de navegación desde cero", dijo Stone. "Estos enfoques tienden a requerir una gran cantidad de datos y pueden conducir acomportamientos que no son ni seguros ni sólidos. APPLD aprovecha las partes del sistema de control que se han diseñado cuidadosamente, mientras centra su esfuerzo de aprendizaje automático en el proceso de ajuste de parámetros, que a menudo se realiza basándose en la intuición de una sola persona ".
APPLD representa un nuevo paradigma en el que las personas sin conocimientos expertos en robótica pueden ayudar a entrenar y mejorar la navegación autónoma de vehículos en una variedad de entornos. En lugar de pequeños equipos de ingenieros que intentan sintonizar manualmente los sistemas de navegación en una pequeña cantidad de entornos de prueba., un número prácticamente ilimitado de usuarios podría proporcionar al sistema los datos que necesita para ajustarse a un número ilimitado de entornos.
"Los sistemas de navegación autónomos actuales por lo general deben reajustarse a mano para cada nuevo entorno de implementación", dijo el investigador del Ejército, el Dr. Jonathan Fink. "Este proceso es extremadamente difícil: debe ser realizado por alguien con una amplia formación en robótica,y requiere mucha prueba y error hasta que se pueda encontrar la configuración correcta del sistema. Por el contrario, APPLD sintoniza el sistema automáticamente al ver a un ser humano conducir el sistema, algo que cualquiera puede hacer si tiene experiencia con un controlador de videojuegos.Durante la implementación, APPLD también permite que el sistema se reajuste en tiempo real a medida que cambia el entorno ".
El enfoque del Ejército en la modernización del vehículo de combate de próxima generación incluye el diseño de vehículos de combate con tripulación opcional y vehículos de combate robóticos que pueden navegar de forma autónoma en entornos de despliegue todoterreno. Si bien los soldados pueden navegar en estos entornos conduciendo vehículos de combate actuales, los entornos siguen siendo demasiado desafiantespara sistemas de navegación autónomos de última generación. APPLD y enfoques similares proporcionan una nueva forma potencial para que el Ejército mejore las capacidades de navegación autónoma existentes.
"Además de la relevancia inmediata para el Ejército, APPLD también crea la oportunidad de cerrar la brecha entre los enfoques de ingeniería tradicionales y las técnicas emergentes de aprendizaje automático, para crear robots móviles robustos, adaptables y versátiles en el mundo real", dijoDr. Xuesu Xiao, investigador postdoctoral en UT Austin y autor principal del artículo.
Para continuar con esta investigación, el equipo probará el sistema APPLD en una variedad de entornos al aire libre, empleará conductores soldados y experimentará con una variedad más amplia de enfoques de navegación autónomos existentes. Además, los investigadores investigarán si se incluye información adicional del sensor, comoLas imágenes de la cámara pueden conducir al aprendizaje de comportamientos más complejos, como ajustar el sistema de navegación para que funcione en diferentes condiciones, como en diferentes terrenos o con otros objetos presentes.
Fuente de la historia :
Materiales proporcionado por Laboratorio de Investigación del Ejército de EE. UU. . Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :