Imagínese si los robots pudieran aprender viendo demostraciones: podría mostrarle a un robot doméstico cómo hacer las tareas rutinarias o poner la mesa para cenar. En el lugar de trabajo, podría capacitar a los robots como nuevos empleados, mostrándoles cómo realizar muchas tareas. En elcarretera, su automóvil autónomo podría aprender a conducir de manera segura al verlo conducir por su vecindario.
Avanzando en esa visión, los investigadores de la USC han diseñado un sistema que permite a los robots aprender de manera autónoma tareas complicadas a partir de un número muy pequeño de demostraciones, incluso las imperfectas. El artículo, titulado Aprendiendo de demostraciones usando la lógica temporal de señales, se presentó en laConferencia sobre aprendizaje de robots CoRL, 18 de noviembre.
El sistema de los investigadores funciona evaluando la calidad de cada demostración, por lo que aprende de los errores que ve, así como de los éxitos. Si bien los métodos de vanguardia actuales necesitan al menos 100 demostraciones para concretar una tarea específica, estaEl nuevo método permite que los robots aprendan de un puñado de demostraciones. También permite que los robots aprendan de manera más intuitiva, la forma en que los humanos aprenden unos de otros: ves a alguien ejecutar una tarea, incluso de manera imperfecta, y luego lo pruebas tú mismo. No tienepara ser una demostración "perfecta" para que los humanos obtengan conocimiento al observarse unos a otros.
"Muchos sistemas de aprendizaje automático y aprendizaje reforzado requieren grandes cantidades de datos y cientos de demostraciones; es necesario que un humano demuestre una y otra vez, lo cual no es factible", dijo el autor principal Aniruddh Puranic, Ph.D.estudiante de informática en la Escuela de Ingeniería de USC Viterbi.
"Además, la mayoría de la gente no tiene conocimientos de programación para indicar explícitamente lo que el robot necesita hacer, y un ser humano no puede demostrar todo lo que un robot necesita saber. ¿Qué pasa si el robot encuentra algo que no ha visto antes?Este es un desafío clave ".
Aprendiendo de las demostraciones
Aprender de las demostraciones se está volviendo cada vez más popular para obtener políticas de control de robots efectivas, que controlan los movimientos del robot, para tareas complejas. Pero es susceptible a imperfecciones en las demostraciones y también plantea problemas de seguridad, ya que los robots pueden aprender acciones inseguras o indeseables.
Además, no todas las demostraciones son iguales: algunas demostraciones son un mejor indicador del comportamiento deseado que otras y la calidad de las demostraciones a menudo depende de la experiencia del usuario que realiza las demostraciones.
Para abordar estos problemas, los investigadores integraron "lógica temporal de señales" o STL para evaluar la calidad de las demostraciones y clasificarlas automáticamente para crear recompensas inherentes.
En otras palabras, incluso si algunas partes de las demostraciones no tienen ningún sentido según los requisitos lógicos, al usar este método, el robot aún puede aprender de las partes imperfectas. De alguna manera, el sistema está llegando a su propia conclusiónsobre la precisión o el éxito de una demostración.
"Digamos que los robots aprenden de diferentes tipos de demostraciones; podría ser una demostración práctica, videos o simulaciones. Si hago algo que es muy inseguro, los enfoques estándar harán una de dos cosas: o bienlo ignorará por completo, o peor aún, el robot aprenderá lo incorrecto ", dijo el coautor Stefanos Nikolaidis, profesor asistente de informática de la USC Viterbi.
"En contraste, de una manera muy inteligente, este trabajo usa un razonamiento de sentido común en forma de lógica para entender qué partes de la demostración son buenas y cuáles no. En esencia, esto es exactamente lo que también hacen los humanos."
Tomemos, por ejemplo, una demostración de conducción en la que alguien se salta una señal de alto. El sistema la clasificaría más bajo que una demostración de un buen conductor. Pero, si durante esta demostración, el conductor hace algo inteligente, por ejemplo,aplica sus frenos para evitar un choque; el robot aún aprenderá de esta acción inteligente.
Adaptación a las preferencias humanas
La lógica temporal de señales es un lenguaje simbólico matemático expresivo que permite el razonamiento robótico sobre los resultados actuales y futuros. Si bien las investigaciones anteriores en esta área han utilizado la "lógica temporal lineal", en este caso es preferible STL, dijo Jyo Deshmukh, un ex ingeniero de Toyotay profesor asistente de informática de la USC Viterbi.
"Cuando nos adentramos en el mundo de los sistemas físicos cibernéticos, como robots y automóviles autónomos, donde el tiempo es crucial, la lógica temporal lineal se vuelve un poco engorrosa, porque razona sobre secuencias de valores verdaderos / falsos para las variables, mientras que STLpermite razonar sobre señales físicas ".
A Puranic, a quien Deshmukh asesora, se le ocurrió la idea después de tomar una clase práctica de robótica con Nikolaidis, quien ha estado trabajando en el desarrollo de robots para aprender de los videos de YouTube. El trío decidió probarlo. Los tres dijeronestaban sorprendidos por el alcance del éxito del sistema y los profesores le dan crédito a Puranic por su arduo trabajo.
"En comparación con un algoritmo de última generación, que se utiliza ampliamente en muchas aplicaciones de robótica, se ve una diferencia de orden de magnitud en la cantidad de demostraciones necesarias", dijo Nikolaidis.
El sistema se probó usando un simulador de juegos estilo Minecraft, pero los investigadores dijeron que el sistema también podría aprender de simuladores de conducción y, eventualmente, incluso videos. A continuación, los investigadores esperan probarlo en robots reales. Dijeron que este enfoque es buenoadecuado para aplicaciones donde los mapas se conocen de antemano pero hay obstáculos dinámicos en el mapa: robots en entornos domésticos, almacenes o incluso vehículos de exploración espacial.
"Si queremos que los robots sean buenos compañeros de equipo y ayuden a las personas, primero deben aprender y adaptarse a las preferencias humanas de manera muy eficiente", dijo Nikolaidis. "Nuestro método proporciona eso".
"Estoy emocionado de integrar este enfoque en los sistemas robóticos para ayudarlos a aprender de manera eficiente de las demostraciones, pero también ayudar de manera efectiva a los compañeros humanos en una tarea colaborativa".
Fuente de la historia :
Materiales proporcionado por Universidad del Sur de California . Original escrito por Caitlin Dawson. Nota: el contenido se puede editar por estilo y longitud.
cite esta página :