Según un nuevo estudio realizado por científicos informáticos de la USC, para ayudar a un robot a tener éxito, es posible que deba mostrarle un poco de amor.
En una tarea de manipulación simulada por computadora, los investigadores encontraron que entrenar a un robot con un adversario humano mejoró significativamente su comprensión de los objetos.
"Este es el primer esfuerzo de aprendizaje de robots que utiliza usuarios humanos adversarios", dijo el coautor del estudio Stefanos Nikolaidis, profesor asistente de informática.
"Imagínatelo como si estuvieras jugando un deporte: si estás jugando al tenis con alguien que siempre te deja ganar, no mejorarás. Lo mismo con los robots. Si queremos que aprendan una tarea de manipulación, como agarrar, entoncespueden ayudar a las personas, tenemos que desafiarlas ".
El estudio, "Aprendizaje de robots a través de juegos de adversarios humanos", se presentó el 4 de noviembre en la Conferencia Internacional sobre Robots y Sistemas Inteligentes. Los estudiantes de doctorado de la USC Jiali Duan y Qian Wang son los autores principales, asesorados por el profesor CC Jay Kuo,coautor Lerrel Pinto de la Universidad Carnegie Mellon.
Aprendiendo de la práctica
Nikolaidis, quien se unió a la Escuela de Ingeniería de USC Viterbi en 2018, y su equipo utilizan el aprendizaje por refuerzo, una técnica en la que los programas de inteligencia artificial "aprenden" de la experimentación repetida.
En lugar de limitarse a completar una pequeña gama de tareas repetitivas, como robots industriales, el sistema robótico "aprende" basándose en ejemplos anteriores, en teoría aumentando la gama de tareas que puede realizar.
Pero crear robots de propósito general es notoriamente desafiante, debido en parte a la cantidad de entrenamiento requerido. Los sistemas robóticos necesitan ver una gran cantidad de ejemplos para aprender a manipular un objeto de una manera similar a la humana.
Por ejemplo, el impresionante sistema robótico de OpenAI aprendió a resolver un cubo de Rubik con una mano humanoide, pero requirió el equivalente a 10,000 años de entrenamiento simulado para aprender a manipular el cubo.
Más importante aún, la destreza del robot es muy específica. Sin un entrenamiento extenso, no puede levantar un objeto, manipularlo con otro agarre o agarrar y manejar un objeto diferente.
"Como ser humano, incluso si conozco la ubicación del objeto, no sé exactamente cuánto pesa o cómo se moverá o se comportará cuando lo levante, sin embargo, lo hacemos con éxito casi todo el tiempo".dijo Nikolaidis.
"Eso es porque las personas son muy intuitivas sobre cómo se comporta el mundo, pero el robot es como un bebé recién nacido".
En otras palabras, los sistemas robóticos tienen dificultades para generalizar, una habilidad que los humanos dan por sentada. Esto puede parecer trivial, pero puede tener serias consecuencias. Si los dispositivos robóticos de asistencia, como los robots de agarre, cumplen su promesa dePara ayudar a las personas con discapacidades, los sistemas robóticos deben poder operar de manera confiable en entornos del mundo real.
humano en el bucle
Una línea de investigación que ha tenido bastante éxito en superar este problema es tener un "humano en el circuito". En otras palabras, el humano proporciona retroalimentación al sistema robótico al demostrar la capacidad para completar la tarea.
Pero, hasta ahora, estos algoritmos han asumido firmemente que un supervisor humano cooperante ayuda al robot.
"Siempre he trabajado en la colaboración humano-robot, pero en realidad, la gente no siempre será colaboradora de robots en la naturaleza", dijo Nikolaidis.
Como ejemplo, señala un estudio de investigadores japoneses, que soltaron un robot en un complejo comercial público y observaron a niños "actuando violentamente" hacia él en varias ocasiones.
Entonces, pensó Nikolaidis, ¿qué pasaría si aprovecháramos nuestra inclinación humana para hacer las cosas más difíciles para el robot? En lugar de mostrarle cómo agarrar mejor un objeto, ¿qué pasaría si intentáramos alejarlo? Añadiendo desafío, el pensamiento es, el sistema aprendería a ser más robusto a la complejidad del mundo real.
elemento de desafío
El experimento fue algo así: en una simulación por computadora, el robot intenta agarrar un objeto. El humano, en la computadora, observa el agarre del robot simulado. Si el agarre tiene éxito, el humano intenta arrebatar el objeto delagarre del robot, usando el teclado para señalar la dirección.
Agregar este elemento de desafío ayuda al robot a aprender la diferencia entre un agarre débil por ejemplo, sosteniendo una botella en la parte superior, versus un agarre firme sosteniéndolo en el medio, lo que hace que sea mucho más difícil para el adversario humanoarrebatar.
Fue una idea un poco loca, admite Nikolaidis, pero funcionó.
Los investigadores encontraron que el sistema entrenado con el adversario humano rechazó los agarres inestables y rápidamente aprendió agarres robustos para estos objetos. En un experimento, el modelo logró una tasa de éxito de agarre del 52 por ciento con un adversario humano frente a una tasa de éxito de agarre del 26.5 por ciento conun colaborador humano.
"El robot aprendió no solo a agarrar objetos con más fuerza, sino también a tener éxito más a menudo con objetos nuevos en una orientación diferente, porque ha aprendido un agarre más estable", dijo Nikolaidis.
También encontraron que el modelo entrenado con un adversario humano se desempeñó mejor que un adversario simulado, que tenía una tasa de éxito de comprensión del 28 por ciento. Por lo tanto, los sistemas robóticos aprenden mejor de los adversarios de carne y hueso.
"Eso es porque los humanos pueden entender la estabilidad y la robustez mejor que los adversarios eruditos", explicó Nikolaidis.
"El robot intenta recoger cosas y, si el humano intenta interrumpir, conduce a un agarre más estable. Y debido a que ha aprendido un agarre más estable, tendrá éxito con más frecuencia, incluso si el objeto está en una posición diferente.posición. En otras palabras, se aprende a generalizar. Eso es muy importante ".
Encontrar un equilibrio
Nikolaidis espera que el sistema funcione en un brazo robótico real dentro de un año. Esto presentará un nuevo desafío: en el mundo real, la más mínima fricción o ruido en las articulaciones de un robot puede alterar las cosas. Pero Nikolaidis esesperanzado sobre el futuro del aprendizaje adversario para la robótica.
"Creo que acabamos de arañar la superficie de posibles aplicaciones de aprendizaje a través de juegos humanos adversarios", dijo Nikolaidis.
"Estamos entusiasmados de explorar el aprendizaje adverso humano en el circuito también en otras tareas, como la evitación de obstáculos para brazos robóticos y robots móviles, como automóviles autónomos".
Esto plantea la pregunta: ¿hasta dónde estamos dispuestos a llevar el aprendizaje contradictorio? ¿Estaríamos dispuestos a patear y vencer a los robots para que se sometan? La respuesta, dijo Nikolaidis, radica en encontrar un equilibrio de amor duro y aliento con nuestras contrapartes robóticas.
"Siento que el amor duro, en el contexto del algoritmo que proponemos, es nuevamente como un deporte: cae dentro de reglas y restricciones específicas", dijo Nikolaidis.
"Si el humano simplemente rompe la pinza del robot, el robot fallará continuamente y nunca aprenderá. En otras palabras, el robot debe ser desafiado pero aún se le debe permitir tener éxito para aprender".
Fuente de la historia :
Materiales proporcionado por Universidad del Sur de California . Original escrito por Caitlin Dawson. Nota: el contenido se puede editar por estilo y longitud.
cite esta página :