Cuando se mueven entre una multitud para alcanzar algún objetivo final, los humanos generalmente pueden navegar por el espacio de manera segura sin pensar demasiado. Pueden aprender del comportamiento de los demás y notar cualquier obstáculo que deben evitar. Los robots, por otro lado, luchan con talesconceptos de navegación.
Los investigadores del MIT ahora han ideado una forma de ayudar a los robots a navegar en entornos más como lo hacen los humanos. Su novedoso modelo de planificación de movimiento permite a los robots determinar cómo alcanzar un objetivo explorando el entorno, observando a otros agentes y explotando lo que han aprendido antes.en situaciones similares. Se presentó un documento que describe el modelo en la Conferencia Internacional IEEE / RSJ de esta semana sobre Robots y Sistemas Inteligentes IROS.
Los algoritmos populares de planificación de movimiento crearán un árbol de posibles decisiones que se ramificará hasta que encuentre buenas rutas de navegación. Un robot que necesita navegar por una habitación para llegar a una puerta, por ejemplo, creará una búsqueda paso a pasoárbol de posibles movimientos y luego ejecutar el mejor camino hacia la puerta, considerando varias restricciones. Sin embargo, un inconveniente es que estos algoritmos rara vez aprenden: los robots no pueden aprovechar la información sobre cómo ellos u otros agentes actuaron anteriormente en entornos similares.
"Al igual que cuando se juega al ajedrez, estas decisiones se ramifican hasta que [los robots] encuentran una buena forma de navegar. Pero, a diferencia de los jugadores de ajedrez, [los robots] exploran cómo es el futuro sin aprender mucho sobre su entorno y otros agentes,"dice el coautor Andrei Barbu, investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL del MIT y del Centro para Cerebros, Mentes y Máquinas CBMM del Instituto McGovern del MIT." La milésima vez que atraviesan la misma multitud estan complicado como la primera vez. Siempre están explorando, rara vez observando y nunca usando lo que sucedió en el pasado ".
Los investigadores desarrollaron un modelo que combina un algoritmo de planificación con una red neuronal que aprende a reconocer las rutas que podrían conducir al mejor resultado y utiliza ese conocimiento para guiar el movimiento del robot en un entorno.
En su artículo, "Modelos secuenciales profundos para la planificación basada en muestras", los investigadores demuestran las ventajas de su modelo en dos entornos: navegar a través de salas desafiantes con trampas y pasajes estrechos, y navegar por áreas evitando colisiones con otros agentes.Una aplicación prometedora para el mundo real está ayudando a los vehículos autónomos a navegar por las intersecciones, donde tienen que evaluar rápidamente lo que harán los demás antes de incorporarse al tráfico. Los investigadores actualmente están buscando estas aplicaciones a través del Centro de Investigación Conjunto Toyota-CSAIL.
"Cuando los humanos interactúan con el mundo, vemos un objeto con el que hemos interactuado antes o estamos en algún lugar en el que hemos estado antes, por lo que sabemos cómo vamos a actuar", dice Yen-Ling Kuo, un doctorado en CSAIL y primer autor del artículo. "La idea detrás de este trabajo es agregar al espacio de búsqueda un modelo de aprendizaje automático que sepa por experiencias pasadas cómo hacer que la planificación sea más eficiente".
Boris Katz, científico investigador principal y director del Grupo InfoLab en CSAIL, también es coautor del artículo.
Intercambio de exploración y explotación n
Los planificadores de movimiento tradicionales exploran un entorno expandiendo rápidamente un árbol de decisiones que eventualmente cubre todo un espacio. El robot luego mira el árbol para encontrar una manera de alcanzar la meta, como una puerta. Sin embargo, el modelo de los investigadores,ofrece "una compensación entre explorar el mundo y explotar el conocimiento pasado", dice Kuo.
El proceso de aprendizaje comienza con algunos ejemplos. Un robot que usa el modelo está capacitado en algunas formas de navegar en entornos similares. La red neuronal aprende qué hace que estos ejemplos tengan éxito al interpretar el entorno alrededor del robot, como la forma delparedes, las acciones de otros agentes y las características de los objetivos. En resumen, el modelo "aprende que cuando estás atrapado en un entorno y ves una entrada, probablemente sea una buena idea atravesar la puerta para salir", Dice Barbu.
El modelo combina el comportamiento de exploración de métodos anteriores con esta información aprendida. El planificador subyacente, llamado RRT *, fue desarrollado por los profesores del MIT Sertac Karaman y Emilio Frazzoli. Es una variante de un algoritmo de planificación de movimiento ampliamente utilizado conocido como Rapidly-explorando árboles aleatorios, o RRT. El planificador crea un árbol de búsqueda mientras que la red neuronal refleja cada paso y hace predicciones probabilísticas sobre dónde debe ir el robot a continuación. Cuando la red hace una predicción con alta confianza, basada en información aprendida,guía al robot en una nueva ruta. Si la red no tiene mucha confianza, le permite al robot explorar el entorno, como un planificador tradicional.
Por ejemplo, los investigadores demostraron el modelo en una simulación conocida como "trampa de insectos", donde un robot 2-D debe escapar de una cámara interior a través de un canal estrecho central y llegar a una ubicación en una habitación más grande circundante. Aliados ciegosa ambos lados del canal pueden atascarse robots. En esta simulación, el robot fue entrenado en algunos ejemplos de cómo escapar de diferentes trampas de insectos. Cuando se enfrenta a una nueva trampa, reconoce las características de la trampa, escapa y continúabusca su objetivo en la habitación más grande. La red neuronal ayuda al robot a encontrar la salida a la trampa, identifica los callejones sin salida y le da al robot una idea de su entorno para que pueda encontrar rápidamente el objetivo.
Los resultados del artículo se basan en las posibilidades de que se encuentre una ruta después de algún tiempo, la longitud total de la ruta que alcanzó un objetivo determinado y la consistencia de las rutas. En ambas simulaciones, el modelo de los investigadores se trazó más rápidamentecaminos más cortos y consistentes que un planificador tradicional.
Trabajando con múltiples agentes
En otro experimento, los investigadores entrenaron y probaron el modelo en entornos de navegación con múltiples agentes en movimiento, lo cual es una prueba útil para autos autónomos, especialmente para navegar intersecciones y rotondas. En la simulación, varios agentes rodean un obstáculo. Un robotEl agente debe navegar con éxito alrededor de los otros agentes, evitar colisiones y llegar a una ubicación objetivo, como una salida en una rotonda.
"Situaciones como rotondas son difíciles, porque requieren razonamiento sobre cómo los demás responderán a sus acciones, cómo responderá usted a las suyas, qué harán a continuación, etc.", dice Barbu. "Eventualmente descubres tu primerala acción fue incorrecta, porque más adelante conducirá a un probable accidente. Este problema empeora exponencialmente cuanto más autos tiene que lidiar ".
Los resultados indican que el modelo de los investigadores puede capturar suficiente información sobre el comportamiento futuro de los otros agentes automóviles para cortar el proceso temprano, sin dejar de tomar buenas decisiones en la navegación. Esto hace que la planificación sea más eficiente. Además, solo necesitabanentrenar el modelo en unos pocos ejemplos de rotondas con sólo unos pocos coches. "Los planes que hacen los robots tienen en cuenta lo que van a hacer los otros coches, como lo haría cualquier humano", dice Barbu.
Pasar por intersecciones o rotondas es uno de los escenarios más desafiantes que enfrentan los autos autónomos. Este trabajo podría algún día permitir que los autos aprendan cómo se comportan los humanos y cómo adaptarse a los conductores en diferentes entornos, según los investigadores. Este es el enfoque de laTrabajo del Centro Conjunto de Investigación Toyota-CSAIL.
"No todo el mundo se comporta de la misma manera, pero la gente es muy estereotipada. Hay gente tímida, gente agresiva. El modelo lo reconoce rápidamente y es por eso que puede planificar de manera eficiente", dice Barbu.
Más recientemente, los investigadores han estado aplicando este trabajo a robots con manipuladores que enfrentan desafíos igualmente desalentadores cuando alcanzan objetos en entornos en constante cambio.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: el contenido se puede editar por estilo y longitud.
cite esta página :