¿No agradeceríamos todos un poco de ayuda en la casa, especialmente si esa ayuda llegó en forma de un robot inteligente, adaptable y quejumbroso? Claro, existen los Roombas de un solo truco del mundo de los electrodomésticos. Pero los ingenieros del MIT sonimaginando robots más como ayudantes domésticos, capaces de seguir comandos de alto nivel tipo Alexa, como "Ve a la cocina y tráeme una taza de café".
Para llevar a cabo tareas de alto nivel, los investigadores creen que los robots deberán poder percibir su entorno físico como lo hacen los humanos.
"Para tomar cualquier decisión en el mundo, debe tener un modelo mental del entorno que lo rodea", dice Luca Carlone, profesora asistente de aeronáutica y astronáutica en el MIT. "Esto es algo tan fácil para los humanos".
Pero para los robots es un problema dolorosamente difícil, donde se trata de transformar los valores de píxeles que ven a través de una cámara, en una comprensión del mundo ". Ahora Carlone y sus estudiantes han desarrollado una representación de la percepción espacial de los robots que se basa en el modelola forma en que los humanos perciben y navegan por el mundo.
El nuevo modelo, que llaman Gráficos de escena dinámicos en 3D, permite que un robot genere rápidamente un mapa 3D de su entorno que también incluye objetos y sus etiquetas semánticas una silla frente a una mesa, por ejemplo, así como personas,habitaciones, paredes y otras estructuras que el robot probablemente esté viendo en su entorno.
El modelo también permite al robot extraer información relevante del mapa 3D, consultar la ubicación de objetos y habitaciones, o el movimiento de personas en su camino.
"Esta representación comprimida del entorno es útil porque le permite a nuestro robot tomar decisiones rápidamente y planificar su camino", dice Carlone. "Esto no está muy lejos de lo que hacemos como humanos. Si necesita planificar un camino desdesu hogar en el MIT, no planifica todas las posiciones que necesita tomar. Solo piensa en el nivel de las calles y puntos de referencia, lo que le ayuda a planificar su ruta más rápido ".
Más allá de las empleadas domésticas, Carlone dice que los robots que adoptan este nuevo tipo de modelo mental del entorno también pueden ser adecuados para otros trabajos de alto nivel, como trabajar codo a codo con personas en una fábrica o explorar un sitio de desastre para los sobrevivientes.
Él y sus alumnos, incluido el autor principal y estudiante graduado del MIT Antoni Rosinol, presentarán sus hallazgos esta semana en la conferencia virtual Robótica: Ciencia y Sistemas.
una mezcla de mapeo
En este momento, la visión y la navegación robóticas han avanzado principalmente a lo largo de dos rutas: mapeo 3D que permite a los robots reconstruir su entorno en tres dimensiones mientras exploran en tiempo real; y segmentación semántica, que ayuda a un robot a clasificar las características en su entorno comoobjetos semánticos, como un automóvil versus una bicicleta, que hasta ahora se realiza principalmente en imágenes 2D.
El nuevo modelo de percepción espacial de Carlone y Rosinol es el primero en generar un mapa 3D del entorno en tiempo real, al tiempo que etiqueta objetos, personas que son dinámicas, contrarias a los objetos y estructuras dentro de ese mapa 3D.
El componente clave del nuevo modelo del equipo es Kimera, una biblioteca de código abierto que el equipo desarrolló previamente para construir simultáneamente un modelo geométrico 3D de un entorno, mientras codifica la probabilidad de que un objeto sea, por ejemplo, una silla frente a un escritorio.
"Al igual que la criatura mítica que es una mezcla de diferentes animales, queríamos que Kimera fuera una mezcla de mapeo y comprensión semántica en 3D", dice Carlone.
Kimera funciona al tomar secuencias de imágenes de la cámara de un robot, así como mediciones inerciales de los sensores integrados, para estimar la trayectoria del robot o la cámara y reconstruir la escena como una malla 3D, todo en tiempo real.
Para generar una malla semántica en 3D, Kimera usa una red neuronal existente entrenada en millones de imágenes del mundo real, para predecir la etiqueta de cada píxel, y luego proyecta estas etiquetas en 3D usando una técnica conocida como proyección de rayos, comúnmente utilizadaen gráficos de computadora para renderizado en tiempo real
El resultado es un mapa del entorno de un robot que se asemeja a una densa malla tridimensional, donde cada cara está codificada por colores como parte de los objetos, estructuras y personas dentro del entorno.
Una escena en capas
Si un robot dependiera solo de esta malla para navegar a través de su entorno, sería una tarea computacionalmente costosa y lenta. Por lo tanto, los investigadores construyeron Kimera, desarrollando algoritmos para construir "gráficos de escena" dinámicos en 3D a partir de la inicial de Kimera, altamente densa, malla semántica 3D.
Los gráficos de escena son modelos populares de gráficos por computadora que manipulan y renderizan escenas complejas, y generalmente se usan en motores de videojuegos para representar entornos 3D.
En el caso de los gráficos de escenas dinámicas 3D, los algoritmos asociados resumen o descomponen la malla semántica 3D detallada de Kimera en distintas capas semánticas, de modo que un robot puede "ver" una escena a través de una capa o lente particular.las capas progresan en la jerarquía desde objetos y personas hasta espacios y estructuras abiertos como paredes y techos, habitaciones, pasillos y pasillos, y finalmente edificios enteros.
Carlone dice que esta representación en capas evita que un robot tenga que dar sentido a miles de millones de puntos y caras en la malla 3D original.
Dentro de la capa de objetos y personas, los investigadores también han podido desarrollar algoritmos que rastrean el movimiento y la forma de los humanos en el entorno en tiempo real.
El equipo probó su nuevo modelo en un simulador fotorrealista, desarrollado en colaboración con el MIT Lincoln Laboratory, que simula un robot navegando a través de un entorno de oficina dinámico lleno de personas moviéndose.
"Estamos esencialmente permitiendo que los robots tengan modelos mentales similares a los que usan los humanos", dice Carlone. "Esto puede afectar muchas aplicaciones, incluidos los automóviles autónomos, búsqueda y rescate, fabricación colaborativa y robótica doméstica.
Otro dominio es la realidad virtual y aumentada AR. Imagínese usando gafas AR que ejecutan nuestro algoritmo: las gafas podrían ayudarlo con consultas como '¿Dónde dejé mi taza roja?' Y '¿Cuál es la más cercana?¿salida?'
Puedes considerarlo como una Alexa que conoce el entorno que te rodea y comprende los objetos, los humanos y sus relaciones ".
"Nuestro enfoque se ha hecho posible gracias a los recientes avances en aprendizaje profundo y décadas de investigación sobre localización y mapeo simultáneos", dice Rosinol. "Con este trabajo, estamos dando el salto hacia una nueva era de percepción robótica llamada espacial-AI, que está en su infancia pero tiene un gran potencial en robótica y realidad virtual y aumentada a gran escala ".
Esta investigación fue financiada, en parte, por el Laboratorio de Investigación del Ejército, la Oficina de Investigación Naval y el Laboratorio MIT Lincoln.
Documento: "Gráficos de escenas dinámicas 3D: percepción espacial accionable con lugares, objetos y humanos" http://roboticsconference.org/program/papers/79/
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Jennifer Chu. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :