Predecir lo que una persona está a punto de hacer en función de su lenguaje corporal es algo natural para los humanos, pero no así para las computadoras. Cuando conocemos a otra persona, es posible que nos saluden con un saludo, un apretón de manos o incluso un puñetazo.sabemos qué gesto se utilizará, pero podemos leer la situación y responder adecuadamente.
En un nuevo estudio, los investigadores de Columbia Engineering revelan una técnica de visión por computadora para dar a las máquinas un sentido más intuitivo de lo que sucederá a continuación al aprovechar asociaciones de alto nivel entre personas, animales y objetos.
"Nuestro algoritmo es un paso hacia que las máquinas puedan hacer mejores predicciones sobre el comportamiento humano y, por lo tanto, coordinar mejor sus acciones con las nuestras", dijo Carl Vondrick, profesor asistente de ciencias de la computación en Columbia, quien dirigió el estudio, que se presentóen la Conferencia Internacional sobre Visión por Computador y Reconocimiento de Patrones el 24 de junio de 2021. "Nuestros resultados abren una serie de posibilidades para la colaboración humano-robot, los vehículos autónomos y la tecnología de asistencia".
Es el método más preciso hasta la fecha para predecir eventos de acción de video hasta varios minutos en el futuro, dicen los investigadores. Después de analizar miles de horas de películas, juegos deportivos y programas como "The Office", el sistema aprende a predecircientos de actividades, desde apretones de manos hasta chocar los puños. Cuando no puede predecir la acción específica, encuentra el concepto de nivel superior que los vincula, en este caso, la palabra "saludo".
Los intentos anteriores de aprendizaje automático predictivo, incluidos los del equipo, se han centrado en predecir solo una acción a la vez. Los algoritmos deciden si clasificar la acción como un abrazo, chocar los cinco, apretón de manos o incluso una no acción como"ignorar". Pero cuando la incertidumbre es alta, la mayoría de los modelos de aprendizaje automático no pueden encontrar puntos en común entre las opciones posibles.
Los estudiantes de doctorado en ingeniería de Columbia, Didac Suris y Ruoshi Liu, decidieron mirar el problema de predicción de largo alcance desde un ángulo diferente. "No todo en el futuro es predecible", dijo Suris, coautor principal del artículo.La persona no puede prever exactamente lo que sucederá, juega a lo seguro y predice a un nivel más alto de abstracción. Nuestro algoritmo es el primero en aprender esta capacidad de razonar de manera abstracta sobre eventos futuros ".
Suris y Liu tuvieron que volver a examinar preguntas de matemáticas que se remontan a los antiguos griegos. En la escuela secundaria, los estudiantes aprenden las reglas familiares e intuitivas de la geometría: que las líneas rectas son rectas, que las líneas paralelas nunca se cruzan. La mayoría de los sistemas de aprendizaje automáticotambién obedecen estas reglas. Sin embargo, otras geometrías tienen propiedades extrañas y contrarias a la intuición; las líneas rectas se doblan y los triángulos se abultan. Suris y Liu utilizaron estas geometrías inusuales para construir modelos de IA que organizan conceptos de alto nivel y predicen el comportamiento humano en el futuro..
"La predicción es la base de la inteligencia humana", dijo Aude Oliva, investigadora científica senior del Instituto de Tecnología de Massachusetts y codirectora del MIT-IBM Watson AI Lab, experta en inteligencia artificial y cognición humana que no participó en"Las máquinas cometen errores que los humanos nunca cometerían porque carecen de nuestra capacidad para razonar de manera abstracta. Este trabajo es un paso fundamental para cerrar esta brecha tecnológica".
El marco matemático desarrollado por los investigadores permite que las máquinas organicen eventos en función de lo predecibles que sean en el futuro. Por ejemplo, sabemos que nadar y correr son ambas formas de ejercicio. La nueva técnica aprende a clasificar estas actividades por sí misma.El sistema es consciente de la incertidumbre, proporcionando acciones más específicas cuando hay certeza y predicciones más genéricas cuando no las hay.
La técnica podría acercar a las computadoras a poder evaluar una situación y tomar una decisión matizada, en lugar de una acción preprogramada, dicen los investigadores. Es un paso crítico en la construcción de confianza entre humanos y computadoras, dijo Liu, co-autor principal del artículo. "La confianza proviene de la sensación de que el robot realmente comprende a las personas", explicó. "Si las máquinas pueden comprender y anticipar nuestros comportamientos, las computadoras podrán ayudar sin problemas a las personas en la actividad diaria".
Si bien el nuevo algoritmo hace predicciones más precisas en las tareas de referencia que los métodos anteriores, los siguientes pasos son verificar que funcione fuera del laboratorio, dice Vondrick. Si el sistema puede funcionar en diversas configuraciones, hay muchas posibilidades de implementar máquinas yrobots que podrían mejorar nuestra seguridad, salud y seguridad, dicen los investigadores. El grupo planea continuar mejorando el rendimiento del algoritmo con conjuntos de datos y computadoras más grandes, y otras formas de geometría.
"El comportamiento humano es a menudo sorprendente", comentó Vondrick. "Nuestros algoritmos permiten que las máquinas anticipen mejor lo que van a hacer a continuación".
Fuente de la historia :
Materiales proporcionado por Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Columbia . Original escrito por Holly Evarts. Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :