Los humanos tienen una comprensión temprana de las leyes de la realidad física. Los bebés, por ejemplo, tienen expectativas sobre cómo deben moverse e interactuar los objetos entre sí, y se sorprenderán cuando hagan algo inesperado, como desaparecer en un juego de azar.mano truco de magia.
Ahora los investigadores del MIT han diseñado un modelo que demuestra la comprensión de algunas "físicas intuitivas" básicas sobre cómo deben comportarse los objetos. El modelo podría usarse para ayudar a construir una inteligencia artificial más inteligente y, a su vez, proporcionar información para ayudar a los científicos a comprender la cognición infantil.
El modelo, llamado ADEPT, observa los objetos que se mueven alrededor de una escena y hace predicciones sobre cómo deberían comportarse los objetos, en función de su física subyacente. Mientras rastrea los objetos, el modelo emite una señal en cada cuadro de video que se correlaciona con un nivel de"sorpresa": cuanto mayor es la señal, mayor es la sorpresa. Si un objeto alguna vez no coincide de manera dramática con las predicciones del modelo, por ejemplo, al desaparecer o teletransportarse a través de una escena, sus niveles de sorpresa aumentarán.
En respuesta a videos que muestran objetos que se mueven de manera físicamente plausible e inverosímil, el modelo registró niveles de sorpresa que coincidieron con los niveles reportados por humanos que habían visto los mismos videos.
"Cuando los bebés tienen 3 meses de edad, tienen la noción de que los objetos no parpadean dentro y fuera de la existencia, y no pueden moverse entre sí o teletransportarse", dice el primer autor Kevin A. Smith, una investigacióncientífico del Departamento de Ciencias Cerebrales y Cognitivas BCS y miembro del Centro de Cerebros, Mentes y Máquinas CBMM. "Queríamos capturar y formalizar ese conocimiento para construir la cognición infantil en agentes de inteligencia artificial.ahora nos estamos acercando a la forma humana en la forma en que las modelos pueden separar escenas básicas inverosímiles o plausibles ".
Junto a Smith en el documento están los coautores principales Lingjie Mei, estudiante del Departamento de Ingeniería Eléctrica y Ciencias de la Computación, y el investigador científico de BCS Shunyu Yao; Jiajun Wu PhD '19; investigadora de CBMM Elizabeth Spelke; Joshua B. Tenenbaum,profesor de ciencias cognitivas computacionales e investigador en CBMM, BCS y el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL; y el investigador de CBMM Tomer D. Ullman PhD '15.
Realidades incompatibles
ADEPT se basa en dos módulos: un módulo de "gráficos inversos" que captura representaciones de objetos de imágenes en bruto y un "motor de física" que predice las representaciones futuras de los objetos a partir de una distribución de posibilidades.
Los gráficos inversos básicamente extraen información de los objetos, como la forma, la pose y la velocidad, de las entradas de píxeles. Este módulo captura cuadros de video como imágenes y usa gráficos inversos para extraer esta información de los objetos en la escena. Pero nono se atasque en los detalles. ADEPT requiere solo una geometría aproximada de cada forma para funcionar. En parte, esto ayuda al modelo a generalizar predicciones a nuevos objetos, no solo a aquellos en los que está entrenado.
"No importa si un objeto es rectángulo o círculo, o si es un camión o un pato. ADEPT solo ve que hay un objeto con cierta posición, moviéndose de cierta manera, para hacer predicciones", dice Smith ".Del mismo modo, a los bebés pequeños tampoco parece importarles mucho algunas propiedades, como la forma, cuando hacen predicciones físicas ".
Estas descripciones de objetos gruesos se introducen en un motor de física: software que simula el comportamiento de sistemas físicos, como cuerpos rígidos o fluidos, y se usa comúnmente para películas, videojuegos y gráficos por computadora. El motor de física de los investigadores "empujalos objetos avanzan en el tiempo ", dice Ullman. Esto crea un rango de predicciones, o una" distribución de creencias ", para lo que sucederá con esos objetos en el próximo cuadro.
A continuación, el modelo observa el siguiente fotograma real. Una vez más, captura las representaciones de los objetos, que luego se alinea con una de las representaciones de objetos predichas de su distribución de creencias. Si el objeto obedeció las leyes de la física, no habráhay mucho desajuste entre las dos representaciones. Por otro lado, si el objeto hizo algo inverosímil, por ejemplo, desapareció de detrás de una pared, habrá un desajuste importante.
ADEPT luego vuelve a muestrear su distribución de creencias y observa una probabilidad muy baja de que el objeto simplemente haya desaparecido. Si hay una probabilidad suficientemente baja, el modelo registra una gran "sorpresa" como un pico de señal. Básicamente, la sorpresa es inversamente proporcional a la probabilidadde un evento que ocurre. Si la probabilidad es muy baja, el pico de señal es muy alto.
"Si un objeto va detrás de una pared, su motor de física mantiene la creencia de que el objeto todavía está detrás de la pared. Si la pared se cae y no hay nada allí, hay un desajuste", dice Ullman. "Entonces, el modelodice: "Hay un objeto en mi predicción, pero no veo nada. La única explicación es que desapareció, así que eso es sorprendente".
Violación de expectativas
En psicología del desarrollo, los investigadores realizan pruebas de "violación de las expectativas" en las que a los bebés se les muestran pares de videos. Un video muestra un evento plausible, con objetos que se adhieren a sus nociones esperadas de cómo funciona el mundo. El otro video es el mismo enen todos los sentidos, excepto que los objetos se comportan de una manera que viola las expectativas de alguna manera. Los investigadores a menudo usan estas pruebas para medir cuánto tiempo mira el bebé una escena después de que se haya producido una acción inverosímil. Cuanto más miran, los investigadores plantean la hipótesis, máspuede estar sorprendido o interesado en lo que acaba de suceder
Para sus experimentos, los investigadores crearon varios escenarios basados en la investigación del desarrollo clásica para examinar el conocimiento de los objetos centrales del modelo. Emplearon a 60 adultos para ver 64 videos de escenarios conocidos físicamente plausibles e físicamente inverosímiles. Los objetos, por ejemplo, se moverán detrás de unpared y, cuando la pared cae, todavía estarán allí o se habrán ido. Los participantes calificaron su sorpresa en varios momentos en una escala creciente de 0 a 100. Luego, los investigadores mostraron los mismos videos a la modelo.Específicamente, los escenarios examinaron la capacidad del modelo para capturar las nociones de permanencia los objetos no aparecen o desaparecen sin ninguna razón, la continuidad los objetos se mueven a lo largo de las trayectorias conectadas y la solidez los objetos no pueden moverse entre sí.
ADEPT coincidió con los humanos particularmente bien en los videos donde los objetos se movieron detrás de las paredes y desaparecieron cuando se retiró la pared. Curiosamente, el modelo también coincidió con los niveles de sorpresa en los videos que a los humanos no les sorprendió, pero quizás deberían haberlo hecho.video donde un objeto que se mueve a cierta velocidad desaparece detrás de una pared e inmediatamente sale del otro lado, el objeto podría haberse acelerado dramáticamente cuando se fue detrás de la pared o podría haberse teletransportado al otro lado. En general, los humanos y ADEPTARambos estaban menos seguros de si ese evento fue o no sorprendente. Los investigadores también encontraron que las redes neuronales tradicionales que aprenden física a partir de las observaciones, pero no representan explícitamente objetos, son mucho menos precisas para diferenciar escenas sorprendentes de sorprendentes, ysus elecciones para escenas sorprendentes a menudo no se alinean con los humanos.
Luego, los investigadores planean profundizar en cómo los bebés observan y aprenden sobre el mundo, con el objetivo de incorporar cualquier hallazgo nuevo en su modelo. Los estudios, por ejemplo, muestran que los bebés hasta cierta edad en realidad no están muy sorprendidoscuando los objetos cambian completamente de alguna manera, como si un camión desapareciera detrás de una pared, pero resurge como un pato.
"Queremos ver qué más se debe incorporar para comprender el mundo más como los bebés y formalizar lo que sabemos sobre psicología para construir mejores agentes de IA", dice Smith.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :