Un nuevo estudio sobre algoritmos de aprendizaje de meta-refuerzo nos ayuda a comprender cómo el cerebro humano aprende a adaptarse a la complejidad y la incertidumbre al aprender y tomar decisiones. Un equipo de investigación, dirigido por el profesor Sang Wan Lee en KAIST junto con John O'Doherty en Caltech, logró descubrir un mecanismo computacional y neuronal para el aprendizaje del meta refuerzo humano, abriendo la posibilidad de portar elementos clave de la inteligencia humana en algoritmos de inteligencia artificial. Este estudio proporciona una idea de cómo podría usar modelos computacionales para aplicar ingeniería inversa al refuerzo humanoaprendizaje.
Este trabajo fue publicado el 16 de diciembre de 2019 en la revista Comunicaciones de la naturaleza . El título del artículo es "La complejidad de la tarea interactúa con la incertidumbre del espacio de estado en el arbitraje entre el aprendizaje basado en modelos y el aprendizaje sin modelos".
El aprendizaje de refuerzo humano es un proceso intrínsecamente complejo y dinámico, que implica el establecimiento de objetivos, la elección de estrategias, la selección de acciones, la modificación de estrategias, la asignación de recursos cognitivos, etc. Este es un problema muy difícil de resolver para los humanos debido al entorno de múltiples cambios y rápido cambio en el quelos humanos tienen que operar. Para empeorar las cosas, los humanos a menudo necesitan tomar decisiones importantes rápidamente, incluso antes de tener la oportunidad de recopilar mucha información, a diferencia del caso cuando se utilizan métodos de aprendizaje profundo para modelar el aprendizaje y la toma de decisiones en aplicaciones de inteligencia artificial..
Para resolver este problema, el equipo de investigación utilizó una técnica llamada 'diseño experimental basado en la teoría del aprendizaje por refuerzo' para optimizar las tres variables de la tarea de decisión de Markov en dos etapas: objetivo, complejidad de la tarea e incertidumbre de la tarea.La técnica de diseño experimental permitió al equipo no solo controlar los factores de confusión, sino también crear una situación similar a la que ocurre en la resolución real de problemas humanos.
En segundo lugar, el equipo usó una técnica llamada 'análisis de neuroimagen basado en modelos'. Basado en el comportamiento adquirido y los datos de fMRI, más de 100 tipos diferentes de algoritmos de aprendizaje de meta refuerzo se enfrentaron entre sí para encontrar un modelo computacional que pueda explicartanto datos conductuales como neuronales. En tercer lugar, en aras de una verificación más rigurosa, el equipo aplicó un método analítico llamado 'análisis de recuperación de parámetros', que implica un perfil conductual de alta precisión de sujetos humanos y modelos computacionales.
De esta manera, el equipo pudo identificar con precisión un modelo computacional de aprendizaje de meta refuerzo, asegurando no solo que el comportamiento aparente del modelo es similar al de los humanos, sino también que el modelo resuelve el problema de la misma manera que los humanoshacer.
El equipo descubrió que las personas tendían a aumentar el aprendizaje por refuerzo basado en la planificación llamado control basado en el modelo, en respuesta a la creciente complejidad de la tarea. Sin embargo, recurrieron a una estrategia más simple y más eficiente en recursos llamada control sin modelo, cuando ambosla incertidumbre y la complejidad de la tarea fueron altas. Esto sugiere que tanto la incertidumbre de la tarea como la complejidad de la tarea interactúan durante el metacontrol del aprendizaje por refuerzo. Los análisis computarizados de fMRI revelaron que la complejidad de la tarea interactúa con representaciones neurales de la confiabilidad de las estrategias de aprendizaje en la corteza prefrontal inferior.
Estos hallazgos avanzan significativamente en la comprensión de la naturaleza de los cálculos que se implementan en la corteza prefrontal inferior durante el aprendizaje del meta refuerzo, así como proporcionan una idea de la cuestión más general de cómo el cerebro resuelve la incertidumbre y la complejidad en un entorno que cambia dinámicamente.Las variables computacionales clave que impulsan el aprendizaje prefrontal de meta refuerzo también pueden informar la comprensión de cómo este proceso podría ser vulnerable a descomponerse en ciertos trastornos psiquiátricos como la depresión y el TOC. Además, obtener una comprensión computacional de cómo este proceso a veces puede conducir a un mayor modelosin control, puede proporcionar información sobre cómo, en algunas situaciones, el rendimiento de la tarea puede romperse en condiciones de alta carga cognitiva.
El profesor Lee dijo: "Este estudio será de enorme interés para los investigadores tanto en el campo de la inteligencia artificial como en el de la interacción humano / computadora, ya que esto tiene un potencial significativo para aplicar conocimientos básicos sobre cómo funciona la inteligencia humana con los algoritmos de IA".
Este trabajo fue financiado por el Instituto Nacional sobre el Abuso de Drogas, la Fundación Nacional de Investigación de Corea, el Ministerio de Ciencia y TIC, el Centro de Financiación de Investigación de Samsung de Samsung Electronics.
Fuente de la historia :
Materiales proporcionado por El Instituto Avanzado de Ciencia y Tecnología de Corea KAIST . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :