Un nuevo estudio realizado por investigadores de la Universidad de Brown muestra que dos sistemas cerebrales diferentes funcionan de manera cooperativa a medida que las personas aprenden.
El estudio, publicado en Actas de la Academia Nacional de Ciencias enfocado en la interacción de dos modos muy diferentes de aprender una nueva tarea: aprendizaje por refuerzo y memoria de trabajo. El aprendizaje por refuerzo es un proceso "oculto" en el que las personas aprenden gradualmente qué acciones tomar procesando recompensas y castigosen el nivel neural, y luego elegir el que funciona mejor en promedio, incluso si la persona no es consciente de ello. Por el contrario, la memoria de trabajo implica tener en cuenta las acciones previas y sus resultados para mejorar el rendimiento de manera más rápida y flexible.
"La gente ha interpretado en gran medida que estos sistemas funcionan de manera independiente o que compiten entre sí en el proceso de aprendizaje", dijo Michael Frank, profesor del Departamento de Ciencias Cognitivas, Lingüísticas y Psicológicas de Brown y coautor del artículo ". Perodemostramos que los dos trabajan juntos, con señales neuronales subyacentes en la memoria de trabajo que ayudan a guiar a los que apoyan el aprendizaje de refuerzo ".
Anne Collins, profesora asistente en la Universidad de California, Berkeley, dirigió el trabajo cuando era una investigadora postdoctoral que trabajaba con Frank, quien dirige la Iniciativa para la Computación en Cerebro y Mente en el Instituto Brown para la Ciencia del Cerebro. Collins y Frankdesarrolló un método experimental diseñado para aislar las señales cerebrales asociadas con cada uno de los dos sistemas.
Para el estudio, a 40 participantes del estudio se les mostró una serie de símbolos en una pantalla y se les pidió, para cada símbolo, presionar un botón en particular en un teclado. No se les dijo qué tecla era la correcta para cada símbolo.tuvieron que aprenderlo. Cuando lo hicieron bien, fueron recompensados con puntos. Durante pruebas repetidas, los participantes llegaron a aprender qué teclas correspondían con qué símbolos.
Para distinguir las contribuciones del aprendizaje por refuerzo y la memoria de trabajo, los investigadores establecieron problemas con diferentes números de símbolos, que van de dos a seis, y los participantes tuvieron que aprender qué botón presionar para cada uno de ellos. En general, las personas puedensolo mantenga tres o cuatro elementos en la memoria de trabajo a la vez, y solo por cortos períodos de tiempo. Entonces, cuando aumenta el número de símbolos o el retraso, la contribución de la memoria de trabajo al proceso de aprendizaje debería disminuir.
A medida que los participantes realizaban las tareas, un límite de EEG registraba señales del cerebro y los autores aplicaban métodos estadísticos para extraer esas señales relacionadas con un sistema de aprendizaje u otro.
El estudio mostró que cuando las demandas de memoria eran altas, las señales en el cerebro relacionadas con el aprendizaje por refuerzo en realidad se fortalecían. En otras palabras, cuando el sistema de memoria de trabajo se sobrecargaba, el sistema de aprendizaje por refuerzo se volvió más importante en el proceso de aprendizaje.Por el contrario, cuando los participantes podían tener en cuenta la información, las señales asociadas con el aprendizaje de refuerzo eran más débiles, lo que sugiere un mayor papel para la memoria de trabajo.
Los investigadores también descubrieron que podían decodificar a partir de las señales cerebrales en un ensayo particular si la información estaba probablemente en la memoria o no. Eso también se intercambiaba con el marcador neural del aprendizaje por refuerzo.
Esos hallazgos, dicen los investigadores, sugieren que los dos sistemas no funcionan de manera independiente.
"Si fueran completamente independientes entre sí, esperaríamos que las señales asociadas con el aprendizaje por refuerzo se mantuvieran sin importar las demandas de memoria", dijo Frank. "Pero eso no es lo que vemos, y eso es una señal de que los dos sistemasestán interactuando "
Pero por sí solo, ese hallazgo no reveló la naturaleza de esa interacción, ya sea cooperativa o competitiva. ¿Estaba la memoria de trabajo empujando el aprendizaje de refuerzo a un segundo plano en los ensayos cuando la información podía ser fácilmente accesible en mente? O podría¿Será que la memoria de trabajo ayuda a aumentar el aprendizaje por refuerzo? Para descubrirlo, los investigadores observaron cómo las señales cerebrales asociadas con el aprendizaje por refuerzo cambiaron a medida que el proceso de aprendizaje se desarrollaba de un ensayo a otro.
El sistema de aprendizaje de refuerzo es impulsado por lo que se conoce como "error de predicción de recompensa" o RPE, y es la señal que los investigadores usaron para rastrear el proceso de aprendizaje de refuerzo. RPE representa la medida en que la recompensa que resulta de una acción excede las expectativas propiasTomemos, por ejemplo, un participante del estudio que intenta descubrir qué botón presionar cuando ven un símbolo dado. Si acertan y son recompensados con puntos, ese resultado es sorprendentemente bueno y produce un alto RPE.
En el cerebro, el sistema de aprendizaje de refuerzo utiliza el neurotransmisor dopamina para codificar RPE. Un RPE alto, lo que significa un resultado sorprendentemente bueno, está asociado con una gran liberación de dopamina. El sistema de aprendizaje de refuerzo utiliza esa inundación de dopamina como señalpara actualizar nuestra comprensión de qué acciones debemos tomar para obtener una recompensa determinada. Cuando repetimos esa acción posteriormente, la recompensa nos sorprende menos y, por lo tanto, el RPE es menor. A medida que el RPE continúa disminuyendo, el sistema finalmente deja de actualizarse,y al hacerlo, se conforma con una acción apropiada.
Un escenario de cómo la memoria de trabajo podría estar interactuando con el aprendizaje de refuerzo es atenuar las expectativas de recompensa, haciendo que se alineen más rápidamente con las recompensas reales. De esa manera, la memoria de trabajo podría estar trabajando cooperativamente para acelerar el proceso de aprendizaje de refuerzo.
El estudio encontró pruebas contundentes de ese escenario. Durante los ensayos repetidos en pequeños conjuntos donde la memoria de trabajo está activa, las señales cerebrales asociadas con el RPE comenzaron en los primeros ensayos y luego disminuyeron rápidamente, una señal de quelos procesos están informando la señalización neural asociada con el aprendizaje por refuerzo. Por el contrario, si la memoria de trabajo simplemente estuviera suprimiendo el aprendizaje por refuerzo, uno no esperaría ver la caída rápida en el RPE.
Los resultados, dijo Frank, proporcionan algunas de las primeras pruebas concretas de cooperación entre estos dos sistemas.
"Pensar en esto no como sistemas separados sino como un gran sistema integrado cambia nuestra comprensión de la ciencia básica de cómo aprenden las personas y los animales", dijo Frank. "Podría ayudarnos a hacer mejores predicciones sobre cómo se ve afectado el proceso de aprendizaje generalen personas que tienen déficit en cualquiera de estos sistemas "
Y eso, dijo Frank, algún día podría conducir a mejores tratamientos para los problemas de aprendizaje.
La investigación fue financiada por la National Science Foundation 1460604.
Fuente de la historia :
Materiales proporcionado por Universidad de Brown . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :