Los investigadores del MIT están empleando nuevas técnicas de aprendizaje automático para mejorar la calidad de vida de los pacientes mediante la reducción de las dosis de quimioterapia y radioterapia tóxicas para el glioblastoma, la forma más agresiva de cáncer de cerebro.
El glioblastoma es un tumor maligno que aparece en el cerebro o la médula espinal, y el pronóstico para los adultos no es más de cinco años. Los pacientes deben soportar una combinación de radioterapia y múltiples medicamentos tomados cada mes. Los profesionales médicos generalmente administran las dosis máximas de medicamentos seguraspara encoger el tumor tanto como sea posible. Pero estos potentes productos farmacéuticos aún causan efectos secundarios debilitantes en los pacientes.
En un artículo que se presentará la próxima semana en la conferencia 2018 Machine Learning for Healthcare en la Universidad de Stanford, los investigadores del MIT Media Lab detallan un modelo que podría hacer que los regímenes de dosificación sean menos tóxicos pero aún efectivos. Impulsado por un aprendizaje automático de "autoaprendizaje"técnica, el modelo analiza los regímenes de tratamiento actualmente en uso y ajusta iterativamente las dosis. Finalmente, encuentra un plan de tratamiento óptimo, con la potencia y frecuencia de dosis más bajas posibles que aún deberían reducir el tamaño de los tumores en un grado comparable al de los tratamientos tradicionalesregímenes.
En ensayos simulados de 50 pacientes, el modelo de aprendizaje automático diseñó ciclos de tratamiento que redujeron la potencia a un cuarto o la mitad de casi todas las dosis mientras se mantenía el mismo potencial de reducción del tumor. Muchas veces, omitió las dosis por completo, programando administracionessolo dos veces al año en lugar de mensualmente.
"Mantuvimos el objetivo de ayudar a los pacientes reduciendo el tamaño de los tumores pero, al mismo tiempo, queremos asegurarnos de que la calidad de vida la toxicidad de la dosificación no provoque enfermedades abrumadoras yefectos secundarios ", dice Pratik Shah, investigador principal del Media Lab que supervisó esta investigación.
El primer autor del artículo es el investigador de Media Lab, Gregory Yauney.
Recompensar las buenas elecciones
El modelo de los investigadores utiliza una técnica llamada aprendizaje reforzado RL, un método inspirado en la psicología del comportamiento, en el que un modelo aprende a favorecer cierto comportamiento que conduce a un resultado deseado.
La técnica comprende "agentes" artificialmente inteligentes que completan "acciones" en un entorno complejo e impredecible para alcanzar un "resultado" deseado. Siempre que completa una acción, el agente recibe una "recompensa" o "penalización", dependiendo de sila acción trabaja hacia el resultado. Luego, el agente ajusta sus acciones en consecuencia para lograr ese resultado.
Las recompensas y penalizaciones son básicamente números positivos y negativos, digamos +1 o -1. Sus valores varían según la acción tomada, calculada por la probabilidad de tener éxito o fracasar en el resultado, entre otros factores. El agente esencialmente está tratando de optimizar numéricamentetodas las acciones, basadas en los valores de recompensa y penalización, para obtener una puntuación máxima de resultado para una tarea determinada.
El enfoque se usó para entrenar el programa de computadora DeepMind que en 2016 fue noticia por vencer a uno de los mejores jugadores humanos del mundo en el juego "Go". También se usa para entrenar autos sin conductor en maniobras, como incorporarse al tráfico o estacionarse, donde el vehículo practicará una y otra vez, ajustando su rumbo, hasta que lo haga bien.
Los investigadores adaptaron un modelo de RL para tratamientos de glioblastoma que usan una combinación de los medicamentos temozolomida TMZ y procarbazina, lomustina y vincristina PVC, administrados durante semanas o meses.
El agente del modelo recorre los regímenes administrados tradicionalmente. Estos regímenes se basan en protocolos que se han utilizado clínicamente durante décadas y se basan en pruebas con animales y varios ensayos clínicos. Los oncólogos utilizan estos protocolos establecidos para predecir la cantidad de dosis que deben administrarse a los pacientes segúnpeso.
A medida que el modelo explora el régimen, en cada intervalo de dosificación planificado, por ejemplo, una vez al mes, decide una de varias acciones. Puede, primero, iniciar o suspender una dosis. Si se administra, entoncesdecide si la dosis completa, o solo una porción, es necesaria. En cada acción, hace ping a otro modelo clínico, que a menudo se usa para predecir el cambio de tamaño de un tumor en respuesta a los tratamientos, para ver si la acción reduce el diámetro medio del tumor.. Si lo hace, el modelo recibe una recompensa.
Sin embargo, los investigadores también tuvieron que asegurarse de que el modelo no solo distribuya un número máximo y la potencia de las dosis. Siempre que el modelo elige administrar todas las dosis completas, por lo tanto, se penaliza, por lo que elige menos dosis más pequeñas"Si todo lo que queremos hacer es reducir el diámetro medio del tumor y dejar que tome las medidas que quiera, administrará los medicamentos de manera irresponsable", dice Shah. "En cambio, dijimos: 'Necesitamos reducir las acciones dañinas que tomapara llegar a ese resultado '".
Esto representa un "modelo de RL poco ortodoxo, descrito en el artículo por primera vez", dice Shah, que sopesa las posibles consecuencias negativas de las acciones dosis con un resultado reducción del tumor. Los modelos de RL tradicionales funcionan hacia un único resultado,como ganar un juego, y tomar todas y cada una de las acciones que maximicen ese resultado. Por otro lado, el modelo de los investigadores, en cada acción, tiene flexibilidad para encontrar una dosis que no necesariamente maximice únicamente la reducción del tumor, sino que impacteun perfecto equilibrio entre la máxima reducción tumoral y la baja toxicidad. Esta técnica, añade, tiene diversas aplicaciones médicas y de ensayos clínicos, donde se deben regular las acciones de tratamiento de los pacientes para prevenir efectos secundarios nocivos.
regímenes óptimos
Los investigadores entrenaron el modelo en 50 pacientes simulados, seleccionados al azar de una gran base de datos de pacientes con glioblastoma que se habían sometido previamente a tratamientos tradicionales. Para cada paciente, el modelo llevó a cabo alrededor de 20.000 pruebas y errores. Una vez que se completó el entrenamiento,el modelo aprendió los parámetros para los regímenes óptimos. Cuando se le dieron nuevos pacientes, el modelo usó esos parámetros para formular nuevos regímenes basados en varias restricciones que proporcionaron los investigadores.
Luego, los investigadores probaron el modelo en 50 nuevos pacientes simulados y compararon los resultados con los de un régimen convencional que usa TMZ y PVC. Cuando no se aplica una penalización de dosis, el modelo diseñó regímenes casi idénticos a los de expertos humanos. Dadas dosis pequeñas y grandessanciones, sin embargo, redujo sustancialmente la frecuencia y potencia de las dosis, al tiempo que redujo el tamaño de los tumores.
Los investigadores también diseñaron el modelo para tratar a cada paciente individualmente, así como en una sola cohorte, y obtuvieron resultados similares los investigadores dispusieron de datos médicos para cada paciente. Tradicionalmente, se aplica un mismo régimen de dosificación a grupos depacientes, pero las diferencias en el tamaño del tumor, los antecedentes médicos, los perfiles genéticos y los biomarcadores pueden cambiar la forma en que se trata a un paciente. Estas variables no se tienen en cuenta durante los diseños de ensayos clínicos tradicionales y otros tratamientos, lo que a menudo conduce a respuestas deficientes a la terapia en poblaciones grandes.Dice Shah.
"Le dijimos [al modelo], '¿Tiene que administrar la misma dosis a todos los pacientes? Y dijo,' No. Puedo darle un cuarto de dosis a esta persona, la mitad a esta persona, y tal vezomitir una dosis para esta persona. "Esa fue la parte más emocionante de este trabajo, donde podemos generar tratamientos basados en medicamentos de precisión mediante la realización de ensayos con una sola persona utilizando arquitecturas de aprendizaje automático poco ortodoxas", dice Shah.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: el contenido se puede editar por estilo y longitud.
cite esta página :