Como la segunda causa de muerte en los Estados Unidos, el cáncer es una crisis de salud pública que afecta a casi una de cada dos personas durante su vida. El cáncer también es una enfermedad opresivamente compleja. Cientos de tipos de cáncer que afectan a más de 70 órganos tienenregistrado en los registros de cáncer de la nación: bases de datos de información sobre casos individuales de cáncer que proporcionan estadísticas vitales para médicos, investigadores y formuladores de políticas.
"La vigilancia del cáncer a nivel de la población es crítica para monitorear la efectividad de las iniciativas de salud pública destinadas a prevenir, detectar y tratar el cáncer", dijo Gina Tourassi, directora del Instituto de Ciencias de Datos de Salud y el Centro Nacional de Ciencias Computacionales del Departamentodel Laboratorio Nacional Oak Ridge de Energy. "Colaborando con el Instituto Nacional del Cáncer, mi equipo está desarrollando soluciones avanzadas de inteligencia artificial para modernizar el programa nacional de vigilancia del cáncer al automatizar el esfuerzo de captura de datos que consume mucho tiempo y proporcionar informes de cáncer casi en tiempo real"
A través de registros digitales de cáncer, los científicos pueden identificar tendencias en los diagnósticos de cáncer y las respuestas al tratamiento, lo que a su vez puede ayudar a guiar el dinero de la investigación y los recursos públicos. Sin embargo, al igual que la enfermedad que rastrean, los informes de patología del cáncer son complejos. Las variaciones en la notación y el lenguaje debenser interpretado por registradores de cáncer humanos capacitados para analizar los informes.
Para aprovechar mejor los datos sobre el cáncer para la investigación, los científicos de ORNL están desarrollando una herramienta de procesamiento de lenguaje natural basada en inteligencia artificial para mejorar la extracción de información de los informes de patología textual. El proyecto es parte de una colaboración del DOE-National Cancer Institute conocida como Joint Designde Advanced Computing Solutions for Cancer JDACS4C que está acelerando la investigación al fusionar datos sobre el cáncer con análisis de datos avanzados y computación de alto rendimiento.
Como el laboratorio más grande de la Oficina de Ciencia del DOE, ORNL alberga recursos informáticos únicos para enfrentar este desafío, incluida la supercomputadora más poderosa del mundo para IA y un entorno de datos seguro para procesar información protegida como datos de salud. A través de su Vigilancia, Epidemiología yPrograma de Resultados Finales SEER, el NCI recibe datos de registros de cáncer, como el Registro de Tumores de Louisiana, que incluye información de diagnóstico y patología para casos individuales de tumores cancerosos.
"La extracción manual de información es costosa, lenta y propensa a errores, por lo que estamos desarrollando una herramienta basada en inteligencia artificial", dijo Mohammed Alawad, científico investigador de la Dirección de Informática y Ciencias Computacionales de ORNL y autor principal de un artículo publicado en el Revista de la Asociación Americana de Informática Médica sobre los resultados de la herramienta de IA del equipo.
Por primera vez para los informes de patología del cáncer, el equipo desarrolló una red neuronal convolucional multitarea, o CNN, un modelo de aprendizaje profundo que aprende a realizar tareas, como identificar palabras clave en un cuerpo de texto, procesando el lenguaje como dosdataset numérico tridimensional.
"Utilizamos una técnica común llamada incrustación de palabras, que representa cada palabra como una secuencia de valores numéricos", dijo Alawad.
Las palabras que tienen una relación semántica, o que juntas transmiten significado, están cerca unas de otras en el espacio dimensional como vectores valores que tienen magnitud y dirección. Estos datos textuales se ingresan en la red neuronal y se filtran a través de capas de red.según los parámetros que encuentran conexiones dentro de los datos. Estos parámetros se perfeccionan cada vez más a medida que se procesan más y más datos.
Aunque algunos modelos CNN de una sola tarea ya se están utilizando para revisar informes de patología, cada modelo solo puede extraer una característica del rango de información en los informes. Por ejemplo, un CNN de una sola tarea puede estar capacitado para extraer solo elsitio primario del cáncer, que genera el órgano donde se detectó el cáncer, como pulmones, próstata, vejiga u otros, pero extraer información sobre el grado histológico o el crecimiento de las células cancerosas requeriría la capacitación de un modelo de aprendizaje profundo por separado.
El equipo de investigación aumentó la eficiencia al desarrollar una red que puede completar múltiples tareas en aproximadamente la misma cantidad de tiempo que una CNN de una sola tarea. La red neuronal del equipo extrae simultáneamente información para cinco características: sitio primario el órgano del cuerpo, lateralidadórgano derecho o izquierdo, si corresponde, comportamiento, tipo histológico tipo de célula y grado histológico qué tan rápido crecen o se propagan las células cancerosas.
La CNN multitarea del equipo completó y superó a una CNN de una sola tarea para las cinco tareas en el mismo período de tiempo, lo que la hizo cinco veces más rápida. Sin embargo, Alawad dijo: "No es tanto que sea cinco veces más rápida".Es que es n veces más rápido. Si tuviéramos n tareas diferentes, entonces tomaría una enésima parte del tiempo por tarea ".
La clave del éxito del equipo fue el desarrollo de una arquitectura CNN que permite que las capas compartan información entre las tareas sin agotar la eficiencia o socavar el rendimiento.
"Es la eficiencia en la informática y la eficiencia en el rendimiento", dijo Alawad. "Si usamos modelos de una sola tarea, entonces necesitamos desarrollar un modelo separado por tarea. Sin embargo, con el aprendizaje multitarea, solo necesitamos desarrollar un modelo:- pero desarrollar este modelo, descubrir la arquitectura, era computacionalmente lento. Necesitábamos una supercomputadora para el desarrollo del modelo ".
Para construir una CNN multitarea eficiente, recurrieron a la supercomputadora más poderosa e inteligente del mundo: la supercomputadora Summit de 200 petaflop en ORNL, que tiene más de 27,600 GPU optimizadas para el aprendizaje profundo.
El equipo comenzó desarrollando dos tipos de arquitecturas CNN multitarea: un método de aprendizaje automático común conocido como uso compartido de parámetros difíciles y un método que ha demostrado cierto éxito con la clasificación de imágenes conocida como punto de cruz. El uso compartido de parámetros difíciles utiliza los mismos pocos parámetrosen todas las tareas, mientras que el punto de cruz utiliza más parámetros fragmentados entre las tareas, lo que da como resultado resultados que deben "unirse".
Para entrenar y probar las CNN multitarea con datos de salud reales, el equipo utilizó el entorno de datos seguro de ORNL y más de 95,000 informes de patología del Registro de Tumores de Louisiana. Compararon sus CNN con otros tres modelos de IA establecidos, incluida una CNN de una sola tarea.
"Además de ofrecer recursos de computación científica y HPC, ORNL tiene un lugar para entrenar y almacenar datos seguros, todos estos juntos son muy importantes", dijo Alawad.
Durante las pruebas, descubrieron que el modelo multitarea para compartir parámetros difíciles superó a los otros cuatro modelos incluido el modelo multitarea de punto de cruz y aumentó la eficiencia al reducir el tiempo de cómputo y el consumo de energía. En comparación con la CNN de tarea única y los modelos de IA convencionales,El parámetro de uso compartido multitarea CNN completó el desafío en una fracción del tiempo y clasificó con mayor precisión cada una de las cinco características del cáncer.
"El siguiente paso es lanzar un estudio de usuarios a gran escala donde la tecnología se implementará en los registros de cáncer para identificar las formas más efectivas de integración en los flujos de trabajo de los registros. El objetivo no es reemplazar a los humanos, sino aumentarhumano ", dijo Tourassi.
Fuente de la historia :
Materiales proporcionado por DOE / Laboratorio Nacional de Oak Ridge . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :