La inteligencia artificial IA parece detectar enfermedades de imágenes médicas con niveles similares de precisión que los profesionales de la salud, según la primera revisión sistemática y el metanálisis, sintetizando toda la evidencia disponible de la literatura científica publicada en The Lancet Digital Health diario
Sin embargo, solo unos pocos estudios fueron de calidad suficiente para ser incluidos en el análisis, y los autores advierten que el verdadero poder de diagnóstico de la técnica de IA conocida como aprendizaje profundo: el uso de algoritmos, grandes datos y potencia informática paraemular el aprendizaje y la inteligencia humana: sigue siendo incierto debido a la falta de estudios que comparen directamente el rendimiento de los humanos y las máquinas, o que validen el rendimiento de la IA en entornos clínicos reales.
"Revisamos más de 20,500 artículos, pero menos del 1% de estos fueron lo suficientemente sólidos en su diseño e informaron que los revisores independientes tenían una gran confianza en sus afirmaciones. Además, solo 25 estudios validaron los modelos de IA externamente utilizando imágenes médicas deuna población diferente, y solo 14 estudios compararon el desempeño de los profesionales de la IA y de la salud utilizando la misma muestra de prueba ", explica el profesor Alastair Denniston de University Hospitals Birmingham NHS Foundation Trust, Reino Unido, quien dirigió la investigación.
"Dentro de esos pocos estudios de alta calidad, descubrimos que el aprendizaje profundo podría detectar enfermedades que van desde cánceres a enfermedades oculares con la misma precisión que los profesionales de la salud. Pero es importante tener en cuenta que la IA no superó sustancialmente el diagnóstico humano".
Con el aprendizaje profundo, las computadoras pueden examinar miles de imágenes médicas para identificar patrones de enfermedad. Esto ofrece un enorme potencial para mejorar la precisión y la velocidad del diagnóstico. Los informes de modelos de aprendizaje profundo que superan a los humanos en las pruebas de diagnóstico han generado mucho entusiasmo y debate, yLa Administración de Alimentos y Medicamentos de EE. UU. ya aprobó más de 30 algoritmos de IA para la atención médica.
A pesar del fuerte interés público y las fuerzas del mercado que impulsan el rápido desarrollo de estas tecnologías, se han planteado preocupaciones sobre si los diseños de los estudios están sesgados a favor del aprendizaje automático y el grado en que los hallazgos son aplicables a la práctica clínica del mundo real.
Para proporcionar más evidencia, los investigadores realizaron una revisión sistemática y un metanálisis de todos los estudios que compararon el desempeño de los modelos de aprendizaje profundo y los profesionales de la salud en la detección de enfermedades a partir de imágenes médicas publicadas entre enero de 2012 y junio de 2019. También evaluaron el diseño del estudio, los informesy valor clínico.
En total, se incluyeron 82 artículos en la revisión sistemática. Se analizaron los datos de 69 artículos que contenían suficientes datos para calcular con precisión el rendimiento de la prueba. Se incluyeron estimaciones agrupadas de 25 artículos que validaron los resultados en un subconjunto independiente de imágenes en el meta-análisis.
El análisis de datos de 14 estudios que compararon el desempeño del aprendizaje profundo con humanos en la misma muestra encontró que, en el mejor de los casos, los algoritmos de aprendizaje profundo pueden detectar correctamente la enfermedad en el 87% de los casos, en comparación con el 86% logrado por los profesionales de la salud.
La capacidad de excluir con precisión a los pacientes que no tienen enfermedad también fue similar para los algoritmos de aprendizaje profundo 93% de especificidad en comparación con los profesionales de la salud 91%.
Es importante destacar que los autores señalan varias limitaciones en la metodología y la presentación de informes de los estudios de diagnóstico de IA incluidos en el análisis. El aprendizaje profundo se evaluó con frecuencia de forma aislada de una manera que no refleja la práctica clínica. Por ejemplo, solo cuatro estudios proporcionaron profesionales de la saludcon información clínica adicional que normalmente utilizarían para hacer un diagnóstico en la práctica clínica. Además, se realizaron pocos estudios prospectivos en entornos clínicos reales, y los autores dicen que para determinar la precisión del diagnóstico se requieren comparaciones de alta calidad en los pacientes, no solo conjuntos de datos.El mal informe también fue común, ya que la mayoría de los estudios no informaron datos faltantes, lo que limita las conclusiones que se pueden extraer.
"Existe una tensión inherente entre el deseo de utilizar diagnósticos nuevos y potencialmente vitales y el imperativo de desarrollar evidencia de alta calidad de una manera que pueda beneficiar a los pacientes y los sistemas de salud en la práctica clínica", dice el Dr. Xiaoxuan Liu deUniversidad de Birmingham, Reino Unido. "Una lección clave de nuestro trabajo es que en IA, como en cualquier otra parte de la atención médica, el buen diseño del estudio es importante. Sin él, puede introducir fácilmente sesgos que sesguen sus resultados. Estos sesgos pueden conducir aa las afirmaciones exageradas de buen rendimiento para las herramientas de IA que no se traducen en el mundo real. El buen diseño y la presentación de informes de estos estudios es una parte clave para garantizar que las intervenciones de IA que llegan a los pacientes sean seguras y efectivas ".
"La evidencia sobre cómo los algoritmos de IA cambiarán los resultados de los pacientes debe provenir de comparaciones con pruebas de diagnóstico alternativas en ensayos controlados aleatorios", agrega la Dra. Livia Faes del Moorfields Eye Hospital, Londres. "Hasta el momento, apenas existen ensayos de este tipo donde el diagnósticolas decisiones tomadas por un algoritmo de IA se toman en cuenta para ver qué sucede con los resultados que realmente importan a los pacientes, como el tratamiento oportuno, el tiempo de alta del hospital o incluso las tasas de supervivencia ".
Escribiendo en un comentario vinculado, la Dra. Tessa Cook, de la Universidad de Pensilvania, EE. UU., Analiza si la IA puede compararse efectivamente con el médico humano que trabaja en el mundo real, donde los datos son "confusos, evasivos e imperfectos". Escribe: "Quizás la mejor conclusión es que, el estrecho cuerpo de trabajo público que compara la IA con los médicos humanos, la IA no es peor que los humanos, pero los datos son escasos y puede ser demasiado pronto para saberlo".
Fuente de la historia :
Materiales proporcionados por The Lancet . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :