Se puede aplicar una nueva y poderosa técnica de aprendizaje automático a grandes conjuntos de datos en las ciencias biológicas para descubrir características previamente desconocidas de organismos y sus genes, según un equipo dirigido por investigadores de la Facultad de Medicina Perelman de la Universidad de Pensilvania.Por ejemplo, la técnica aprendió los patrones característicos de expresión génica que aparecen cuando una bacteria patógena está expuesta a condiciones de bajo oxígeno e identifica cambios sólidos que ocurren en respuesta a los antibióticos.
La técnica emplea un algoritmo desarrollado recientemente llamado "autoencoder de eliminación de ruido", que aprende a identificar características o patrones recurrentes en grandes conjuntos de datos sin que se les diga qué características específicas deben buscar. En 2012, por ejemplo, cuando los investigadores patrocinados por Google aplicaron unmétodo similar a las imágenes de YouTube seleccionadas al azar, su sistema aprendió con éxito a reconocer las principales características recurrentes de esas imágenes, incluidos los gatos.
En el nuevo estudio, publicado en la revista en línea mSystems esta semana, Casey Greene, PhD, profesora asistente de Farmacología de Sistemas y Terapéutica Traslacional, en colaboración con Deborah Hogan, PhD en Dartmouth College, utilizó un sistema de autoencoders de ruido para analizar muchos conjuntos de datos grandes que miden cómo están los genes en las bacteriasexpresado en diferentes condiciones.
"El sistema aprendió los principios fundamentales de la genómica bacteriana solo a partir de estos datos", dijo Greene. "Esperamos que este enfoque sea particularmente útil para los microbiólogos que investigan especies bacterianas que carecen de una historia de estudio de décadas en el laboratorio. Los microbiólogos puedenuse estos modelos para identificar dónde los datos están de acuerdo con su propio conocimiento y dónde los datos parecen apuntar en una dirección diferente ". Greene piensa que estos son casos en los que los datos pueden sugerir nuevos mecanismos biológicos.
El año pasado, Greene y su equipo publicaron la primera demostración del nuevo método en un contexto biológico: un análisis de dos conjuntos de datos de expresión génica de cánceres de mama. El nuevo estudio fue considerablemente más ambicioso: cubrió la expresión génica 950matrices disponibles públicamente en el momento de la bacteria Pseudomonas aeruginosa , de 109 conjuntos de datos distintos. Esta bacteria es un patógeno notorio en el hospital y en individuos con fibrosis quística y otras afecciones pulmonares crónicas y, a menudo, es difícil de tratar debido a su alta resistencia a las terapias antibióticas estándar.
Primer autor Jie Tan, un estudiante graduado en Dartmouth, donde Greene, hasta hace poco, tenía su laboratorio, desarrolló ADAGE Análisis usando Autoencoders de Expresión Génica Denoising y lo aplicó al P. aeruginosa conjuntos de datos. Los datos incluyeron solo las identidades de aproximadamente 5,000 P. aeruginosa genes, sus niveles de expresión medidos en cada experimento publicado. El objetivo era mostrar que este sistema de aprendizaje "sin supervisión" podría descubrir patrones importantes en P. aeruginosa expresión génica y aclarar cómo cambian esos patrones cuando cambia el entorno de la bacteria, por ejemplo, en presencia de un antibiótico.
Aunque el modelo construido con ADAGE era relativamente simple, aproximadamente equivalente a un cerebro con solo unas pocas docenas de neuronas, no tuvo problemas para aprender qué conjuntos de P. aeruginosa los genes tienden a trabajar juntos o en oposición. Para sorpresa de los investigadores, el sistema ADAGE también detectó diferencias entre la cepa principal de laboratorio de P. aeruginosa y cepas aisladas de pacientes infectados. "Esa resultó ser una de las características más fuertes de los datos", dijo Greene.
"Nos llamaron la atención las similitudes entre P. aeruginosa crecido en asociación con células epiteliales pulmonares cultivadas y estas bacterias tomadas directamente de los pulmones de individuos con fibrosis quística ", dijo John H. Hammond, un estudiante graduado en Hogan Lab que colaboró en este proyecto." Estamos entusiasmados de continuarusar ADAGE en combinación con datos de muestras de pacientes y experimentos usando modelos de laboratorio para descubrir mejores formas de encontrar terapias para tratar las infecciones pulmonares de fibrosis quística ".
"Creemos que la proliferación de 'big data' brinda una oportunidad, mediante el uso de aprendizaje automático no supervisado, para encontrar cosas completamente nuevas en biología que ni siquiera sabíamos buscar", dijo Greene.
El apoyo para la investigación provino de la Fundación Gordon y Betty Moore GBMF4552, el Instituto William H. Neukom de Ciencias Computacionales, los Institutos Nacionales de Salud RO1AI091702, T32DK007301, P30GM106394 y la Fundación de Fibrosis Quística STANTO07R0, STANTO15R0.
Fuente de la historia :
Materiales proporcionado por Facultad de medicina de la Universidad de Pensilvania . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :