Investigadores del Instituto Stowers de Investigación Médica, en colaboración con colegas de la Universidad de Stanford y la Universidad Técnica de Múnich, han desarrollado inteligencia artificial IA explicable avanzada en un tour de force técnico para descifrar las instrucciones reguladoras codificadas en el ADN. En un informe publicadoonline 18 de febrero de 2021, en Genética de la naturaleza , el equipo descubrió que una red neuronal entrenada en mapas de alta resolución de interacciones proteína-ADN puede descubrir patrones sutiles de secuencia de ADN en todo el genoma y proporcionar una comprensión más profunda de cómo estas secuencias están organizadas para regular genes.
Las redes neuronales son modelos de inteligencia artificial poderosos que pueden aprender patrones complejos a partir de diversos tipos de datos, como imágenes, señales de voz o texto para predecir propiedades asociadas con una precisión impresionante. Sin embargo, muchos ven estos modelos como ininterpretables, ya que los patrones predictivos aprendidos sondifícil de extraer del modelo. Esta naturaleza de caja negra ha obstaculizado la amplia aplicación de las redes neuronales a la biología, donde la interpretación de patrones predictivos es primordial.
Uno de los grandes problemas no resueltos en biología es el segundo código del genoma: su código regulador. Las bases de ADN comúnmente representadas por las letras A, C, G y T codifican no solo las instrucciones sobre cómo construir proteínas, sino tambiéncuándo y dónde producir estas proteínas en un organismo. El código regulador es leído por proteínas llamadas factores de transcripción que se unen a tramos cortos de ADN llamados motivos. Sin embargo, cómo las combinaciones y arreglos particulares de motivos especifican la actividad reguladora es un problema extremadamente complejo que haha sido difícil de precisar.
Ahora, un equipo interdisciplinario de biólogos e investigadores computacionales dirigido por la investigadora de Stowers, Julia Zeitlinger, PhD, y Anshul Kundaje, PhD, de la Universidad de Stanford, han diseñado una red neuronal, llamada BPNet para Base Pair Network, que se puede interpretarrevelar el código regulador mediante la predicción de la unión del factor de transcripción a partir de las secuencias de ADN con una precisión sin precedentes. La clave fue realizar experimentos de unión entre el factor de transcripción y el ADN y el modelado computacional con la resolución más alta posible, hasta el nivel de bases de ADN individuales.para desarrollar nuevas herramientas de interpretación para extraer los patrones de secuencia elemental clave, como los motivos de unión del factor de transcripción y las reglas combinatorias mediante las cuales los motivos funcionan juntos como un código regulador.
"Esto fue extremadamente satisfactorio", dice Zeitlinger, "ya que los resultados encajan a la perfección con los resultados experimentales existentes y también revelaron conocimientos novedosos que nos sorprendieron".
Por ejemplo, los modelos de redes neuronales permitieron a los investigadores descubrir una regla sorprendente que gobierna la unión del factor de transcripción bien estudiado llamado Nanog. Encontraron que Nanog se une cooperativamente al ADN cuando múltiples de su motivo están presentes de manera periódica, comoque aparecen en el mismo lado de la hélice de ADN en espiral.
"Ha habido un largo rastro de evidencia experimental de que tal periodicidad de motivo a veces existe en el código regulatorio", dice Zeitlinger. "Sin embargo, las circunstancias exactas eran esquivas, y Nanog no había sido sospechoso. Descubrir que Nanog tiene talpatrón, y ver detalles adicionales de sus interacciones, fue sorprendente porque no buscamos específicamente este patrón ".
"Esta es la ventaja clave de usar redes neuronales para esta tarea", dice? Iga Avsec, PhD, primer autor del artículo. Avsec y Kundaje crearon la primera versión del modelo cuando Avsec visitó Stanford durante sus estudios de doctorado en ellaboratorio de Julien Gagneur, PhD, en la Universidad Técnica de Munich, Alemania.
"Los enfoques bioinformáticos más tradicionales modelan datos utilizando reglas rígidas predefinidas que se basan en el conocimiento existente. Sin embargo, la biología es extremadamente rica y complicada", dice Avsec. "Mediante el uso de redes neuronales, podemos entrenar modelos mucho más flexibles y matizadosque aprenden patrones complejos desde cero sin conocimientos previos, lo que permite nuevos descubrimientos ".
La arquitectura de red de BPNet es similar a la de las redes neuronales que se utilizan para el reconocimiento facial en imágenes. Por ejemplo, la red neuronal primero detecta bordes en los píxeles, luego aprende cómo los bordes forman elementos faciales como el ojo, la nariz o la boca, y finalmentedetecta cómo los elementos faciales juntos forman una cara. En lugar de aprender de los píxeles, BPNet aprende de la secuencia de ADN en bruto y aprende a detectar motivos de secuencia y, finalmente, las reglas de orden superior mediante las cuales los elementos predicen los datos de enlace de resolución base.
Una vez que el modelo está entrenado para ser altamente preciso, los patrones aprendidos se extraen con herramientas de interpretación. La señal de salida se rastrea hasta las secuencias de entrada para revelar los motivos de secuencia. El paso final es usar el modelo como un oráculo y consultar sistemáticamentecon diseños de secuencia de ADN específicos, similar a lo que se haría para probar hipótesis experimentalmente, para revelar las reglas por las cuales los motivos de secuencia funcionan de manera combinatoria.
"La belleza es que el modelo puede predecir muchos más diseños de secuencia que podríamos probar experimentalmente", dice Zeitlinger. "Además, al predecir el resultado de las perturbaciones experimentales, podemos identificar los experimentos que son más informativos para validar el modelo."De hecho, con la ayuda de las técnicas de edición de genes CRISPR, los investigadores confirmaron experimentalmente que las predicciones del modelo eran muy precisas.
Dado que el enfoque es flexible y aplicable a una variedad de diferentes tipos de datos y tipos de células, promete conducir a una comprensión cada vez mayor del código regulador y cómo la variación genética afecta la regulación genética. Tanto el Laboratorio Zeitlinger como el Laboratorio de Kundaje sonque ya utilizan BPNet para identificar de forma fiable motivos de unión para otros tipos de células, relacionar motivos con parámetros biofísicos y aprender otras características estructurales del genoma, como las asociadas con el empaquetamiento del ADN. Para permitir que otros científicos utilicen BPNet y lo adapten a sus propias necesidades,los investigadores han puesto a disposición todo el marco de software con documentación y tutoriales.
Fuente de la historia :
Materiales proporcionado por Instituto Stowers de Investigación Médica . Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :