Una novedosa 'caja de herramientas' de aprendizaje automático que puede leer y analizar las secuencias de proteínas se ha descrito hoy en la revista de acceso abierto eLife .
El estudio demuestra que, cuando se entrena para leer datos de secuencia, las redes neuronales artificiales llamadas Máquinas de Boltzmann restringidas RBM pueden proporcionar una gran cantidad de información sobre la estructura de la proteína, la función y las características evolutivas. Se cree que es el primer método que puede extraereste nivel de detalle solo de datos de secuencia.
Las proteínas están formadas por secuencias de moléculas llamadas aminoácidos, que determinan las propiedades estructurales y funcionales de una proteína determinada. Pero entender qué partes de las secuencias son responsables de qué propiedades es un desafío ". Responder esta pregunta podría tener implicaciones significativas para el desarrollo farmacéutico,"explica el coautor Jérôme Tubiana, ex estudiante de doctorado en el Laboratorio de Física de l'École Normale Supérieure ENS, París, Francia". Por ejemplo, podría ayudar con el diseño de nuevas proteínas que tienen las funciones deseadas, o con la predicciónla evolución futura de la secuencia de proteínas en organismos vivos, como los patógenos, y la identificación de objetivos farmacológicos apropiados "
Para explorar esta pregunta, Tubiana y sus colaboradores aplicaron RBM a 20 'familias' de proteínas, un grupo de proteínas que comparten un origen evolutivo común. Los investigadores presentaron resultados detallados para cuatro familias de proteínas, incluidos dos dominios cortos de proteínas llamados Kunitz yWW, una proteína chaperona larga llamada Hsp70, y proteínas reticulares sintéticas para el benchmarking.
Descubrieron que, después de aprender, las conexiones entre las neuronas artificiales en la RBM son interpretables y se relacionan con la estructura, función como actividad o filogenia de la proteína, las relaciones evolutivas entre las secuencias de proteínas. Además, el equipo descubrió quepodrían usar RBM para diseñar nuevas secuencias de proteínas componiendo y subiendo o bajando las diferentes unidades neuronales artificiales a voluntad.
"Nuestro modelo RBM muestra cómo las técnicas de aprendizaje automático pueden resolver el reconocimiento de datos complejos y sacar conclusiones de los datos de una manera interpretable", dice la coautora Simona Cocco, Directora de Investigación del CNRS en el Laboratorio de Física ENS. "Esto va en contra delos modelos de caja negra más complejos que se usan tradicionalmente en la ciencia de datos, ya que los análisis estadísticos proporcionados por estas herramientas son en gran parte ininterpretables. La interpretabilidad de nuestro método es un gran beneficio para los científicos: promete permitirles generar proteínascon funciones deseadas de forma controlada "
"Ahora será interesante aplicar nuestro modelo a las proteínas en los patógenos", agrega el autor principal Rémi Monasson, también Director de Investigación del CNRS en el Laboratorio de Física ENS, y Director Adjunto del Instituto Henri Poincaré CNRS / Universidad de la Sorbona,Francia ". Los patógenos, particularmente los virus, a menudo pueden escapar de las drogas a través de mutaciones que hacen que los tratamientos sean ineficaces. Nuestro método podría usarse para predecir las rutas de escape mutacionales que son accesibles para la proteína funcional desde su secuencia actual, y ayudar a identificar qué combinación de sitios de proteínasdebe ser blanco de drogas para bloquear todos los caminos "
Fuente de la historia :
Materiales proporcionado por eLife . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :