Un modelo de aprendizaje automático de los investigadores del MIT desglosa computacionalmente cómo los segmentos de cadenas de aminoácidos determinan la función de una proteína, lo que podría ayudar a los investigadores a diseñar y probar nuevas proteínas para el desarrollo de fármacos o la investigación biológica.
Las proteínas son cadenas lineales de aminoácidos, conectadas por enlaces peptídicos, que se pliegan en estructuras tridimensionales extremadamente complejas, dependiendo de la secuencia y las interacciones físicas dentro de la cadena. Esa estructura, a su vez, determina la función biológica de la proteína.La estructura tridimensional de la proteína, por lo tanto, es valiosa para, por ejemplo, predecir cómo las proteínas pueden responder a ciertos medicamentos.
Sin embargo, a pesar de décadas de investigación y el desarrollo de múltiples técnicas de imagen, solo conocemos una fracción muy pequeña de posibles estructuras de proteínas, decenas de miles de millones. Los investigadores están comenzando a usar modelos de aprendizaje automático para predecir estructuras de proteínas basadasen sus secuencias de aminoácidos, lo que podría permitir el descubrimiento de nuevas estructuras de proteínas. Pero esto es un desafío, ya que diversas secuencias de aminoácidos pueden formar estructuras muy similares. Y no hay muchas estructuras sobre las cuales entrenar a los modelos.
En un documento presentado en la Conferencia Internacional sobre Representaciones de Aprendizaje en mayo, los investigadores del MIT desarrollan un método para "aprender" representaciones fácilmente computables de cada posición de aminoácidos en una secuencia de proteínas, utilizando inicialmente la estructura de proteínas 3-D como entrenamientoLuego, los investigadores pueden usar esas representaciones como entradas que ayudan a los modelos de aprendizaje automático a predecir las funciones de los segmentos de aminoácidos individuales, sin volver a necesitar datos sobre la estructura de la proteína.
En el futuro, el modelo podría usarse para mejorar la ingeniería de proteínas, al dar a los investigadores la oportunidad de concentrarse y modificar segmentos de aminoácidos específicos. El modelo podría incluso alejar a los investigadores de la predicción de la estructura de la proteína por completo.
"Quiero marginar la estructura", dice el primer autor Tristan Bepler, un estudiante graduado en el grupo de Computación y Biología en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL. "Queremos saber qué hacen las proteínas y conocer la estructura.importante para eso. ¿Pero podemos predecir la función de una proteína dada solo su secuencia de aminoácidos? La motivación es alejarse de las estructuras de predicción específicas y avanzar hacia [encontrar] cómo las secuencias de aminoácidos se relacionan con la función ".
Uniéndose a Bepler es coautora Bonnie Berger, profesora de matemáticas de Simons en el MIT con un puesto docente conjunto en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación, y jefe del grupo de Computación y Biología.
Aprendiendo de la estructura
En lugar de predecir la estructura directamente, como lo intentan los modelos tradicionales, los investigadores codificaron la información estructural de la proteína predicha directamente en representaciones. Para ello, utilizan similitudes estructurales conocidas de proteínas para supervisar su modelo, a medida que el modelo aprende las funciones de determinadas proteínasaminoácidos.
Entrenaron su modelo en aproximadamente 22,000 proteínas de la base de datos de Clasificación estructural de proteínas SCOP, que contiene miles de proteínas organizadas en clases por similitudes de estructuras y secuencias de aminoácidos. Para cada par de proteínas, calcularon una puntuación de similitud real, lo que significa qué tan cerca están en la estructura, en función de su clase SCOP.
Los investigadores luego alimentaron sus modelos de pares aleatorios de estructuras de proteínas y sus secuencias de aminoácidos, que se convirtieron en representaciones numéricas llamadas incrustaciones por un codificador. En el procesamiento del lenguaje natural, las incrustaciones son esencialmente tablas de varios cientos de números combinados de una manera que correspondea una letra o palabra en una oración. Cuanto más parecidas sean las dos incrustaciones, más probable es que las letras o palabras aparezcan juntas en una oración.
En el trabajo de los investigadores, cada incrustación en el par contiene información sobre cuán similar es cada secuencia de aminoácidos a la otra. El modelo alinea las dos incrustaciones y calcula un puntaje de similitud para luego predecir cuán similares serán sus estructuras tridimensionalesLuego, el modelo compara su puntaje de similitud previsto con el puntaje de similitud SCOP real para su estructura, y envía una señal de retroalimentación al codificador.
Simultáneamente, el modelo predice un "mapa de contacto" para cada incrustación, que básicamente dice qué tan lejos está cada aminoácido de todos los demás en la estructura 3-D prevista de la proteína, esencialmente, ¿hacen contacto o no?El modelo también compara su mapa de contacto previsto con el mapa de contacto conocido de SCOP, y envía una señal de retroalimentación al codificador, lo que ayuda a que el modelo aprenda mejor dónde caen exactamente los aminoácidos en la estructura de una proteína, lo que actualiza aún más la función de cada aminoácido.
Básicamente, los investigadores entrenan su modelo pidiéndole que prediga si las incorporaciones de secuencias emparejadas compartirán o no una estructura de proteína SCOP similar. Si el puntaje pronosticado del modelo está cerca del puntaje real, sabe que está en el camino correcto;si no, se ajusta.
diseño de proteínas
Al final, para una cadena de aminoácidos ingresada, el modelo producirá una representación numérica, o incrustación, para cada posición de aminoácidos en una estructura tridimensional. Los modelos de aprendizaje automático pueden usar esas incrustaciones de secuencia para predecir con precisión cada unofunción del aminoácido basada en su "contexto" estructural 3-D previsto: su posición y contacto con otros aminoácidos.
Por ejemplo, los investigadores usaron el modelo para predecir qué segmentos, si los hay, pasan a través de la membrana celular. Dada solo una secuencia de aminoácidos, el modelo de los investigadores predijo todos los segmentos transmembrana y no transmembrana con mayor precisión que el estado demodelos de última generación.
A continuación, los investigadores pretenden aplicar el modelo a más tareas de predicción, como averiguar qué segmentos de secuencia se unen a moléculas pequeñas, lo cual es crítico para el desarrollo de fármacos. También están trabajando en usar el modelo para el diseño de proteínas.incrustaciones de secuencia, pueden predecir, por ejemplo, a qué longitudes de onda de color fluorescerá una proteína.
"Nuestro modelo nos permite transferir información de estructuras proteicas conocidas a secuencias con estructura desconocida. Utilizando nuestras incorporaciones como características, podemos predecir mejor la función y permitir un diseño de proteínas basado en datos más eficiente", dice Bepler., ese tipo de ingeniería de proteínas es el objetivo "
Berger agrega: "Nuestros modelos de aprendizaje automático nos permiten aprender el 'lenguaje' del plegamiento de proteínas, uno de los problemas originales del 'Santo Grial', a partir de un número relativamente pequeño de estructuras conocidas".
PAPEL: " Aprendizaje de incrustaciones de secuencias de proteínas utilizando información de la estructura . "
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :