Noticias de ciencia

de organizaciones de investigación

El modelo aprende cómo los aminoácidos individuales determinan la función de la proteína

La técnica podría mejorar las tareas de aprendizaje automático en el diseño de proteínas, pruebas de drogas y otras aplicaciones

Fecha :: 25 de marzo de 2019
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Un modelo de aprendizaje automático analiza computacionalmente cómo los segmentos de cadenas de aminoácidos determinan la función de una proteína, lo que podría ayudar a los investigadores a diseñar y probar nuevas proteínas para el desarrollo de fármacos o la investigación biológica.
Compartir :

HISTORIA COMPLETA

Un modelo de aprendizaje automático de los investigadores del MIT desglosa computacionalmente cómo los segmentos de cadenas de aminoácidos determinan la función de una proteína, lo que podría ayudar a los investigadores a diseñar y probar nuevas proteínas para el desarrollo de fármacos o la investigación biológica.

anuncio

Las proteínas son cadenas lineales de aminoácidos, conectadas por enlaces peptídicos, que se pliegan en estructuras tridimensionales extremadamente complejas, dependiendo de la secuencia y las interacciones físicas dentro de la cadena. Esa estructura, a su vez, determina la función biológica de la proteína.La estructura tridimensional de la proteína, por lo tanto, es valiosa para, por ejemplo, predecir cómo las proteínas pueden responder a ciertos medicamentos.

Sin embargo, a pesar de décadas de investigación y el desarrollo de múltiples técnicas de imagen, solo conocemos una fracción muy pequeña de posibles estructuras de proteínas, decenas de miles de millones. Los investigadores están comenzando a usar modelos de aprendizaje automático para predecir estructuras de proteínas basadasen sus secuencias de aminoácidos, lo que podría permitir el descubrimiento de nuevas estructuras de proteínas. Pero esto es un desafío, ya que diversas secuencias de aminoácidos pueden formar estructuras muy similares. Y no hay muchas estructuras sobre las cuales entrenar a los modelos.

En un documento presentado en la Conferencia Internacional sobre Representaciones de Aprendizaje en mayo, los investigadores del MIT desarrollan un método para "aprender" representaciones fácilmente computables de cada posición de aminoácidos en una secuencia de proteínas, utilizando inicialmente la estructura de proteínas 3-D como entrenamientoLuego, los investigadores pueden usar esas representaciones como entradas que ayudan a los modelos de aprendizaje automático a predecir las funciones de los segmentos de aminoácidos individuales, sin volver a necesitar datos sobre la estructura de la proteína.

En el futuro, el modelo podría usarse para mejorar la ingeniería de proteínas, al dar a los investigadores la oportunidad de concentrarse y modificar segmentos de aminoácidos específicos. El modelo podría incluso alejar a los investigadores de la predicción de la estructura de la proteína por completo.

"Quiero marginar la estructura", dice el primer autor Tristan Bepler, un estudiante graduado en el grupo de Computación y Biología en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL. "Queremos saber qué hacen las proteínas y conocer la estructura.importante para eso. ¿Pero podemos predecir la función de una proteína dada solo su secuencia de aminoácidos? La motivación es alejarse de las estructuras de predicción específicas y avanzar hacia [encontrar] cómo las secuencias de aminoácidos se relacionan con la función ".

Uniéndose a Bepler es coautora Bonnie Berger, profesora de matemáticas de Simons en el MIT con un puesto docente conjunto en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación, y jefe del grupo de Computación y Biología.

anuncio

Aprendiendo de la estructura

En lugar de predecir la estructura directamente, como lo intentan los modelos tradicionales, los investigadores codificaron la información estructural de la proteína predicha directamente en representaciones. Para ello, utilizan similitudes estructurales conocidas de proteínas para supervisar su modelo, a medida que el modelo aprende las funciones de determinadas proteínasaminoácidos.

Entrenaron su modelo en aproximadamente 22,000 proteínas de la base de datos de Clasificación estructural de proteínas SCOP, que contiene miles de proteínas organizadas en clases por similitudes de estructuras y secuencias de aminoácidos. Para cada par de proteínas, calcularon una puntuación de similitud real, lo que significa qué tan cerca están en la estructura, en función de su clase SCOP.

Los investigadores luego alimentaron sus modelos de pares aleatorios de estructuras de proteínas y sus secuencias de aminoácidos, que se convirtieron en representaciones numéricas llamadas incrustaciones por un codificador. En el procesamiento del lenguaje natural, las incrustaciones son esencialmente tablas de varios cientos de números combinados de una manera que correspondea una letra o palabra en una oración. Cuanto más parecidas sean las dos incrustaciones, más probable es que las letras o palabras aparezcan juntas en una oración.

En el trabajo de los investigadores, cada incrustación en el par contiene información sobre cuán similar es cada secuencia de aminoácidos a la otra. El modelo alinea las dos incrustaciones y calcula un puntaje de similitud para luego predecir cuán similares serán sus estructuras tridimensionalesLuego, el modelo compara su puntaje de similitud previsto con el puntaje de similitud SCOP real para su estructura, y envía una señal de retroalimentación al codificador.

anuncio

Simultáneamente, el modelo predice un "mapa de contacto" para cada incrustación, que básicamente dice qué tan lejos está cada aminoácido de todos los demás en la estructura 3-D prevista de la proteína, esencialmente, ¿hacen contacto o no?El modelo también compara su mapa de contacto previsto con el mapa de contacto conocido de SCOP, y envía una señal de retroalimentación al codificador, lo que ayuda a que el modelo aprenda mejor dónde caen exactamente los aminoácidos en la estructura de una proteína, lo que actualiza aún más la función de cada aminoácido.

Básicamente, los investigadores entrenan su modelo pidiéndole que prediga si las incorporaciones de secuencias emparejadas compartirán o no una estructura de proteína SCOP similar. Si el puntaje pronosticado del modelo está cerca del puntaje real, sabe que está en el camino correcto;si no, se ajusta.

diseño de proteínas

Al final, para una cadena de aminoácidos ingresada, el modelo producirá una representación numérica, o incrustación, para cada posición de aminoácidos en una estructura tridimensional. Los modelos de aprendizaje automático pueden usar esas incrustaciones de secuencia para predecir con precisión cada unofunción del aminoácido basada en su "contexto" estructural 3-D previsto: su posición y contacto con otros aminoácidos.

Por ejemplo, los investigadores usaron el modelo para predecir qué segmentos, si los hay, pasan a través de la membrana celular. Dada solo una secuencia de aminoácidos, el modelo de los investigadores predijo todos los segmentos transmembrana y no transmembrana con mayor precisión que el estado demodelos de última generación.

A continuación, los investigadores pretenden aplicar el modelo a más tareas de predicción, como averiguar qué segmentos de secuencia se unen a moléculas pequeñas, lo cual es crítico para el desarrollo de fármacos. También están trabajando en usar el modelo para el diseño de proteínas.incrustaciones de secuencia, pueden predecir, por ejemplo, a qué longitudes de onda de color fluorescerá una proteína.

"Nuestro modelo nos permite transferir información de estructuras proteicas conocidas a secuencias con estructura desconocida. Utilizando nuestras incorporaciones como características, podemos predecir mejor la función y permitir un diseño de proteínas basado en datos más eficiente", dice Bepler., ese tipo de ingeniería de proteínas es el objetivo "

Berger agrega: "Nuestros modelos de aprendizaje automático nos permiten aprender el 'lenguaje' del plegamiento de proteínas, uno de los problemas originales del 'Santo Grial', a partir de un número relativamente pequeño de estructuras conocidas".

PAPEL: " Aprendizaje de incrustaciones de secuencias de proteínas utilizando información de la estructura . "

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.

Cite esta página :

Massachusetts Institute of Technology. "El modelo aprende cómo los aminoácidos individuales determinan la función de las proteínas: la técnica podría mejorar las tareas de aprendizaje automático en el diseño de proteínas, las pruebas de drogas y otras aplicaciones". ScienceDaily. ScienceDaily, 25 de marzo de 2019. .

Massachusetts Institute of Technology. 2019, 25 de marzo. El modelo aprende cómo los aminoácidos individuales determinan la función de las proteínas: la técnica podría mejorar las tareas de aprendizaje automático en el diseño de proteínas, las pruebas de drogas y otras aplicaciones. ScienceDaily . Recuperado el 20 de julio de 2020 de www.science-things.com/releases/2019/03/190325151027.htm

Instituto de Tecnología de Massachusetts. "El modelo aprende cómo los aminoácidos individuales determinan la función de las proteínas: la técnica podría mejorar las tareas de aprendizaje automático en el diseño de proteínas, las pruebas de drogas y otras aplicaciones". ScienceDaily. Www.science-things.com/releases/2019/03/190325151027.htm consultado el 20 de julio de 2020.

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

El modelo aprende cómo los aminoácidos individuales determinan la función de la proteína

La técnica podría mejorar las tareas de aprendizaje automático en el diseño de proteínas, pruebas de drogas y otras aplicaciones

1

2

3

4

5

1

2

3

4

5

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Nueva investigación de la luz más antigua confirma la edad del universo

Las primeras imágenes del Orbitador Solar revelan 'fogatas' en el sol

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Prueba de sangre innovadora detecta el resultado positivo de COVID-19 en 20 minutos

Los mejores y peores materiales para máscaras

Creado 'neurotransistor artificial'

El primer lenguaje de programación intuitivo para computadoras cuánticas

Robot Jaws muestra que el chicle medicado podría ser el futuro

Los científicos descubren que los volcanes en Venus todavía están activos

¿Podrían las mini-Neptunas ser planetas oceánicos irradiados?

Separando ráfagas de rayos gamma: los estudiantes hacen un avance crítico

Misterio Ultrafrío: Resuelto

Platón tenía razón. La Tierra está hecha, en promedio, de cubos

El dispositivo atomtrónico podría sondear el límite entre los mundos cuánticos y cotidianos

Los cristales 'parpadeantes' pueden convertir CO2 en combustibles

Una GoPro para escarabajos: los investigadores crean una mochila con cámara robótica para insectos

Dando a los robots una percepción humana de sus entornos físicos