Casi todos los procesos biológicos fundamentales necesarios para la vida son realizados por proteínas. Crean y mantienen las formas de las células y los tejidos; constituyen las enzimas que catalizan las reacciones químicas que sostienen la vida; actúan como fábricas moleculares, transportadores y motores; sirven como ambosseñal y receptor para comunicaciones celulares; y mucho más.
Compuestas por largas cadenas de aminoácidos, las proteínas realizan estas innumerables tareas al plegarse en estructuras 3D precisas que gobiernan cómo interactúan con otras moléculas. Debido a que la forma de una proteína determina su función y el alcance de su disfunción en la enfermedad, los esfuerzos para iluminarLas estructuras proteicas son fundamentales para toda la biología molecular, y en particular para la ciencia terapéutica y el desarrollo de medicamentos que salvan y alteran la vida.
En los últimos años, los métodos computacionales han logrado avances significativos en la predicción de cómo se pliegan las proteínas en función del conocimiento de su secuencia de aminoácidos. Si se realizan plenamente, estos métodos tienen el potencial de transformar prácticamente todas las facetas de la investigación biomédica. Sin embargo, los enfoques actuales sonlimitado en la escala y el alcance de las proteínas que se pueden determinar.
Ahora, un científico de la Facultad de Medicina de Harvard ha utilizado una forma de inteligencia artificial conocida como aprendizaje profundo para predecir la estructura 3D de cualquier proteína de manera efectiva en función de su secuencia de aminoácidos.
Reportando en línea en Sistemas celulares el 17 de abril, el biólogo de sistemas Mohammed AlQuraishi detalla un nuevo enfoque para determinar computacionalmente la estructura de la proteína, logrando una precisión comparable a los métodos actuales pero a velocidades superiores a un millón de veces más rápido.
"El plegamiento de proteínas ha sido uno de los problemas más importantes para los bioquímicos durante el último medio siglo, y este enfoque representa una forma fundamentalmente nueva de abordar ese desafío", dijo AlQuraishi, instructor en biología de sistemas en el Instituto Blavatnik en HMS y unmiembro del Laboratorio de Farmacología de Sistemas: "Ahora tenemos una vista completamente nueva desde la cual explorar el plegamiento de proteínas, y creo que acabamos de comenzar a arañar la superficie".
fácil de decir
Si bien son muy exitosos, los procesos que utilizan herramientas físicas para identificar estructuras de proteínas son costosos y requieren mucho tiempo, incluso con técnicas modernas como la microscopía crioelectrónica. Como tal, la gran mayoría de las estructuras de proteínas y los efectos de causar enfermedadeslas mutaciones en estas estructuras aún se desconocen en gran medida.
Los métodos computacionales que calculan cómo se pliegan las proteínas tienen el potencial de reducir drásticamente el costo y el tiempo necesarios para determinar la estructura. Pero el problema es difícil y sigue sin resolverse después de casi cuatro décadas de intenso esfuerzo.
Las proteínas se construyen a partir de una biblioteca de 20 aminoácidos diferentes. Estos actúan como letras en un alfabeto, combinándose en palabras, oraciones y párrafos para producir un número astronómico de textos posibles. Sin embargo, a diferencia de las letras del alfabeto, los aminoácidos son objetos físicos posicionadosen el espacio 3D. A menudo, las secciones de una proteína estarán muy cerca físicamente pero separadas por grandes distancias en términos de secuencia, ya que sus cadenas de aminoácidos forman bucles, espirales, láminas y giros.
"Lo que es convincente sobre el problema es que es bastante fácil establecerlo: tome una secuencia y descubra la forma", dijo AlQuraishi. "Una proteína comienza como una cadena no estructurada que tiene que adoptar una forma 3D, y lo posiblelos conjuntos de formas en que una cuerda puede plegarse son enormes. Muchas proteínas tienen miles de aminoácidos de largo y la complejidad supera rápidamente la capacidad de la intuición humana o incluso las computadoras más poderosas ".
difícil de resolver
Para abordar este desafío, los científicos aprovechan el hecho de que los aminoácidos interactúan entre sí según las leyes de la física, buscando estados energéticamente favorables como una bola rodando cuesta abajo para asentarse en el fondo de un valle.
Los algoritmos más avanzados calculan la estructura de la proteína ejecutándose en supercomputadoras, o poder informático de origen público en el caso de proyectos como Rosetta @ Home y Folding @ Home, para simular la física compleja de las interacciones de aminoácidos a través de la fuerza bruta.Para reducir los requisitos computacionales masivos, estos proyectos se basan en el mapeo de nuevas secuencias en plantillas predefinidas, que son estructuras de proteínas previamente determinadas a través del experimento.
Otros proyectos como el AlphaFold de Google han generado una tremenda emoción reciente al utilizar los avances en inteligencia artificial para predecir la estructura de una proteína. Para ello, estos enfoques analizan enormes volúmenes de datos genómicos, que contienen el modelo de secuencias de proteínas. Buscan secuenciasen muchas especies que probablemente han evolucionado juntas, utilizando secuencias como indicadores de proximidad física cercana para guiar el ensamblaje de la estructura.
Sin embargo, estos enfoques de IA no predicen estructuras basadas únicamente en la secuencia de aminoácidos de una proteína. Por lo tanto, tienen una eficacia limitada para proteínas para las que no hay conocimiento previo, proteínas evolutivas únicas o proteínas nuevas diseñadas por humanos.
Entrenando profundamente
Para desarrollar un nuevo enfoque, AlQuraishi aplicó el llamado aprendizaje profundo diferenciable de extremo a extremo. Esta rama de la inteligencia artificial ha reducido drásticamente la potencia computacional y el tiempo necesarios para resolver problemas como el reconocimiento de imagen y habla, permitiendo aplicaciones comoSiri de Apple y Google Translate.
En esencia, el aprendizaje diferenciable implica una única función matemática enorme, una versión mucho más sofisticada de una ecuación de cálculo de la escuela secundaria, organizada como una red neuronal, con cada componente de la red alimentando información hacia adelante y hacia atrás.
Esta función puede sintonizarse y ajustarse, una y otra vez a niveles de complejidad inimaginables, para "aprender" con precisión cómo una secuencia de proteínas se relaciona matemáticamente con su estructura.
AlQuraishi desarrolló un modelo de aprendizaje profundo, denominado red geométrica recurrente, que se enfoca en las características clave del plegamiento de proteínas. Pero antes de que pueda hacer nuevas predicciones, debe ser entrenado usando secuencias y estructuras previamente determinadas.
Para cada aminoácido, el modelo predice el ángulo más probable de los enlaces químicos que conectan el aminoácido con sus vecinos. También predice el ángulo de rotación alrededor de estos enlaces, lo que afecta cómo cualquier sección local de una proteína está geométricamente relacionadaa toda la estructura.
Esto se hace repetidamente, con cada cálculo informado y refinado por las posiciones relativas de cada otro aminoácido. Una vez que se completa toda la estructura, el modelo verifica la precisión de su predicción comparándola con la estructura de "verdad fundamental" delproteína.
Todo este proceso se repite para miles de proteínas conocidas, con el modelo aprendiendo y mejorando su precisión con cada iteración.
Nueva vista
Una vez que su modelo fue entrenado, AlQuraishi probó su poder predictivo. Comparó su desempeño con otros métodos de varios años recientes de la Evaluación crítica de la predicción de la estructura de la proteína, un experimento anual que prueba los métodos computacionales para su capacidad de hacer predicciones utilizando proteínasestructuras que han sido determinadas pero no publicadas.
Encontró que el nuevo modelo superó a todos los demás métodos para predecir estructuras de proteínas para las que no existen plantillas preexistentes, incluidos los métodos que utilizan datos coevolutivos. También superó a todos los métodos, excepto a los mejores, cuando las plantillas preexistentes estaban disponibles para hacer predicciones.
Si bien estas ganancias en precisión son relativamente pequeñas, AlQuraishi señala que cualquier mejora en el extremo superior de estas pruebas es difícil de lograr. Y debido a que este método representa un enfoque completamente nuevo para el plegamiento de proteínas, puede complementar los métodos existentes, tanto computacionales comofísica, para determinar una gama de estructuras mucho más amplia que la que era posible anteriormente.
Sorprendentemente, el nuevo modelo realiza sus predicciones en alrededor de seis a siete órdenes de magnitud más rápido que los métodos computacionales existentes. Entrenar el modelo puede llevar meses, pero una vez entrenado puede hacer predicciones en milisegundos en comparación con las horas a días que toma usar otrosenfoques. Esta mejora dramática se debe en parte a la única función matemática en la que se basa, que requiere solo unos pocos miles de líneas de código de computadora para ejecutar en lugar de millones.
La rápida velocidad de las predicciones de este modelo permite nuevas aplicaciones que antes eran lentas o difíciles de lograr, dijo AlQuraishi, como predecir cómo las proteínas cambian su forma a medida que interactúan con otras moléculas.
"Los enfoques de aprendizaje profundo, no solo el mío, continuarán creciendo en su poder predictivo y en popularidad, porque representan un paradigma mínimo y simple que puede integrar nuevas ideas más fácilmente que los modelos complejos actuales", agregó.
AlQuraishi dijo que el nuevo modelo no está listo para su uso inmediato, por ejemplo, en el descubrimiento o diseño de fármacos, porque su precisión actualmente se encuentra en algún lugar alrededor de 6 angstroms, todavía a cierta distancia de los 1 a 2 angstroms necesarios para resolver el atómico completoestructura de una proteína. Pero hay muchas oportunidades para optimizar el enfoque, dijo, incluidas las reglas de integración adicionales extraídas de la química y la física.
"Predecir de manera precisa y eficiente el plegamiento de proteínas ha sido un santo grial para el campo, y espero y espero que este enfoque, combinado con todos los otros métodos notables que se hayan desarrollado, pueda hacerlo en el futuro cercanofuturo ", dijo AlQuraishi." Podríamos resolver esto pronto, y creo que nadie lo hubiera dicho hace cinco años. Es muy emocionante y también algo impactante al mismo tiempo ".
Para ayudar a otros a participar en el desarrollo de métodos, AlQuraishi ha hecho que su software y resultados estén disponibles gratuitamente a través de la plataforma de intercambio de software GitHub.
"Una característica notable del trabajo de AlQuraishi es que un solo investigador, integrado en el rico ecosistema de investigación de la Escuela de Medicina de Harvard y la comunidad biomédica de Boston, puede competir con empresas como Google en una de las áreas más importantes de la informática"dijo Peter Sorger, HMS Otto Krayer Profesor de Farmacología de Sistemas en el Instituto Blavatnik en HMS, director del Laboratorio de Farmacología de Sistemas en HMS y mentor académico de AlQuraishi.
"No es prudente subestimar el impacto disruptivo de personas brillantes como AlQuraishi que trabajan con software de código abierto en el dominio público", dijo Sorger.
El estudio fue apoyado por el Instituto Nacional de Ciencias Médicas Generales y el Instituto Nacional del Cáncer de los Institutos Nacionales de Salud P50GM107618 y U54CA225088.
Fuente de la historia :
Materiales proporcionado por Escuela de Medicina de Harvard . Original escrito por KEVIN JIANG. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :