El diseño de nuevas moléculas para productos farmacéuticos es principalmente un proceso manual que requiere mucho tiempo y es propenso a errores. Pero los investigadores del MIT ahora han dado un paso hacia la automatización completa del proceso de diseño, lo que podría acelerar drásticamente las cosas y producir mejores resultados.
El descubrimiento de fármacos se basa en la optimización del plomo. En este proceso, los químicos seleccionan una molécula objetivo "líder" con potencial conocido para combatir una enfermedad específica, luego modifican sus propiedades químicas para una mayor potencia y otros factores.
A menudo, los químicos utilizan el conocimiento experto y realizan ajustes manuales de moléculas, sumando y restando grupos funcionales átomos y enlaces responsables de reacciones químicas específicas uno por uno. Incluso si usan sistemas que predicen propiedades químicas óptimas, los químicos todavía necesitanpara realizar cada paso de modificación por sí mismos. Esto puede llevar horas para cada iteración y es posible que aún no produzca un candidato a fármaco válido.
Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT CSAIL y del Departamento de Ingeniería Eléctrica y Ciencias de la Computación EECS han desarrollado un modelo que selecciona mejor las moléculas de plomo candidatas en función de las propiedades deseadas. También modifica la estructura molecular necesaria para lograr unamayor potencia, mientras se asegura que la molécula siga siendo químicamente válida.
El modelo básicamente toma como entrada datos de estructura molecular y crea directamente gráficos moleculares, representaciones detalladas de una estructura molecular, con nodos que representan átomos y bordes que representan enlaces. Descompone esos gráficos en grupos más pequeños de grupos funcionales válidos que utiliza como"bloques de construcción" que lo ayudan a reconstruir con mayor precisión y modificar mejor las moléculas.
"La motivación detrás de esto fue reemplazar el proceso ineficiente de modificación humana de diseñar moléculas con iteración automatizada y asegurar la validez de las moléculas que generamos", dice Wengong Jin, estudiante de doctorado en CSAIL y autor principal de un artículo que describe el modeloque se presentará en la Conferencia Internacional sobre Aprendizaje Automático de 2018 en julio.
Junto a Jin en el artículo están Regina Barzilay, profesora de Delta Electronics en CSAIL y EECS y Tommi S. Jaakkola, profesor Thomas Siebel de Ingeniería Eléctrica y Ciencias de la Computación en CSAIL, EECS, y en el Instituto de Datos, Sistemas ySociedad.
La investigación se realizó como parte del Consorcio de Aprendizaje Automático para el Descubrimiento y Síntesis de Productos Farmacéuticos entre el MIT y ocho compañías farmacéuticas, anunciado en mayo. El consorcio identificó la optimización de clientes potenciales como un desafío clave en el descubrimiento de fármacos.
"Hoy en día, es realmente un oficio, que requiere muchos químicos capacitados para tener éxito, y eso es lo que queremos mejorar", dice Barzilay. "El siguiente paso es llevar esta tecnología de la academia para usarla en casos reales de diseño farmacéutico.y demostrar que puede ayudar a los químicos humanos a realizar su trabajo, lo que puede ser un desafío ".
"Automatizar el proceso también presenta nuevos desafíos de aprendizaje automático", dice Jaakkola. "Aprender a relacionar, modificar y generar gráficos moleculares impulsa nuevas ideas y métodos técnicos".
Generación de gráficos moleculares
Los sistemas que intentan automatizar el diseño de moléculas han surgido en los últimos años, pero su problema es la validez. Esos sistemas, dice Jin, a menudo generan moléculas que no son válidas según las reglas químicas y no producen moléculas con propiedades óptimas. Esto esencialmentehace inviable la automatización completa del diseño de moléculas.
Estos sistemas funcionan con notaciones lineales de moléculas, llamadas "sistemas simplificados de entrada de línea de entrada molecular" o SMILES, donde largas cadenas de letras, números y símbolos representan átomos o enlaces individuales que pueden ser interpretados por software de computadora.el sistema modifica una molécula de plomo, expande su representación de cadena símbolo por símbolo - átomo por átomo y enlace por enlace - hasta que genera una cadena SMILES final con mayor potencia de una propiedad deseada. Al final, el sistema puede produciruna cadena final de SMILES que parece válida bajo la gramática de SMILES, pero en realidad no es válida
Los investigadores resuelven este problema construyendo un modelo que se ejecuta directamente en gráficos moleculares, en lugar de cadenas SMILES, que se pueden modificar de manera más eficiente y precisa.
Alimentar el modelo es un autocodificador variacional personalizado, una red neuronal que "codifica" una molécula de entrada en un vector, que es básicamente un espacio de almacenamiento para los datos estructurales de la molécula, y luego "decodifica" ese vector en un gráfico que coincidela molécula de entrada.
En la fase de codificación, el modelo divide cada gráfico molecular en grupos o "subgráficos", cada uno de los cuales representa un bloque de construcción específico. Estos grupos se construyen automáticamente mediante un concepto común de aprendizaje automático, llamado descomposición de árbol, donde un complejoEl gráfico está mapeado en una estructura de árbol de grupos, "lo que proporciona un andamio del gráfico original", dice Jin.
Tanto la estructura del árbol de andamio como la estructura del gráfico molecular están codificadas en sus propios vectores, donde las moléculas se agrupan por similitud. Esto facilita la búsqueda y modificación de moléculas.
En la fase de decodificación, el modelo reconstruye el gráfico molecular de una manera "gruesa a fina", aumentando gradualmente la resolución de una imagen de baja resolución para crear una versión más refinada. Primero genera el andamio estructurado en árbol yluego ensambla los grupos asociados nodos en el árbol en un gráfico molecular coherente. Esto asegura que el gráfico molecular reconstruido sea una réplica exacta de la estructura original.
Para la optimización del plomo, el modelo puede modificar las moléculas principales según una propiedad deseada. Lo hace con la ayuda de un algoritmo de predicción que puntúa cada molécula con un valor de potencia de esa propiedad. En el artículo, por ejemplo, los investigadores buscaronmoléculas con una combinación de dos propiedades: alta solubilidad y accesibilidad sintética.
Dada una propiedad deseada, el modelo optimiza una molécula líder usando el algoritmo de predicción para modificar su vector - y, por lo tanto, su estructura - editando los grupos funcionales de la molécula para lograr una puntuación de potencia más alta. Repite este paso para múltiplesiteraciones, hasta encontrar el puntaje de potencia predicho más alto. Luego, el modelo finalmente decodifica una nueva molécula del vector actualizado, con estructura modificada, compilando todos los grupos correspondientes.
Válido y más potente
Los investigadores entrenaron su modelo en 250,000 gráficos moleculares de la base de datos ZINC, una colección de estructuras moleculares 3-D disponibles para uso público. Probaron el modelo en tareas para generar moléculas válidas, encontrar las mejores moléculas líderes y diseñar moléculas novedosas.con aumento de potencias.
En la primera prueba, el modelo de los investigadores generó un 100 por ciento de moléculas químicamente válidas a partir de una distribución de muestra, en comparación con los modelos SMILES que generaron un 43 por ciento de moléculas válidas de la misma distribución.
La segunda prueba involucró dos tareas. Primero, el modelo buscó en toda la colección de moléculas para encontrar la mejor molécula de plomo para las propiedades deseadas: solubilidad y accesibilidad sintética. En esa tarea, el modelo encontró una molécula de plomo con un 30 por cientomayor potencia que los sistemas tradicionales. La segunda tarea consistió en modificar 800 moléculas para una mayor potencia, pero son estructuralmente similares a la molécula de plomo. Al hacerlo, el modelo creó nuevas moléculas, muy parecidas a la estructura del plomo, con un promedio de más del 80 por ciento de mejora enpotencia.
A continuación, los investigadores tienen como objetivo probar el modelo en más propiedades, más allá de la solubilidad, que son más relevantes desde el punto de vista terapéutico. Sin embargo, eso requiere más datos. "Las compañías farmacéuticas están más interesadas en propiedades que luchan contra objetivos biológicos, pero tienen menos datossobre esos. Un desafío es desarrollar un modelo que pueda funcionar con una cantidad limitada de datos de entrenamiento ", dice Jin.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: el contenido se puede editar por estilo y longitud.
cite esta página :