Los científicos saben desde hace mucho tiempo que los genes humanos entran en acción a través de instrucciones entregadas por el orden preciso de nuestro ADN, dirigido por los cuatro tipos diferentes de enlaces individuales, o "bases", codificados A, C, G y T.
Se sabe que casi el 25% de nuestros genes se transcriben mediante secuencias que se asemejan a TATAAA, que se llama la "caja TATA". Cómo se activan o promueven las otras tres cuartas partes, sigue siendo un misterio debido a la enormevarias posibilidades de secuencia de bases de ADN, lo que ha mantenido oculta la información de activación.
Ahora, con la ayuda de la inteligencia artificial, los investigadores de la Universidad de California en San Diego han identificado un código de activación de ADN que se usa al menos con la misma frecuencia que la caja TATA en humanos. Su descubrimiento, al que denominaron la región promotora central descendente DPR, podría eventualmente usarse para controlar la activación de genes en aplicaciones biotecnológicas y biomédicas. Los detalles se describen el 9 de septiembre en la revista Naturaleza .
"La identificación del DPR revela un paso clave en la activación de aproximadamente un cuarto a un tercio de nuestros genes", dijo James T. Kadonaga, profesor distinguido de la División de Ciencias Biológicas de UC San Diego y autor principal del artículo."El DPR ha sido un enigma; ha sido controvertido si existe o no en humanos. Afortunadamente, hemos podido resolver este rompecabezas utilizando el aprendizaje automático".
En 1996, Kadonaga y sus colegas que trabajaban con moscas de la fruta identificaron una nueva secuencia de activación de genes, denominada DPE que corresponde a una parte de la DPR, que permite que los genes se activen en ausencia de la caja TATA. Luego, en 1997, encontraron una única secuencia similar a DPE en humanos. Sin embargo, desde ese momento, descifrar los detalles y la prevalencia de la DPE humana ha sido difícil de alcanzar. Lo más sorprendente es que solo se han encontrado dos o tres secuencias activas similares a DPEen las decenas de miles de genes humanos. Para resolver este caso después de más de 20 años, Kadonaga trabajó con el autor principal y académico postdoctoral Long Vo ngoc, Cassidy Yunjing Huang, Jack Cassidy, un científico informático jubilado que ayudó al equipo a aprovechar lapoderosas herramientas de inteligencia artificial, y Claudia Medrano.
En lo que Kadonaga describe como "cálculo bastante serio" aplicado a un problema biológico, los investigadores crearon un conjunto de 500.000 versiones aleatorias de secuencias de ADN y evaluaron la actividad DPR de cada una. A partir de ahí, se utilizaron 200.000 versiones para crear unmodelo de aprendizaje automático que podría predecir con precisión la actividad DPR en el ADN humano.
Los resultados, como los describe Kadonaga, fueron "absurdamente buenos". Tan buenos, de hecho, que crearon un modelo de aprendizaje automático similar como una nueva forma de identificar secuencias de cajas TATA. Evaluaron los nuevos modelos con miles de casos de pruebaen el que ya se conocían los resultados de la caja TATA y DPR y se encontró que la capacidad de predicción era "increíble", según Kadonaga.
Estos resultados revelaron claramente la existencia del motivo DPR en genes humanos. Además, la frecuencia de aparición de DPR parece ser comparable a la de la caja TATA. Además, observaron una dualidad intrigante entre DPR y TATA.Los genes que se activan con secuencias de caja TATA carecen de secuencias DPR y viceversa.
Kadonaga dice que encontrar las seis bases en la secuencia de la caja TATA fue sencillo. Con 19 bases, descifrar el código para DPR fue mucho más desafiante.
"No se pudo encontrar el DPR porque no tiene un patrón de secuencia claramente aparente", dijo Kadonaga. "Hay información oculta que está encriptada en la secuencia de ADN que lo convierte en un elemento DPR activo. El modelo de aprendizaje automático puede descifrar ese código, pero los humanos no podemos ".
En el futuro, el uso adicional de la inteligencia artificial para analizar los patrones de secuencia de ADN debería aumentar la capacidad de los investigadores para comprender y controlar la activación de genes en las células humanas. Este conocimiento probablemente será útil en biotecnología y ciencias biomédicas, dijo Kadonaga..
"De la misma manera que el aprendizaje automático nos permitió identificar el DPR, es probable que los enfoques de inteligencia artificial relacionados sean útiles para estudiar otros motivos importantes de la secuencia del ADN", dijo Kadonaga. "Muchas cosas que no tienen explicación podrían ahoraser explicable. "
Este estudio fue apoyado por el Instituto Nacional de Ciencias Médicas Generales NIGMS de los Institutos Nacionales de Salud.
Fuente de la historia :
Materiales proporcionado por Universidad de California - San Diego . Original escrito por Mario Aguilera. Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :