Un equipo de científicos de Alemania, EE. UU. Y Rusia, incluido el Dr. Mark Borodovsky, Presidente del Departamento de Bioinformática en MIPT, ha propuesto un algoritmo para automatizar el proceso de búsqueda de genes, haciéndolo más eficiente.El desarrollo combina las ventajas de las herramientas más avanzadas para trabajar con datos genómicos. El nuevo método permitirá a los científicos analizar secuencias de ADN de forma más rápida y precisa e identificar el conjunto completo de genes en un genoma.
Aunque el artículo que describe el algoritmo solo apareció recientemente en la revista Bioinformática publicado por Oxford Journals, el método propuesto ya ha demostrado ser muy popular: el programa de software ha sido descargado por más de 1500 centros y laboratorios diferentes en todo el mundo. Las pruebas del algoritmo han demostrado que es considerablemente másprecisa que otros algoritmos similares.
El desarrollo pertenece al campo de la bioinformática, un campo multidisciplinario de la ciencia. La bioinformática combina matemáticas, estadísticas e informática para estudiar moléculas biológicas, como el ADN, el ARN y las estructuras de proteínas. El ADN, que es fundamentalmente una molécula de información, incluso a veces se representa en forma computarizada ver Fig. 1 para enfatizar su papel como molécula de memoria biológica. La bioinformática es un tema muy actual; cada nuevo genoma secuenciado plantea tantas preguntas adicionales que los científicos simplemente no tienen tiempopara responderlas a todas. El tiempo de los especialistas, así como los propios especialistas, vale la pena en oro. Es por eso que automatizar los procesos es clave para el éxito de cualquier proyecto de bioinformática, y estos algoritmos son esenciales para resolver una amplia variedad de problemas..
Una de las áreas más importantes de la bioinformática es anotar genomas, determinar qué moléculas de ADN en particular se utilizan para sintetizar ARN y proteínas ver Fig. 2. Estas partes, los genes, son de gran interés científico.que, en muchos estudios, los científicos no necesitan información sobre el ADN completo que mide alrededor de 2 metros de largo para una sola célula humana, sino sobre su parte más informativa: los genes. Las secciones genéticas se identifican buscando similitudes entre los fragmentos de secuencia y los conocidosgenes, o mediante la detección de patrones consistentes de la secuencia de nucleótidos. Este proceso se lleva a cabo utilizando algoritmos predictivos.
La localización de secciones genéticas no es una tarea fácil, especialmente en organismos eucariotas, que incluye casi todos los tipos de organismos ampliamente conocidos, excepto las bacterias. Esto se debe al hecho de que en estas células, la transferencia de información genética se complica por "brechas""en las regiones de codificación intrones y porque no hay indicadores definidos para determinar si una región es una región de codificación o no.
El algoritmo propuesto por los científicos determina qué regiones en el ADN son genes y cuáles no. Una cadena de Markov una secuencia de eventos aleatorios, cuyo futuro depende de eventos pasados estudiada en genes conocidos puede usarse para estoLos estados de la cadena en este caso son nucleótidos o palabras de nucleótidos k-mers. El algoritmo determina la división más probable de un genoma en regiones codificantes y no codificantes, clasificando los fragmentos genómicos de la mejor manera posible según su capacidad.para codificar proteínas o ARN. Los datos experimentales obtenidos del ARN brindan información útil adicional que puede usarse para entrenar el modelo utilizado en el algoritmo. Ciertos programas de predicción de genes pueden usar estos datos para mejorar la precisión de la búsqueda de genes. Sin embargo, estos algoritmos requieren unconjunto de entrenamiento que involucra entrenamiento específico del tipo de modelo. Para el programa de software AUGUSTUS, por ejemplo, que tiene un alto nivel de precisión, se necesita un conjunto de genes de entrenamiento.se puede obtener utilizando otro programa, GeneMark-ET, que es un algoritmo de autoaprendizaje.Estos dos algoritmos se combinaron en el algoritmo BRAKER1, que fue propuesto conjuntamente por los desarrolladores de AUGUSTUS y GeneMark-ET.
BRAKER1 ha demostrado un alto nivel de eficiencia. El programa desarrollado ya ha sido descargado por más de 1500 centros y laboratorios diferentes. Las pruebas del algoritmo han demostrado que es considerablemente más preciso que otros algoritmos similares. El tiempo de ejecución de ejemplo de BRAKER1en un solo procesador son 17.5 horas para el entrenamiento y la predicción de genes en un genoma con una longitud de 120 megabases. Este es un buen resultado, teniendo en cuenta el hecho de que este tiempo puede reducirse significativamente mediante el uso de procesadores paralelos, y estosignifica que en el futuro el algoritmo podrá funcionar incluso más rápido y, en general, de manera más eficiente.
Herramientas como estas ayudan a resolver una variedad de problemas diferentes. Anotar con precisión los genes en un genoma es extremadamente importante, un ejemplo de esto es el Global 1000 Genomes Project, cuyos resultados iniciales ya se han publicado. El proyecto fuelanzado en 2008 con la participación de investigadores de 75 laboratorios y compañías diferentes. Como resultado, se descubrieron secuencias de variantes genéticas raras y sustituciones genéticas, algunas de las cuales pueden causar enfermedades. Al diagnosticar enfermedades genéticas, es muy importante saber qué sustituciones en secciones genéticascausa el desarrollo de la enfermedad. Bajo el proyecto, se mapean genomas de diferentes personas, especialmente sus secciones de codificación, y se identifican sustituciones de nucleótidos raras. En el futuro, esto ayudará a los médicos a diagnosticar enfermedades complejas como enfermedades cardíacas, diabetes y cáncer.
BRAKER1 permite a los científicos trabajar eficazmente con los genomas de nuevos organismos, acelerando el proceso de anotar genomas y adquirir conocimientos esenciales sobre ciencias de la vida.
Fuente de la historia :
Materiales proporcionado por Instituto de Física y Tecnología de Moscú . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :