Científicos del Instituto de Tecnología de Massachusetts MIT y el Institut Pasteur de Francia han desarrollado una técnica para reconstruir genomas completos, incluido el genoma humano, en una computadora personal. Esta técnica es unas cien veces más rápida que el estado actual de-the-art se acerca y utiliza una quinta parte de los recursos. El estudio, publicado el 14 de septiembre en la revista sistemas celulares , permite una representación más compacta de los datos del genoma inspirada en la forma en que las palabras, en lugar de las letras, ofrecen bloques de construcción condensados para los modelos de lenguaje.
"Podemos ensamblar rápidamente genomas y metagenomas completos, incluidos los genomas microbianos, en una computadora portátil modesta", dice Bonnie Berger @lab_berger, profesora de matemáticas de Simons en el laboratorio de informática e inteligencia artificial del MIT y autora del"Esta capacidad es esencial para evaluar los cambios en el microbioma intestinal relacionados con enfermedades e infecciones bacterianas, como la sepsis, para que podamos tratarlas más rápidamente y salvar vidas".
Los proyectos de ensamblaje del genoma han recorrido un largo camino desde el Proyecto del Genoma Humano, que terminó de ensamblar el primer genoma humano completo en 2003 por un costo de aproximadamente $ 2.7 mil millones y más de una década de colaboración internacional. Pero mientras que los proyectos de ensamblaje del genoma humano ya notardan años, todavía requieren varios días y una potencia informática masiva.Las tecnologías de secuenciación de tercera generación ofrecen terabytes de secuencias genómicas de alta calidad con decenas de miles de pares de bases, sin embargo, el ensamblaje del genoma utilizando una cantidad tan inmensa de datos ha demostrado ser un desafío.
Para abordar el ensamblaje del genoma de manera más eficiente que las técnicas actuales, que implican hacer comparaciones por pares entre todos los pares posibles de lecturas, Berger y sus colegas recurrieron a modelos de lenguaje. A partir del concepto de un gráfico de De Bruijn, una estructura de datos simple y eficiente utilizada paraensamblaje del genoma, los investigadores desarrollaron un gráfico de Bruin de espacio minimizador mdBG, que utiliza secuencias cortas de nucleótidos llamadas minimizadores en lugar de nucleótidos individuales.
"Nuestras gráficas minimizer-space de Bruijn almacenan solo una pequeña fracción de los nucleótidos totales, al tiempo que preservan la estructura general del genoma, lo que les permite ser órdenes de magnitud más eficientes que las gráficas clásicas de Bruijn", dice Berger.
Los investigadores aplicaron su método para ensamblar datos de alta fidelidad reales que tienen una precisión de lectura de una sola molécula casi perfecta para Drosophila melanogaster moscas de la fruta, así como datos del genoma humano proporcionados por Pacific Biosciences PacBio. Cuando evaluaron los genomas resultantes, Berger y sus colegas descubrieron que su software basado en mdBG requería aproximadamente 33 veces menos tiempo y 8 veces menos memoria de acceso aleatorioRAM que otros ensambladores de genoma. Su software realizó el ensamblaje del genoma para los datos humanos de alta fidelidad 81 veces más rápido con 18 veces menos uso de memoria que el ensamblador Peregrine y 338 veces más rápido con 19 veces menos uso de memoria que el ensamblador de hifiasma.
A continuación, Berger y sus colegas utilizaron su método para construir un índice para una colección de 661.406 genomas bacterianos, la colección más grande de su tipo hasta la fecha. Descubrieron que la nueva técnica podía buscar genes de resistencia a los antimicrobianos en toda la colección en 13 minutos.- un proceso que tomó 7 horas usando alineación de secuencia estándar.
"Sabíamos que nuestra representación era eficiente, pero no sabíamos que escalaría tan bien en datos reales, después de optimizaciones adicionales del código", dice Berger.
"La idea general simplemente funciona y no requiere algunos de los pasos de preprocesamiento generalmente costosos, como la corrección de errores, realizada por la mayoría de los otros métodos de ensamblaje del genoma", dice Rayan Chikhi @RayanChikhi, investigador y líder de grupo en InstitutPasteur y autor del estudio.
"También podemos manejar datos de secuenciación con tasas de error de hasta 4%", agrega Berger. "Con secuenciadores de lectura larga con diferentes tasas de error que bajan rápidamente de precio, esta capacidad abre la puerta a la democratización del análisis de datos de secuenciación".
Berger señala que si bien el método actualmente funciona mejor al procesar lecturas PacBio HiFi, que caen muy por debajo de una tasa de error del 1%, pronto puede ser compatible con lecturas ultralargas de Oxford Nanopore, que actualmente tiene tasas de error del 5-12%pero pronto ofrecerá lecturas al 4%.
"Prevemos llegar a los científicos de campo para ayudarlos a desarrollar sitios de pruebas genómicas rápidas, yendo más allá de la PCR y las matrices de marcadores que podrían pasar por alto diferencias importantes entre los genomas", dice Berger.
Este trabajo fue apoyado por los Institutos Nacionales de Salud, ANR Inception, PRAIRIE y PANGAIA.
Fuente de la historia :
Materiales proporcionados por Prensa de celda . Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :