Solo han pasado tres años desde que los investigadores de la Universidad de California en Santa Cruz demostraron que el ensamblaje del genoma humano de lectura larga utilizando la misma tecnología de nanoporos desarrollada en el campus podía hacerse. En ese momento, fue un esfuerzo monumental, que requirió 150,000 horas de tiempo de computacióny semanas de trabajo.
Aproximadamente un año después, usando el secuenciador de nanoporos PromethION, un esfuerzo similar resultó significativamente más rápido, más barato y más fácil, registrando aproximadamente una semana. "Secuenciamos once genomas humanos en nueve días, lo que no tenía precedentes en ese momento".dijo el científico de investigación de UC Santa Cruz Miten Jain.
Ahora, los investigadores de los investigadores de la UC Santa Cruz han colaborado en un algoritmo diseñado para ensamblar con precisión y precisión genomas humanos completos e individuales a partir de datos de secuencia de lectura larga en aproximadamente seis horas y por aproximadamente $ 70.
Los investigadores dijeron que esperan que su ensamblador aumente el ritmo de la investigación genómica y las oportunidades abiertas. Esto incluye permitir que la investigación de pangenomas represente la verdadera escala de la diversidad humana, una búsqueda decididamente más práctica.
Hasta hace poco, la investigación genómica se había basado exclusivamente en el genoma de referencia de un solo individuo seleccionado para representar una especie completa. Para reflejar la verdadera diversidad humana, UC Santa Cruz se ha embarcado en una iniciativa pangenómica para secuenciar 350 nuevos genomas humanos individuales.
Como parte de este trabajo, los investigadores del Instituto de Genómica de Santa Cruz de la UC desarrollaron un protocolo de secuenciación de lectura larga de nanoporos que produce una cobertura de ~ 60X ~ 200 gigabases de un genoma humano en longitudes sin precedentes lectura mediana N50 de 42 kbtres celdas de flujo PromethION. Además, ~ 7X de cobertura del genoma está en lecturas que exceden los 100 kb de longitud. Este método es altamente escalable, tanto en términos de costo como de la cantidad de genomas que pueden procesarse simultáneamente. Ahora estamos mejorando este métodopara mayores longitudes de lectura y rendimiento, lo que facilitará aún más nuestro objetivo de lograr genomas completos, escalonados y de calidad de referencia.
Este gran flujo de datos requirió el desarrollo de herramientas de software altamente eficientes, comenzando con un ensamblador. "Nuestro nuevo ensamblador fue diseñado para ser barato y rápido, con el objetivo de estar en la nube", dijo Benedict Paten de UC Santa Cruz."Nos da el poder de escalar la secuenciación de nanoporos. Ahora, estoy seguro de que ensamblaremos fácilmente cientos de genomas de novo en los próximos años".
Un extenso equipo de investigadores y desarrolladores que fue dirigido por Paolo Carnevali de la Iniciativa Chan Zuckerberg CZI - e incluyó a muchos en el Laboratorio de Genómica Computacional en el Instituto de Genómica de Santa Cruz de la UC - contribuyó a esta solución.
"Cuando vi el artículo de Jain 2018, me impresionó y me di cuenta de que podía contribuir al lado computacional de esta línea de investigación", dijo Paolo Carnevali. "Recientemente conocí a Benedict Paten y decidí que quería trabajar con élequipo de UCSC.
El equipo pronto estaba colaborando. En unos meses, habían desarrollado y probado la salsa algorítmica especial, que llamaron Shasta.
Shasta es un algoritmo basado en la computación en memoria que ahora puede ayudar a completar un ensamblaje del genoma humano de novo nuevo, nunca antes procesado en menos de seis horas, dicen los autores, por un costo promedio de $ 70 por muestra.
En su artículo, "La secuenciación de nanoporos y el kit de herramientas Shasta permiten el ensamblaje eficiente de novo de once genomas humanos", publicado hoy en Biotecnología de la naturaleza , describen cómo Shasta no solo produce una precisión comparable o mejor como sus contemporáneos, sino que también tiene el menor número de desensamblajes.
No satisfecho con este hito, el equipo vio la oportunidad de mejorar el borrador del ensamblaje a un costo asequible y un tiempo de respuesta ". Para mejorar la calidad de nivel básico de los ensamblajes, utilizamos un pulidor de secuencia basado en una neuronal profundala red como el paso final del ensamblaje ", explicó el autor principal Kishwar Shafin." Esto llevó el costo total del proceso de ensamblaje a menos de $ 200 y 37 horas, lo que redujo aún más la sobrecarga computacional de generar ensambles de lectura larga dramáticamentefactor de cinco "
Los investigadores evaluaron la precisión y luego validaron la precisión, y notaron que habían logrado un ensamblaje preciso del 99.9% utilizando solo datos de nanoporos, el primero para el genoma humano. Además, generaron andamios a nivel de cromosomas para estos ensamblajes pulidos usando secuenciación HiCdatos.
Karen Miga, científica investigadora y coautora, que dirige el Centro de Producción de Datos en UCSC para el Proyecto Pangenome Humano, señala la importancia de los logros del equipo en la precisión mejorada. "Nuestro objetivo no es solo expandir la diversidad de"Genoma de referencia, pero también para resolver los cientos de lagunas que persisten en todo el genoma", explica Miga. "Ahora que podemos incluir rutinariamente estas regiones desconocidas, tenemos un ensamblaje verdaderamente completo de un genoma humano, y podemos comenzar a explorar variaciones deconsecuencia desconocida "
Fuente de la historia :
Materiales proporcionado por Universidad de California - Santa Cruz . Original escrito por Alexis Morgan. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :