Desde la primera secuenciación del genoma humano hace más de 20 años, el estudio de los genomas humanos se ha basado casi exclusivamente en un genoma de referencia único con el que se comparan otros para identificar variaciones genéticas. Los científicos han reconocido desde hace mucho tiempo que un genoma de referencia único no puederepresentan la diversidad humana y que su uso introduce un sesgo generalizado en estos estudios. Ahora, finalmente tienen una alternativa práctica.
En un artículo publicado el 16 de diciembre en ciencia , investigadores del Instituto de Genómica de UC Santa Cruz han introducido una nueva herramienta, llamada Giraffe, que puede mapear de manera eficiente nuevas secuencias del genoma a un "pangenoma" que representa muchas secuencias del genoma humano diversas. Demuestran que este enfoque permite una caracterización más completa devariaciones genéticas y puede mejorar los análisis genómicos utilizados por una amplia gama de investigadores y médicos.
"Hemos estado trabajando para lograr esto durante años, y ahora, por primera vez, tenemos algo práctico que funciona rápido y funciona mejor que el genoma de referencia único", dijo el autor correspondiente Benedict Paten, profesor asociado de ingeniería biomolecular en UC SantaCruz y director asociado del Instituto de Genómica. "Es importante para el futuro de la biomedicina que la genómica ayude a todos por igual, por lo que necesitamos herramientas que tengan en cuenta la diversidad de las poblaciones humanas y no estén sesgadas".
Todos los seres humanos tienen los mismos genes, pero existen muchas variaciones en las secuencias exactas de los genes, es decir, la secuencia de subunidades de ADN abreviadas A, C, T, G que explican el código genético, así comoen las vastas extensiones del genoma fuera de los genes que codifican proteínas. Una diferencia en una sola letra de código se denomina variante de un solo nucleótido SNV, y las inserciones o deleciones de secuencias cortas se conocen colectivamente como "indeles".
Las variantes más complejas son variaciones estructurales que involucran reordenamientos de grandes segmentos de código 50 o más letras. Estas son especialmente difíciles de encontrar usando un solo genoma de referencia, sin embargo, pueden tener efectos significativos y se sabe que juegan un papel importante enalgunas enfermedades. La persona promedio tiene millones de SNV e indeles y decenas de miles de variantes estructurales más grandes, y colectivamente las variantes estructurales en realidad involucran más letras de código que los otros tipos de variantes.
"Los caballos de batalla de la genómica han sido los SNV y los indeles cortos, porque las variantes estructurales se han ocultado a la vista", dijo Paten. "La pangenómica está haciendo visibles las variantes estructurales para que podamos estudiarlas de la misma manera que lo hacemos con los SNV y los indeles cortos.son muchas variantes estructurales y pueden tener un gran impacto, por lo que esto es fundamental para el futuro de los estudios genéticos de las enfermedades ".
Se puede crear una referencia de pangenoma a partir de múltiples secuencias del genoma utilizando una estructura de gráfico matemático para representar las relaciones entre diferentes secuencias. En el nuevo artículo, los investigadores construyeron dos gráficos de referencia del genoma humano utilizando datos disponibles públicamente. Estos se utilizaron para evaluar el nuevoherramienta, Giraffe, que es un conjunto de algoritmos para mapear nuevos datos de secuencia a una referencia de pangenoma.
El primer autor Jouni Sirén, un científico investigador del Instituto de Genómica, fue pionero en muchas de las innovaciones algorítmicas clave de Giraffe. Giraffe puede mapear con precisión nuevos datos de secuencia a miles de genomas incrustados en una referencia de pangenoma tan rápido como las herramientas existentes mapean a un solo genoma de referenciaEl estudio también mostró que el uso de Giraffe reduce el sesgo de mapeo, la tendencia a mapear incorrectamente secuencias que difieren del genoma de referencia.
"No solo es mejor el análisis, también es tan rápido como los métodos actuales que utilizan un genoma de referencia lineal", dijo el coautor principal Jean Monlong, investigador postdoctoral en el Instituto de Genómica.
La secuenciación de lectura corta y económica es un pilar de la genómica moderna, ya que produce fragmentos de secuencia que deben asignarse a un genoma de referencia para que tengan sentido. El mapeo muestra dónde pertenece cada fragmento en uno de los 23 cromosomas humanos e identifica las variantes presentesen cada lugar del genoma de un individuo, un proceso conocido como genotipado.
Los investigadores encontraron que la variante de llamada de aprendizaje profundo de Google Health, DeepVariant, podría identificar con mayor precisión SNV e indels usando las alineaciones de Giraffe contra un pangenoma que usando alineaciones contra un solo genoma de referencia.
Monlong dijo que estaba muy entusiasmado con el uso de la pangenómica para estudiar variantes estructurales.
"Recientemente se han descubierto muchas variantes estructurales usando secuenciación de lectura larga", dijo. "Con los pangenomas, podemos buscar estas variantes estructurales en grandes conjuntos de datos de secuenciación de lectura corta. Es emocionante porque esto nos permitiráestudiar esas nuevas variantes estructurales en muchas personas y hacer preguntas sobre su impacto funcional, asociación con la enfermedad o papel en la evolución ".
Los investigadores utilizaron Giraffe para mapear lecturas de secuencia de un grupo diverso de 5,202 personas y determinar sus genotipos para 167,000 variaciones estructurales descubiertas recientemente. Esto les permitió estimar la frecuencia de diferentes versiones de estas variantes estructurales en la población humana en su conjunto ydentro de subpoblaciones individuales. Demostraron que la frecuencia de algunas variantes difiere considerablemente entre subpoblaciones y podría malinterpretarse si se analiza solo en, por ejemplo, poblaciones de ascendencia europea donde la frecuencia de una variante en particular es baja.
Un solo genoma de referencia debe elegir una versión de cualquier variación para representar, dejando las otras versiones sin representar. Al hacer prácticas referencias de pangenoma más ampliamente representativas, Giraffe puede hacer que la genómica sea más inclusiva.
Paten y otros en el Instituto de Genómica de UC Santa Cruz están involucrados en un esfuerzo importante financiado por el Instituto Nacional de Investigación del Genoma Humano para construir una referencia integral de pangenoma humano, que esperan publicar el próximo año como un recurso para la comunidad científica.
Además de Sirén y Monlong, el nuevo artículo tiene otros tres co-primeros autores que contribuyeron por igual: Xian Chang, Adam Novak y Jordan Eizenga, todos en el UC Santa Cruz Genomics Institute. Además de otros coautores en GenomicsInstituto, incluido el director David Haussler, los coautores también incluyen investigadores de Google Health, Broad Institute of MIT y Harvard, University of Michigan, University of Virginia, Harbor-UCLA Medical Center y University of Tennessee Health Science Center. Esta investigación fue financiada porlos Institutos Nacionales de Salud.
Fuente de la historia :
Materiales proporcionado por Universidad de California - Santa Cruz . Original escrito por Tim Stephens. Nota: el contenido puede editarse por estilo y longitud.
Referencia de la revista :
cite esta página :