Si come pescado en los EE. UU., Es probable que alguna vez haya nadado en otro país. Esto se debe a que EE. UU. Importa más del 80 por ciento de sus mariscos, según las estimaciones de las Naciones Unidas. Una nueva investigación genética podría ayudar a que el pescado de cultivo sea más sabroso yllevar las especies de peces silvestres de Estados Unidos a las mesas de la cena. Los científicos han utilizado grandes datos y supercomputadoras para capturar un genoma de pescado, un primer paso en su cosecha sostenible de acuicultura.
Los investigadores reunieron y anotaron por primera vez el genoma, el material genético total, de las especies de peces Seriola dorsalis . También conocido como California Yellowtail, es un pescado de alto valor para la industria del sashimi o mariscos crudos. El equipo científico se formó a partir del Southwest Fisheries Science Center del Servicio Nacional de Pesca Marina de los EE. UU., La Universidad Estatal de Iowa y el Instituto PolitécnicoNacional en México. Publicaron sus resultados en enero de 2018 en la revista Genómica BMC .
"Los principales hallazgos en esta publicación fueron caracterizar el genoma de Seriola dorsalis y su anotación, junto con una mejor comprensión de la determinación sexual de esta especie de peces", dijo el coautor del estudio Andrew Severin, científico y gerente de instalaciones en elCentro de Informática del Genoma de la Universidad Estatal de Iowa.
"Ahora podemos decir con confianza", agregó Severin, "que Seriola dorsalis tiene un sistema de determinación de sexo ZW, y que conocemos el cromosoma en el que está contenido y la región que realmente determina el sexo de este pez". ZW se refiere alos cromosomas sexuales y depende de si el macho o la hembra son heterocigotos XX, XY o ZZ, ZW, respectivamente. Otra forma de pensar en esto es que en la determinación del sexo ZW, las moléculas de ADN del óvulo de los peces determinan el sexo deldescendencia. Por el contrario, en el sistema de determinación del sexo XY, como se encuentra en los humanos, el esperma determina el sexo en la descendencia.
Es difícil notar la diferencia entre un pez de cola amarilla macho y hembra porque no tienen rasgos fenotípicos obvios o físicamente distintivos externos. "Ser capaz de determinar el sexo en los peces es realmente importante porque podemos desarrollar un marcador que puedase usa para determinar el sexo en peces jóvenes que no se puede determinar fenotípicamente ", explicó Severin." Esto se puede usar para mejorar las prácticas de acuicultura. "La identificación del sexo permite a los acuicultores almacenar tanques con la proporción correcta de machos a hembras y obtener un mejor rendimiento.
Ensamblar y anotar un genoma es como construir un enorme rompecabezas tridimensional. El genoma Seriola dorsalis tiene 685 millones de piezas, sus pares de bases de ADN, para armar ". Las anotaciones genéticas son ubicaciones en el genoma que codifican las transcripcionesque se traducen en proteínas ", explicó Severin." Las proteínas son la maquinaria molecular que opera toda la bioquímica en el cuerpo desde la digestión de los alimentos, hasta la activación de su sistema inmunológico y el crecimiento de las uñas. Incluso eso es una simplificación excesiva.de toda la regulación "
Severin y su equipo ensamblaron el genoma de pares de 685 megabase MB de miles de fragmentos más pequeños que cada uno proporcionó información para formar la imagen completa ". Tuvimos que secuenciarlos con bastante profundidad para construir el 685 completoGenoma MB ", dijo el coautor del estudio Arun Seetharam." Esto equivalía a una gran cantidad de datos ", agregó Seetharam, quien es un científico asociado en la Instalación de Informática Genómica de la Universidad Estatal de Iowa.
Los datos de secuencia de ADN en bruto corrieron 500 gigabytes para el genoma Seriola dorsalis, provenientes de muestras de tejido de un pez juvenil recolectado en el Hubbs SeaWorld Research Institute en San Diego. "Para juntarlos", dijo Seetharam, "necesitábamosuna computadora con mucha más RAM para poner todo en la memoria de la computadora y luego juntarlo para construir el genoma de 685 MB. Necesitábamos máquinas realmente potentes ".
Fue entonces cuando Seetharam se dio cuenta de que los recursos computacionales en la Universidad Estatal de Iowa en ese momento no eran suficientes para hacer el trabajo de manera oportuna, y recurrió a XSEDE, el EXtreme Science and Engineering Discovery Environment financiado por la National Science Foundation.XSEDE es un sistema virtual único que los científicos pueden usar para compartir interactivamente recursos informáticos, datos y experiencia.
"Cuando comenzamos a usar los recursos de XSEDE", explicó Seetharam, "había una opción para seleccionar ECSS, los Servicios de Soporte Colaborativo Extendido. Pensamos que sería de gran ayuda si hubiera alguien del lado de XSEDE paraayúdenos. Optamos por ECSS. Nuestras interacciones con Phillip Blood del Centro de Supercomputación de Pittsburgh fueron extremadamente importantes para ponernos en marcha rápidamente con la asamblea con los recursos de XSEDE ", dijo Seetharam.
El trabajo de ensamblaje del genoma se calculó en el Centro de Supercomputación de Pittsburgh PSC en el sistema Blacklight, que en un momento era el sistema informático coherente de memoria compartida más grande del mundo. Blacklight ha sido reemplazado por el sistema de Puentes centrado en datos en PSC, que incluye nodos similares de memoria grande de hasta 12 terabytes, mil veces más que una computadora personal típica. "Terminamos usando Blacklight en ese momento porque tenía mucha RAM", recordó Andrew Severin. Eso es porquenecesitaba poner todos los datos en bruto en la memoria de acceso aleatorio RAM de la computadora para poder utilizar los algoritmos del software de ensamblaje del genoma Super-Read Celera Assembler de Maryland ". Debe poder comparar cada pieza de datos de secuencia concualquier otra pieza para descubrir qué piezas deben unirse, como un rompecabezas gigante ", explicó Severin.
"También usamos Stampede", continuó Severin, "la primera Stampede, que es otro recurso computacional de XSEDE que tiene muchos nodos de cómputo. Cada nodo de cómputo se puede considerar como una computadora separada". El sistema Stampede1 en elTexas Advanced Computing Center tenía más de 6.400 nodos de servidor Dell PowerEdge, que luego agregaron 508 nodos Intel Knights Landing KNL en preparación para su sucesor actual, Stampede2 con 4.200 nodos KNL.
"Usamos Stampede para hacer la anotación de estos modelos de genes que identificamos en el genoma para tratar de averiguar cuáles son sus funciones", dijo Severin. "Eso nos obligó a realizar un análisis llamado Herramienta de búsqueda de alineación local básica BLAST, y nos obligó a usar muchas CPU, más de un año de tiempo de cálculo que terminamos haciendo en un par de semanas de tiempo real debido a los muchos nodos que estaban en Stampede ".
"Este experimento comenzó con una colaboración con el Southwest Fisheries Science Center de NOAA", explicó Severin. Dijo que el proyecto originalmente se propuso completar un gran proyecto de RNA-seq, y resultó que había fondos suficientes para hacerlo también"El resultado fue una colaboración a largo plazo con el Southwest Fisheries Science Center", dijo Severin. "Con los avances recientes en la secuenciación de ADN de alto rendimiento, ahora podemos generar terabytes de datos de secuenciación. Esto tiendepara ser cortos, el par base de 100-150 dice que tenemos que armar como un rompecabezas muy grande y descubrir dónde van todas las piezas ", agregó.
El equipo de Severin y Seetharam ha completado la imagen básica del genoma de Seriola dorsalis, pero dicen que todavía hay espacio para el refinamiento. "El genoma que reunimos no es perfecto, en el sentido de que todavía está en muchas piezas."No podemos reconstruir completamente cromosomas completos", explicó Seetharam. "Tenemos muchos andamios que representan cada uno de esos cromosomas, y nos falta mucha información necesaria para llenar los vacíos". Los avances de la tecnología de secuenciación pueden abordar estos vacíos., Dijo Seetharam, a través del avance de la tecnología de secuenciación que puede producir lecturas de ADN más largas.
"También planteamos la hipótesis en el documento", dijo Severin, "de esta eliminación que se encuentra corriente arriba de un gen que convierte la estrona en estrógeno, eso es parte de la vía de determinación del sexo. Eso puede ser responsable de la determinación del sexo. Pero como es solouna hipótesis basada en métodos computacionales, esto necesita más investigación en el laboratorio. Ciertamente podríamos seguir con un experimento similar a CRISPR para probar esta mutación ".
Severin también mencionó la recopilación de datos para un experimento de estudio de asociación de genoma más amplio para encontrar ubicaciones y variantes en el genoma asociado con deformidades de la mandíbula. "Actualmente estamos recolectando esas muestras", dijo Severin, "pero podremosuse ese genoma para proporcionar marcadores a los granjeros para seleccionar contra los peces que tienen estas propensiones a la deformidad de la mandíbula ".
Tanto Severin como Seetharam son resueltos en su convicción de que los grandes datos pueden resolver problemas en la producción sostenible de alimentos. "Creo que el público verá más de este tipo de utilización de grandes datos y verá por qué la ciencia es tan importante para nuestro futuro", Dijo Severin. La anotación genética, él siente, es solo la punta del iceberg." Vamos a comenzar a comparar los ensamblajes genómicos entre sí y comenzar a entender qué es un genoma y cómo funciona; y cómo para un particularEl genoma hace la presencia o ausencia de genes o su contexto con respecto a su estructura tridimensional, ¿cómo hace que una especie ", dijo Severin.
"Big data sigue creciendo y estamos encontrando respuestas a preguntas realmente interesantes", concluyó Severin. Seetharam agregó que "Habrá más estudios con big data que tendrán un impacto significativo para el público en general. Este nivel de investigaciónfomentará estudios aún más grandes en el futuro "
Fuente de la historia :
Materiales proporcionado por Universidad de Texas en Austin, Centro de Computación Avanzada de Texas . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :