Un artículo publicado hoy en la revista Open-Access GigaScience proporciona datos que triplican efectivamente el número de especies de plantas con los datos del genoma disponibles. Esta enorme cantidad de trabajo viene respaldada por los crecientes esfuerzos de la comunidad científica para secuenciar más genomas de plantas para ayudar a comprender su compleja evolución y proporcionar información prácticapara mejorar el rendimiento agrícola. Hasta la fecha, se han secuenciado alrededor de 350 genomas de plantas terrestres. El deseo de más secuencias de genomas de plantas se ha destacado recientemente con el anuncio del proyecto 10KP, que tiene como objetivo secuenciar 10,000 genomas de plantas para resolver la evolución de todoslas ramas principales del árbol de la vida de la planta. El trabajo aquí proporciona imágenes, datos de secuencia cruda, genomas de cloroplastos ensamblados y ensamblajes preliminares del genoma nuclear, todos disponibles gratuitamente. Efectivamente, este trabajo es una representación digital de todo un jardín botánico.
Investigadores del Banco Nacional de Gene de China, BGI, y la Oficina Forestal de Ruili, China, han muestreado y secuenciado 761 muestras, que representan 689 especies de plantas vasculares de 137 familias y 49 órdenes. Las muestras de plantas son de alrededor de 500-Jardín Botánico de una hectárea en Ruili, una parte subtropical de China que limita con Myanmar. Al estar en una parte biológicamente rica de China, el jardín se compromete a proteger las plantas en peligro de extinción y las endémicas chinas, incluida la preservación y el archivo de estos recursos de germoplasma para ayudarlos con su larga vida.a largo plazo. Este proyecto es el primer intento científico y sistemático del mundo de digitalizar todo un jardín botánico basado en información genómica y de muestras de cupones.
Sobre el potencial científico de este recurso, el CEO y autor de BGI en el artículo Xun Xu destaca que: "La comprensión actual de la evolución de las plantas y su diversidad en un contexto filogenómico es limitada debido a la falta de información a escala genómica a través de la filogenéticaespecies diversas. Este innovador proyecto integra una nueva forma de pensar sobre la digitalización de todas las especies de plantas para aumentar la investigación evolutiva y ecológica en los jardines botánicos ".
En total, los investigadores produjeron 54 terabytes de datos de secuenciación, con una profundidad de secuencia promedio de 60X por especie. Además del desafío básico de llevar a cabo la secuenciación de ADN en este número de especies, otra tarea importante fue ampliar la identificación de especies, digitalizando imágenes de los especímenes y construyendo un nuevo herbario para su almacenamiento en un nuevo herbario del Banco Nacional de Gene de China CNGB en Shenzhen. Hasta ahora, de los 761 especímenes, secuencia y datos de cloroplastos ha permitido la identificación de 257 plantas en la especienivel y 504 a nivel familiar. El aprendizaje profundo también se ha aplicado con éxito a 181 especies para permitir su identificación a nivel de especie.
El autor Ting Yang dice que esta fue "la mayor cantidad de datos que he procesado. Durante los análisis de datos, creo que los mayores desafíos fueron la verificación de secuencia y el examen de resultados". Esto requirió que los investigadores verificaran individualmente cada una de las secuencias de la muestra 761datos y comparar las secuencias del gen cloroplasto con especímenes de herbario para la identificación de especies.
Otra dificultad relacionada con simplemente llegar al punto de poder hacer el trabajo de secuenciación fue recolectar todas las muestras. El autor Jinpu Wei afirma: "Cooperamos con expertos de la Oficina Forestal de Ruili para recolectar materiales vegetales distribuidos en el área de Ruilipara el establecimiento de un jardín botánico digital. Después de 45 días de agotador esfuerzo, recolectamos 1,093 materiales vegetales. Aunque fue un desafío para nosotros transportar los materiales adecuadamente, finalmente logramos asegurar la alta calidad de estos materiales vegetales para futuras investigaciones"
El autor correspondiente, Xin Liu, agrega que el proyecto "fue un proyecto de referencia para afinar y estandarizar el muestreo, las metodologías y la acumulación de datos y las técnicas de análisis para proyectos de genoma a gran escala como el 10KP Proyecto de 10 mil plantas del genomaDe este proyecto, hemos adquirido una experiencia considerable y útil para la posterior recolección de muestras, secuenciación y ensamblaje. Al mismo tiempo, los datos producidos a partir de este estudio pueden ser utilizados efectivamente en proyectos de genoma posteriores ".
A pesar de haber construido solo una biblioteca de secuenciación para cada especie, los autores pudieron ensamblar genomas preliminares para 17 de ellos, lo que refleja la calidad y el potencial de reutilización del ADN. Los investigadores de la Universidad China de Hong Kong ya han ensamblado los genomas de forma independientede especies de particular interés para ellos. El potencial para que la comunidad de investigación en general estudie sus especies de interés, mejore otros genomas, desarrolle herramientas y métodos y brinde oportunidades de educación para las nuevas generaciones de científicos es enorme.
El autor principal, Huan Liu, agregó que "la caracterización genómica proporcionará una gran cantidad de datos básicos para el ensamblaje del genoma de la planta, lo que será un excelente comienzo para el proyecto 10KP. Al mismo tiempo, sienta una buena base para la investigación futura sobreel mecanismo de correlación de la ecología macroscópica y la biodiversidad al nivel molecular microscópico ".
Para promover un intercambio de datos más extenso que simplemente hacer que los datos de secuencia estén disponibles, los investigadores también ponen a disposición las imágenes digitalizadas y brindan acceso al herbario. El Herbario HCNGB sirve como una base de datos de plantas vivas que registra la posición de las especies cultivadas enEl Jardín Botánico Ruili y monitorea el estado de cada especie.
Todos los datos digitales generados aquí imágenes, datos de secuencia cruda, genomas de cloroplastos ensamblados y ensambles preliminares del genoma nuclear están disponibles a través de NCBI SRA, GigaScience base de datos GigaDB y CNSA de China National GeneBank. Además, para permitir la búsqueda de datos y la actualización de genomas y la identificación de especies, los metadatos se indexan y vinculan a través de Datacite y GigaDB. Y todos los recursos se liberan sin restricciones bajo una exención CC0.El autor Dr. Sunil Kumar Sahu destacó que este es el legado más importante del proyecto "Este conjunto de datos es de gran valor para los investigadores de plantas y, lo que es más importante, puede servir como referencia para futuros proyectos de secuenciación del genoma a escala planetaria, incluido el Proyecto BioGenoma de la Tierra EBP y 10 mil Proyecto de Genoma Vegetal 10KP "
Fuente de la historia :
Materiales proporcionados por GigaScience . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :