Los investigadores de la Universidad Estatal de Washington encontraron una cantidad preocupante de errores en los datos genómicos disponibles públicamente mientras realizaban un análisis a gran escala de secuencias de proteínas.
El trabajo, publicado en la revista Fronteras en microbiología , la revista de microbiología más citada del mundo, podría tener implicaciones importantes para la investigación genómica futura.
El equipo interdisciplinario de científicos inicialmente se propuso encontrar evidencia de un conjunto mínimo de proteínas que una Proteobacteria necesita para sobrevivir. Su conjunto de datos consistió en casi nueve millones de secuencias de proteínas agrupadas por similitud de más de 2,300 genomas bacterianos.
Un genoma es el conjunto completo de genes en una célula u organismo, y los genes proporcionan instrucciones para construir las proteínas que componen todos los organismos.
Mientras buscaban en el conjunto de datos masivo cuatro proteínas específicas que se creía que formaban parte de un genoma mínimo para Proteobacterias, descubrieron que solo una de las cuatro proteínas que buscaban era compartida por todas las bacterias. También encontraron un gran número deerrores en los datos disponibles públicamente.
"Encontramos que para cada una de las proteínas, hubo errores en la anotación de sus genes, lo que resultó en secuencias truncadas o faltantes", dijo Shira Broschat, profesora de la Escuela de Ingeniería Eléctrica y Ciencias de la Computación.
Las inmensas cantidades de datos que crean las tecnologías de secuenciación de próxima generación hacen que el tipo de errores de anotación que el equipo de WSU encontró especialmente problemáticos, dijo Svetlana Lockwood, autora principal del artículo y graduada de doctorado en informática de WSU.
"Un único error de anotación puede propagarse rápidamente porque los científicos se basan en anotaciones previas cuando secuencian genomas nuevos", dijo.
Si bien se necesitaron 13 años y $ 2.7 mil millones para secuenciar el genoma humano como parte del Proyecto Genoma Humano en 2003, ese mismo trabajo ahora se puede hacer en una sola hora por menos de $ 1500.
"Solo en los últimos dos años, los investigadores han secuenciado más del doble de la cantidad de genomas bacterianos que en los veinte años anteriores", dijo Broschat.
Si bien este no es el primer documento en notar la existencia de errores de anotación, el trabajo del equipo de WSU enumera y explica los diversos tipos de errores de anotación que se encuentran actualmente en los datos de secuenciación genómica.
"Con la escala de anotación errónea que encontramos, los investigadores tienen que reevaluar la confiabilidad de los datos del genoma disponibles públicamente para su uso en aplicaciones de big data", dijo Broschat.
Según Kelly Brayton, profesora del Departamento de Microbiología y Patología Veterinaria, los errores se deben a factores humanos y tecnológicos. Los errores a menudo ocurren debido a la imperfecta tecnología de secuenciación de ADN, que proporciona la información sobre los pares de bases en los segmentos de ADN.También pueden ocurrir debido a la confusión y la falta de conocimiento sobre las proteínas también.
El equipo utilizó un software de última generación y un grupo de cómputo de alto rendimiento en el campus de PNNL para trabajar en su conjunto de datos, el más grande de su tipo analizado hasta la fecha. Los datos se obtuvieron de una base de datos proporcionada por el Centro Nacionalpara Biotechnology Information, parte de la Biblioteca Nacional de Medicina de los Estados Unidos, la biblioteca médica más grande del mundo, y el trabajo fue financiado por la National Science Foundation.
Broschat y Brayton ahora están trabajando en una herramienta para encontrar errores de anotación en conjuntos de datos biológicos, lo que sería de gran utilidad para cualquiera que trabaje en las ciencias de la vida.
Fuente de la historia :
Materiales proporcionado por Universidad Estatal de Washington . Original escrito por Siddharth Vodnala. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :