La reproducibilidad es un desafío importante en la biología experimental, y con la creciente complejidad de los datos generados por las técnicas a escala genómica, esta preocupación se amplifica enormemente. RNA-seq, uno de los métodos más utilizados en la biología molecular moderna, permite en un soloprobar la medición simultánea del nivel de expresión de todos los genes en una muestra dada. Nueva investigación publicada el 12 de noviembre en la revista de acceso abierto PLOS Biology por Shir Mandelbaum, Zohar Manber, Orna Elroy-Stein y Ran Elkon de la Universidad de Tel Aviv,identifica un sesgo técnico frecuente en los datos generados por la tecnología RNA-seq, que recurrentemente conduce a resultados falsos.
Mandelbaum y sus colegas analizaron docenas de conjuntos de datos de RNA-seq disponibles públicamente, que perfilaron las respuestas celulares a numerosas tensiones diferentes, y notaron que conjuntos de genes particularmente cortos o largos mostraban repetidamente cambios en el nivel de expresión como lo demuestra el número aparente de transcripciones de RNAde un gen dado.
Perplejos por este patrón recurrente, los autores luego preguntaron si refleja alguna respuesta biológica universal común a muchos desencadenantes diferentes o si más bien proviene de algún artefacto experimental. Para abordar esta pregunta, compararon muestras replicadas de la misma condición biológica. Diferencias enLa expresión génica entre réplicas puede reflejar efectos técnicos que no están relacionados con el factor biológico de interés del experimento. Inesperadamente, se observó el mismo patrón de genes particularmente cortos o largos que muestran cambios en el nivel de expresión en estas comparaciones entre réplicas, lo que demuestra que este patrón es elresultado de un sesgo técnico que parecía estar asociado con la longitud del gen.
Un objetivo principal de los experimentos de RNA-seq es caracterizar los procesos biológicos que se activan o reprimen en respuesta a las condiciones de interés. En particular, los procesos biológicos específicos son ejecutados por productos de genes particularmente cortos y largos. Por ejemplo, muchos de losLos genes cortos codifican proteínas que constituyen el ribosoma, la maquinaria de producción de proteínas de la célula. Por el contrario, muchos de los genes largos codifican proteínas que constituyen la matriz extracelular ECM, la red de macromoléculas que proporcionan a las células un soporte estructural externo.
Mandelbaum y sus colegas pudieron mostrar cómo, en muchos conjuntos de datos de RNA-seq, el sesgo de longitud que detectaron, combinado con algunas fallas en el análisis estadístico, puede conducir a la identificación falsa de funciones biológicas específicas incluyendo ribosomas y ECM relacionadosfunciones como respuestas celulares a las condiciones probadas. Es importante destacar que el estudio también muestra cómo se puede eliminar este sesgo de los datos, filtrando así las llamadas falsas y preservando las biológicamente genuinas.
Los últimos años han sido testigos de una alarma cada vez mayor sobre resultados falsos en la investigación biológica, a veces denominada crisis de reproducibilidad. Este estudio enfatiza la importancia del manejo estadístico adecuado de los datos para disminuir el número de hallazgos engañosos.
Fuente de la historia :
Materiales proporcionados por PLOS . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :