En los últimos años, la cantidad de datos genómicos disponibles para los científicos ha explotado. Con técnicas cada vez más rápidas y baratas disponibles, cientos de plantas, animales y microbios se han secuenciado en los últimos años. Sin embargo, este tesoro de información genética en constante expansióncreó un problema: ¿cómo pueden los científicos analizar rápidamente todos estos datos, que podrían ser la clave para comprender mejor muchas enfermedades y resolver otros problemas de salud y ambientales?
Ahora, dos investigadores han desarrollado una técnica de computación innovadora que, en grandes cantidades de datos, es a la vez más rápida y más precisa que los métodos actuales. Para estimular la investigación, se ofrece gratuitamente un programa que utiliza esta técnica a la comunidad de investigación biomédica.
"Este es un enfoque completamente nuevo, con múltiples oportunidades para un mayor desarrollo", dijo Andrew F. Neuwald, PhD, Profesor de Bioquímica y Biología Molecular en el Instituto de Ciencias del Genoma IGS de la Facultad de Medicina de la Universidad de Maryland.
Hoy se publicó una descripción del nuevo método en PLOS Biología Computacional . El Dr. Neuwald colaboró en el trabajo con Stephen F. Altschul, PhD, investigador principal del Centro Nacional de Información Biotecnológica de los Institutos Nacionales de Salud.
Los datos de la secuencia genómica codifican información sobre la estructura y la función de las proteínas, que comprenden la maquinaria celular básica y, por lo tanto, determinan la estructura y la función de todos los microbios, plantas y animales.
El nuevo programa se llama GISMO, un acrónimo de "Gibbs Sampler for Multi-Alignment Optimization". El muestreo de Gibbs, una técnica estadística para resolver problemas muy complejos, es una característica central del enfoque. En este caso, el muestreo se utiliza paraencontrar señales biológicas: patrones relevantes que pueden ayudar a los científicos a comprender mejor cómo funcionan los organismos. Neuwald dice que el enfoque mejora los programas convencionales de alineación de secuencias, que, a diferencia de GISMO, pueden confundir fácilmente patrones aleatorios en los datos con señales biológicamente válidas.
Los métodos actuales de uso generalizado generalmente comparan cada secuencia con cualquier otra secuencia; esto toma un tiempo prohibitivamente largo para calcular conjuntos de cien mil o más secuencias de proteínas relacionadas, que ahora están disponibles para el análisis. Neuwald describe estos métodos como "fondo"arriba. "Él y el Dr. Altschul desarrollaron una técnica que es" de arriba abajo "; en lugar de comparar secuencias entre sí, compara cada secuencia con un modelo estadístico en evolución. Este enfoque no solo es más rápido, sino que también es mejor para encontrar biológicamenteseñales relevantes, que pueden, por ejemplo, ayudar a los investigadores a desentrañar los mecanismos subyacentes del cáncer y las enfermedades hereditarias. Esta técnica se vuelve progresivamente más rápida que otros métodos a medida que aumenta el tamaño del conjunto de datos.
El Dr. Neuwald tiene antecedentes variados en biología molecular, ciencias de la computación y estadísticas bayesianas y ha estado trabajando en esta técnica durante años. El Dr. Altschul, cuya capacitación formal es en matemáticas, fue el primer autor en dos publicaciones históricas que describieronlos populares programas de búsqueda de bases de datos de secuencias BLAST y PSIBLAST. Confirmaron el rendimiento superior de GISMO en conjuntos de secuencias grandes y diversas probándolo con cinco métodos convencionales ampliamente utilizados. El Dr. Neuwald está entusiasmado con el potencial de GISMO: "Porque los investigadores han estado buscando formas de acelerar ymejorar los métodos convencionales durante décadas y debido a que GISMO adopta un enfoque tan nuevo y diferente, estoy seguro de que podemos hacer que GISMO sea aún más rápido y más preciso en el futuro ".
Fuente de la historia :
Materiales proporcionados por Facultad de medicina de la Universidad de Maryland . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :