Un nuevo algoritmo desarrollado por investigadores del MIT toma señales de la fotografía panorámica para fusionar conjuntos de datos celulares masivos y diversos en una sola fuente que puede usarse para estudios médicos y biológicos.
Los conjuntos de datos unicelulares perfilan las expresiones genéticas de las células humanas, como las neuronas, los músculos y las células inmunes, para obtener información sobre la salud humana y el tratamiento de enfermedades. Los conjuntos de datos son producidos por una variedad de laboratorios y tecnologías, y contienentipos de células extremadamente diversos. La combinación de estos conjuntos de datos en un solo grupo de datos podría abrir nuevas posibilidades de investigación, pero eso es difícil de hacer de manera efectiva y eficiente.
Los métodos tradicionales tienden a agrupar las células en función de patrones no biológicos, como por laboratorio o tecnologías utilizadas, o fusionar accidentalmente células diferentes que parecen iguales. Los métodos que corrigen estos errores no se adaptan bien a grandes conjuntos de datos, y requierentodos los conjuntos de datos combinados comparten al menos un tipo de celda común.
En un artículo publicado hoy en Biotecnología de la naturaleza , los investigadores del MIT describen un algoritmo que puede fusionar eficientemente más de 20 conjuntos de datos de tipos de células muy diferentes en un "panorama" más amplio. El algoritmo, llamado "Scanorama", encuentra y une automáticamente tipos de células compartidas entre dos conjuntos de datos:como combinar píxeles superpuestos en imágenes para generar una foto panorámica.
Siempre y cuando cualquier otro conjunto de datos comparta un tipo de celda con un conjunto de datos en el panorama final, también se puede fusionar. Pero todos los conjuntos de datos no necesitan tener un tipo de celda en común. El algoritmo preserva todos los tipos de celdaespecífico para cada conjunto de datos.
"Los métodos tradicionales obligan a las células a alinearse, independientemente de cuáles sean los tipos de células. Crean una burbuja sin estructura y se pierden todas las diferencias biológicas interesantes", dice Brian Hie, estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia ArtificialCSAIL y un investigador en el grupo de Computación y Biología. "Puede proporcionar conjuntos de datos Scanorama que no se alineen entre sí, y el algoritmo separará los conjuntos de datos de acuerdo con las diferencias biológicas".
En su artículo, los investigadores fusionaron con éxito más de 100,000 células de 26 conjuntos de datos diferentes que contienen una amplia gama de células humanas, creando una fuente única y diversa de datos. Con los métodos tradicionales, eso requeriría aproximadamente un día de cálculo, peroScanorama completó la tarea en unos 30 minutos. Los investigadores dicen que el trabajo representa el mayor número de conjuntos de datos combinados.
Uniéndose a Hie en el trabajo están: Bonnie Berger, profesora de matemáticas de Simons en el MIT, profesora de ingeniería eléctrica y ciencias de la computación, y jefe del grupo de computación y biología; y Bryan Bryson, profesor asistente de ingeniería biológica del MIT.
Vinculación de "vecinos mutuos"
Los humanos tienen cientos de categorías y subcategorías de células, y cada célula expresa un conjunto diverso de genes. Técnicas como la secuenciación de ARN capturan esa información en un espacio multidimensional en expansión. Las células son puntos dispersos por el espacio, y cada dimensión corresponde a la expresiónde un gen diferente.
Scanorama ejecuta un algoritmo modificado de visión por computadora, llamado "coincidencia mutua de vecinos más cercanos", que encuentra los puntos más cercanos más similares en dos espacios computacionales. Desarrollado en CSAIL, el algoritmo se utilizó inicialmente para encontrar píxeles con características coincidentes:como los niveles de color, en fotos diferentes. Eso podría ayudar a las computadoras a hacer coincidir un parche de píxeles que representan un objeto en una imagen con el mismo parche de píxeles en otra imagen donde la posición del objeto se ha alterado drásticamente. También podría usarse para coserimágenes muy diferentes juntas en un panorama.
Los investigadores reutilizaron el algoritmo para encontrar células con expresión de genes superpuestos, en lugar de características de píxeles superpuestos, y en conjuntos de datos múltiples en lugar de dos. El nivel de expresión de genes en una célula determina su función y, a su vez, su ubicación enel espacio computacional. Si se apilan una encima de la otra, las células con una expresión génica similar, incluso si son de conjuntos de datos diferentes, estarán aproximadamente en las mismas ubicaciones.
Para cada conjunto de datos, Scanorama primero vincula cada celda en un conjunto de datos a su vecino más cercano entre todos los conjuntos de datos, lo que significa que lo más probable es que compartan ubicaciones similares. Pero el algoritmo solo retiene enlaces donde las celdas en ambos conjuntos de datos son el vecino más cercano del otro -un enlace mutuo. Por ejemplo, si el vecino más cercano de la celda A es la celda B, y el de la celda B es la celda A, es un guardián. Sin embargo, si el vecino más cercano de la celda B es una celda C separada, entonces el enlace entre la celda A y Bser descartado
Mantener enlaces mutuos aumenta la probabilidad de que las celdas sean, de hecho, los mismos tipos de celdas. Romper los enlaces no mutuos, por otro lado, evita que los tipos de celdas específicos de cada conjunto de datos se fusionen con tipos de celdas incorrectos. Una vez que todos los enlaces mutuos sonencontrado, el algoritmo une todas las secuencias de conjuntos de datos. Al hacerlo, combina los mismos tipos de celdas pero mantiene los tipos de celdas únicos para cualquier conjunto de datos separados de las celdas combinadas ". Los enlaces mutuos forman anclas que permiten la alineación [correcta] de las celdas en los conjuntos de datos,"Berger dice.
Reducción de datos, ampliación de escala
Para garantizar que Scanorama se ajuste a grandes conjuntos de datos, los investigadores incorporaron dos técnicas de optimización. La primera reduce la dimensionalidad del conjunto de datos. Cada celda de un conjunto de datos podría tener hasta 20,000 medidas de expresión génica y tantas dimensiones. Los investigadores aprovecharon una técnica matemática queresume las matrices de datos de alta dimensión con un pequeño número de características mientras retiene información vital. Básicamente, esto condujo a una reducción de 100 veces en las dimensiones.
También utilizaron una técnica de hashing popular para encontrar vecinos mutuos más cercanos más rápidamente. Tradicionalmente, calcular incluso las muestras reducidas tomaría horas. Pero la técnica de hashing básicamente crea cubos de vecinos más cercanos por sus probabilidades más altas. El algoritmo solo necesita buscar ella mayor probabilidad de encontrar enlaces mutuos, lo que reduce el espacio de búsqueda y hace que el proceso sea mucho menos computacionalmente intensivo.
En un trabajo separado, los investigadores combinaron Scanorama con otra técnica que desarrollaron que genera muestras completas, o "bocetos", de conjuntos de datos de células masivas que redujeron el tiempo de combinar más de 500,000 células de dos horas a ocho minutos.Al hacerlo, generaron los "bocetos geométricos", ejecutaron Scanorama sobre ellos y extrapolaron lo que aprendieron sobre la fusión de los bocetos geométricos con los conjuntos de datos más grandes. Esta técnica deriva de la genómica compresiva, desarrollada por el grupo de Berger.
"Incluso si necesita esbozar, integrar y volver a aplicar esa información a los conjuntos de datos completos, todavía fue un orden de magnitud más rápido que la combinación de conjuntos de datos completos", dice Hie.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :