Noticias de ciencia

de organizaciones de investigación

Fusión de datasets de celda, estilo panorámico

El algoritmo une múltiples conjuntos de datos en un solo 'panorama', que podría proporcionar nuevas ideas para estudios médicos y biológicos.

Fecha :: 6 de mayo de 2019
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Un nuevo algoritmo toma señales de la fotografía panorámica para fusionar conjuntos de datos celulares masivos y diversos en una sola fuente que puede usarse para estudios médicos y biológicos.
Compartir :

HISTORIA COMPLETA

Un nuevo algoritmo desarrollado por investigadores del MIT toma señales de la fotografía panorámica para fusionar conjuntos de datos celulares masivos y diversos en una sola fuente que puede usarse para estudios médicos y biológicos.

anuncio

Los conjuntos de datos unicelulares perfilan las expresiones genéticas de las células humanas, como las neuronas, los músculos y las células inmunes, para obtener información sobre la salud humana y el tratamiento de enfermedades. Los conjuntos de datos son producidos por una variedad de laboratorios y tecnologías, y contienentipos de células extremadamente diversos. La combinación de estos conjuntos de datos en un solo grupo de datos podría abrir nuevas posibilidades de investigación, pero eso es difícil de hacer de manera efectiva y eficiente.

Los métodos tradicionales tienden a agrupar las células en función de patrones no biológicos, como por laboratorio o tecnologías utilizadas, o fusionar accidentalmente células diferentes que parecen iguales. Los métodos que corrigen estos errores no se adaptan bien a grandes conjuntos de datos, y requierentodos los conjuntos de datos combinados comparten al menos un tipo de celda común.

En un artículo publicado hoy en Biotecnología de la naturaleza , los investigadores del MIT describen un algoritmo que puede fusionar eficientemente más de 20 conjuntos de datos de tipos de células muy diferentes en un "panorama" más amplio. El algoritmo, llamado "Scanorama", encuentra y une automáticamente tipos de células compartidas entre dos conjuntos de datos:como combinar píxeles superpuestos en imágenes para generar una foto panorámica.

Siempre y cuando cualquier otro conjunto de datos comparta un tipo de celda con un conjunto de datos en el panorama final, también se puede fusionar. Pero todos los conjuntos de datos no necesitan tener un tipo de celda en común. El algoritmo preserva todos los tipos de celdaespecífico para cada conjunto de datos.

"Los métodos tradicionales obligan a las células a alinearse, independientemente de cuáles sean los tipos de células. Crean una burbuja sin estructura y se pierden todas las diferencias biológicas interesantes", dice Brian Hie, estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia ArtificialCSAIL y un investigador en el grupo de Computación y Biología. "Puede proporcionar conjuntos de datos Scanorama que no se alineen entre sí, y el algoritmo separará los conjuntos de datos de acuerdo con las diferencias biológicas".

En su artículo, los investigadores fusionaron con éxito más de 100,000 células de 26 conjuntos de datos diferentes que contienen una amplia gama de células humanas, creando una fuente única y diversa de datos. Con los métodos tradicionales, eso requeriría aproximadamente un día de cálculo, peroScanorama completó la tarea en unos 30 minutos. Los investigadores dicen que el trabajo representa el mayor número de conjuntos de datos combinados.

anuncio

Uniéndose a Hie en el trabajo están: Bonnie Berger, profesora de matemáticas de Simons en el MIT, profesora de ingeniería eléctrica y ciencias de la computación, y jefe del grupo de computación y biología; y Bryan Bryson, profesor asistente de ingeniería biológica del MIT.

Vinculación de "vecinos mutuos"

Los humanos tienen cientos de categorías y subcategorías de células, y cada célula expresa un conjunto diverso de genes. Técnicas como la secuenciación de ARN capturan esa información en un espacio multidimensional en expansión. Las células son puntos dispersos por el espacio, y cada dimensión corresponde a la expresiónde un gen diferente.

Scanorama ejecuta un algoritmo modificado de visión por computadora, llamado "coincidencia mutua de vecinos más cercanos", que encuentra los puntos más cercanos más similares en dos espacios computacionales. Desarrollado en CSAIL, el algoritmo se utilizó inicialmente para encontrar píxeles con características coincidentes:como los niveles de color, en fotos diferentes. Eso podría ayudar a las computadoras a hacer coincidir un parche de píxeles que representan un objeto en una imagen con el mismo parche de píxeles en otra imagen donde la posición del objeto se ha alterado drásticamente. También podría usarse para coserimágenes muy diferentes juntas en un panorama.

Los investigadores reutilizaron el algoritmo para encontrar células con expresión de genes superpuestos, en lugar de características de píxeles superpuestos, y en conjuntos de datos múltiples en lugar de dos. El nivel de expresión de genes en una célula determina su función y, a su vez, su ubicación enel espacio computacional. Si se apilan una encima de la otra, las células con una expresión génica similar, incluso si son de conjuntos de datos diferentes, estarán aproximadamente en las mismas ubicaciones.

anuncio

Para cada conjunto de datos, Scanorama primero vincula cada celda en un conjunto de datos a su vecino más cercano entre todos los conjuntos de datos, lo que significa que lo más probable es que compartan ubicaciones similares. Pero el algoritmo solo retiene enlaces donde las celdas en ambos conjuntos de datos son el vecino más cercano del otro -un enlace mutuo. Por ejemplo, si el vecino más cercano de la celda A es la celda B, y el de la celda B es la celda A, es un guardián. Sin embargo, si el vecino más cercano de la celda B es una celda C separada, entonces el enlace entre la celda A y Bser descartado

Mantener enlaces mutuos aumenta la probabilidad de que las celdas sean, de hecho, los mismos tipos de celdas. Romper los enlaces no mutuos, por otro lado, evita que los tipos de celdas específicos de cada conjunto de datos se fusionen con tipos de celdas incorrectos. Una vez que todos los enlaces mutuos sonencontrado, el algoritmo une todas las secuencias de conjuntos de datos. Al hacerlo, combina los mismos tipos de celdas pero mantiene los tipos de celdas únicos para cualquier conjunto de datos separados de las celdas combinadas ". Los enlaces mutuos forman anclas que permiten la alineación [correcta] de las celdas en los conjuntos de datos,"Berger dice.

Reducción de datos, ampliación de escala

Para garantizar que Scanorama se ajuste a grandes conjuntos de datos, los investigadores incorporaron dos técnicas de optimización. La primera reduce la dimensionalidad del conjunto de datos. Cada celda de un conjunto de datos podría tener hasta 20,000 medidas de expresión génica y tantas dimensiones. Los investigadores aprovecharon una técnica matemática queresume las matrices de datos de alta dimensión con un pequeño número de características mientras retiene información vital. Básicamente, esto condujo a una reducción de 100 veces en las dimensiones.

También utilizaron una técnica de hashing popular para encontrar vecinos mutuos más cercanos más rápidamente. Tradicionalmente, calcular incluso las muestras reducidas tomaría horas. Pero la técnica de hashing básicamente crea cubos de vecinos más cercanos por sus probabilidades más altas. El algoritmo solo necesita buscar ella mayor probabilidad de encontrar enlaces mutuos, lo que reduce el espacio de búsqueda y hace que el proceso sea mucho menos computacionalmente intensivo.

En un trabajo separado, los investigadores combinaron Scanorama con otra técnica que desarrollaron que genera muestras completas, o "bocetos", de conjuntos de datos de células masivas que redujeron el tiempo de combinar más de 500,000 células de dos horas a ocho minutos.Al hacerlo, generaron los "bocetos geométricos", ejecutaron Scanorama sobre ellos y extrapolaron lo que aprendieron sobre la fusión de los bocetos geométricos con los conjuntos de datos más grandes. Esta técnica deriva de la genómica compresiva, desarrollada por el grupo de Berger.

"Incluso si necesita esbozar, integrar y volver a aplicar esa información a los conjuntos de datos completos, todavía fue un orden de magnitud más rápido que la combinación de conjuntos de datos completos", dice Hie.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.

Referencia del diario :

Brian Hie, Bryan Bryson, Bonnie Berger. Integración eficiente de transcriptomos unicelulares heterogéneos usando Scanorama . Biotecnología de la naturaleza 6 de mayo de 2019; DOI: 10.1038 / s41587-019-0113-3

Cite esta página :

Instituto de Tecnología de Massachusetts. "Combinando conjuntos de datos de celdas, estilo panorámico: Algoritmo une múltiples conjuntos de datos en un único 'panorama', que podría proporcionar nuevas ideas para estudios médicos y biológicos ..." ScienceDaily. ScienceDaily, 6 de mayo de 2019. .

Instituto de Tecnología de Massachusetts. 6 de mayo de 2019. Fusionar conjuntos de datos de celdas, estilo panorámico: el algoritmo une múltiples conjuntos de datos en un solo 'panorama', que podría proporcionar nuevas ideas para estudios médicos y biológicos ... ScienceDaily . Recuperado el 25 de julio de 2020 de www.science-things.com/releases/2019/05/190506190106.htm

Instituto de Tecnología de Massachusetts. "Combinando conjuntos de datos de celdas, estilo panorámico: Algorithm une múltiples conjuntos de datos en un único 'panorama', que podría proporcionar nuevas ideas para estudios médicos y biológicos ..." ScienceDaily. Www.science-things.com/releases/2019/05/190506190106.htm consultado el 25 de julio de 2020.

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Fusión de datasets de celda, estilo panorámico

El algoritmo une múltiples conjuntos de datos en un solo 'panorama', que podría proporcionar nuevas ideas para estudios médicos y biológicos.

1

2

3

4

5

1

2

3

4

5

Los niños rara vez transmiten COVID-19, los médicos escriben en un nuevo comentario

Resultados de la prueba de falso negativo COVID-19 si se usa demasiado temprano

Pérdida de olor y sabor validado como síntomas de COVID-19 en pacientes con alta tasa de recuperación

Las imágenes de resonancia magnética de los cerebros de 130 mamíferos, incluidos los humanos, indican una conectividad igual

Mejora de la vista mejorada al observar la luz roja profunda

Los neandertales pueden haber tenido un umbral más bajo para el dolor

Mascarillas críticas para prevenir la propagación de COVID-19

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

La razón que pone los pelos de punta para poner la piel de gallina

En estudios celulares, el extracto de algas supera a Remdesivir en el bloqueo del virus COVID-19

El bloqueo de COVID-19 causó una reducción global del 50 por ciento en las vibraciones de la tierra ligadas a los humanos

Los neandertales pueden haber tenido un umbral más bajo para el dolor

Los antibióticos interrumpen el desarrollo del 'cerebro social' en ratones

Estimuladores espinales reutilizados para restaurar el tacto en la extremidad perdida

¡Muévete, Siri! Los investigadores desarrollan Chatbot basado en la mejora

Dando a los robots una percepción humana de sus entornos físicos

Paso de tiempo distorsionado durante el bloqueo de COVID-19

Nuestra herencia animal: los humanos también levantan las orejas cuando escuchan sonidos interesantes