Los bocetos artísticos se pueden usar para capturar detalles de una escena en una imagen más simple. Los investigadores del MIT ahora están llevando ese concepto a la biología computacional, con un método novedoso que extrae muestras completas, llamadas "bocetos", de conjuntos de datos de células masivas queson más fáciles de analizar para estudios biológicos y médicos.
Los últimos años han visto una explosión en el perfil de células individuales de una amplia gama de tejidos y órganos humanos, como neuronas, músculos y células inmunes, para obtener información sobre la salud humana y el tratamiento de enfermedades. Los conjuntos de datos más grandes contienen en cualquier lugarde alrededor de 100,000 a 2 millones de células, y en crecimiento. El objetivo a largo plazo del Atlas de células humanas, por ejemplo, es perfilar alrededor de 10 mil millones de células. Cada célula contiene toneladas de datos sobre la expresión de ARN, que pueden proporcionar información sobre la célulacomportamiento y progresión de la enfermedad.
Con suficiente potencia de cálculo, los biólogos pueden analizar conjuntos de datos completos, pero lleva horas o días. Sin esos recursos, no es práctico. Los métodos de muestreo se pueden usar para extraer pequeños subconjuntos de las células para un análisis más rápido y más eficiente, pero no lo hacen 't escala bien a grandes conjuntos de datos y, a menudo, pierde tipos de células menos abundantes.
En un documento presentado la próxima semana en la conferencia de Investigación en Biología Molecular Computacional, los investigadores del MIT describen un método que captura un "boceto" completamente completo de un conjunto de datos completo que se puede compartir y combinar fácilmente con otros conjuntos de datos.celdas con igual probabilidad, muestra de manera uniforme celdas de los diversos tipos de celdas presentes en el conjunto de datos
"Estos son como bocetos en papel, donde un artista intentará preservar todas las características importantes de una imagen principal", dice Bonnie Berger, profesora de matemáticas de Simons en el MIT, profesora de ingeniería eléctrica y ciencias de la computación, y directoradel grupo de Computación y Biología.
En experimentos, el método generó bocetos a partir de conjuntos de datos de millones de celdas en unos pocos minutos, en lugar de unas pocas horas, que tenían una representación mucho más equitativa de celdas raras de todos los conjuntos de datos. Los bocetos incluso capturaron, en unoejemplo, un subconjunto raro de macrófagos inflamatorios que otros métodos omitieron.
"La mayoría de los biólogos que analizan datos unicelulares solo están trabajando en sus computadoras portátiles", dice Brian Hie, estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL e investigador en el grupo de Computación y Biología ".resumen compacto de un conjunto de datos muy grande que trata de preservar tanta información biológica como sea posible ... para que las personas no necesiten usar tanta potencia computacional ".
Junto a Hie y Berger en el papel están: el estudiante de doctorado CSAIL Hyunghoon Cho; Benjamin DeMeo, un estudiante graduado en MIT y Harvard Medical School; y Bryan Bryson, profesor asistente de ingeniería biológica del MIT.
revestimientos a cuadros
Los humanos tienen cientos de categorías y subcategorías de células, y cada célula expresa un conjunto diverso de genes. Técnicas como la secuenciación de ARN capturan toda la información celular en tablas masivas, donde cada fila representa una célula y cada columna representa alguna medida de la expresión génicaLas células son puntos dispersos alrededor de un espacio multidimensional en expansión donde cada dimensión corresponde a la expresión de un gen diferente.
Como sucede, los tipos de células con diversidad genética similar, tanto comunes como raras, forman grupos de tamaño similar que ocupan aproximadamente el mismo espacio. Pero la densidad de las células dentro de esos grupos varía mucho: 1,000 células pueden residir en ungrupo común, mientras que el grupo raro igualmente diverso contendrá 10 celdas. Eso es un problema para los métodos de muestreo tradicionales que extraen una muestra de tamaño individual de celdas individuales.
"Si toma una muestra del 10 por ciento, y hay 10 células en un grupo raro y 1,000 células en un grupo común, es más probable que tome toneladas de células comunes, pero omita todas las células raras", dice Hie"Pero las células raras pueden conducir a importantes descubrimientos biológicos".
Los investigadores modificaron una clase de algoritmo que establece formas sobre conjuntos de datos. Su algoritmo cubre todo el espacio computacional con lo que llaman una "cobertura a cuadros", que es como una cuadrícula de cuadrados de igual tamaño pero en muchas dimensiones. Solo estableceestos cuadrados multidimensionales donde hay al menos una celda, y se saltan las regiones vacías. Al final, las columnas vacías de la cuadrícula serán mucho más anchas o más delgadas que las columnas ocupadas, de ahí la descripción de "cuadros". Esa técnica ahorra toneladas de cálculo paraayudar a la escala de cobertura a conjuntos de datos masivos.
captura de células raras
Los cuadrados ocupados pueden contener solo una celda o 1,000 celdas, pero todas tendrán exactamente el mismo peso de muestreo. El algoritmo luego encuentra una muestra objetivo - de, por ejemplo, 20,000 celdas - seleccionando un número establecido de celdas de cadaocupa el cuadrado de manera uniforme, al azar. El bosquejo resultante contiene una distribución mucho más equitativa de los tipos de células, por ejemplo, 10 células comunes de un grupo de 100 y ocho células raras de un grupo de 10.
"Aprovechamos que estos tipos de células ocupan volúmenes similares de espacio", dice Hie. "Debido a que tomamos muestras de acuerdo con el volumen, en lugar de la densidad, obtenemos una cobertura más uniforme del espacio biológico ... y estamos naturalmentepreservando los tipos raros de células "
Aplicaron su método de dibujo a un conjunto de datos de alrededor de 250,000 células del cordón umbilical que contenían dos subconjuntos de macrófagos raros: inflamatorio y antiinflamatorio. Todos los demás métodos de muestreo tradicionales agruparon ambos subconjuntos, mientras que el método de dibujo los separó.Los estudios detallados de estas subpoblaciones de macrófagos podrían ayudar a revelar información sobre la inflamación y cómo modular los procesos inflamatorios en respuesta a la enfermedad, dicen los investigadores.
"Eso es un beneficio al trabajar en la interfaz de los campos", dice Berger. "Estamos capacitados como matemáticos, pero entendemos cuáles son los problemas de la ciencia de datos biológicos, por lo que podemos llevar las mejores tecnologías a su análisis".
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :