Investigadores del MDC han desarrollado una nueva herramienta que hace que sea más fácil maximizar el poder del aprendizaje profundo para estudiar genómica. Describen el nuevo enfoque, Janggu, en la revista Comunicaciones de la naturaleza .
Imagine que antes de poder preparar la cena, primero tenía que reconstruir la cocina, diseñada específicamente para cada receta. Dedicaría mucho más tiempo a la preparación que a la cocción. Para los biólogos computacionales, ha sido un proceso similar que lleva mucho tiempopara analizar datos genómicos. Antes de que puedan comenzar su análisis, pasan mucho tiempo valioso formateando y preparando grandes conjuntos de datos para alimentar los modelos de aprendizaje profundo.
Para agilizar este proceso, los investigadores del Centro Max Delbrueck de Medicina Molecular de la Asociación Helmholtz MDC desarrollaron una herramienta de programación universal que convierte una amplia variedad de datos genómicos en el formato requerido para el análisis mediante modelos de aprendizaje profundo ".terminaste perdiendo mucho tiempo en el aspecto técnico, en lugar de concentrarte en la pregunta biológica que estabas tratando de responder ", dice el Dr. Wolfgang Kopp, científico del grupo de investigación de Bioinformática y Ciencia de Datos Ópticos en el Instituto de Medicina de Berlín del MDC.Biología de sistemas BIMSB, y primer autor del artículo: "Con Janggu, nuestro objetivo es aliviar parte de esa carga técnica y hacerla accesible a la mayor cantidad de personas posible".
Nombre único, solución universal
Janggu lleva el nombre de un tambor tradicional coreano con forma de reloj de arena girado hacia un lado. Las dos grandes secciones del reloj de arena representan las áreas en las que Janggu se enfoca: preprocesamiento de datos genómicos, visualización de resultados y evaluación del modelo. El conector estrecho enel medio representa un marcador de posición para cualquier tipo de modelo de aprendizaje profundo que los investigadores deseen usar.
Los modelos de aprendizaje profundo implican algoritmos que clasifican datos de cantidades masivas y encuentran características o patrones relevantes. Si bien el aprendizaje profundo es una herramienta muy poderosa, su uso en genómica ha sido limitado. La mayoría de los modelos publicados tienden a funcionar solo con tipos fijos de datos,para responder solo una pregunta específica. Cambiar o agregar nuevos datos a menudo requiere comenzar desde cero y realizar esfuerzos de programación extensivos.
Janggu convierte diferentes tipos de datos genómicos en un formato universal que se puede conectar a cualquier modelo de aprendizaje automático o de aprendizaje profundo que use python, un lenguaje de programación ampliamente utilizado.
"Lo que hace que nuestro enfoque sea especial es que puede usar fácilmente cualquier conjunto de datos genómicos para su problema de aprendizaje profundo, todo vale en cualquier formato", Dr. Altuna Akalin, quien encabeza el grupo de investigación Bioinformática y Omics Data Science.
la separación es la clave
El grupo de investigación de Akalin tiene una doble misión: desarrollar nuevas herramientas de aprendizaje automático y usarlas para investigar preguntas en biología y medicina. Durante sus propios esfuerzos de investigación, se frustraron continuamente por la cantidad de tiempo que dedicaron a formatear datos. Se dieron cuenta de que parte deEl problema era que cada modelo de aprendizaje profundo incluía su propio procesamiento previo de datos. Al separar la extracción de datos y el formato del análisis, proporciona una forma mucho más fácil de intercambiar, combinar o reutilizar secciones de datos. Es como tener toda la cocinaherramientas e ingredientes a su alcance listos para probar una nueva receta.
"La dificultad fue encontrar el equilibrio correcto entre flexibilidad y usabilidad", dice Kopp. "Si es demasiado flexible, las personas se ahogarán en diferentes opciones y será difícil comenzar".
Kopp ha preparado varios tutoriales para ayudar a otros a comenzar a usar Janggu, junto con conjuntos de datos de ejemplo y estudios de casos. Comunicaciones de la naturaleza el documento demuestra la versatilidad de Janggu en el manejo de grandes volúmenes de datos, combinando flujos de datos y respondiendo diferentes tipos de preguntas, como la predicción de sitios de unión a partir de secuencias de ADN y / o accesibilidad de cromatina, así como para tareas de clasificación y regresión.
aplicaciones sin fin
Si bien la mayor parte del beneficio de Janggu está en la parte frontal, los investigadores querían proporcionar una solución completa para el aprendizaje profundo. Janggu también incluye la visualización de resultados después del análisis de aprendizaje profundo y evalúa lo que el modelo ha aprendido. En particular, el equipo incorporó"codificación de secuencia de orden superior" en el paquete, que permite capturar correlaciones entre nucleótidos vecinos. Esto ayudó a aumentar la precisión de algunos análisis. Al hacer que el aprendizaje profundo sea más fácil y más fácil de usar, Janggu ayuda a abrir la puerta a responder todo tipode preguntas biológicas.
"Una de las aplicaciones más interesantes es predecir el efecto de las mutaciones en la regulación génica", dice Akalin. "Esto es emocionante porque ahora podemos comenzar a comprender genomas individuales, por ejemplo, podemos identificar variantes genéticas que causan cambios regulatorios, opodemos interpretar mutaciones reguladoras que ocurren en tumores "
Fuente de la historia :
Materiales proporcionado por Centro Max Delbrück de Medicina Molecular en la Asociación Helmholtz . Original escrito por Laura Petersen. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :