Si bien puede ser la era de las supercomputadoras y los "grandes datos", sin métodos inteligentes para extraer todos esos datos, es solo una gran cantidad de detritos digitales. Ahora los investigadores del Laboratorio Nacional Lawrence Berkeley Berkeley Lab del Departamento de Energía y UC BerkeleyHemos creado un novedoso método de aprendizaje automático que permite a los científicos obtener información de sistemas de complejidad previamente intratable en tiempo récord.
En un artículo publicado recientemente en el Actas de la Academia Nacional de Ciencias PNAS, los investigadores describen una técnica llamada "Bosques aleatorios iterativos", que dicen que podría tener un efecto transformador en cualquier área de la ciencia o la ingeniería con sistemas complejos, incluyendo biología, medicina de precisión, ciencia de materiales, ciencia ambiental yfabricación, por nombrar algunos.
"Tome una célula humana, por ejemplo. Hay 10 170 posibles interacciones moleculares en una sola célula. Eso crea desafíos informáticos considerables en la búsqueda de relaciones ", dijo Ben Brown, jefe del Departamento de Biología de Ecosistemas Moleculares de Berkeley Lab." Nuestro método permite la identificación de interacciones de alto orden al mismo costo computacionalcomo efectos principales, incluso cuando esas interacciones son locales con débiles efectos marginales "
Brown y Bin Yu de UC Berkeley son los principales autores principales de "Bosques aleatorios iterativos para descubrir interacciones de alto orden predictivas y estables". Los coautores son Sumanta Basu anteriormente un postdoc conjunto de Brown y Yu y ahora un asistenteprofesor de la Universidad de Cornell y Karl Kumbier estudiante de doctorado de Yu en el Departamento de Estadística de UC Berkeley. El documento es la culminación de tres años de trabajo que los autores creen que transformarán la forma en que se hace la ciencia "."podemos obtener información radicalmente más rica que la que hemos podido obtener de una máquina de aprendizaje", dijo Brown.
Las necesidades del aprendizaje automático en ciencias son diferentes de las de la industria, donde el aprendizaje automático se ha utilizado para cosas como jugar al ajedrez, fabricar autos sin conductor y predecir el mercado de valores.
"El aprendizaje automático desarrollado por la industria es excelente si desea realizar operaciones de alta frecuencia en el mercado de valores", dijo Brown. "No le importa por qué puede predecir que las acciones subirán o bajarán".Solo quieres saber que puedes hacer las predicciones "
Pero en ciencia, las preguntas sobre por qué un proceso se comporta de ciertas maneras son críticas. Comprender "por qué" permite a los científicos modelar o incluso diseñar procesos para mejorar o lograr el resultado deseado. Como resultado, el aprendizaje automático para la ciencia debe mirar hacia adentrola caja negra y entender por qué y cómo las computadoras llegaron a las conclusiones a las que llegaron. Un objetivo a largo plazo es utilizar este tipo de información para modelar o diseñar sistemas para obtener los resultados deseados.
En sistemas altamente complejos, ya sea una sola célula, el cuerpo humano o incluso un ecosistema completo, hay una gran cantidad de variables que interactúan de manera no lineal. Eso hace que sea difícil, si no imposible, construir un modelo que puedadeterminar la causa y el efecto. "Desafortunadamente, en biología, te encuentras con interacciones de orden 30, 40, 60 todo el tiempo", dijo Brown. "Es completamente intratable con los enfoques tradicionales de aprendizaje estadístico".
El método desarrollado por el equipo liderado por Brown y Yu, Bosques aleatorios iterativos iRF, se basa en un algoritmo llamado bosques aleatorios, una herramienta de modelado predictivo popular y eficaz, que traduce los estados internos del alumno de caja negra en un ser humano.forma interpretable: su enfoque permite a los investigadores buscar interacciones complejas desacoplando el orden o el tamaño de las interacciones del costo computacional de identificación.
"No hay diferencia en el costo computacional de detectar una interacción de orden 30 versus una interacción de orden dos", dijo Brown. "Y eso es un cambio radical".
En el documento de PNAS, los científicos demostraron su método en dos problemas de genómica, el papel de los potenciadores de genes en el embrión de la mosca de la fruta y el empalme alternativo en una línea celular derivada de humanos. En ambos casos, el uso de iRF confirmó hallazgos previos mientras descubría tambiéninteracciones de orden superior no identificadas previamente para el estudio de seguimiento.
Brown dijo que ahora están utilizando su método para diseñar sistemas láser de matriz en fase y optimizar sistemas de agricultura sostenible.
"Creemos que este es un paradigma diferente para hacer ciencia", dijo Yu, profesor en los departamentos de Estadística e Ingeniería Eléctrica y Ciencias de la Computación en UC Berkeley. "Hacemos predicciones, pero introducimos estabilidad además de predicciones en iRFpara aprender de manera más confiable la estructura subyacente en los predictores "
"Esto nos permite aprender a diseñar sistemas para la optimización orientada a objetivos y simulaciones y experimentos de seguimiento más precisos", agregó Brown.
En un comentario de PNAS sobre la técnica, Danielle Denisko y Michael Hoffman de la Universidad de Toronto escribieron: "iRF es muy prometedor como una forma nueva y efectiva de detectar interacciones en una variedad de entornos, y su uso nos ayudará a asegurar que nola rama u hoja se deja sin girar "
La investigación fue apoyada por subvenciones del programa de Transferencia de Tecnología para Pequeñas Empresas STTR del DOE, el programa de Investigación y Desarrollo Dirigido por el Laboratorio LDRD, el Instituto Nacional de Investigación del Genoma Humano, la Oficina de Investigación del Ejército, la Oficina de Investigación Naval y elFundación Nacional de Ciencia.
Fuente de la historia :
Materiales proporcionado por DOE / Laboratorio Nacional Lawrence Berkeley . Nota: El contenido puede ser editado por estilo y longitud.
Referencias de revistas :
Cite esta página :