Noticias de ciencia

de organizaciones de investigación

Con poca capacitación, los algoritmos de aprendizaje automático pueden descubrir conocimiento científico oculto

Fecha :: 3 de julio de 2019
Fuente :: DOE / Laboratorio Nacional Lawrence Berkeley
Resumen :: Los investigadores han demostrado que un algoritmo sin capacitación en ciencia de materiales puede escanear el texto de millones de artículos y descubrir nuevos conocimientos científicos. Recolectaron 3.3 millones de resúmenes de artículos publicados de ciencia de materiales y los introdujeron en un algoritmo llamado Word2vec. Al analizar las relacionesEntre palabras, el algoritmo fue capaz de predecir descubrimientos de nuevos materiales termoeléctricos con años de anticipación y sugerir materiales aún desconocidos como candidatos para materiales termoeléctricos.
Compartir :

HISTORIA COMPLETA

Claro, las computadoras se pueden usar para jugar ajedrez a nivel de gran maestro chess_computer, pero ¿pueden hacer descubrimientos científicos? Investigadores del Laboratorio Nacional Lawrence Berkeley Berkeley Lab del Departamento de Energía de EE. UU. Han demostrado que un algoritmo sin capacitación en materialesla ciencia puede escanear el texto de millones de artículos y descubrir nuevos conocimientos científicos.

anuncio

Un equipo dirigido por Anubhav Jain, científico de la División de Almacenamiento de Energía y Recursos Distribuidos de Berkeley Lab, recolectó 3,3 millones de resúmenes de artículos publicados sobre ciencia de materiales y los introdujo en un algoritmo llamado Word2vec. Al analizar las relaciones entre palabras, el algoritmo pudo predecirdescubrimientos de nuevos materiales termoeléctricos con años de anticipación y sugieren materiales aún desconocidos como candidatos para materiales termoeléctricos.

"Sin decirle nada sobre ciencia de materiales, aprendió conceptos como la tabla periódica y la estructura cristalina de los metales", dijo Jain. "Eso insinuó el potencial de la técnica. Pero probablemente lo más interesante que descubrimos es,puede usar este algoritmo para abordar las brechas en la investigación de materiales, cosas que las personas deberían estudiar pero que no han estudiado hasta ahora "

Los hallazgos fueron publicados el 3 de julio en la revista Naturaleza . El autor principal del estudio, "Las incrustaciones de palabras sin supervisión capturan el conocimiento latente de la literatura de ciencia de materiales", es Vahe Tshitoyan, un becario postdoctoral de Berkeley Lab que ahora trabaja en Google. Junto con Jain, los científicos de Berkeley Lab Kristin Persson y Gerbrand Ceder ayudarondirigir el estudio

"El documento establece que la extracción de textos de la literatura científica puede descubrir el conocimiento oculto, y que la extracción basada en texto puro puede establecer el conocimiento científico básico", dijo Ceder, quien también tiene una cita en el Departamento de Ciencia e Ingeniería de Materiales de UC Berkeley.

Tshitoyan dijo que el proyecto fue motivado por la dificultad de dar sentido a la abrumadora cantidad de estudios publicados. "En cada campo de investigación hay 100 años de literatura de investigación pasada, y cada semana salen docenas de estudios más", dijo. "Un investigadorpuede acceder solo a una fracción de eso. Pensamos, ¿puede el aprendizaje automático hacer algo para hacer uso de todo este conocimiento colectivo de manera no supervisada, sin necesidad de la orientación de investigadores humanos? "

'Rey - reina + hombre =?'

anuncio

El equipo recolectó los 3.3 millones de resúmenes de artículos publicados en más de 1,000 revistas entre 1922 y 2018. Word2vec tomó cada una de las aproximadamente 500,000 palabras distintas en esos resúmenes y las convirtió en un vector de 200 dimensiones, o una matriz de 200 números.

"Lo importante no es cada número, sino usar los números para ver cómo se relacionan las palabras entre sí", dijo Jain, quien lidera un grupo que trabaja en el descubrimiento y diseño de nuevos materiales para aplicaciones de energía utilizando una combinación de teoría, computacióny minería de datos ". Por ejemplo, puede restar vectores usando matemática de vectores estándar. Otros investigadores han demostrado que si entrena el algoritmo en fuentes de texto no científicas y toma el vector que resulta de 'rey menos reina', obtendrá el mismo resultado que'hombre menos mujer'. Resuelve la relación sin que le digas nada ".

De manera similar, cuando se capacitó en el texto de ciencia de materiales, el algoritmo pudo aprender el significado de términos y conceptos científicos, como la estructura cristalina de los metales basándose simplemente en las posiciones de las palabras en los resúmenes y su coincidencia con otras palabrasPor ejemplo, así como podría resolver la ecuación "rey - reina + hombre", podría descubrir que para la ecuación "ferromagnético - NiFe + IrMn" la respuesta sería "antiferromagnética".

Word2vec incluso pudo aprender las relaciones entre los elementos en la tabla periódica cuando el vector para cada elemento químico se proyectó en dos dimensiones.

predicción de descubrimientos con años de anticipación

Entonces, si Word2vec es tan inteligente, ¿podría predecir materiales termoeléctricos nuevos? Un buen material termoeléctrico puede convertir eficientemente el calor en electricidad y está hecho de materiales que son seguros, abundantes y fáciles de producir.

anuncio

El equipo de Berkeley Lab tomó los mejores candidatos termoeléctricos sugeridos por el algoritmo, que clasificó cada compuesto por la similitud de su vector de palabras con el de la palabra "termoeléctrico". Luego realizaron cálculos para verificar las predicciones del algoritmo.

De las 10 predicciones principales, encontraron que todos tenían factores de potencia calculados ligeramente más altos que el promedio de las termoeléctricas conocidas; los tres principales candidatos tenían factores de potencia por encima del percentil 95 de las termoeléctricas conocidas.

Luego probaron si el algoritmo podía realizar experimentos "en el pasado" dándole resúmenes solo hasta, por ejemplo, el año 2000. Una vez más, de las principales predicciones, un número significativo apareció en estudios posteriores, cuatro veces másque si los materiales hubieran sido elegidos al azar. Por ejemplo, tres de las cinco predicciones principales entrenadas con datos hasta el año 2008 se han descubierto y las dos restantes contienen elementos raros o tóxicos

Los resultados fueron sorprendentes. "Honestamente, no esperaba que el algoritmo fuera tan predictivo de resultados futuros", dijo Jain. "Pensé que tal vez el algoritmo podría ser descriptivo de lo que la gente había hecho antes, pero no llegar a estosdiferentes conexiones. Me sorprendí bastante cuando vi no solo las predicciones sino también el razonamiento detrás de las predicciones, cosas como la estructura de medio Heusler, que es una estructura de cristal realmente caliente para la termoeléctrica en estos días ".

Agregó: "Este estudio muestra que si este algoritmo estuviera en su lugar antes, algunos materiales podrían haberse descubierto con años de anticipación". Junto con el estudio, los investigadores están lanzando los 50 principales materiales termoeléctricos predichos por el algoritmo.También publicaremos las incrustaciones de palabras necesarias para que las personas hagan sus propias aplicaciones si quieren buscar, por ejemplo, un mejor material aislante topológico.

A continuación, Jain dijo que el equipo está trabajando en un motor de búsqueda más inteligente y potente, lo que permite a los investigadores buscar resúmenes de una manera más útil.

El estudio fue financiado por el Toyota Research Institute. Otros coautores del estudio son los investigadores de Berkeley Lab, John Dagdelen, Leigh Weston, Alexander Dunn y Ziqin Rong, y la investigadora de UC Berkeley, Olga Kononova.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionados por DOE / Laboratorio Nacional Lawrence Berkeley . Nota: El contenido puede ser editado por estilo y longitud.

Referencia del diario :

Vahe Tshitoyan, John Dagdelen, Leigh Weston, Alexander Dunn, Ziqin Rong, Olga Kononova, Kristin A. Persson, Gerbrand Ceder, Anubhav Jain. las incrustaciones de palabras sin supervisión capturan el conocimiento latente de la literatura de ciencia de materiales . Naturaleza , 2019; 571 7763: 95 DOI: 10.1038 / s41586-019-1335-8

Cita esta página :

DOE / Lawrence Berkeley National Laboratory. "Con poca capacitación, los algoritmos de aprendizaje automático pueden descubrir conocimiento científico oculto". ScienceDaily. ScienceDaily, 3 de julio de 2019. .

DOE / Laboratorio Nacional Lawrence Berkeley. 2019, 3 de julio. Con poca capacitación, los algoritmos de aprendizaje automático pueden descubrir conocimiento científico oculto. ScienceDaily . Recuperado el 24 de julio de 2020 de www.science-things.com/releases/2019/07/190703134059.htm

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Con poca capacitación, los algoritmos de aprendizaje automático pueden descubrir conocimiento científico oculto

1

2

3

4

5

1

2

3

4

5

Nueva investigación de la luz más antigua confirma la edad del universo

Las primeras imágenes del Orbitador Solar revelan 'fogatas' en el sol

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Prueba de sangre innovadora detecta el resultado positivo de COVID-19 en 20 minutos

Platón tenía razón: la Tierra está hecha, en promedio, de cubos

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Nuevo modelo conecta la física de gotitas respiratorias con la propagación de Covid-19

prediciendo su personalidad a partir de los datos de su teléfono inteligente

El dispositivo atomtrónico podría sondear el límite entre los mundos cuánticos y cotidianos

Espectacular destello ultravioleta finalmente puede explicar cómo explotan las enanas blancas

Primera imagen de un sistema de varios planetas alrededor de una estrella similar al Sol capturada por el telescopio ESO

Nuevas estructuras de campo magnético cósmico descubiertas en Galaxy NGC 4217

Los investigadores desarrollan un método para predecir eventos sin precedentes

¿Es un pájaro, un avión? No es Superman, sino un Dron de aleteo

Los hologramas ayudan a los médicos durante el procedimiento cardíaco

Estimuladores espinales reutilizados para restaurar el tacto en la extremidad perdida

El brazalete 3D con detección de manos señala el futuro de la tecnología portátil

Las poderosas manos similares a las de los humanos crean interacciones humano-robóticas más seguras