Claro, las computadoras se pueden usar para jugar ajedrez a nivel de gran maestro chess_computer, pero ¿pueden hacer descubrimientos científicos? Investigadores del Laboratorio Nacional Lawrence Berkeley Berkeley Lab del Departamento de Energía de EE. UU. Han demostrado que un algoritmo sin capacitación en materialesla ciencia puede escanear el texto de millones de artículos y descubrir nuevos conocimientos científicos.
Un equipo dirigido por Anubhav Jain, científico de la División de Almacenamiento de Energía y Recursos Distribuidos de Berkeley Lab, recolectó 3,3 millones de resúmenes de artículos publicados sobre ciencia de materiales y los introdujo en un algoritmo llamado Word2vec. Al analizar las relaciones entre palabras, el algoritmo pudo predecirdescubrimientos de nuevos materiales termoeléctricos con años de anticipación y sugieren materiales aún desconocidos como candidatos para materiales termoeléctricos.
"Sin decirle nada sobre ciencia de materiales, aprendió conceptos como la tabla periódica y la estructura cristalina de los metales", dijo Jain. "Eso insinuó el potencial de la técnica. Pero probablemente lo más interesante que descubrimos es,puede usar este algoritmo para abordar las brechas en la investigación de materiales, cosas que las personas deberían estudiar pero que no han estudiado hasta ahora "
Los hallazgos fueron publicados el 3 de julio en la revista Naturaleza . El autor principal del estudio, "Las incrustaciones de palabras sin supervisión capturan el conocimiento latente de la literatura de ciencia de materiales", es Vahe Tshitoyan, un becario postdoctoral de Berkeley Lab que ahora trabaja en Google. Junto con Jain, los científicos de Berkeley Lab Kristin Persson y Gerbrand Ceder ayudarondirigir el estudio
"El documento establece que la extracción de textos de la literatura científica puede descubrir el conocimiento oculto, y que la extracción basada en texto puro puede establecer el conocimiento científico básico", dijo Ceder, quien también tiene una cita en el Departamento de Ciencia e Ingeniería de Materiales de UC Berkeley.
Tshitoyan dijo que el proyecto fue motivado por la dificultad de dar sentido a la abrumadora cantidad de estudios publicados. "En cada campo de investigación hay 100 años de literatura de investigación pasada, y cada semana salen docenas de estudios más", dijo. "Un investigadorpuede acceder solo a una fracción de eso. Pensamos, ¿puede el aprendizaje automático hacer algo para hacer uso de todo este conocimiento colectivo de manera no supervisada, sin necesidad de la orientación de investigadores humanos? "
'Rey - reina + hombre =?'
El equipo recolectó los 3.3 millones de resúmenes de artículos publicados en más de 1,000 revistas entre 1922 y 2018. Word2vec tomó cada una de las aproximadamente 500,000 palabras distintas en esos resúmenes y las convirtió en un vector de 200 dimensiones, o una matriz de 200 números.
"Lo importante no es cada número, sino usar los números para ver cómo se relacionan las palabras entre sí", dijo Jain, quien lidera un grupo que trabaja en el descubrimiento y diseño de nuevos materiales para aplicaciones de energía utilizando una combinación de teoría, computacióny minería de datos ". Por ejemplo, puede restar vectores usando matemática de vectores estándar. Otros investigadores han demostrado que si entrena el algoritmo en fuentes de texto no científicas y toma el vector que resulta de 'rey menos reina', obtendrá el mismo resultado que'hombre menos mujer'. Resuelve la relación sin que le digas nada ".
De manera similar, cuando se capacitó en el texto de ciencia de materiales, el algoritmo pudo aprender el significado de términos y conceptos científicos, como la estructura cristalina de los metales basándose simplemente en las posiciones de las palabras en los resúmenes y su coincidencia con otras palabrasPor ejemplo, así como podría resolver la ecuación "rey - reina + hombre", podría descubrir que para la ecuación "ferromagnético - NiFe + IrMn" la respuesta sería "antiferromagnética".
Word2vec incluso pudo aprender las relaciones entre los elementos en la tabla periódica cuando el vector para cada elemento químico se proyectó en dos dimensiones.
predicción de descubrimientos con años de anticipación
Entonces, si Word2vec es tan inteligente, ¿podría predecir materiales termoeléctricos nuevos? Un buen material termoeléctrico puede convertir eficientemente el calor en electricidad y está hecho de materiales que son seguros, abundantes y fáciles de producir.
El equipo de Berkeley Lab tomó los mejores candidatos termoeléctricos sugeridos por el algoritmo, que clasificó cada compuesto por la similitud de su vector de palabras con el de la palabra "termoeléctrico". Luego realizaron cálculos para verificar las predicciones del algoritmo.
De las 10 predicciones principales, encontraron que todos tenían factores de potencia calculados ligeramente más altos que el promedio de las termoeléctricas conocidas; los tres principales candidatos tenían factores de potencia por encima del percentil 95 de las termoeléctricas conocidas.
Luego probaron si el algoritmo podía realizar experimentos "en el pasado" dándole resúmenes solo hasta, por ejemplo, el año 2000. Una vez más, de las principales predicciones, un número significativo apareció en estudios posteriores, cuatro veces másque si los materiales hubieran sido elegidos al azar. Por ejemplo, tres de las cinco predicciones principales entrenadas con datos hasta el año 2008 se han descubierto y las dos restantes contienen elementos raros o tóxicos
Los resultados fueron sorprendentes. "Honestamente, no esperaba que el algoritmo fuera tan predictivo de resultados futuros", dijo Jain. "Pensé que tal vez el algoritmo podría ser descriptivo de lo que la gente había hecho antes, pero no llegar a estosdiferentes conexiones. Me sorprendí bastante cuando vi no solo las predicciones sino también el razonamiento detrás de las predicciones, cosas como la estructura de medio Heusler, que es una estructura de cristal realmente caliente para la termoeléctrica en estos días ".
Agregó: "Este estudio muestra que si este algoritmo estuviera en su lugar antes, algunos materiales podrían haberse descubierto con años de anticipación". Junto con el estudio, los investigadores están lanzando los 50 principales materiales termoeléctricos predichos por el algoritmo.También publicaremos las incrustaciones de palabras necesarias para que las personas hagan sus propias aplicaciones si quieren buscar, por ejemplo, un mejor material aislante topológico.
A continuación, Jain dijo que el equipo está trabajando en un motor de búsqueda más inteligente y potente, lo que permite a los investigadores buscar resúmenes de una manera más útil.
El estudio fue financiado por el Toyota Research Institute. Otros coautores del estudio son los investigadores de Berkeley Lab, John Dagdelen, Leigh Weston, Alexander Dunn y Ziqin Rong, y la investigadora de UC Berkeley, Olga Kononova.
Fuente de la historia :
Materiales proporcionados por DOE / Laboratorio Nacional Lawrence Berkeley . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :