Una nueva investigación desafía una concepción popular de cómo los algoritmos de aprendizaje automático "piensan" sobre ciertas tareas.
La concepción es más o menos así: debido a su capacidad para descartar información inútil, una clase de algoritmos de aprendizaje automático llamados redes neuronales profundas puede aprender conceptos generales a partir de datos en bruto, como identificar gatos en general después de encontrar decenas de miles de imágenes de diferentesgatos en diferentes situaciones. Se dice que esta capacidad aparentemente humana surge como un subproducto de la arquitectura en capas de las redes. Las primeras capas codifican la etiqueta "gato" junto con toda la información en bruto necesaria para la predicción. Las capas posteriores luego comprimen la información, comosi se trata de un cuello de botella. Los datos irrelevantes, como el color del pelaje del gato o el platillo de leche al lado, se olvidan, dejando solo características generales. La teoría de la información proporciona límites sobre cuán óptima es cada capa, en términos de cuán bienpuede equilibrar las demandas competitivas de compresión y predicción.
"Muchas veces cuando tienes una red neuronal y aprende a mapear caras a nombres, o imágenes a dígitos numéricos, o cosas sorprendentes como texto en francés a texto en inglés, tiene muchas capas ocultas intermedias a través de las cuales fluye la información", dice Artemy Kolchinsky, becario postdoctoral de SFI y autor principal del estudio." Entonces existe esta idea de larga data de que a medida que las entradas en bruto se transforman en estas representaciones intermedias, el sistema está intercambiando predicciones para la compresión y construyendo conceptos de nivel superior a través deeste cuello de botella de información "
Sin embargo, Kolchinsky y sus colaboradores Brendan Tracey SFI, MIT y Steven Van Kuyk Universidad de Wellington descubrieron una debilidad sorprendente cuando aplicaron esta explicación a problemas comunes de clasificación, donde cada entrada tiene una salida correcta por ejemplo, en la cualcada imagen puede ser de un gato o de un perro. En tales casos, encontraron que los clasificadores con muchas capas generalmente no renuncian a alguna predicción para mejorar la compresión. También encontraron que hay muchas representaciones "triviales" de las entradasque son, desde el punto de vista de la teoría de la información, óptimos en términos de su equilibrio entre predicción y compresión.
"Descubrimos que esta medida del cuello de botella de información no ve la compresión de la misma manera que usted o yo. Dada la opción, es tan feliz agrupar las 'copas de martini' con 'Labradors', como lo es agruparcon 'flautas de champán' ", explica Tracey." Esto significa que debemos seguir buscando medidas de compresión que coincidan mejor con nuestras nociones de compresión ".
Si bien la idea de comprimir entradas aún puede desempeñar un papel útil en el aprendizaje automático, esta investigación sugiere que no es suficiente para evaluar las representaciones internas utilizadas por diferentes algoritmos de aprendizaje automático.
Al mismo tiempo, Kolchinsky dice que el concepto de compensación entre compresión y predicción seguirá siendo válido para tareas menos deterministas, como predecir el clima a partir de un conjunto de datos ruidoso ". No estamos diciendo que el cuello de botella de información sea inútil para supervisados[aprendizaje automático], "recalca Kolchinsky." Lo que estamos mostrando aquí es que se comporta de manera contra intuitiva en muchos problemas comunes de aprendizaje automático, y eso es algo que las personas en la comunidad de aprendizaje automático deberían tener en cuenta ".
El documento ha sido aceptado en la Conferencia Internacional sobre Representaciones de Aprendizaje de 2019 ICLR 2019.
Fuente de la historia :
Materiales proporcionados por Instituto Santa Fe . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :