Imagínese peinando entre miles de fotos policiales buscando desesperadamente una coincidencia. Si el tiempo es esencial, cuanto más rápido pueda hacerlo, mejor. Investigadores de la Agencia de Ciencia, Tecnología e Investigación A * STAR, Singapur, han desarrolladoun marco que podría ayudar a las computadoras a aprender cómo procesar e identificar estas imágenes de manera más rápida y precisa.
Peng Xi del Instituto A * STAR para Infocomm Research señala que el marco puede utilizarse para numerosas aplicaciones, incluida la segmentación de imágenes, la segmentación de movimiento, la agrupación de datos, la identificación de sistemas híbridos y la representación de imágenes.
Una forma convencional en que las computadoras procesan datos se llama aprendizaje de representación. Esto implica identificar una característica que permita al programa extraer rápidamente información relevante del conjunto de datos y clasificarla, un poco como un acceso directo. El aprendizaje supervisado y no supervisado son dos de losPrincipales métodos utilizados en el aprendizaje de representación: a diferencia del aprendizaje supervisado, que se basa en el etiquetado costoso de los datos antes del procesamiento, el aprendizaje no supervisado implica agrupar o agrupar datos de manera similar a nuestros cerebros, explica Peng.
La agrupación del subespacio es una forma de aprendizaje no supervisado que busca ajustar cada punto de datos en un subespacio de baja dimensión para encontrar una simplicidad intrínseca que haga que los datos complejos y del mundo real sean manejables. Los métodos de agrupación del subespacio existentes luchan por manejar 'fuera de'muestra 'o puntos de datos desconocidos y los grandes conjuntos de datos que son comunes hoy en día.
"Uno de los desafíos de la era de los grandes datos es organizar los datos fuera de la muestra utilizando un modelo de aprendizaje automático basado en datos de observación 'en muestra' o conocidos," explica Peng quien, con sus colegas,ha propuesto tres métodos como parte de un marco unificado para abordar este problema. Estos métodos difieren en la forma en que implementan el aprendizaje de representación; uno se centra en la dispersión, mientras que los otros dos se centran en los efectos de bajo rango y agrupación ". Al resolver los datos a gran escalay problemas de agrupación fuera de la muestra, nuestro método hace posible la agrupación de grandes datos y el aprendizaje en línea ", señala Peng.
El marco ideado por el equipo divide los datos de entrada en datos 'dentro de la muestra' o 'fuera de la muestra' durante un paso inicial de 'muestreo'. Luego, los datos dentro de la muestra se agrupan en subespacios durante el 'agrupamiento''paso, después del cual los datos fuera de la muestra se asignan al subespacio más cercano. Estos puntos se designan como miembros del clúster.
El equipo probó su enfoque en una gama de conjuntos de datos que incluyen diferentes tipos de información, desde imágenes faciales hasta texto, tanto manuscritas como digitales, manos de póker y cobertura forestal. Descubrieron que sus métodos superaron los algoritmos existentes y redujeron con éxito el cálculo computacionalcomplejidad y, por lo tanto, tiempo de ejecución de la tarea mientras se garantiza la calidad del clúster.
Fuente de la historia :
Materiales proporcionado por Agencia de Ciencia, Tecnología e Investigación A * STAR . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :