La tecnología está dando pasos agigantados, y con ella, la información con la que la sociedad opera a diario. Sin embargo, el volumen de datos necesita ser organizado, analizado y cruzado para predecir ciertos patrones. Esta es una de las principales funciones de lo quese conoce como 'Big Data', la bola de cristal del siglo XXI capaz de predecir la respuesta a un tratamiento médico específico, el funcionamiento de un edificio inteligente e incluso el comportamiento del Sol en función de ciertas variables.
El investigador del grupo de investigación KIDS del Departamento de Informática y Análisis Numérico de la Universidad de Córdoba pudo mejorar los modelos que predicen varias variables simultáneamente en función del mismo conjunto de variables de entrada, reduciendo así el tamaño de los datos necesarios para el pronósticopara ser exactos. Un ejemplo de esto es un método que predice varios parámetros relacionados con la calidad del suelo en función de un conjunto de variables como los cultivos plantados, la labranza y el uso de pesticidas.
"Cuando se trata de un gran volumen de datos, hay dos soluciones. Aumenta el rendimiento de la computadora, que es muy costoso, o reduce la cantidad de información necesaria para que el proceso se realice correctamente", dice el investigador SebastianVentura, uno de los autores del artículo de investigación.
Al construir un modelo predictivo, hay dos cuestiones que deben abordarse: la cantidad de variables que entran en juego y la cantidad de ejemplos ingresados en el sistema para obtener los resultados más confiables. Con la idea de que menos es más, elEl estudio ha sido capaz de reducir el número de ejemplos, eliminando aquellos que son redundantes o "ruidosos" y que, por lo tanto, no aportan ninguna información útil para la creación de un mejor modelo predictivo.
Como señala Oscar Reyes, autor principal de la investigación, "hemos desarrollado una técnica que puede decir qué conjunto de ejemplos necesita para que el pronóstico no solo sea confiable sino que incluso podría ser mejor". En algunas bases de datos,de los 18 que se analizaron, pudieron reducir la cantidad de información en un 80% sin afectar el rendimiento predictivo, lo que significa que se utilizó menos de la mitad de los datos originales. Todo esto, dice Reyes, "significa ahorrar energía y dinero enla construcción de un modelo, ya que se requiere menos potencia informática ". Además, también significa ahorrar tiempo, lo cual es interesante para aplicaciones que funcionan en tiempo real, ya que" no tiene sentido que un modelo demore mediohora para correr si necesita una predicción cada cinco minutos "
Como señalaron los autores de la investigación, estos sistemas que predicen varias variables simultáneamente que podrían estar relacionadas entre sí, basadas en varias variables, conocidas como modelos de regresión de múltiples resultados, están ganando una importancia más notable debido ala amplia gama de aplicaciones que "podrían analizarse bajo este paradigma de aprendizaje automático", como por ejemplo las relacionadas con la salud, la calidad del agua, los sistemas de refrigeración para edificios y los estudios ambientales.
Fuente de la historia :
Materiales proporcionados por Universidad de Córdoba . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cite esta página :