Con las primeras grandes multas por infringir las regulaciones del Reglamento General de Protección de Datos de la UE GDPR y el gobierno del Reino Unido a punto de revisar las pautas de GDPR, los investigadores han demostrado cómo incluso los conjuntos de datos anónimos se remontan a personas que usan el aprendizaje automático.
Los investigadores dicen que su artículo, publicado hoy en Comunicaciones de la naturaleza , demuestra que permitir el uso de datos, por ejemplo, para entrenar algoritmos de IA, al tiempo que se preserva la privacidad de las personas, requiere mucho más que simplemente agregar ruido, muestrear conjuntos de datos y otras técnicas de desidentificación.
También han publicado una herramienta de demostración que permite a las personas comprender qué tan probable es que se rastreen, incluso si el conjunto de datos en el que se encuentran es anónimo y solo se comparte una pequeña fracción de él.
Dicen que sus hallazgos deberían ser una llamada de atención para los encargados de formular políticas sobre la necesidad de ajustar las reglas para lo que constituye información verdaderamente anónima.
Las empresas y los gobiernos recopilan y usan nuestros datos personales de manera rutinaria. Nuestros datos y la forma en que se usan están protegidos por leyes relevantes como GDPR o la Ley de Privacidad del Consumidor de California CCPA de los Estados Unidos.
Los datos se 'muestrean' y se anonimizan, lo que incluye quitar los datos de características de identificación como nombres y direcciones de correo electrónico, de modo que los individuos no puedan, en teoría, ser identificados. Después de este proceso, los datos ya no están sujetos a las regulaciones de protección de datos, por lo quese puede usar y vender libremente a terceros, como compañías de publicidad y corredores de datos.
La nueva investigación muestra que una vez comprados, los datos a menudo se pueden aplicar ingeniería inversa mediante el aprendizaje automático para volver a identificar a las personas, a pesar de las técnicas de anonimización.
Esto podría exponer información confidencial sobre individuos identificados personalmente y permitir a los compradores crear perfiles personales de individuos cada vez más completos.
La investigación demuestra por primera vez con qué facilidad y precisión se puede hacer esto, incluso con conjuntos de datos incompletos.
En la investigación, el 99.98 por ciento de los estadounidenses fueron re-identificados correctamente en cualquier conjunto de datos 'anonimizados' disponibles al usar solo 15 características, incluyendo edad, sexo y estado civil.
El primer autor, el Dr. Luc Rocher, de UCLouvain, dijo: "Si bien puede haber muchas personas de treinta y tantos años, hombres y que viven en la ciudad de Nueva York, muchos menos nacieron el 5 de enero, están manejando un rojocoche deportivo, y convivir con dos niños ambas niñas y un perro "
Para demostrar esto, los investigadores desarrollaron un modelo de aprendizaje automático para evaluar la probabilidad de que las características de un individuo sean lo suficientemente precisas como para describir a una sola persona en una población de miles de millones.
También desarrollaron una herramienta en línea, que no guarda datos y es solo para fines de demostración, para ayudar a las personas a ver qué características los hacen únicos en los conjuntos de datos.
La herramienta primero le pide que coloque en la primera parte de su publicación Reino Unido o código postal EE. UU., Género y fecha de nacimiento, antes de darles una probabilidad de que su perfil pueda volver a identificarse en cualquier conjunto de datos anónimo.
Luego le pregunta su estado civil, número de vehículos, estado de la casa y estado laboral, antes de volver a calcular. Al agregar más características, la probabilidad de que una coincidencia sea correcta aumenta dramáticamente.
El autor principal, el Dr. Yves-Alexandre de Montjoye, del Departamento de Computación de Imperial y el Instituto de Ciencia de Datos, dijo: "Esta es una información bastante estándar para que las empresas la soliciten. Aunque están sujetos a las pautas de GDPR, son libres de venderlos datos a cualquier persona una vez que se anonimizan. Nuestra investigación muestra con qué facilidad, y con qué precisión, se puede rastrear a las personas una vez que esto sucede.
Añadió: "Las empresas y los gobiernos han minimizado el riesgo de reidentificación argumentando que los conjuntos de datos que venden siempre están incompletos".
"Nuestros hallazgos contradicen esto y demuestran que un atacante podría estimar de manera fácil y precisa la probabilidad de que el registro que encontraron pertenezca a la persona que están buscando"
La reidentificación de datos anónimos es cómo los periodistas expusieron las declaraciones de impuestos de Donald Trump de 1985-94 en mayo de 2019.
El coautor Dr. Julien Hendrickx de UCLouvain dijo: "A menudo estamos seguros de que la anonimización mantendrá nuestra información personal segura. Nuestro documento muestra que la desidentificación no está lo suficientemente cerca como para proteger la privacidad de los datos de las personas".
Los investigadores dicen que los formuladores de políticas deben hacer más para proteger a las personas de tales ataques, lo que podría tener serias ramificaciones para las carreras, así como para las vidas personales y financieras.
El Dr. Hendrickx agregó: "Es esencial que los estándares de anonimización sean sólidos y den cuenta de nuevas amenazas como la que se muestra en este documento".
El Dr. de Montjoye dijo: "El objetivo de la anonimización es para que podamos utilizar los datos en beneficio de la sociedad. Esto es extremadamente importante, pero no debe y no debe suceder a expensas de la privacidad de las personas".
Fuente de la historia :
Materiales proporcionado por Imperial College de Londres . Original escrito por Caroline Brogan. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :