La promesa de los grandes datos radica en la capacidad de los investigadores de extraer conjuntos de datos masivos para obtener información que pueda salvar vidas, mejorar los servicios e informar nuestra comprensión del mundo.
Estos datos pueden generarse navegando por la web, interactuando con dispositivos médicos o pasando sensores. Algunos datos pueden ser triviales, pero en muchos casos, los datos son profundamente personales. Incluso pueden influir en nuestras primas de seguro o en el precio que pagamos por unproducto en línea.
Al planificar un estudio, los científicos de datos deben equilibrar su deseo de descubrir nuevos conocimientos con la privacidad de las personas a quienes representan los datos.
"La ciencia de comprender el comportamiento humano, la salud y las interacciones se está transformando por la capacidad de los investigadores para recopilar, analizar y compartir datos sobre individuos a gran escala", escribió un equipo de investigadores de la Universidad de Harvard en un artículo de julio de 2014, "Integrando enfoques de privacidad en todo el ciclo de vida de la investigación".
Sin embargo, el documento continuó, "un desafío importante para realizar todo el potencial de dicha ciencia de datos es garantizar la privacidad de los sujetos humanos".
Inicialmente, los investigadores creían que anonimizar los datos, borrando los nombres y reemplazándolos con identificadores arbitrarios, era suficiente para proteger las identidades y la información personal de aquellos que habían acordado a sabiendas o sin saberlo aportar información. Sin embargo, en un pozoestudio conocido publicado en 2000, Latanya Sweeney dirigió un equipo que descubrió las identidades de los pacientes, incluido el entonces gobernador de Massachusetts William Weld, al correlacionar datos anonimizados con otros datos disponibles públicamente.
En un caso más reciente, los investigadores Arvind Narayanan y Vitaly Shmatikov, de la Universidad de Texas en Austin, anonimizaron parcialmente un conjunto de datos de Netflix que contiene medio millón de reseñas de películas.Los investigadores demostraron que los atacantes podrían identificar usuarios conocidos, comprometiendo sus datos.
A medida que surgen casos de reidentificación y anonimización, los investigadores están explorando enfoques nuevos y más sólidos para la protección de la privacidad.
Salil Vadhan, profesor de ciencias de la computación en la Universidad de Harvard y ex director del Centro de Investigación en Computación y Sociedad, se encuentra entre los investigadores que exploran un enfoque conocido como "privacidad diferencial" que permite investigar datos sin revelar información confidencial sobreparticipantes.Inicialmente presentados por Cynthia Dwork, Frank McSherry, Kobbi Nissim y Adam Smith, entre otros, a mediados de la década de 2000, los investigadores continúan desarrollando el concepto hoy para aplicarlo a problemas del mundo real.
Como el investigador principal de la National Science Foundation NSF apoyó "Herramientas de privacidad para compartir datos de investigación", Vadhan y su equipo en Harvard están desarrollando un nuevo sistema informático que actúa como un curador confiable y protector de identidad dedatos confidenciales y valiosos. La Fundación Sloan y Google, Inc. están brindando al proyecto apoyo adicional.
El sistema funciona así: los investigadores hacen preguntas al curador virtual basándose en los datos, por ejemplo, "¿Qué porcentaje de personas que tienen sangre tipo B también son VIH positivas?" La computadora devuelve una respuesta que es aproximadamente precisa, peroeso incluye suficiente "ruido" que no importa cuánto lo intente alguien, no puede encontrar nada específico para ninguna persona en la base de datos.
"Incluso si un adversario trata de atacar a un individuo en el conjunto de datos, el adversario no debería ser capaz de distinguir la diferencia entre el mundo tal como es y uno donde los datos de ese individuo se eliminan por completo del conjunto de datos", dijo Vadhan ".La aleatorización resulta ser muy poderosa "
Si el sistema se implementa simplemente, el nivel de privacidad se degrada con múltiples consultas, por lo que uno podría seguir haciendo preguntas hasta el punto en que sea posible identificar a las personas en la base de datos. Sin embargo, al aumentar de forma juiciosa la cantidad de ruido y correlacionarla cuidadosamenteconsultas, el sistema puede mantener la protección de la privacidad, incluso ante un gran número de preguntas.
La privacidad diferencial se ha convertido en un tema candente en los últimos años. Un artículo de la revista Science 2015 se refirió a la privacidad diferencial como una de las soluciones técnicas más prometedoras para proteger los datos de los estudiantes matriculados en cursos en línea masivos abiertos MOOC. Proyectos que incluyen OnTheMap,utilizado para los datos del censo de EE. UU., RAPPOR, un nuevo producto de Google, aplica formas de privacidad diferencial para compartir datos.
Hablando en el NSF a principios de 2015, Vadhan explicó cómo las ideas de la informática teórica inspiraron el desarrollo de algoritmos de privacidad diferencial, que ahora están ingresando al ecosistema de investigación. El Instituto de Ciencias Sociales Cuantitativas de Harvard está planeando usar técnicas de privacidad diferencial para permitirmás investigadores para compartir, retener el control y acreditar sus contribuciones de datos como parte de Dataverse Network, un proyecto que garantiza la preservación a largo plazo de conjuntos de datos críticos.
Potencial científico desbloqueado
Dataverse es el repositorio de datos de investigación de propósito general público más grande del mundo. Sin embargo, la comunidad científica podría acceder a muchos más conjuntos de datos que actualmente no están disponibles públicamente, si se cumple la promesa de privacidad diferencial, según Gary King, Albert J. WeatherheadIII Profesor de la Universidad de Harvard y Director del Instituto de Ciencias Sociales Cuantitativas.
"Es por eso que estamos tan emocionados de trabajar en este proyecto", dijo King. "Las ciencias sociales finalmente están llegando al punto en la historia humana donde tenemos suficiente información para pasar de estudiar problemas a resolverlos realmente.avanzamos en el problema de privacidad, podremos desbloquear cada vez más el potencial de esta nueva información ".
La herramienta de privacidad diferencial que Vadhan y su equipo están desarrollando permitirá la inclusión de conjuntos de datos que fueron retenidos previamente porque la información era demasiado sensible y la privacidad era incierta.
"Actualmente, Dataverse no está equipado para manejar conjuntos de datos con problemas de privacidad asociados con ellos", dijo Vadhan. "Si un investigador dice que un conjunto de datos tiene información personal identificable, no está disponible para descargar".
La privacidad diferencial no funciona para todo tipo de preguntas de investigación. Vadhan señaló que la regresión, el aprendizaje automático y el análisis de redes sociales son áreas en las que hay resultados teóricos muy prometedores, pero quedan desafíos para hacer que la privacidad diferencial funcione bien en la práctica.
La privacidad diferencial tampoco ayuda cuando se busca la identidad de un individuo específico: como en el caso de la identificación de terroristas o una coincidencia para un donante de riñón. Pero ese es el punto: cada individuo debe estar "oculto" incluso cuandocontribuyen al bien mayor de cualquier estudio dado.
"Este proyecto podría mejorar significativamente el estado del arte en privacidad", dijo Nina Amla, directora de programa en NSF que supervisa el premio. "Adoptan un enfoque altamente interdisciplinario que reúne una profunda experiencia en ciencias de la computación,ciencias sociales, estadística y derecho "
Según Vadhan, la privacidad diferencial tiene conexiones ricas con otras partes de la teoría de la informática y las matemáticas.
"Resultó no ser solo una isla en sí misma, sino estar profundamente entrelazada con otras preguntas teóricas", dijo Vadhan. "Y estamos viendo el interés de muchas comunidades, como la ley de privacidad, la informática médica y las ciencias sociales,para ver si la privacidad diferencial puede abordar los problemas de privacidad en los que piensan "
El equipo espera lanzar una versión preliminar de su herramienta para exploración pública y retroalimentación este otoño y ha publicado su trabajo en el Anales de la Academia Americana de Ciencias Políticas y Sociales y presentará su investigación sobre privacidad diferencial en muchas conferencias importantes, incluido el próximo Simposio IEEE 2015 sobre Fundamentos de Ciencias de la Computación.
"Nuestro objetivo en el proyecto es permitir el intercambio más amplio de datos mientras se protege la privacidad", dijo Vadhan, "y facilitar el intercambio para un investigador no experto sin experiencia en ciencias de la computación, derecho o estadísticas".
Fuente de la historia :
Materiales proporcionado por Fundación Nacional de Ciencias . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :