Noticias de ciencia

de organizaciones de investigación

El sistema ayuda a proteger la privacidad en bases de datos genómicas

El sistema ayuda a garantizar que las bases de datos utilizadas en investigaciones médicas no filtren la información personal de los pacientes

Fecha :: 9 de agosto de 2016
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: En un nuevo estudio, los investigadores describen un nuevo sistema que permite consultas en la base de datos para estudios de asociación de todo el genoma pero reduce las posibilidades de comprometer la privacidad a casi cero.
Compartir :

HISTORIA COMPLETA

Los estudios de asociación de todo el genoma, que intentan encontrar correlaciones entre variaciones genéticas particulares y diagnósticos de enfermedades, son un elemento básico de la investigación médica moderna.

anuncio

Pero debido a que dependen de bases de datos que contienen el historial médico de las personas, conllevan riesgos de privacidad. Un atacante armado con información genética sobre alguien, por ejemplo, de una muestra de piel, podría consultar una base de datos para los datos médicos de esa persona. Incluso sinla muestra de piel, un atacante al que se le permitió hacer consultas repetidas, cada una informada por los resultados de la última, podría, en principio, extraer datos privados de la base de datos.

en el último número de la revista Sistemas celulares , investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y la Universidad de Indiana en Bloomington describen un nuevo sistema que permite consultas de bases de datos para estudios de asociación de todo el genoma, pero reduce las posibilidades de comprometer la privacidad a casi cero.

Lo hace al agregar un poco de información errónea a los resultados de la consulta que devuelve. Eso significa que los investigadores que usan el sistema podrían comenzar a buscar objetivos de medicamentos con datos ligeramente inexactos. Pero en la mayoría de los casos, las respuestas devueltas por el sistema seránlo suficientemente cerca para ser útil.

Y una base de datos en línea de búsqueda instantánea de datos genéticos, incluso una que devolvió información ligeramente inexacta, podría hacer que la investigación biomédica sea mucho más eficiente.

"En este momento, lo que hace mucha gente, incluido el NIH, durante mucho tiempo, es tomar todos sus datos, incluidos, a menudo, datos agregados, las estadísticas que estamos interesados en proteger, y ponerlos enrepositorios ", dice Sean Simmons, un postdoctorado en matemáticas del MIT y primer autor del nuevo artículo." Y hay que pasar por un proceso lento para obtener acceso a ellos ".

Ese proceso implica una gran cantidad de papeleo, incluidas explicaciones de cómo la investigación habilitada por los repositorios contribuirá al bien público, lo que requiere una revisión cuidadosa. "Hemos esperado meses para tener acceso a varios repositorios", dice Bonnie Berger,el Profesor Simons de Matemáticas en el MIT, quien fue el asesor de tesis de Simmons y es el autor correspondiente en el documento "Meses".

anuncio

Trae el ruido

Los estudios de asociación de todo el genoma generalmente se basan en variaciones genéticas llamadas polimorfismos de un solo nucleótido, o SNP pronunciados "recortes". Un SNP es una variación de un nucleótido o "letra" de ADN, en una ubicación específica en el genoma.Se han identificado millones de SNP en la población humana, y ciertas combinaciones de SNP pueden servir como representantes de grandes extensiones de ADN que tienden a conservarse entre los individuos.

El nuevo sistema, que Berger y Simmons desarrollaron junto con Cenk Sahinalp, profesor de ciencias de la computación en la Universidad de Indiana, implementa una técnica llamada "privacidad diferencial", que ha sido un área importante de investigación criptográfica en los últimos años.las técnicas agregan un poco de ruido, o variación aleatoria, a los resultados de las búsquedas en la base de datos, para confundir algoritmos que buscarían extraer información privada de los resultados de varias búsquedas secuenciales personalizadas.

La cantidad de ruido requerida depende de la solidez de la garantía de privacidad, qué tan bajo desea establecer la probabilidad de que se filtre información privada, y el tipo y el volumen de datos. Cuantas más personas contengan datos una base de datos SNP, elmenos ruido necesita agregar el sistema; esencialmente, es más fácil perderse en una multitud. Pero cuanto más SNP registra el sistema, más flexibilidad tiene un atacante para construir búsquedas que comprometan la privacidad, lo que aumenta los requisitos de ruido.

Los investigadores consideraron dos tipos de consultas comunes. En una, el usuario solicita la correlación estadística entre un SNP particular y una enfermedad en particular. En la otra, el usuario solicita una lista de los SNP en una región particular del genomaque se correlacionan mejor con una enfermedad en particular.

anuncio

En el primer caso, el sistema devuelve una medida de correlación ampliamente utilizada llamada valor p. Aquí, el valor p sería modificado, aumentado o reducido por algún factor aleatorio, para garantizar la privacidad.

En el segundo caso, el sistema tiene alguna posibilidad de devolver no los SNP de mayor puntaje en una región determinada, sino varios de los SNP de mayor puntaje y tal vez uno o dos de menor puntaje. Para calcular la probabilidad de que un determinadoSNP entrará en los resultados, los investigadores usan una medida llamada distancia de Hamming, que indica qué tan lejos está un SNP de menor puntaje del que está reemplazando, lo que resulta en resultados más útiles que confiar en el p-valor. Encontrar un algoritmo eficiente para calcular las distancias de Hamming sobre la marcha es una de las principales innovaciones del sistema.

Eliminando diferencias

El otro es que el sistema corrige un problema común en la genética de poblaciones llamado estratificación de la población. "El ejemplo estándar es que un SNP particular está estrechamente relacionado con la intolerancia a la lactosa", explica Simmons. "Digamos que las personas en el este de Asia sones más probable que sea intolerante a la lactosa que alguien en, por ejemplo, el norte de Europa. Pero también los europeos del norte tienden a ser más altos que las personas del este de Asia. Un método ingenuo sugeriría que este SNP en particular tiene un efecto en la altura, pero en realidad es una correlación falsa"

El algoritmo de los investigadores supone que las mayores variaciones en una población dada son el resultado de diferencias entre subpoblaciones, filtra esas diferencias y afina las que quedan.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.

Referencia del diario :

Sean Simmons, Cenk Sahinalp, Bonnie Berger. Habilitación de GWAS para preservar la privacidad en poblaciones humanas heterogéneas . Sistemas celulares , 2016; 3 1: 54 DOI: 10.1016 / j.cels.2016.04.013

Cita esta página :

Instituto de Tecnología de Massachusetts. "El sistema ayuda a proteger la privacidad en las bases de datos genómicas: el sistema ayuda a garantizar que las bases de datos utilizadas en la investigación médica no filtren la información personal de los pacientes". ScienceDaily. ScienceDaily, 9 de agosto de 2016. .

Instituto de Tecnología de Massachusetts. 2016, 9 de agosto. El sistema ayuda a proteger la privacidad en las bases de datos genómicas: el sistema ayuda a garantizar que las bases de datos utilizadas en la investigación médica no filtren la información personal de los pacientes. ScienceDaily . Recuperado el 12 de junio de 2020 de www.science-things.com/releases/2016/08/160809145119.htm

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

El sistema ayuda a proteger la privacidad en bases de datos genómicas

El sistema ayuda a garantizar que las bases de datos utilizadas en investigaciones médicas no filtren la información personal de los pacientes

1

2

3

4

5

1

2

3

4

5

Bloqueos COVID-19 que afectan significativamente la calidad del aire global

La actividad humana amenaza la historia evolutiva de los vertebrados

Producción de hidrógeno solar: dividir el agua con UV ahora tiene una eficiencia cuántica de casi el 100%

Comportamientos y rasgos que influyen en el estado social, según los psicólogos evolutivos

Los polinizadores ayudan a un tercio de la producción mundial de cultivos alimentarios

El topiramato puede tener beneficios como un medicamento para bajar de peso

'¿Podría mi hijo tener autismo? Diez signos de posibles retrasos relacionados con el autismo en niños de 6 a 12 meses

Bajo nivel de Omega-3 podría explicar por qué algunos niños luchan con la lectura

Nueva herramienta convierte automáticamente las matemáticas en imágenes

¿Qué puede aprender el transporte marítimo de Brain Network Science?

El estrés agudo puede ralentizar la propagación de los miedos

¿Ansioso por hablar en público? Su altavoz inteligente podría ayudar

Niños engreídos: los niños de cuatro años con el mismo exceso de confianza que los banqueros que toman riesgos

La física que impulsa las recesiones económicas periódicas

Los nuevos algoritmos de aprendizaje automático ofrecen garantías de seguridad y equidad

Para las aulas universitarias, ¿son los robots de telepresencia la mejor opción para estar allí?

Nueva herramienta convierte automáticamente las matemáticas en imágenes

Corazones que tamborilean juntos golpean juntos