Los estudios de asociación de todo el genoma, que intentan encontrar correlaciones entre variaciones genéticas particulares y diagnósticos de enfermedades, son un elemento básico de la investigación médica moderna.
Pero debido a que dependen de bases de datos que contienen el historial médico de las personas, conllevan riesgos de privacidad. Un atacante armado con información genética sobre alguien, por ejemplo, de una muestra de piel, podría consultar una base de datos para los datos médicos de esa persona. Incluso sinla muestra de piel, un atacante al que se le permitió hacer consultas repetidas, cada una informada por los resultados de la última, podría, en principio, extraer datos privados de la base de datos.
en el último número de la revista Sistemas celulares , investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y la Universidad de Indiana en Bloomington describen un nuevo sistema que permite consultas de bases de datos para estudios de asociación de todo el genoma, pero reduce las posibilidades de comprometer la privacidad a casi cero.
Lo hace al agregar un poco de información errónea a los resultados de la consulta que devuelve. Eso significa que los investigadores que usan el sistema podrían comenzar a buscar objetivos de medicamentos con datos ligeramente inexactos. Pero en la mayoría de los casos, las respuestas devueltas por el sistema seránlo suficientemente cerca para ser útil.
Y una base de datos en línea de búsqueda instantánea de datos genéticos, incluso una que devolvió información ligeramente inexacta, podría hacer que la investigación biomédica sea mucho más eficiente.
"En este momento, lo que hace mucha gente, incluido el NIH, durante mucho tiempo, es tomar todos sus datos, incluidos, a menudo, datos agregados, las estadísticas que estamos interesados en proteger, y ponerlos enrepositorios ", dice Sean Simmons, un postdoctorado en matemáticas del MIT y primer autor del nuevo artículo." Y hay que pasar por un proceso lento para obtener acceso a ellos ".
Ese proceso implica una gran cantidad de papeleo, incluidas explicaciones de cómo la investigación habilitada por los repositorios contribuirá al bien público, lo que requiere una revisión cuidadosa. "Hemos esperado meses para tener acceso a varios repositorios", dice Bonnie Berger,el Profesor Simons de Matemáticas en el MIT, quien fue el asesor de tesis de Simmons y es el autor correspondiente en el documento "Meses".
Trae el ruido
Los estudios de asociación de todo el genoma generalmente se basan en variaciones genéticas llamadas polimorfismos de un solo nucleótido, o SNP pronunciados "recortes". Un SNP es una variación de un nucleótido o "letra" de ADN, en una ubicación específica en el genoma.Se han identificado millones de SNP en la población humana, y ciertas combinaciones de SNP pueden servir como representantes de grandes extensiones de ADN que tienden a conservarse entre los individuos.
El nuevo sistema, que Berger y Simmons desarrollaron junto con Cenk Sahinalp, profesor de ciencias de la computación en la Universidad de Indiana, implementa una técnica llamada "privacidad diferencial", que ha sido un área importante de investigación criptográfica en los últimos años.las técnicas agregan un poco de ruido, o variación aleatoria, a los resultados de las búsquedas en la base de datos, para confundir algoritmos que buscarían extraer información privada de los resultados de varias búsquedas secuenciales personalizadas.
La cantidad de ruido requerida depende de la solidez de la garantía de privacidad, qué tan bajo desea establecer la probabilidad de que se filtre información privada, y el tipo y el volumen de datos. Cuantas más personas contengan datos una base de datos SNP, elmenos ruido necesita agregar el sistema; esencialmente, es más fácil perderse en una multitud. Pero cuanto más SNP registra el sistema, más flexibilidad tiene un atacante para construir búsquedas que comprometan la privacidad, lo que aumenta los requisitos de ruido.
Los investigadores consideraron dos tipos de consultas comunes. En una, el usuario solicita la correlación estadística entre un SNP particular y una enfermedad en particular. En la otra, el usuario solicita una lista de los SNP en una región particular del genomaque se correlacionan mejor con una enfermedad en particular.
En el primer caso, el sistema devuelve una medida de correlación ampliamente utilizada llamada valor p. Aquí, el valor p sería modificado, aumentado o reducido por algún factor aleatorio, para garantizar la privacidad.
En el segundo caso, el sistema tiene alguna posibilidad de devolver no los SNP de mayor puntaje en una región determinada, sino varios de los SNP de mayor puntaje y tal vez uno o dos de menor puntaje. Para calcular la probabilidad de que un determinadoSNP entrará en los resultados, los investigadores usan una medida llamada distancia de Hamming, que indica qué tan lejos está un SNP de menor puntaje del que está reemplazando, lo que resulta en resultados más útiles que confiar en el p-valor. Encontrar un algoritmo eficiente para calcular las distancias de Hamming sobre la marcha es una de las principales innovaciones del sistema.
Eliminando diferencias
El otro es que el sistema corrige un problema común en la genética de poblaciones llamado estratificación de la población. "El ejemplo estándar es que un SNP particular está estrechamente relacionado con la intolerancia a la lactosa", explica Simmons. "Digamos que las personas en el este de Asia sones más probable que sea intolerante a la lactosa que alguien en, por ejemplo, el norte de Europa. Pero también los europeos del norte tienden a ser más altos que las personas del este de Asia. Un método ingenuo sugeriría que este SNP en particular tiene un efecto en la altura, pero en realidad es una correlación falsa"
El algoritmo de los investigadores supone que las mayores variaciones en una población dada son el resultado de diferencias entre subpoblaciones, filtra esas diferencias y afina las que quedan.
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Larry Hardesty. Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :