En la Tierra, en este momento, hay alrededor de 10 billones de gigabytes de datos digitales, y todos los días, los seres humanos producen correos electrónicos, fotos, tweets y otros archivos digitales que suman otros 2,5 millones de gigabytes de datos. Gran parte de estos datos se almacenanen enormes instalaciones conocidas como centros de datos de exabytes un exabyte equivale a mil millones de gigabytes, que pueden tener el tamaño de varios campos de fútbol y su construcción y mantenimiento pueden costar alrededor de mil millones de dólares.
Muchos científicos creen que una solución alternativa radica en la molécula que contiene nuestra información genética: el ADN, que evolucionó para almacenar cantidades masivas de información a una densidad muy alta. Una taza de café llena de ADN teóricamente podría almacenar todos los datos del mundo, diceMark Bathe, profesor de ingeniería biológica del MIT.
"Necesitamos nuevas soluciones para almacenar estas cantidades masivas de datos que el mundo está acumulando, especialmente los datos de archivo", dice Bathe, quien también es miembro asociado del Instituto Broad del MIT y Harvard. "El ADN es mil veces más densoque incluso la memoria flash, y otra propiedad que es interesante es que una vez que fabrica el polímero de ADN, no consume energía. Puede escribir el ADN y luego almacenarlo para siempre ".
Los científicos ya han demostrado que pueden codificar imágenes y páginas de texto como ADN. Sin embargo, también se necesitará una manera fácil de seleccionar el archivo deseado de una mezcla de muchas piezas de ADN. Bathe y sus colegas ahora han demostrado unaforma de hacerlo, encapsulando cada archivo de datos en una partícula de sílice de 6 micrómetros, que está etiquetada con secuencias cortas de ADN que revelan el contenido.
Con este enfoque, los investigadores demostraron que podían extraer con precisión imágenes individuales almacenadas como secuencias de ADN de un conjunto de 20 imágenes. Dada la cantidad de posibles etiquetas que podrían usarse, este enfoque podría escalar hasta 1020 archivos.
Bathe es el autor principal del estudio, que aparece hoy en Materiales naturales . Los autores principales del artículo son el postdoctorado senior del MIT James Banal, el ex investigador asociado del MIT Tyson Shepherd y el estudiante graduado del MIT Joseph Berleant.
almacenamiento estable
Los sistemas de almacenamiento digital codifican texto, fotos o cualquier otro tipo de información como una serie de 0 y 1. Esta misma información se puede codificar en el ADN utilizando los cuatro nucleótidos que componen el código genético: A, T, G yC. Por ejemplo, G y C podrían usarse para representar 0 mientras que A y T representan 1.
El ADN tiene varias otras características que lo hacen deseable como medio de almacenamiento: es extremadamente estable y es bastante fácil pero costoso de sintetizar y secuenciar. Además, debido a su alta densidad, cada nucleótido, equivalente a hastaa dos bits, es aproximadamente 1 nanómetro cúbico, un exabyte de datos almacenados como ADN podría caber en la palma de su mano.
Un obstáculo para este tipo de almacenamiento de datos es el costo de sintetizar cantidades tan grandes de ADN. Actualmente, escribir un petabyte de datos 1 millón de gigabytes costaría $ 1 billón. Para competir con la cinta magnética, que se usa a menudopara almacenar datos de archivo, Bathe estima que el costo de la síntesis de ADN debería reducirse en aproximadamente seis órdenes de magnitud. Bathe dice que anticipa que eso sucederá dentro de una década o dos, de manera similar a cómo ha disminuido el costo de almacenar información en unidades flashdramáticamente durante las últimas dos décadas.
Aparte del costo, el otro cuello de botella importante en el uso de ADN para almacenar datos es la dificultad para elegir el archivo que desea de todos los demás.
"Suponiendo que las tecnologías para escribir ADN lleguen a un punto en el que sea rentable escribir un exabyte o zettabyte de datos en el ADN, ¿entonces qué? Vas a tener una pila de ADN, que es un trillón de archivos,imágenes o películas y otras cosas, y necesitas encontrar la única imagen o película que estás buscando ", dice Bathe." Es como tratar de encontrar una aguja en un pajar ".
Actualmente, los archivos de ADN se recuperan convencionalmente mediante PCR reacción en cadena de la polimerasa. Cada archivo de datos de ADN incluye una secuencia que se une a un cebador de PCR en particular. Para extraer un archivo específico, ese cebador se agrega a la muestra para encontrar y amplificarla secuencia deseada. Sin embargo, un inconveniente de este enfoque es que puede haber diafonía entre el cebador y las secuencias de ADN fuera del objetivo, lo que hace que se extraigan archivos no deseados. Además, el proceso de recuperación de PCR requiere enzimas y termina consumiendo la mayor parte de la secuencia deseada.ADN que estaba en la piscina.
"Estás quemando el pajar para encontrar la aguja, porque el resto del ADN no se amplifica y básicamente lo estás tirando", dice Bathe.
Recuperación de archivos
Como enfoque alternativo, el equipo del MIT desarrolló una nueva técnica de recuperación que consiste en encapsular cada archivo de ADN en una pequeña partícula de sílice. Cada cápsula está etiquetada con "códigos de barras" de ADN monocatenario que corresponden al contenido del archivo. Para demostrarCon este enfoque de manera rentable, los investigadores codificaron 20 imágenes diferentes en trozos de ADN de aproximadamente 3.000 nucleótidos de largo, lo que equivale a unos 100 bytes también demostraron que las cápsulas podían caber en archivos de ADN de hasta un gigabyte de tamaño.
Cada archivo fue etiquetado con códigos de barras correspondientes a etiquetas como "gato" o "avión". Cuando los investigadores quieren extraer una imagen específica, extraen una muestra del ADN y agregan cebadores que corresponden a las etiquetas que estánbuscando, por ejemplo, "gato", "naranja" y "salvaje" para una imagen de un tigre, o "gato", "naranja" y "doméstico" para un gato doméstico.
Los cebadores están etiquetados con partículas fluorescentes o magnéticas, lo que facilita la extracción e identificación de coincidencias de la muestra. Esto permite eliminar la lima deseada y dejar el resto del ADN intacto para volver a almacenarlo.El proceso de recuperación permite que declaraciones de lógica booleana como "presidente Y siglo XVIII" generen a George Washington como resultado, similar a lo que se recupera con una búsqueda de imágenes de Google.
"En el estado actual de nuestra prueba de concepto, tenemos una tasa de búsqueda de 1 kilobyte por segundo. La tasa de búsqueda de nuestro sistema de archivos está determinada por el tamaño de los datos por cápsula, que actualmente está limitado por el costo prohibitivo deescribir incluso 100 megabytes de datos en el ADN y la cantidad de clasificadores que podemos usar en paralelo. Si la síntesis de ADN se vuelve lo suficientemente barata, podríamos maximizar el tamaño de los datos que podemos almacenar por archivo con nuestro enfoque ", dice Banal.
Para sus códigos de barras, los investigadores utilizaron secuencias de ADN monocatenario de una biblioteca de 100.000 secuencias, cada una de aproximadamente 25 nucleótidos de longitud, desarrollada por Stephen Elledge, profesor de genética y medicina en la Facultad de Medicina de Harvard. Si coloca dos de estas etiquetasen cada archivo, puede etiquetar de forma única 1010 10 mil millones archivos diferentes, y con cuatro etiquetas en cada uno, puede etiquetar 1020 archivos de forma única.
Bathe prevé que este tipo de encapsulación de ADN podría ser útil para almacenar datos "fríos", es decir, datos que se guardan en un archivo y a los que no se accede con mucha frecuencia. Su laboratorio está desarrollando una startup, Cache DNA, que ahora esdesarrollando tecnología para el almacenamiento a largo plazo de ADN, tanto para el almacenamiento de datos de ADN a largo plazo, como para muestras clínicas y otras muestras de ADN preexistentes a corto plazo.
"Si bien puede pasar un tiempo antes de que el ADN sea viable como medio de almacenamiento de datos, hoy en día ya existe una necesidad urgente de soluciones de almacenamiento masivo y de bajo costo para muestras preexistentes de ADN y ARN de pruebas Covid-19, secuenciación genómica humana,y otras áreas de la genómica ", dice Bathe.
La investigación fue financiada por la Oficina de Investigación Naval, la Fundación Nacional de Ciencias y la Oficina de Investigación del Ejército de EE. UU..
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Anne Trafton. Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :