DNA storage

Il DNA potrebbe diventare il prossimo sistema di archiviazione a lungo termine dei dati digitali: la biologia sintetica al servizio dell’informazione

Pochi giorni fa si è celebrato il “DNA Day”: il 25 aprile di 68 anni fa il lavoro di James Watson, Francis Crick, Maurice Wilkins, Rosalind Franklin e colleghi fu pubblicato sulla rivista scientifica Nature. Sebbene venga troppo spesso ricordato solo l’articolo firmato da Watson e Crick, furono in totale tre gli studi sulla descrizione della struttura del DNA pubblicati in quel numero – il secondo firmato da Rosalind Franklin e R. G. Gosling e il terzo da Maurice Wilkins, A. R. Stokes e H. R. Wilson - che rivoluzionarono la storia della genetica e della biologia moderna. Nel giro di qualche decennio siamo passati da non conoscere l’esistenza della doppia elica a studiare il DNA come possibile soluzione per la gestione dell’immensa quantità di dati digitali che produciamo ogni giorno.

Secondo l’International Data Corporation, nel 2020 64.2 zettabyte (zb) - uno zettabyte è uguale a un trilione di gigabyte - di dati sono stati creati o replicati e solo meno del 2% è stato salvato e conservato nel 2021. Una molecola neanche visibile a occhio nudo potrebbe diventare una specie di hard disk biotecnologico in grado di superare i problemi legati alle tecnologie attualmente disponibili, come la longevità limitata delle strutture e l’inevitabile continua migrazione dei dati, a causa dell’obsolescenza delle macchine, per ottenere un'archiviazione a lungo termine.

La molecola di DNA permetterebbe l’archiviazione dei dati in uno spazio minuscolo e potrebbe diventare un supporto stabile e durevole anche per migliaia di anni, se correttamente conservato. Un esempio è il DNA dei fossili. Inoltre, la sua conservazione non richiede grandi quantità di energia, come invece accade con i grandi sistemi informatici, ed è una modalità di informazione che non rischia di diventare obsoleta, visto che è alla base dei sistemi biologici. Questo permetterebbe di far fronte alla produzione continua e incessante di dati che caratterizza il nostro tempo, ma anche di conservare le informazioni raccolte nel corso della storia dell’umanità, che magari rischiano di scomparire per sempre a causa del deterioramento, dei problemi di conservazione o dei disastri naturali.

Proprio per questo motivo il DNA sta attirando l’attenzione di molte aziende biotecnologiche, per quanto riguarda l’aspetto legato alla biologia sintetica, e tecnologiche, per lo stoccaggio dei dati, come metodo emergente e innovativo per l’archiviazione dei dati. Una sequenza di A, T, G e C potrebbe infatti contenere una quantità di informazioni enorme: secondo uno studio pubblicato nel 2016 su Nature Materials e firmato da George Church - uno dei “papà” di CRISPR e pioniere nel settore della biologia sintetica - un semplice batterio come Eschirichia coli ha una densità di archiviazione di circa 1019 bit per centimetro cubo. Questo permetterebbe di racchiudere tutte le informazioni che produciamo in un anno in un metro quadro. Gli scienziati stanno facendo esperimenti sulla memorizzazione di dati digitali nel DNA già da alcuni anni: George Church è stato tra primi, assieme ai suoi colleghi, ad aver codificato un libro digitalizzato di più di 50 mila parole in migliaia di frammenti di DNA utilizzando le 4 basi del DNA per tradurre le informazioni scritte con il sistema binario (le serie di 0 e 1 con cui si codifica l’informazione digitale). Questo schema di codifica era però inefficiente e gli studi sono andati avanti.

Nel 2017 è stato poi pubblicato uno studio su Science che descrive una soluzione migliore rispetto alla precedente: i ricercatori hanno ideato un algoritmo – chiamato DNA Fountain - in grado di fare dei piccoli pacchetti di brevi stringhe di codice binario, per un totale di 72 mila brevi (200 basi) filamenti, a cui hanno aggiunto delle etichette per poterle rimettere in ordine successivamente. Per la parte più biologica hanno inviato il file alla startup biotecnologica statunitense Twist Bioscience Corporation che ha sintetizzato i filamenti di DNA partendo dalle informazioni ricevute. Alla fine del procedimento un granello di segmenti di DNA conteneva i dati, tra cui un film francese, uno studio sulla teoria dell’informazione, un virus informatico e un sistema operativo per computer. Il DNA prodotto è stato sequenziato, il codice genetico ritradotto in codice binario e le etichette usate per riordinare tutti i pezzetti di informazione. La decodifica non ha prodotto errori.

Nel 2019 un gruppo di ricercatori della Harvard’s Wyss Institute for Biologically Inspired Engineering e della Harvard Medical School ha sviluppato una tecnica di archiviazione del DNA a basso costo che permette la codifica di informazioni digitali su larga scala. Lo studio, pubblicato su Nature Communications, è stato coordinato di nuovo da George Church. I ricercatori hanno sviluppato un metodo di archiviazione che utilizza la sintesi del DNA de novo per generare molti segmenti di DNA senza la necessità di un filamento di DNA preesistente come stampo. Grazie a questa tecnica, si stima che 1 grammo di DNA possa contenere fino a 215 petabyte (un petabyte corrisponde a un milione di gigabyte) di informazione, anche se questo numero cambia e cresce man mano che i ricercatori escogitano nuove tecniche di archiviazione.

È quindi possibile immagazzinare e conservare l’informazione del DNA. Ma ci sono ancora dei limiti, specialmente dal punto di vista della sostenibilità economica. Infatti, mentre i costi di sequenziamento sono ormai ai minimi storici, i costi della sintetizzazione del DNA e del successivo recupero dei dati sono ancora molto più alti di quelli dell'utilizzo di supporti di archiviazione convenzionali. L’implementazione delle piattaforme di codifica e decodifica ha già fatto molto, ma le sfide per il futuro non mancano.

Grazie al crescente interesse nel settore, a ottobre 2020 è stata fondata la DNA Data Storage Alliance, che ha proprio l’obiettivo di aumentare le conoscenze disponibili in questo settore e promuovere l’adozione di questo innovativo metodo di conservazione delle informazioni. Come descritto su Genetic Engineering & Biotechnology News, tra le aziende e gli enti coinvolti ci sono proprio la Twist Bioscience Corporation, Microsoft, Illumina, Western Digital e PFU America, aggiuntasi ad aprile 2021. L’obiettivo resta quello di creare una soluzione di archiviazione dei dati a basso costo che sfrutti le incredibili caratteristiche della cosiddetta “molecola della vita” e che superi i limiti delle tecnologie attualmente in uso.

Con il contributo incondizionato di

Website by Digitest.net



Questo sito utilizza cookies per il suo funzionamento Maggiori informazioni