Il 25 aprile di 70 anni fa - nel 1953 - la rivista Nature pubblicava uno degli articoli più famosi dell storia della biologia. Poco più di due colonne di testo raggruppate in una sola pagina: tanto è bastato a James Watson e Francis Crick per delineare, grazie ai dati di cristallografia ai raggi X di Rosalind Franklin e Maurice Wilkins, la struttura a doppia elica del DNA.
Nelle prime righe, Watson e Crick scrivono:
«Questa struttura presenta caratteristiche inedite che sono di grande interesse biologico.»
Watson e Crick, Nature, 1953, p.737
Non senza un pizzico di ironia, questa frase è stata più volte ricordata come uno dei più grandi eufemismi della scienza: che il DNA sia una molecola di grande interesse biologico l’hanno dimostrato decenni di studi di genetica, biologia molecolare e biotecnologie. Le sorprese, però, non sembrano essere finite.
A 70 anni da quella storica scoperta, il DNA potrebbe rivelare potenzialità ancora inesplorate. Una di queste è la possibilità di usare la molecola della vita per registrare e conservare l’enorme quantità di dati digitali che generiamo ogni giorno.
In questo articolo vi parlo di come il DNA potrebbe trasformarsi in un archivio di dati: il giorno in cui salveremo i nostri file con estensione .dna è ancora lontano, ma forse non tanto quanto potremmo pensare.
Uno tsunami di dati
Prima di tutto, la domanda è: perché? Perché dovremmo investire risorse per salvare dati in un filamento di DNA? Un simile progetto potrebbe sembrare un guizzo da scienziati con il pallino della fantascienza, eppure le motivazioni non mancano: per capirle, basta ragionare sull’enorme quantità di informazioni che ogni giorno gli esseri umani generano su scala globale. Un vero e proprio tsunami di dati, la cui crescita esponenziale ci sta rapidamente portando verso il limite.
Le proiezioni future parlano di una richiesta globale di memoria dati pari a 3 x 1024 bits, un valore che nel 2040 supererà la disponibilità di silicio. Da un punto di vista tecnologico, il 2040 è dietro l’angolo, e non possiamo permetterci di arrivare impreparati al momento in cui sarà compromessa non solo la creazione di nuovi dati, ma anche la conservazione di tutti quelli generati fino ad allora.
Ecco perché molti scienziati, affiancati da aziende e fondazioni, stanno cercando materiali non convenzionali per abbattere i costi di archiviazione dei dati e garantire un’alta affidabilità di conservazione. Tra questi materiali c’è anche il DNA.
Alla ricerca di un sistema più sostenibile
Oltre alle limitate scorte di silicio, gli attuali sistemi di archiviazione digitale hanno un grande problema di sostenibilità nel lungo periodo. Anzi, più di un problema, perché sono poco capienti, poco duraturi e dispendiosi. Infatti, l'evoluzione dei sistemi informatici costringe a una continua migrazione di dati: un processo che, nel lungo periodo, diventerà poco sostenibile sul piano sia economico sia energetico.
È quindi urgente trovare un’alternativa alle memorie in formato elettronico, cioè un sistema di archiviazione che sia:
- molto capiente e in grado di far fronte all’enorme produzione di dati;
- a basso costo;
- più duraturo dei sistemi disponibili oggi;
- basato su una tecnologia permanente che non sia soggetta a continui aggiornamenti o migrazioni di piattaforma.
In altre parole, c’è bisogno di un sistema più sostenibile.
Il problema non è solo economico, ma anche culturale. Affidare i nostri dati a tecnologie che potrebbero fallire o diventare desuete nell’arco di pochi decenni rischia di mettere a repentaglio molte testimonianze artistiche o opere d’ingegno.
Fino a oggi questi prodotti sono stati affidati a materiali come carta, nastri magnetici e supporti digitali: ma con il tempo la carta si deteriora, i nastri magnetici diventano illeggibili e i supporti digitali vanno incontro a obsolescenza. Per questo, oltre alle aziende informatiche, tra i promotori della ricerca di un materiale alternativo ci sono anche diverse fondazioni culturali e artistiche.
E se l’alternativa fosse il DNA?
Il DNA presenta diverse caratteristiche che potrebbero renderlo un ottimo sistema di archiviazione dei dati.
- È una molecola stabile: se conservato in modo appropriato, il DNA può conservare le informazioni anche per migliaia di anni. Ce lo dimostrano gli studi di paleogenomica condotti sul DNA antico recuperato da reperti fossili, come quello di un Neanderthal di 50.000 anni fa recuperato in Siberia o quello di un cavallo riemerso dal permafrost artico la cui datazione risale a 700.000 anni fa.
- È sostenibile ed economico, perché la sua conservazione richiede meno energia degli attuali sistemi di archiviazione digitale.
- È compatto e capiente, come dimostra il fatto che una minuscola cellula contiene tutta l’informazione genetica necessaria a dare origine a un organismo e a regolarne le funzioni fisiologiche. Le stime attuale indicano che un grammo di DNA potrebbe contenere circa 215 petabytes di informazioni (1 petabyte = 106 Gb).
- È duplicabile in uno spazio ristretto e in teoria può essere propagato all’infinito: una caratteristica che potrebbe favorire la creazione e conservazione di più copie delle informazioni.
- Non va incontro a obsolescenza: il DNA è la molecola alla base della vita e da milioni di anni ci dimostra di essere un sistema valido e duraturo di archiviazione delle informazioni genetiche. Finché ci sarà vita sul pianeta, ci sarà un sistema in grado di leggere un filamento di DNA.
Come funziona l’archiviazione di dati sul DNA?
Tutte le caratteristiche elencate rendono il DNA un ottimo candidato per l’archiviazione di dati, ma la domanda da porsi è: come si salvano informazioni in un filamento di DNA?
Fino a oggi, le tecniche del DNA ricombinante ci hanno permesso di scambiare porzioni di materiale genetico anche tra organismi di specie diverse. In tutti questi casi, si tratta di informazioni genetiche che codificano per una funzione biologica, per esempio la sintesi di una proteina.
Archiviare dati non genetici nel DNA richiede invece un salto concettuale: quello che si vuole ottenere è una stringa di nucleotidi che, una volta decodificata, permetta di leggere un libro oppure vedere un film. Per farlo, è necessario passare attraverso un codice intermedio, cioè il codice binario già usato dai sistemi informatici.
Semplificando, possiamo ridurre questo processo a quattro fasi principali.
- Codifica dei dati: un file di dati in codice binario (cioè una sequenza di 0 e 1) viene convertito in una stringa di basi azotate del DNA (sequenza di C, A, G, T). Per esempio:
00 diventa A
01 diventa G
10 diventa C
11 diventa T - Sintesi di brevi stringhe di DNA (lunghe 200-300 bp) a cui sono unite delle “etichette” o tag, fondamentali per indicizzare le sequenze.
- Archiviazione in condizioni che preservano il DNA dalla degradazione.
- Recupero e decodifica dei dati: la presenza delle etichette permette di individuare e recuperare solo le sequenze di interesse. In questa fase, le stringhe di DNA vengono decodificate, cioè la sequenza di C, A, G, T viene riconvertita in una sequenza di 0 e 1, cioè in un codice binario che il computer può interpretare per restituire l’informazione originaria.
Dalla teoria alla pratica: la nascita di Microvenus
Fino a questo punto, l’idea di usare il DNA per conservare le foto di famiglia o i film preferiti può sembrare niente più che una bella trovata fantascientifica. In teoria, un’idea accattivante - ma nella pratica?
Forse vi sorprenderà scoprire che la fattibilità di questo progetto visionario è stata dimostrata già nel 1988. In quegli anni le tecnologie del DNA ricombinante erano in piena fioritura e c’era chi, vincendo il malumore degli scettici, iniziava a vagheggiare di un progetto molto ambizioso: il sequenziamento del genoma umano. In tutti gli ambienti accademici, e non solo, non si faceva che parlare di DNA.
Tra coloro che hanno risentito del fascino e delle potenzialità delle biotecnologie c’è stato anche Joe Davis, un artista affiliato al Dipartimento di Biologia del MIT di Boston. In un progetto a cavallo tra arte, filosofia e scienza, Davis ha usato il linguaggio del DNA per codificare un codice binario da cui estrapolare, in un secondo tempo, un’informazione grafica. L’immagine in questione, da allora conosciuta con il nome di Microvenus, è un’antica runa usata in passato dai popoli germanici per rappresentare probabilmente la vita e la Madre Terra.
Che cos’è, esattamente, Microvenus? Possiamo definirla come una sequenza di DNA a doppio filamento lunga 28 bp, inserita - grazie alle tecniche del DNA ricombinante - in un plasmide. Questo plasmide è stato poi trasferito in un batterio E. Coli, che è così diventato il custode permanente di questa immagine: in altre parole, una memoria vivente.
Con il suo esperimento Davis ha dimostrato per la prima volta che il DNA può essere usato non solo per decodificare il linguaggio della vita e i meccanismi alla base dei sistemi biologici, ma può essere impiegato per creare, conservare e propagare informazioni non biologiche.
Da Microvenus ai nostri giorni
Lo studio di Davis è rimasto per molto tempo una semplice dimostrazione di principio, un progetto isolato che sembrava avere a che fare più con l’arte che con le applicazioni tecnologiche. Eppure le implicazioni pratiche non mancavano, come Davis ha sottolineato con grande lungimiranza qualche anno dopo in un articolo di commento a Microvenus.
[...] le qualità dei più conosciuti sistemi di archiviazione delle informazioni non sono paragonabili con le caratteristiche di un database di dati biologici naturali come Microvenus. [...] Poiché il DNA è un linguaggio in senso formale, [...], la sua funzione biologica è analoga a quella dei supporti convenzionali per la gestione e l'archiviazione delle informazioni.
[Joe Davis, Microvenus, Art Journal (1996) p. 74]
L’implicazione più importante dell’esperimento di Davis è proprio quella di usare il DNA per creare un database biologico naturale. Del resto, la natura non l’ha forse scelto milioni di anni fa per svolgere esattamente questa funzione?
Facciamo ora un balzo in avanti di circa 20 anni. Arriviamo così ai mesi a cavallo tra la fine del 2012 e l’inizio del 2013: è in questo periodo che due gruppi di ricerca raccolgono l’eredità di Joe Davis e dimostrano, in modo indipendente, le potenzialità future del DNA come sistema di archiviazione dati.
Il primo di questi gruppi è capitanato da George Church, a cui si è affiliato lo stesso Joe Davis. Il suo articolo è uscito su Science nell’agosto del 2012, seguito a distanza di pochi mesi dalla pubblicazione su Nature dei risultati del laboratorio di Nick Goldman. Seppure con un approccio e un codice diversi, entrambi i gruppi sono arrivati alla stessa conclusione: il DNA può essere usato come sistema di archiviazione dati.
Il gruppo di Goldman riferisce di aver codificato nel DNA 739 kB di informazioni che non hanno nulla a che vedere con i sistemi biologici:
- tutti i 154 sonetti di Shakespeare;
- un omaggio a Watson e Crick, ovvero il pdf del loro storico articolo pubblicato su Nature il 25 aprile del 1953;
- una fotografia dello European Bioinformatics Institute, sede del laboratorio di Goldman;
- 26 secondi del celebre discorso I have a dream di Martin Luther King;
- l’insieme di informazioni necessarie a decodificare i file precedenti.
Gli studi di Church e di Goldman – seguiti da successive messe a punto con algoritmi dedicati – sono stati i primi a dimostrare che l’archiviazione nel DNA di testi, immagini, audio e video è una tecnologia fattibile e che, se opportunamente sviluppata, potrebbe conservare grandi quantità di dati a lungo termine.
Guardando al futuro: sfide e potenzialità
Oggi l’uso del DNA come sistema di archiviazione a lungo termine è ancora a uno stadio sperimentale, ma l’idea si sta facendo strada. È una tecnologia con un immenso potenziale, ma per svilupparlo e diffonderlo ci sono molti ostacoli da superare:
- velocità di prestazione: codificare e decodificare il DNA richiede molto tempo e, da questo punto di vista, le tecnologie ottiche e magnetiche sono decisamente avvantaggiate;
- affidabilità: per uno sviluppo su grande scala, sarà importante limitare gli errori nella sequenza quando il DNA viene ricopiato e decodificato; alcuni sistemi di correzione (proof-reading) sono disponibili nei sistemi naturali, ma devono ancora essere ottimizzati in quelli artificiali.
- versatilità: una delle maggiori comodità degli attuali sistemi di archiviazione sta nella possibilità di cancellare e riscrivere dati; forse, in futuro, il sistema di editing di CRISPR potrebbe aiutarci a implementare questa funzione nel sistema di archiviazione su DNA?
- costi: per archiviare dati nel DNA non è possibile ricopiare una sequenza già esistente ed è necessario ricorrere alla sintesi de novo di DNA, cioè la sequenza deve essere sintetizzata da zero, un nucleotide alla volta. Si tratta di un processo molto costoso, anche più dello stesso sequenziamento.
Tra tutte le sfide elencate, quella dei costi è attualmente il problema maggiore. Le stime parlano di circa 7000 dollari per codificare 2,14 MB: un prezzo proibitivo. Le cose potrebbero però cambiare prima di quanto ci aspettiamo: nei primi anni duemila, sequenziare il primo genoma umano è costato quasi 3 miliardi di dollari, mentre oggi – a poco più di 20 anni di distanza – possiamo ottenere un’intera sequenza genomica per circa 1000 dollari.
Quando salveremo i nostri file in formato .dna?
Come sistema di archiviazione, il DNA non può ancora competere con il rapido CTRL-Z con cui siamo abituati a gestire i nostri ripensamenti digitali. Più che per l’uso quotidiano, l’obiettivo dell’archiviazione dati su DNA potrebbe essere quello di creare una matrice di riferimento a lungo termine: una sorta di biblioteca del sapere a cui accedere solo in caso di emergenza, un deposito di sicurezza in grado di preservare la memoria della specie umana e tenerla al riparo da disastri naturali e apocalissi tecnologiche.
Ecco perché, nonostante le numerose sfide, le potenzialità dei sistemi NAM (Nucleic Acid Memory) raccolgono sempre più sostenitori. Nell'ottobre del 2020, 15 compagnie e istituti si sono uniti nella DNA Data Storage Alliance, il cui obiettivo è quello di sviluppare su larga scala un sistema di stoccaggio dei dati basato sul DNA. Le capofila del progetto sono aziende che provengono dal mondo dell’informatica, come Microsoft e Western Digital, e da quello delle biotecnologie, come Illumina e Twist Bioscience, ma a queste si sono aggiunte anche fondazioni il cui obiettivo è quello di contribuire a preservare il patrimonio culturale umano.
Crediti foto di apertura: geralt/Pixabay