All’inizio di aprile 2022 è uscito un numero speciale della rivista Science: sul fondo grigio della copertina risaltano 23 linee bianche ricurve che corrono parallele come le corsie di un gigantesco circuito di atletica. Si affrettano verso un traguardo storico, queste 23 corsie bianche, ma per completare il percorso hanno bisogno di alcuni tratti evidenziati in rosso. Con questa immagine ad alto impatto, la copertina scelta da Science è già la notizia: il sequenziamento del genoma umano è stato finalmente completato e anche i tratti che ancora mancavano all’appello - i gaps colorati in rosso - sono stati finalmente analizzati.

Con sei articoli destinati a entrare nella storia della genomica, Science celebra questo risultato storico, frutto del lavoro del Consortium T2T (Telomere “to” Telomere). I fautori di questo progetto, che ha visto la luce nel 2019, sono stati Karen Miga, genetista dell’Università della California specializzata in studi sui satelliti dei centromeri, e Adam Philippy, bioinformatico del National Genome Research Institute specializzato nello sviluppo di metodi di sequenziamento per tratti molto lunghi di DNA.

Ma il genoma non era già stato completato nel 2003?

Quando nel 2003 fa Celera Genomics e il Consorzio del PGU hanno pubblicato la prima bozza del genoma umano, la sequenza non era del tutto completa e nemmeno priva di errori. Grazie a numerosi ritocchi, la qualità della sequenza è migliorata nel corso degli anni e il numero di “buchi” non analizzati si è via via ridotto, fino ad arrivare alla condivisione di quella che viene comunemente chiamata sequenza di riferimento. Tuttavia, anche questa sequenza non poteva considerarsi completa al 100%, a causa di stringhe di sequenze ripetute che venivano “saltate” dal sistema di sequenziamento o non venivano interpretate correttamente: una lettura a singhiozzo inaffidabile, che ha lasciato alcune regioni del genoma prive di un sequenziamento affidabile.

Per ripercorrere le tappe principali del sequenziamento del genoma umano, consulta gli articoli dello Speciale 2020 che l’Aula di Scienze ha dedicato al Progetto Genoma Umano e la Linea del tempo del National Human Genome Research Institute.

Rispetto al genoma umano pubblicato nel 2003, la nuova sequenza realizzata dal Consortium T2T fornisce una lettura completa e attendibile anche delle parti rimaste insolute vent’anni fa, costituite da sequenze ripetute, concentrate in particolare a livello dei telomeri e dei centromeri dei cromosomi. Queste regioni costruiscono circa l’8% del genoma - una percentuale limitata, la cui assenza non invalida il successo epocale del Progetto Genoma Umano nel 2003. Tuttavia, completare questo 8% mancante ha significato molto più di una rifinitura della sequenza originaria: per leggere le lunghe sequenze ripetute che si concentrano a livello di centromeri e telomeri è stato necessario un salto tecnologico che era difficile immaginare solo pochi anni fa: anche se questo risultato non ha ricevuto la stessa risonanza e copertura mediatica del 2003, si tratta di un traguardo che merita di essere celebrato perché ci permette di comprendere meglio il funzionamento del genoma e i meccanismi alla base di alcune malattie genetiche e dell’evoluzione umana. Questi risultati aggiungono alla sequenza già nota del genoma umano circa 200 Mb di informazione genetica: l’equivalente di quasi un intero cromosoma.

Perché è stato così complicato sequenziare l’ultimo 8% del genoma?

Il DNA che costituisce il nostro genoma non è tutto uguale: esistono differenze strutturali che rendono alcune regioni più complicate di altre da analizzare. Tra queste, ci sono i telomeri e i centromeri, che non a caso sono rimaste fino a oggi tra le parti meno conosciute del genoma. Queste regioni contengono una grande percentuale di sequenze ripetute, che complica non poco il lavoro dei sistemi di sequenziamento tradizionali, incapaci di distinguere il numero esatto con cui una sequenza si ripete. 10, 15 o 20 volte? Difficile dirlo, perché i sequenziatori di un tempo, quando arrivavano a queste regioni del genoma, inciampavano sui propri passi e restituivano un risultato poco attendibile.

Ecco perché la sequenza del genoma umano pubblicata nel 2003 non può considerarsi davvero completa: all’appello mancavano solo l’8% circa delle sequenze, ma erano sequenze particolarmente difficili da interpretare, che hanno tenuto in scacco il Progetto Genoma Umano per più di venti anni. Per uscire da questo blocco, il Consortium T2T ha messo a punto nuove strategie, che hanno consentito di ottenere per la prima volta un sequenziamento completo e affidabile anche dell’8% di sequenze ancora “orfane”.

Questa animazione del National Human Genome Research Institute riassume le tappe finali del sequenziamento completo del genoma umano:

Quali progressi tecnologici hanno permesso di raggiungere questo risultato?

I sistemi di sequenziamento in uso nel 2003 si basavano sulla “lettura” di piccole stringhe di DNA che venivano poi appaiate e allineate per ricostruire porzioni via via più lunghe di sequenza. Questo sistema, che a suo tempo ha rivoluzionato e permesso il sequenziamento del genoma umano, mostra però un limite pressoché invalicabile quando si tratta di sequenziare regioni con numerose ripetizioni: in questo caso, è quasi impossibile ricostruire l’esatta disposizione delle sequenze e il numero di ripetizioni. Per superare questo ostacolo, è stato innanzitutto necessario sviluppare metodi che permettessero di sequenziare lunghe stringhe continue di DNA: in questo modo, è possibile leggere anche lunghe sequenze ripetute in modo accurato, perché si riduce la necessità di allineare e “incollare” sequenze più piccole per ricostruire la sequenza più lunga.

Questo sistema ha dato il suo primo importante risultato nel 2019, quando i gruppi di ricerca di Karen Miga e Adam Philippy - i due co-fondatori del Consortium T2T - hanno pubblicato il sequenziamento completo, da telomero a telomero, del cromosoma X umano. Questo studio ha confermato la validità dell’approccio tecnologico e ha convinto anche altri gruppi di ricerca a prendere parte al progetto più ambizioso, quello di completare tutto il genoma da telomero a telomero.

Per portare a termine il sequenziamento dell’intero genoma sono state impiegate diverse strategie, tra cui quella basata sul sequenziamento a nanopori: mentre un filamento di DNA passa attraverso un minuscolo canale di membrana (il nanoporo), il potenziale di membrana si modifica in modo diverso a seconda della sequenza di nucleotidi che si succedono. In questo modo, il sequenziatore può ricostruire la sequenza di DNA analizzando le variazioni del potenziale di membrana. Questo metodo costituisce un notevole passo avanti rispetto alle tecnologie impiegate nel 2003 e permette di analizzare anche 100000 bp alla volta.

Chi ha inventato la procedura per sequenziare il DNA? Per ripercorrere le tappe di questa tecnologia rivoluzionaria, consulta l’articolo dell’Aula di Scienze: Dal metodo Sanger a oggi: 40 anni di sequenziamento del DNA.

Che cosa rivelano le nuove sequenze?

Il completamento integrale del genoma umano ci permette finalmente di studiare regioni del genoma fino a oggi inesplorate, con importanti conseguenze per lo studio di malattie genetiche e per lo studio dell’evoluzione del nostro genoma. Come ha sottolineato Phillippy, co-fondatore del Consortium T2T, «Completare per davvero la sequenza del genoma umano è stato come indossare un nuovo paio di occhiali. Ora che possiamo vedere tutto in modo chiaro, siamo un passo più vicini dal capire il significato di tutto questo.»

Nel complesso, le regioni appena sequenziate dal Consortium T2T contengono circa 1900 nuovi geni. Anche se la maggior parte di essi non codifica per proteine, queste sequenze potrebbero giocare un ruolo molto importante nel funzionamento del genoma. In passato, il DNA non codificante e le lunghe ripetizioni di sequenze di nucleotidi erano considerate parti pressoché inutili di DNA, e per questo erano state battezzate - senza troppi fronzoli - “junk DNA”, cioè DNA spazzatura. Questo soprannome appare sempre più inadeguato da quando sappiamo che queste sequenze di DNA non codificante non sono così superflue come si poteva pensare: anche se non codificano per proteine, regolano l’espressione dell’informazione genetica e possono avere ricadute sull’origine di alcune malattie. In particolare, oggi sappiamo che alcuni disturbi neurologici e dello sviluppo sono collegati al numero di copie di alcune sequenze specifiche, come nelle malattie da ripetizioni di triplette.

Dal punto di vista evolutivo, le porzioni del genoma che contengono lunghe sequenze ripetute potrebbero inoltre rappresentare “hotspot evolutivi”, cioè posizioni strategiche in cui copie di un gene vengono depositate e lasciate libere di accumulare mutazioni e assumere nuove funzioni.

Il Progetto Genoma Umano è ufficialmente terminato?

I risultati raggiunti dal Consortium T2T segnano un traguardo storico, ma l’avventura del Progetto Genoma Umano è tutt’altro che conclusa. Tra i principali obiettivi futuri, c’è lo Human Pangenome Project, il cui intento è quello di aumentare il livello di diversità genetica rappresentato nel genoma umano di riferimento. La sequenza di un genoma umano completo in tutte le sue parti è un enorme passo avanti, ma si tratta di un unico genoma, che da solo non può rappresentare in modo attendibile tutta la variabilità genetica della specie umana. Inoltre, la maggior parte degli studi condotti fino a oggi si sono basati su genomi di persone europee, che non sono rappresentative di tutte le popolazioni genetiche umane.

Per colmare queste lacune, lo Human Pangenome Project si è prefisso l’obiettivo di sequenziare nei prossimi anni 350 genomi completi da persone rappresentative di diverse popolazioni umane. I dati collettivi di queste analisi forniranno quello che, nelle speranze dei ricercatori, diventerà il genoma di riferimento più completo e rappresentativo della specie umana. Questa nuova sequenza avrà ricadute importanti nella medicina di precisione e personalizzata: per stabilire se una mutazione è potenzialmente patogenetica o una semplice variante genetica sarà sempre più importante tenere conto di tutte le popolazioni genetiche umane, non solo di quelle che - a causa di un bias storico e geografico - sono più rappresentate negli attuali database.

Questo video del National Human Genome Research Institute presenta lo Human Pangenome Project: