2020: il doppio anniversario del Progetto Genoma Umano

È il 26 giugno del 2000 e sulla costa atlantica degli Stati Uniti sono da poco passate le dieci del mattino quando Bill Clinton, allora Presidente degli Stati Uniti, entra nella East Room della Casa Bianca per un annuncio destinato a passare alla storia. Con lui ci sono anche Francis Collins, direttore della cordata internazionale di istituiti pubblici che afferiscono al Progetto Genoma Umano, e Craig Venter, presidente dell’azienda privata Celera Genomics. All’inizio del suo discorso, Clinton riporta per un attimo la platea indietro nel tempo: circa due secoli prima, in quella stessa stanza, sotto gli occhi del presidente Thomas Jefferson era stata stesa la mappa frutto delle spedizioni che, attraverso la frontiera americana, avevano condotto l’esploratore Meriwether Lewis fino alla costa del Pacifico. Una mappa destinata a espandere i confini non solo del continente americano, ma anche dell’immaginazione. Tuttavia, la mappa che sta per mostrare Clinton supera di molto anche quei confini. Il presidente annuncia:

«Oggi […] siamo qui per celebrare il completamento della prima bozza dell’intero genoma umano. Senza dubbio, questa è la più importante, la più meravigliosa mappa mai realizzata dal genere umano».

Nel 2020 si celebra il ventesimo anniversario di quell’annuncio, che ha cambiato per sempre la ricerca biomedica e ha visto nascere l’era della genomica e delle scienze omiche. Insieme ad esso, ricorre anche un secondo anniversario: sono infatti passati 30 anni dal 1° ottobre del 1990, giorno in cui fu avviato ufficialmente il Progetto Genoma Umano: quella che può considerarsi l’impresa scientifica in più ambiziosa della ricerca biologica del Ventesimo secolo è stata completata in poco meno di dieci anni, con due anni di anticipo rispetto alla data prevista.

Questo video di TedEd (in inglese) riassume i concetti generali alla base del sequenziamento del genoma umano:

Come è stato affrontato il sequenziamento del genoma umano?

L’obiettivo principale del Progetto Genoma Umano era quello di completare entro il 2005 il sequenziamento dell’intero genoma umano, cioè di ottenere la sequenza esatta di nucleotidi che racchiude l’informazione genetica degli esseri umani. Il DNA usato per ricostruire la sequenza non deriva da un singolo individuo, ma racchiudere le informazioni contenute nel DNA di diversi volontari anonimi, reclutati da una popolazione variegata. Ogni parte del genoma umano è stata resa disponibile in banche dati pubbliche e la sequenza genomica, prima ancora del suo completamento, è stata dichiarata dall’UNESCO “patrimonio dell’umanità”.

A questo traguardo, tuttavia, si è giunti dopo diverse difficoltà tecniche, che a loro volta hanno visto nascere una competizione tra l’International Human Genome Sequencing Consortium, la cordata di enti pubblici internazionali guidata da Collins, e la società privata Celera Genomics, fondata nel 1998 da Craig Venter. In particolare, il consorzio pubblico usava il sequenziamento basato su mappe fisiche e genetiche mentre il metodo di Venter, conosciuto come sequenziamento shotgun, prevedeva un approccio più rapido e diretto. Al di là delle competizioni tra ricerca pubblica e privata, entrambi i metodi hanno contribuito moltissimo all’avanzamento del Progetto Genoma Umano e hanno gettato le basi per gli sviluppi successivi di quest’area della ricerca.

Francis Colllins, direttore dell’International Human Genome Sequencing Consortium, annuncia nel 2003 il completamento del Progetto Genoma Umano (Immagine: Wikimedia Commons).

Quali metodi di sequenziamento sono stati usati?

Il protocollo usato dall’International Human Genome Sequencing Consortium si basava su mappe fisiche e genetiche dei cromosomi, grazie alle quali era possibile identificare la distribuzione di specifici marcatori (come siti di restrizione, geni già conosciuti ecc.) da usare come punti di riferimento per posizionare, come in un puzzle, i frammenti sequenziati. Il primo passo di questo metodo consiste nel sottoporre ogni cromosoma del genoma a digestione parziale, cioè tagliarlo con enzimi di restrizione per un tempo limitato (questo accorgimento fa sì che gli enzimi, potendo agire solo per un tempo limitato, taglino il DNA solo in alcuni dei siti di restrizione).

La digestione parziale produce un insieme di molecole di varia lunghezza (150000-200000 bp), tra loro parzialmente sovrapponibili, che possono poi essere clonate in cromosomi artificiali (come i BAC, cromosomi artificiali batterici). Questi cloni di grandi dimensioni vengono analizzati per la presenza di marcatori o di siti di restrizione sovrapposti; questo permette di assemblare sui cromosomi corrispondenti i cloni BAC in sequenze contig, cioè in gruppi di due o più frammenti di DNA che vengono sovrapposti per formare un tratto di DNA continuo.
Una volta assemblati nel giusto ordine, questi cloni BAC di grandi dimensioni possono essere sequenziati. Tuttavia, i cloni BAC hanno dimensioni ancora troppo grandi per poter essere sequenziati con il metodo Sanger; si procede quindi con il frammentare ulteriormente i singoli cloni BAC che coprono l’intero cromosoma e a clonare i frammenti ottenuti; questi sottocloni sono di dimensioni sufficientemente piccole (circa 2000 bp) per essere sequenziate con il metodo Sanger. Confrontando le sequenze ottenute da tutti i cloni, è possibile ricostruire l’intera sequenza di ciascun cromosoma unendo, nel giusto ordine, le singole sequenze di tutti i contig sulla base della loro parziale sovrapposizione testa-coda.

Questo video degli NIH (in inglese) spiega il metodo di sequenziamento usato.

Nel 1999 viene pubblicata la prima sequenza completa di un cromosoma umano, il cromosoma umano 22  (Immagine: Human Genome Project Image Gallery Archive).

Per un approfondimento sul metodo Sanger e sulle nuove tecnologie di sequenziamento del DNA, puoi consultare l’articolo sull’Aula di Scienze: Dal metodo Sanger a oggi: 40 anni di sequenziamento del DNA.

A questo metodo si affiancò, nel 1998, la tecnologia del sequenziamento shotgun proposta da Venter. Rispetto al metodo descritto precedentemente, il sequenziamento shotgun è molto più rapido perché prevede che i cloni di piccole dimensioni (e quindi sequenziabili) vengano generati direttamente da una frammentazione casuale del genoma, senza passare dai cloni intermedi BAC. Questi frammenti casuali possono essere inseriti in plasmidi, più facili da maneggiare e sequenziare. La collezione di queste piccole sequenze (chiamate reads) viene poi riordinata sfruttando regioni di sovrapposizione parziale tra una read e quella consecutiva, fino a ottenere la sequenza del genoma completo. Il sequenziamento shotgun è stato inizialmente testato ricostruendo la sequenza di genomi di piccole dimensioni, come quelli batteri. Oggi i principi del sequenziamento shotgun sono ancora usati per il sequenziamento integrale dei genomi anche di altri organismi, ma nel tempo questa metodica si è andata perfezionando grazie allo sviluppo delle tecnologie di nuova generazione (Next Generation Sequencing).

Il sequenziamento shotgun (Immagine: modificata da Wikimedia Commons).

Il confronto tra la prima bozza e la versione definitiva del genoma umano
Il 26 giugno 2000 è stato annunciato il sequenziamento di una prima bozza del genoma umano, che copriva circa il 90% del genoma. A questa prima bozza ha fatto poi seguito, nell’aprile 2003, la pubblicazione di una versione definitiva della sequenza. Rispetto alla prima bozza, la versione definitiva copre il 99% del genoma e presenta meno lacune (meno di 440, contro le 150000 lacune presenti nella prima bozza). La maggiore qualità di questa sequenza è dimostrata anche dal tasso di errore che, rispetto alla prima di bozza, si abbassa da un errore ogni 1000 bp a un errore ogni 10000 bp.

 

Quali ricerche sono nate dal Progetto Genoma Umano?

Quando fu inaugurato il Progetto Genoma Umano, in tanti pensavano che decodificare la sequenza di nucleotidi del nostro genoma sarebbe stato sufficiente a identificare, in modo rapido e immediato, la funzione dei geni e il loro ruolo nelle malattie. In realtà, conoscere la sequenza del genoma umano è solo il punto di partenza della ricerca genomica: ogni individuo è molto di più della semplice stringa di nucleotidi racchiusa nel suo genoma e sequenziare il DNA umano corrisponde a sollevare il coperchio a un vaso di Pandora di svariate interazioni biologiche possibili, che rappresentano il punto di incontro – unico per ciascun individuo – tra il suo genoma e gli stimoli ambientali a cui è esposto.

Per approfondire gli studi nati dal Progetto Genoma Umano, puoi consultare questi articoli dell’Aula di Scienze sul progetto ENCODE, sullo studio dell’epigenoma, sul progetto 1000 Genomes e sul sequenziamento del genoma degli islandesi.

Una volta in possesso della sequenza di un gene, è infatti necessario capire se si tratta di un gene codificante una proteina oppure se esso viene trascritto in RNA regolatori. Oppure, se un gene che codifica per una proteina risulta alterato, è necessario verificare se quella “mutazione” rappresenta una semplice espressione della variabilità genetica tra individui oppure se è la causa di alterazioni strutturali e funzionali nella proteina e se questo influisce sulle vie biochimiche a valle. Per rispondere a questi quesiti, è necessario che le indagini di genomica strutturale, funzionale e comparativa si traducano in analisi più mirate, volte per esempio a studiare, per ogni cellula e tessuto, il corredo di geni realmente trascritti (trascrittomica) e a definire quali trascritti vengono effettivamente tradotti in proteina (proteomica). La trascrittomica e la proteomica sono solo due esempi del nuovo campo delle scienze omiche gemmate dal Progetto Genoma Umano; a esse si aggiunge anche la metabolomica, che cataloga tutti i metaboliti a basso peso molecolare presenti in una cellula e studia come il profilo metabolomico si modifica in funzione della dieta, di un trattamento terapeutico o di una malattia.

Qual è l’eredità che il Progetto Genoma Umano lascia alla ricerca del prossimo decennio?

Tutte le indagini delle scienze omiche, che scandagliano a più livelli l’identità molecolare e funzionale delle cellule umane, non sarebbero state possibili se il Progetto Genoma Umano non avesse inaugurato un nuovo modo di svolgere la ricerca biologica: da scienza “individualista”, la biologia molecolare si è trasformata negli ultimi 20 anni in un gigantesco sforzo collettivo, raggruppato per la prima volta dal Progetto Genoma Umano in grandi consorzi internazionali di ricerca. La produzione di enormi quantità di dati ha inoltre reso necessario lo sviluppo di sistemi computazionali, analisi statistiche e banche dati in grado di gestire i big data prodotti dalle analisi high-throughput: è nata così la nuova branca della bioinformatica.

Tutte queste trasformazioni hanno contributo a un cambio epocale nella visione d’insieme della ricerca biologica: se, fino a pochi anni fa, gli studi erano guidati da un approccio riduzionista (basato sullo studio di una mutazione, degli effetti sulla proteina e del suo coinvolgimento in una specifica malattia) ora sta diventando sempre più chiaro che, per comprendere lo sviluppo di malattie complesse è necessario un approccio olistico, che permetta di “guardare la foresta dall’alto”: una foresta fatta di tutte le interazioni che si verificano, in un dato momento, all’interno di una cellula e che possono influenzarsi a vicenda, mediante l’intreccio di molteplici vie metaboliche e di trasduzione del segnale. Se un individuo si ammalerà o se risponderà a un certo trattamento dipende, spesso, non da un singolo gene ma dalla trama fatta da una miriade di interazioni biochimiche. L’interattomica è la scienza omica più recente e il suo obiettivo è quello di iniziare a sbrogliare questo gomitolo di interazioni, molte delle quali sono ancora sconosciute. I dati ottenuti da queste indagini permetteranno di aggiungere dettagli alla visione globale della biologia dei sistemi e di tradurla, in futuro, in approcci di farmacologia dei sistemi il più possibile personalizzati.

La rete dell’interattoma proteico di T. pallidum. I nodi colorati (576 in tutto) rappresentano singole proteine mentre i link (991 in totale) che li uniscono indicano l’esistenza di un’interazione tra due proteine (Immagine: Wikimedia Commons).

 

 


Immagini Box e Banner: National Human Genome Research Institute

Per la lezione

Prosegui la lettura

Commenti [3]

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

  1. Angela Varasano

    Articoli utilissimi per la didattica e fonti davvero importanti per i miei ragazzi di quinta liceo OSA.
    GRAZIE

    Rispondi

  2. Angela Varasano

    Per noi insegnanti biologi di biologia un arricchimento professionale. Articoli utilissimi per la didattica e fonti davvero importanti per i miei ragazzi di quinta liceo OSA.
    GRAZIE

    Rispondi