Gli studi di metagenomica (trattati di recente in questo post) ci hanno permesso di conoscere un po’ meglio il vasto e invisibile mondo microbico con cui noi e le altre specie conviviamo, per lo più senza rendercene conto. Ma dopo anni di ricerche, è chiaro che queste indagini possono dirci anche qualcosa di più di quello che cercavamo inizialmente.

Fino ad alcuni anni fa, l’obiettivo principale della metogenomica era quello di identificare e catalogare i tipi di microrganismi che si trovano in un certo ambiente, come le specie microbiche del microbiota intestinale umano. Con il procedere delle analisi e, soprattutto, con i miglioramenti delle tecnologie impiegate, ci si è però resi conto che gli studi di metagenomica potevano diventare il trampolino di lancio verso analisi ancora più approfondite e, in un certo senso, più inclusive. È nata così la pangenomica, la disciplina che studia la variabilità genomica di una specie: quella di batteri e virus, di funghi e piante, e perfino quella della specie umana.

Dalla metagenomica alla pangenomica

Se la metagenomica ci permette di stabilire quali specie di microrganismi sono presenti in una comunità microbica, possiamo ambire a una panoramica ancora più accurata includendo anche informazioni più specifiche, che riguardano i diversi ceppi di ogni specie microbica. Perché farlo? Perché la specie microbica può essere la stessa, ma al suo interno i diversi ceppi possono avere caratteristiche biologiche molto diverse.

Questa variabilità all’interno della specie può avere conseguenze importanti non solo nelle dinamiche ecologiche della comunità microbica, ma anche nell’interazione con la specie umana: se, in una specie batterica, un ceppo X è sensibile all’antibiotico ampicillina mentre il ceppo Y è resistente, capite subito quanto queste informazioni possano fare la differenza per la nostra salute.
Per acquisire queste informazioni e definire la variabilità genomica di una specie microbica è stato quindi importante rendere l’analisi metagenomica più inclusiva. Ed è qui che entra in gioco la pangenomica.

Uno, dieci, cento genomi: che cos’è il pangenoma

Il primo studio di pangenomica risale al 2005, quando la rivista PNAS ha pubblicato un articolo sull’analisi del genoma di diversi ceppi di Streptococcus agalactiae, un batterio responsabile di frequenti infezioni nei neonati e negli anziani. Questo studio ha contribuito a mettere in luce differenze significative tra i genomi dei ceppi studiati, dimostrando quanto sia importante, per capire l’evoluzione e la patogenicità di una specie, avere a disposizione i genomi di più ceppi, cioè un pangenoma.
Come suggerisce l’etimologia greca (pan, tutto), per pangenoma si intende quindi l’intero corredo genico di tutti i ceppi di una certa specie.

Per capire meglio di che cosa stiamo parlando, è utile considerare le due categorie in cui la pangenomica classifica i geni di un organismo.

Geni core: fanno parte di questo gruppo i geni che sono presenti in tutti gli individui di una specie; coincidono, grosso modo, con quelli che vengono spesso indicati come geni housekeeping, che codificano per funzioni essenziali per l’organismo, come la struttura della membrana cellulare, le proteine di legame, le funzioni regolatorie, ecc. Questi geni identificano, in un certo senso, l'essenza genetica di quella specie, ovvero le funzioni che vengono trasferite verticalmente da una generazione all'altra e che molto difficilmente potrebbero essere rimpiazzate da altri geni o andare perdute senza gravi conseguenze.
Geni variabili: in questo gruppo sono raggruppati i geni presenti solo in pochi ceppi (geni shell) o, in casi estremi, solo in un unico ceppo (geni cloud). Esempi di geni variabili sono quelli che codificano per la resistenza a un antibiotico o per l’adattamento a specifici ambienti in cui quel ceppo deve sopravvivere.

Il pangenoma di una specie non fa che catalogare tutti questi geni, sia quelli core sia quelli variabili, e di conseguenza contiene più geni di quanti se ne potrebbero trovare nel genoma di un singolo ceppo appartenente a quella specie. In altre parole, potremmo dire che il pangenoma rappresenta il catalogo del repertorio genetico di quella specie: un catalogo che può essere anche di diversi ordini di grandezza più vasto del genoma di un singolo ceppo. Sfogliando il pangenoma, possiamo sapere per certo che un gene X è presente in almeno uno dei ceppi, mentre è praticamente impossibile che esista un ceppo contenente tutti i geni del pangenoma.

Pangenomi chiusi e aperti

Ma quanto è grande il catalogo del pangenoma? La risposta dipende dalla specie batterica presa in considerazione perché, quando si tratta di variabilità genetica, non tutte le specie si comportano allo stesso modo. Alcune sembrano avere un limite massimo al numero di geni presenti nel loro catalogo: in questo caso si parla di pangenoma chiuso. Per altre specie, invece, l’impressione è che il loro repertorio genetico non arrivi mai a saturazione e sia potenzialmente senza limiti: in questo caso parliamo di pangenoma aperto, perché è difficile stimarne la dimensione in modo definitivo.

Nel caso di specie con un pangenoma chiuso, il sequenziamento di un numero ridotto di ceppi è già sufficiente a dare una panoramica esaustiva del repertorio genetico: il sequenziamento di ulteriori ceppi difficilmente aggiunge nuove informazioni a quelle già raccolte.
Per le specie con un pangenoma aperto, invece, le sorprese sono dietro l’angolo: il sequenziamento di un nuovo ceppo quasi sempre arricchisce il pangenoma di nuove informazioni ed espande la nostra conoscenza del panorama genetico di quella specie.

Sapere se una specie microbica ha un pangenoma aperto o chiuso è molto più di una semplice questione classificativa: questa distinzione ci dà infatti delle informazioni sul comportamento ecologico di quella specie all’interno della comunità microbica e - aspetto ancora più interessante - di come può evolvere. Vediamo perché.

I pangenomi chiusi sembrano essere tipici di specie che, come Bacillus anthracis, vivono all'interno di nicchie ecologiche isolate, dove la possibilità di "scambi genetici" con altre specie batteriche sono molto rare.
I pangenomi aperti sono invece caratteristici di specie che si sono adattate a vivere in ambienti diversi e che fanno parte di comunità microbiche particolarmente ricche e variegate. In un simile contesto, aumenta la possibilità di trasferimenti genici orizzontali tra specie diverse mediante meccanismi come la coniugazione, la traduzione o la trasformazione. Questi scambi permettono di arricchire il catalogo genetico della specie, un po’ come l’aggiornamento di un software che aggiunge qualche nuova funzione.
Un esempio di batterio con un pangenoma aperto è il versatile Escherichia coli: normalmente è un simbionte innocuo del nostro microbiota, ma alcuni suoi ceppi patogeni si possono trovare nell’acqua o nei cibi e possono causare gravi infezioni urinarie o intestinali. Ha un pangenoma aperto anche S. agalactiae: dagli otto genomi confrontati, è emerso che la maggior parte dei geni (circa l’80%) costituisce il genoma core, ma il resto del genoma è dato da geni variabili.

Quali sono le applicazioni per lo studio dei pangenomi?

Il potenziale delle analisi del pangenoma sta proprio nel mettere in evidenza ciò che si trova alla "periferia" del pangenoma core, cioè nella porzione di geni variabili: infatti, è qui che possiamo intravedere la direzione evolutiva intrapresa da una specie, ricostruirne la storia filogenetica, e in alcuni casi cercare di prevedere se una specie sta ampliando i propri orizzonti metabolici, ambientali e patogenetici.

Proprio su questo ultimo aspetto sono puntati gli occhi di molti gruppi di ricerca perché l'ampliamento del set di geni variabili è uno dei modi con cui un ceppo microbico può aumentare la propria virulenza e dare origine a epidemie. Gli elementi genetici che possono contribuire a potenziare la virulenza sono diversi: plasmidi, batteriofagi, trasposoni, cluster genici raggruppati nelle isole patogenetiche (PAI) sono tutti elementi che possono essere scambiati mediante trasferimento genico orizzontale e che possono favorire l’evoluzione di un ceppo. Il semplice scambio di un plasmide contente la resistenza a un antibiotico può trasformare un ceppo innocuo in un grattacapo clinico, che richiede test di screening per trovare, se possibile, un antibiotico in grado di neutralizzarlo.

L’analisi del pangenoma e il confronto con il genoma core di una specie patogena sono uno strumento sempre più importante anche per la cosiddetta reverse vaccinology o vaccinologia inversa: grazie a strumenti bioinformatici si può cercare di costruire un catalogo di antigeni che, potenzialmente, potrebbero essere il target di nuovi vaccini. In un’epoca, come la nostra, di epidemie emergenti, questa strategia è particolarmente promettente perché permetterebbe di velocizzare la produzione di vaccini e di aggiornarli nel caso in cui un patogeno diventi improvvisamente più virulento.

E se parliamo di patogeni e vaccini, non possiamo limitarci ai batteri: i potenziali benefici della pangenomica e della vaccinologia inversa porebbero estendersi anche - e, forse, soprattutto - ai virus che mutano di continuo (come il virus dell’influenza) o a quelli che emergono in modo improvviso in seguito a un salto di specie (come il coronavirus SARS-CoV-2).

Pangenomi virali

Oltre alla generazione di vaccini, in ambito virale lo studio del pangenoma ha un’altra applicazione, altrettanto importante, ma di respiro ancora più ampio: la pangenomica può infatti aiutare a seguire in tempo reale l’evoluzione di un’epidemia virale e a indirizzare le misure epidemiologiche necessarie per salvaguardare la salute pubblica.

Quest’ultima applicazione è, da ormai due anni, ogni giorno sotto i nostri occhi: da quando è iniziata la pandemia di COVID-19, abbiamo visto aggiornarsi mese dopo mese la lista delle varianti virali derivate dal primo ceppo di SARS-CoV-2 identificato a Wuhan nel dicembre del 2019. Il sequenziamento del genoma virale è diventato in molti Paesi una procedura di routine e le tecnologie messe a punto in questi due anni di pandemia ci permettono oggi di avere informazioni con un livello di risoluzione difficilmente immaginabile fino a pochi anni fa.
L’analisi del pangenoma di SARS-CoV-2, in cui è catalogato il repertorio genetico di tutte le varianti identificate fino ad oggi, è quindi uno strumento utilissimo per ricostruire quasi in tempo reale l’albero filogenetico del virus e per cercare di intuire in quale direzione evolverà la sua patogenicità.

Non solo virus e batteri: la nascita del Progetto Pangenoma Umano

Dopo virus e batteri, non c’è motivo per non espandere il concetto di pangenoma anche agli organismi eucarioti. Negli ultimi anni sono stati fatti molti progressi per definire il pangenoma di alcuni funghi, piante e anche animali. Non poteva mancare quello di Homo sapiens.

Il Progetto Genoma Umano, completato nel 2003, ci ha permesso di osservare da vicino per la prima volta le informazioni contenute nel nostro genoma. O, più precisamente, nel genoma di un numero ristretto di volontari: si stima che il 70% delle sequenze sia riconducibile addirittura a un unico individuo. Nonostante il risultato memorabile, la sequenza del genoma umano, che è stata usata per anni come riferimento, non può quindi considerarsi uno specchio attendibile della variabilità genetica umana.

Un primo campanello d’allarme di questo limite è arrivato da uno studio condotto su sequenze genomiche di abitanti della Papua Nuova Guinea: non senza una certa sorpresa, i ricercatori hanno riscontrato nell’80% dei casi la presenza di un’enorme sequenza di circa 400000 bp, che sembra invece assente nel resto della popolazione umana. Questa sequenza, che forse è un residuo evolutivo degli antenati Denisoviani, è un esempio eclatante - ma non l’unico - della variabilità genetica umana. Soprattutto, è un appello a generare una sequenza di riferimento del genoma umano che sia il più possibile inclusiva e davvero rappresentativa di H. sapiens come specie.

Per rispondere a questo appello, nel marzo 2022 è stato lanciato il Progetto Pangenoma Umano (o Human Pangenome Project). L’obiettivo del consorzio che coordina il progetto, lo Human Pangenome Reference Consortium (HPRC), è innanzitutto quello di costruire una sequenza pangenomica umana da usare come riferimento, partendo dalle informazioni già raccolte dal progetto 1000 Genomes che, con i suoi 1000 genomi umani, è una banca dati rappresentativa di 26 popolazioni umane. A queste sequenze, se ne aggiungeranno via via altre, per generare un catalogo genomico ancora più ampio della variabilità genetica umana. Per evitare che, da strumento inclusivo, il progetto possa trasformarsi in potenzialmente discriminatorio, il Consorzio HPRC si appoggia a uno specifico comitato etico, per garantire il rispetto di tutti gli aspetti etici legati alla gestione di informazioni sull’identità genetica di minoranze etniche. Dal sito dello Human Pangenome Project:

Realizzare un genoma umano di riferimento che rappresenti meglio la diversità umana è un passo importante per risolvere l’iniquità e lo squilibrio della precedente ricerca sulla genetica umana.

Anche se il pangenoma umano non potrà essere esaustivo al 100%, le informazioni raccolte potrebbero aiutare a capire meglio le associazioni tra specifici polimorfismi genetici e alcune patologie, soprattutto se queste hanno manifestazioni cliniche peculiari in diverse popolazioni umane: un altro passo verso una medicina personalizzata e sensibile alle sfumature della variabilità umana.

3 passi per approfondire:

il tema della medicina personalizzata sull'Aula di Scienze: Il farmaco giusto per la persona giusta
il passaggio dal Progetto Genoma Umano al Progetto Pangenoma Umano con un video su YouTube prodotto dagli NIH: The Human Pangenome
il work in progress sul sito dedicato al Progetto Pangenoma Umano: humanpangenome.org

Immagine di copertina: Lavanya Rishishwar and I. King Jordan / Wikimedia Commons