L’involucro che avvolge il nucleo di ogni cellula di vertebrato è attraversato da circa mille pori nucleari. Tutto ciò che può entrare o uscire dal nucleo vi passa attraverso. Ciascun poro è a sua volta formato da più di trenta subunità, chiamate nucleoporine, e in totale contiene più di un migliaio di proteine avvoltolate le une sulle altre. Risolvere l’intricata struttura tridimensionale di ogni componente era considerato, fino a poco tempo fa, un impossibile puzzle per chi ci si dedicava.
Ci è riuscito in due anni circa il giovane Pietro Fontana, nel laboratorio della professoressa Hao Wu alla Harvard Medical School e Boston’s Children Hospital, grazie alle recentissime applicazioni biologiche dell’intelligenza artificiale. Quando ha cominciato il progetto, lui stesso era scettico e incredulo di poter arrivare in fondo.
La conquista del poro nucleare può essere considerata come la salita all’Everest dei proteinologi: la più ardua, ma non certo l’unica, di tantissime difficili scalate alle forme delle proteine. Non a caso, predire la struttura tridimensionale di gran parte delle proteine che danno forma e azione alla vita è considerata una delle maggiori e impellenti sfide della biologia.
Da appena uno o due anni le riottose proteine stanno finalmente cominciando a mostrare le loro forme. A convincerle sono state, appunto, gli algoritmi dell’intelligenza artificiale, dopo un secolo di forte resistenza a quasi ogni altra tecnica. Oggi il cosiddetto “deep learning”, o apprendimento profondo, aiuta i biologi a prevedere come una stringa lineare di aminoacidi può ripiegarsi su se stessa, assumendo la più probabile forma in tre dimensioni fra le tante possibili.
AlphaFold è un database creato a Londra nel 2021 da Google, in collaborazione con l’EMBL European Bioinformatics Institute (EMBL-EBI) di Cambridge, UK. Il software che fa “girare” AlphaFold è stato sviluppato da DeepMind, una delle aziende della famiglia di Google, mentre l’EMBL-EBI fa parte di EMBL, un’organizzazione intergovernativa il cui scopo sociale è, tra le altre cose, fare in modo che i dati ottenuti dalla ricerca biologica siano un bene pubblico accessibile a tutti. Grazie alla partnership pubblico-privata il codice sviluppato è open source. Fino a luglio 2022 il database era stato visitato da oltre 500.000 ricercatori di 190 Paesi.
Perché è così importante conoscere la forma tridimensionale delle proteine? Perché è tramite la forma che una proteina esercita le proprie funzioni, per esempio fornendo un sostegno, partecipando a reazioni o interagendo con altre molecole o strutture dentro e fuori la cellula. Un anticorpo, per esempio, si lega al proprio antigene grazie alla propria forma complementare, come in un gioco a incastri.
Conoscere le forme proteiche in alta risoluzione e in tre dimensioni è il primo passo necessario a progettare farmaci, anticorpi o altre oggetti molecolari di sintesi. Più tali sostanze saranno state progettate in base a informazioni strutturali precise e più saranno in grado di correggere o bloccare il comportamento di molecole che causano problemi o malattie.
La forma in 3D di una proteina è anche una delle prime cose da conoscere per modificare direttamente la proteina stessa, intervenendo a monte sul gene che contiene le istruzioni per fabbricarla. La rapidissima individuazione dell’antigene per i vaccini contro il Covid è stata possibile anche grazie a tecniche predittive di intelligenza artificiale.
A fine luglio 2022 il database di AlphaFold ospitava oltre 214 milioni di modelli di proteine in tre dimensioni, appartenenti a più di un milione di specie diverse. Prima dell’intelligenza artificiale, il numero di proteine per cui era stato possibile ottenere un cristallo e risolvere la struttura tridimensionale con l'uso di raggi X e microscopi elettronici non raggiungeva le 200.000 unità.
Un salto di tre ordini di grandezza, o a tre zeri, è stato dunque possibile in un tempo brevissimo, superando in un attimo il mucchio di ostacoli che le proteine opponevano ai più persistenti e tenaci cristallografi e microscopisti. Pochissime si sottomettevano graziosamente ai loro desideri, a costo di pazienti corteggiamenti, a volte decennali. Ma la maggior parte non ne voleva proprio sapere.
L’accelerazione straordinaria impressa dall’intelligenza artificiale alla predizione della struttura in 3D delle proteine ricorda quella data dai sequenziatori alla lettura del DNA, iniziata alla fine degli anni Novanta. Ora come allora è sembrato di passare dalla carrozza a cavalli al jet.
Se tutto questo non vi impressiona, provate a immaginare un mondo senza proteine.
Non esisterebbero muscoli con cui correre e far battere il cuore, bistecche da mangiare, piante capaci di trasformare luce e anidride carbonica in zuccheri. Non avremmo barriere come la pelle, né potremmo respirare, perché non avremmo né i polmoni né l’emoglobina che vi trasporta l’ossigeno. Non avremmo anticorpi che difendono noi e gli altri animali da innumerevoli invasori e malattie. Non avremmo un cervello con cui agire e pensare. Il DNA non potrebbe duplicarsi né ripararsi, e le cellule, oltre a non esistere, non potrebbero neppure moltiplicarsi. Non ci sarebbero cani né gatti né tartarughe né giraffe né nessun altro animale, pianta, batterio, virus. Insomma, nulla della vita come la conosciamo, umani inclusi, esisterebbe o sarebbe possibile senza le proteine.
Eppure la maggior parte di queste proteine così necessarie alla vita è ancora poco conosciuta nella forma. Più precisamente, di molte è nota la sequenza lineare di aminoacidi, i mattoncini specificati dalle istruzioni genetiche. Una stringa di aminoacidi può però ripiegarsi in un numero molto grande di strutture tridimensionali diverse. Capire quale fra le tante forme è quella, o quelle assunte realmente da ciascuna proteina, era assai poco prevedibile prima che l’intelligenza artificiale ci venisse in soccorso.
Quanto sono accurate le predizioni proteiche generate dal “deep learning”? Il 35% circa delle immagini ottenute sono considerate altamente affidabili, mentre per il 45% lo sono a sufficienza per molte applicazioni. Le previsioni meno attendibili riguardano, secondo i ricercatori, proteine dal disordine intrinseco, ossia strutture che non hanno una forma definita.
Un laboratorio di ricerca di AlphaFold sarà aperto a breve a Londra, presso il Francis Crick Institute, portando le risorse del database vicino ai laboratori dove i ricercatori fanno esperimenti con le proteine. Le predizioni ottenute con gli algoritmi e i computer potranno così essere ulteriormente validate in laboratorio, andando ad arricchire ulteriormente il database che diventerà così sempre più ricco e affidabile. Un altro progetto con ambizioni analoghe ad AlphaFold è il RoseTTAFold della University of Washington negli Stati Uniti.
L’ambizione è ora arrivare a predire la struttura in tre dimensioni di tutte le proteine esistenti, aprendo la strada a una nuova era della biologia. Un’era in cui le proteine non sono più quelle molecole capricciose, faticose ed elusive. La loro struttura diventa finalmente accessibile e maneggevole quanto quella dei più noiosi e prevedibili geni.
AlphaFold, RoseTTAFold e altri strumenti simili possono permettere ai ricercatori di individuare famiglie di proteine finora sconosciute, metterle in relazione tra loro, capire come si sono evolute e comprenderne funzioni ignote.
Contribuiranno anche a progettare farmaci più precisi, che colpiscano una determinata molecola e non un’altra simile, grazie a composti fabbricati per legarsi precisamente solo con quella proteina e non con altre. Altri obiettivi degli scienziati che utilizzando AlphaFold è individuare enzimi che possano, per esempio, aiutare a degradare la plastica o altri inquinanti.
L’impatto di strumenti come AlphaFold e RoseTTAFold sulla salute e sull’ambiente potrebbe essere enorme, perché hanno davvero il potenziale di cambiare le scienze della vita. Non a caso le riviste Science e Nature Methods li hanno citati come il progresso più importante del 2021.
Quali limiti hanno questi strumenti? Molte proteine sono straordinariamente flessibili, sinuose, versatili. Per esempio, la glicoproteina F, che permette al virus respiratorio sinciziale (RSV) di infettare le cellule umane, cambia aspetto una volta che l’involucro virale si è fuso con la membrana cellulare.
Jason McLellan, Barney Graham e colleghi, all’epoca ai National Institutes of Health a Bethesda, in Maryland, hanno studiato per oltre dieci anni le due forme della glicoproteina F, atomo per atomo, con i metodi della biologia strutturale. Il loro scopo, infine raggiunto, era progettare un vaccino contro questo virus. Il “deep learning” avrebbe potuto velocizzare le loro ricerche? In parte sì, anche se per ora i sistemi di intelligenza artificiale ci dicono poco o nulla su come una proteina può cambiare forma, sulle altre proteine con cui può interagire, né su come si può modificare nelle interazioni con altre molecole. In altre parole il sistema fornisce per ora delle fotografie ben definite ma statiche di singole proteine. Verrà il tempo in cui vedremo film con più attori proteici, osservati mentre si muovono e interagiscono con altre molecole.
Le proteine sono anche assai sensibili al variare delle condizioni di umidità e temperatura. Pensate a come cambia l’aspetto di una bistecca o di un uovo dopo pochi minuti in padella. Sviluppare sistemi di intelligenza artificiale che contemplino questa ampia variabilità delle forme proteiche è essenziale.
Cristallografi e microscopisti proteici saranno presto disoccupati? Probabilmente no, perché le previsioni ottenute da algoritmi e computer dovranno essere ancora almeno in parte validate e messe alla prova in esperimenti di laboratorio. Più probabilmente i ricercatori vedranno in questi strumenti un formidabile aiuto, capace di semplificare e velocizzare il loro duro e ingrato lavoro.
Che cosa avrebbe pensato di tutte queste novità Dorothy Hodgkin? Instancabile pioniera della cristallografia a raggi X e premio Nobel per la chimica nel 1964, durante la Seconda guerra mondiale risolveva la struttura chimica della penicillina e dell’insulina, in un laboratorio in uno scantinato dove lavorava dal 1932, con un salario minimo e una devastante artrite reumatoide. Mi piace immaginare la dottoressa Hodgkin incantata, mentre da qualche parte rimira i prodigi predittivi di AlphaFold sulle proteine che fanno del mondo il nostro mondo.
Un modello dell’anello del complesso del poro nucleare, visto dal lato del citoplasma (Fontana P. e colleghi, Science 2022).