Forma e sostanza
I corpi di tutti gli esseri viventi impiegano migliaia di proteine diverse, ognuna composta da una catena di amminoacidi, che può essere lunga anche diverse centinaia di unità. Alcune proteine erano note e si studiavano già dall’inizio del Novecento, ma è solamente nel secondo dopoguerra, mentre è in corso la ricerca per scoprire quale sia la struttura del DNA, che viene impiegata l’espressione “struttura primaria” per indicare la successione di amminoacidi della proteina. È proprio il codice genetico a tradurre il messaggio degli acidi nucleici in proteine e a determinarne quindi la struttura primaria, che comporta alcune caratteristiche e funzionalità delle proteine stesse. Negli anni Cinquanta, il team guidato dallo scienziato americano Linus Pauling comincia a studiare le proteine sfruttando una tecnica che rimarrà in uso, affinata e migliorata, fino ai giorni nostri: la cristallografia a raggi X. Con questo metodo è possibile studiare la struttura delle proteine e i ricercatori mostrano come possano avere forme tridimensionali variegate e complesse. Il punto di svolta è lo studio dell’emoglobina, una proteina che si trova nei globuli rossi ed è fondamentale nello scambio dei gas respiratori. Max Perutz e John Cowdery Kendrew, due biochimici che per i loro studi di cristallografia delle proteine vincono nel 1962 il premio Nobel per la chimica (lo stesso anno di James Watson, Francis Crick e Maurice Wilkinson per la fisiologia), sono i primi a dimostrare che alcune proteine globulari, come proprio l’emoglobina, hanno almeno in parte una struttura a elica. Sulla scorta di questi risultati, Linus Pauling propone i nomi di quelle che oggi conosciamo come le strutture secondarie più diffuse tra le proteine note: alfa elica e foglietto beta.
Gli scienziati computazionali danno una mano
Fin da subito, negli anni Sessanta - cioè dagli stessi anni degli studi di Pauling, Pertuz, Kendrew e di tanti altri - i ricercatori si rendono conto che se avessero avuto a disposizione uno strumento per individuare tutte le singole interazioni chimiche all’interno della catena polipeptidica, sarebbero stati in grado di prevedere la forma tridimensionale della proteina. Il problema è che prevedere come centinaia di amminoacidi che possono interagire in diversi modi tra di loro rappresenta un dilemma quasi irrisolvibile. Per decenni, l’unico modo - utilizzato ancora oggi - per conoscere la struttura tridimensionale delle proteine è la cristallografia a raggi X o alcune altre tecniche simili: procedimenti lunghi, complessi e di non facile interpretazione. Negli ultimi trent’anni però la capacità di calcolo dei computer è enormemente aumentata e, ancora più di recente, si sono sviluppati algoritmi basati sull’intelligenza artificiale che sono in grado di imparare autonomamente a partire da set di dati preimpostati. Dal 1994, con cadenza biennale, si tiene CASP, nata proprio con lo scopo di stimolare la ricerca in questo settore attraverso una competizione internazionale. Per diversi anni il punteggio di accuratezza raggiunto nel caso delle proteine più complesse superava di poco i 20 punti sui 100 massimi. Questi numeri rendono ancora più eclatante il risultato ottenuto da AlphaFold alla tredicesima edizione appena conclusa.Come funziona AlphaFold
AlphaFold è il nome dell’algoritmo basato sull’intelligenza artificiale e il deep learning sviluppato da DeepMind, un’azienda basata nel Regno Unito ma parte della galassia di Alphabet Inc, l’azienda proprietaria di Google. AlphaFold partecipa per la prima volta a CASP nel 2018, ma il primo algoritmo è profondamente diverso da quello del 2020. Nonostante ciò vince comunque anche quell’edizione, la dodicesima, con un vantaggio medio del 15% rispetto ai concorrenti, ma con punteggi attorno ai 60 punti quando si tratta di proteine complesse.

Guardare al futuro
È presto per dire se i risultati eccezionali ottenuti durante CASP14 siano davvero i prodromi di una rivoluzione. Durante la competizione di quest’anno, però, AlphaFold ha dato prova di avere delle potenzialità che fanno gola a molti gruppi di ricerca che da anni stanno lavorando alle strutture di alcune proteine. Per fare un esempio, il gruppo di uno dei giudici di CASP, Andrei Lupas, lavora da oltre dieci anni su di un tipo molto complicato di proteina presente sulla membrana di una specie di archeobatterio. Hanno raccolto moltissimi dati con la cristallografia a raggi X, ma mancava la soluzione dell’enigma. Soluzione che AlphaFold ha trovato nell’arco di mezz’ora di calcoli. Il risultato è solamente un modello della proteina, ma Lucas afferma essere perfettamente coerente con i dati noti. Questo risultato conferma la bontà dell’algoritmo, ma non sostituisce - almeno per ora - la verifica sperimentale in laboratorio. Un altro campo in cui AlphaFold è già risultato decisivo è velocizzare l’analisi della struttura anche di proteine virali. Infatti, quest’anno il gruppo ha predetto accuratamente la struttura di ORF3a, una proteina del virus SARS-CoV-2 prima che venisse determinata per via sperimentale. Considerando che conosciamo 200 milioni di proteine, ma la forma tridimensionale di solo 170 mila, non mancano di certo le occasioni di mettere alla prova le capacità di questo algoritmo. E quelle di tutti gli altri che verranno: Microsoft e Tencent, il colosso cinese del digitale, hanno già annunciato che parteciperanno alla prossima edizione di CASP. Pronti? Via! -- Immagine banner e box: © ibreakstock/shutterstock





