«Gigantesco salto in avanti», «punto di svolta storico», «cambiamento nel mondo della biologia» e «rivoluzione»: sono solo alcune delle immagini usate dalla stampa di tutto il mondo tra la scorsa fine di novembre e l’inizio di dicembre per dare i risultati dell’edizione 2020 di Critical Assessment of Protein Structure Prediction (CASP), una competizione tra gruppi che utilizzano l’intelligenza artificiale e il deep learning per individuare la struttura tridimensionale delle proteine. Il clamore è dovuto all’eccezionalità del risultato di uno dei gruppi in competizione, DeepMind, e del suo algoritmo, chiamato AlphaFold. Rispetto a tutti gli altri concorrenti questo gruppo ha ottenuto risultati nettamente migliori, fino al 15% più accurati. Anzi, più le strutture da individuare erano complesse, più il distacco dalla concorrenza diventava evidente. Alla fine della competizione, che consisteva nell’analizzare 100 proteine di cui non era nota la struttura tridimensionale, AlphaFold ha registrato un punteggio di accuratezza pari al 92,4%. Per questo motivo John Moult, un biologo strutturale tra i fondatori di CASP, ha dichiarato che l’algoritmo vincitore «ha risolto un problema vecchio di cinquant’anni, che non avrei mai pensato di vedere risolto durante la mia vita».

Forma e sostanza

I corpi di tutti gli esseri viventi impiegano migliaia di proteine diverse, ognuna composta da una catena di amminoacidi, che può essere lunga anche diverse centinaia di unità. Alcune proteine erano note e si studiavano già dall’inizio del Novecento, ma è solamente nel secondo dopoguerra, mentre è in corso la ricerca per scoprire quale sia la struttura del DNA, che viene impiegata l’espressione “struttura primaria” per indicare la successione di amminoacidi della proteina. È proprio il codice genetico a tradurre il messaggio degli acidi nucleici in proteine e a determinarne quindi la struttura primaria, che comporta alcune caratteristiche e funzionalità delle proteine stesse.

Negli anni Cinquanta, il team guidato dallo scienziato americano Linus Pauling comincia a studiare le proteine sfruttando una tecnica che rimarrà in uso, affinata e migliorata, fino ai giorni nostri: la cristallografia a raggi X. Con questo metodo è possibile studiare la struttura delle proteine e i ricercatori mostrano come possano avere forme tridimensionali variegate e complesse. Il punto di svolta è lo studio dell’emoglobina, una proteina che si trova nei globuli rossi ed è fondamentale nello scambio dei gas respiratori. Max Perutz e John Cowdery Kendrew, due biochimici che per i loro studi di cristallografia delle proteine vincono nel 1962 il premio Nobel per la chimica (lo stesso anno di James Watson, Francis Crick e Maurice Wilkinson per la fisiologia), sono i primi a dimostrare che alcune proteine globulari, come proprio l’emoglobina, hanno almeno in parte una struttura a elica. Sulla scorta di questi risultati, Linus Pauling propone i nomi di quelle che oggi conosciamo come le strutture secondarie più diffuse tra le proteine note: alfa elica e foglietto beta. [caption id="attachment_75868" align="aligncenter" width="1989"]

I quattro livelli della struttura delle proteine: le strutture secondaria (B), terziaria (C) e quaternaria (D) derivano tutte dalla struttura primaria (A). (fonte: Sadava - La nuova biologia.blu © Zanichelli, 2020)[/caption] Pauling e i suoi colleghi intuiscono fin da subito anche una delle conseguenze più importanti della struttura delle proteine. Le caratteristiche chimiche, cioè la struttura primaria, hanno un ruolo fondamentale nel determinare la struttura tridimensionale della proteina: se cambia anche solo un anello della catena, le caratteristiche chimiche variano e di conseguenza la forma tridimensionale della proteina sarà diversa. Se ne accorgono riguardo all’emoglobina: la mutazione che determina l’anemia falciforme modifica un solo amminoacido nella catena, ma è sufficiente per passare da una condizione di corretto funzionamento all’insorgere di una patologia. Dunque la forma è anche sostanza, nel senso che dalla forma tridimensionale delle proteine dipendono anche le funzioni che riesce a svolgere. Conoscere queste strutture è inoltre di aiuto per i ricercatori nell’ideare farmaci che possono interagire con alcune parti specifiche delle proteine stesse.

Gli scienziati computazionali danno una mano

Fin da subito, negli anni Sessanta - cioè dagli stessi anni degli studi di Pauling, Pertuz, Kendrew e di tanti altri - i ricercatori si rendono conto che se avessero avuto a disposizione uno strumento per individuare tutte le singole interazioni chimiche all’interno della catena polipeptidica, sarebbero stati in grado di prevedere la forma tridimensionale della proteina. Il problema è che prevedere come centinaia di amminoacidi che possono interagire in diversi modi tra di loro rappresenta un dilemma quasi irrisolvibile. Per decenni, l’unico modo - utilizzato ancora oggi - per conoscere la struttura tridimensionale delle proteine è la cristallografia a raggi X o alcune altre tecniche simili: procedimenti lunghi, complessi e di non facile interpretazione. Negli ultimi trent’anni però la capacità di calcolo dei computer è enormemente aumentata e, ancora più di recente, si sono sviluppati algoritmi basati sull’intelligenza artificiale che sono in grado di imparare autonomamente a partire da set di dati preimpostati. Dal 1994, con cadenza biennale, si tiene CASP, nata proprio con lo scopo di stimolare la ricerca in questo settore attraverso una competizione internazionale. Per diversi anni il punteggio di accuratezza raggiunto nel caso delle proteine più complesse superava di poco i 20 punti sui 100 massimi. Questi numeri rendono ancora più eclatante il risultato ottenuto da AlphaFold alla tredicesima edizione appena conclusa.

Come funziona AlphaFold

AlphaFold è il nome dell’algoritmo basato sull’intelligenza artificiale e il deep learning sviluppato da DeepMind, un’azienda basata nel Regno Unito ma parte della galassia di Alphabet Inc, l’azienda proprietaria di Google. AlphaFold partecipa per la prima volta a CASP nel 2018, ma il primo algoritmo è profondamente diverso da quello del 2020. Nonostante ciò vince comunque anche quell’edizione, la dodicesima, con un vantaggio medio del 15% rispetto ai concorrenti, ma con punteggi attorno ai 60 punti quando si tratta di proteine complesse. [caption id="attachment_75869" align="aligncenter" width="565"]

Al concorso biennale CASP, i gruppi competono per prevedere la struttura 3D delle proteine. Quest'anno, AlphaFold ha battuto tutti gli altri gruppi e ha eguagliato i risultati sperimentali per quanto riguarda l’accuratezza. (fonte: BICKEL/SCIENCE)[/caption] AlphaFold si basa sulla capacità di comparare un’enorme quantità di dati tra di loro e di riuscire, grazie all’intelligenza artificiale, a imparare da quello che fa. In pratica impara dalla propria esperienza. A fare la differenza è però l’intuizione dei ricercatori di DeepMind di aggiungere un elemento che battezzano “algoritmo dell’attenzione” in grado di imitare il comportamento di una persona che sta risolvendo un puzzle. Inizialmente, unisce i pezzi in piccoli gruppi, in questo caso non di tessere ma di amminoacidi, per poi cercare di combinare questi agglomerati più grandi tra di loro per identificare la potenziale forma complessiva della proteina. La potenza di calcolo è impressionante: AlphaFold si basa su 128 processori di machine learning collegati in rete. Inoltre, per stimolarne l’apprendimento, i ricercatori gli hanno dato in pasto i dati di tutte le 170 mila proteine di cui è nota la struttura tridimensionale. [caption id="attachment_75872" align="aligncenter" width="391"]

Schema dell’architettura di AlphaFold con cui riesce a predire la struttura di una proteina a partire dalla sua sequenza. (fonte: DeepMind.org)[/caption]

Guardare al futuro

È presto per dire se i risultati eccezionali ottenuti durante CASP14 siano davvero i prodromi di una rivoluzione. Durante la competizione di quest’anno, però, AlphaFold ha dato prova di avere delle potenzialità che fanno gola a molti gruppi di ricerca che da anni stanno lavorando alle strutture di alcune proteine. Per fare un esempio, il gruppo di uno dei giudici di CASP, Andrei Lupas, lavora da oltre dieci anni su di un tipo molto complicato di proteina presente sulla membrana di una specie di archeobatterio. Hanno raccolto moltissimi dati con la cristallografia a raggi X, ma mancava la soluzione dell’enigma. Soluzione che AlphaFold ha trovato nell’arco di mezz’ora di calcoli. Il risultato è solamente un modello della proteina, ma Lucas afferma essere perfettamente coerente con i dati noti. Questo risultato conferma la bontà dell’algoritmo, ma non sostituisce - almeno per ora - la verifica sperimentale in laboratorio. Un altro campo in cui AlphaFold è già risultato decisivo è velocizzare l’analisi della struttura anche di proteine virali. Infatti, quest’anno il gruppo ha predetto accuratamente la struttura di ORF3a, una proteina del virus SARS-CoV-2 prima che venisse determinata per via sperimentale. Considerando che conosciamo 200 milioni di proteine, ma la forma tridimensionale di solo 170 mila, non mancano di certo le occasioni di mettere alla prova le capacità di questo algoritmo. E quelle di tutti gli altri che verranno: Microsoft e Tencent, il colosso cinese del digitale, hanno già annunciato che parteciperanno alla prossima edizione di CASP. Pronti? Via! -- Immagine banner e box: © ibreakstock/shutterstock