Prendete un matematico giovane e brillante, che ha messo le sue doti al servizio della genomica. Dai suoi studi di Ph.D. al Broad Institute del MIT e di Harvard esce, nel 2009, uno dei sistemi più avanzati per costruire mappe genomiche. Dopo un exploit del genere, finito dritto sulle pagine di Science, molta gente piegherebbe verso il divano, soddisfatta della propria vita; altri, dediti e tenaci, continuerebbero a fornire strumenti sofisticati di calcolo ai genetisti.

Con questa idea in testa Lieberman-Aiden prende un appuntamento con i dirigenti di Google, nella sede di Mountain View in California, e chiede di dare un’occhiata a Google Books. Progetto grandioso seppure controverso (autori ed editori non erano felicissimi all’inizio), Google Books ha l’obiettivo di creare una copia digitale interamente ricercabile di ogni libro pubblicato nella storia dell’uomo. In poco più di 6 anni i libri scanditi sono arrivati a 15 milioni, pari a circa 2 trilioni di parole o 10 trilioni di caratteri. Il genoma umano, con i suoi miseri 3 miliardi di basi, è un’inezia al confronto.
Mezzo milione di parole inglesi ignorate da ogni dizionario sono la prima di una serie di scoperte sorprendenti, emerse dall’impresa matematico-letteraria di Lieberman-Aiden. La ricerca, compiuta con la collaborazione di diversi colleghi altrettanto brillanti, è approdata – inutile dirlo – sulla copertina di Science il 16 dicembre scorso. Ma i risultati vanno ben oltre il ritrovamento della “materia oscura lessicale”.

Particolarmente interessante è il metodo seguito per validare la tecnica che ha scoperto i possibili casi ignoti di censura (autrice di questa parte dello studio è Aviva Presser Aiden, moglie di Erez). I ricercatori sono partiti da alcuni nomi di intellettuali e artisti noti per essere stati censurati durante il nazismo, e ne hanno paragonato la variazione della frequenza nei libri in lingua tedesca e inglese. Così il nome di Pablo Picasso, un rappresentante della cosiddetta arte degenerata secondo l’ideologia del terzo Reich, scompare dai libri tedeschi pubblicati dal 1933 al 1945, mentre rimane stabile nel corpus inglese della stessa epoca. La prova di principio del metodo permette di costruire un “indice di soppressione” che è poi utilizzato per confermare i molti casi noti e individuare diversi casi di possibile censura, ancora ignoti.
Un’altra conseguenza curiosa dello studio è la possibilità di tracciare l’ascesa e la caduta di ideologie, trend culturali, persone famose. Chiudo lasciandovi guardare il video della Science Hall of Fame, un vero spasso e un ulteriore risultato di questo studio culturomico, a cura di Adrian Veres (nato in Romania e cresciuto in Canada, ora studente ad Harvard, coautore dello studio) e John Bohannon (inventore del Gonzo Scientist, una rubrica satirica di Science). Il video vi farà passare in rassegna i nomi degli scienziati comparsi più frequentemente nei libri pubblicati fra il 1850 e il 2000 (la dimensione dei nomi è determinata dalla frequenza per anno, mentre i colori associati a ciascun nome rappresentano l’anno in cui tale nome è comparso per la prima volta). Buon divertimento!