Prendete un matematico giovane e brillante, che ha messo le sue doti al servizio della genomica. Dai suoi studi di Ph.D. al Broad Institute del MIT e di Harvard esce, nel 2009, uno dei sistemi più avanzati per costruire mappe genomiche. Dopo un exploit del genere, finito dritto sulle pagine di Science, molta gente piegherebbe verso il divano, soddisfatta della propria vita; altri, dediti e tenaci, continuerebbero a fornire strumenti sofisticati di calcolo ai genetisti.
Ma Erez Lieberman-Aiden non è un tipo che si ferma al primo trionfo. Eclettico, curioso, intellettualmente vorace, fin dal 2007 sta già pensando al progetto successivo: vedere se è possibile studiare l’evoluzione della cultura su grande scala. Come? Analizzando la frequenza delle parole nel tempo, fin dalla loro comparsa, e valutandone crescita e declino. Con che cosa? Con strumenti matematici simili a quelli sviluppati per leggere il linguaggio dei geni.
Con questa idea in testa Lieberman-Aiden prende un appuntamento con i dirigenti di Google, nella sede di Mountain View in California, e chiede di dare un’occhiata a Google Books. Progetto grandioso seppure controverso (autori ed editori non erano felicissimi all’inizio), Google Books ha l’obiettivo di creare una copia digitale interamente ricercabile di ogni libro pubblicato nella storia dell’uomo. In poco più di 6 anni i libri scanditi sono arrivati a 15 milioni, pari a circa 2 trilioni di parole o 10 trilioni di caratteri. Il genoma umano, con i suoi miseri 3 miliardi di basi, è un’inezia al confronto.
Mezzo milione di parole inglesi ignorate da ogni dizionario sono la prima di una serie di scoperte sorprendenti, emerse dall’impresa matematico-letteraria di Lieberman-Aiden. La ricerca, compiuta con la collaborazione di diversi colleghi altrettanto brillanti, è approdata – inutile dirlo – sulla copertina di Science il 16 dicembre scorso. Ma i risultati vanno ben oltre il ritrovamento della “materia oscura lessicale”.
Con la possibilità di identificare possibili casi di censura politica sconosciuti agli storici, anche parecchi umanisti si eccitano per la nascita della culturomica. Almeno i più illuminati, molti gridano all’invasione di campo e allo scandalo. È vero, ammettiamo pure che questo metodo produce una montagna di dati grezzi, tutta da analizzare e verificare. Ma vogliamo dire che la potenza di calcolo è inedita e stupefacente?
Particolarmente interessante è il metodo seguito per validare la tecnica che ha scoperto i possibili casi ignoti di censura (autrice di questa parte dello studio è Aviva Presser Aiden, moglie di Erez). I ricercatori sono partiti da alcuni nomi di intellettuali e artisti noti per essere stati censurati durante il nazismo, e ne hanno paragonato la variazione della frequenza nei libri in lingua tedesca e inglese. Così il nome di Pablo Picasso, un rappresentante della cosiddetta arte degenerata secondo l’ideologia del terzo Reich, scompare dai libri tedeschi pubblicati dal 1933 al 1945, mentre rimane stabile nel corpus inglese della stessa epoca. La prova di principio del metodo permette di costruire un “indice di soppressione” che è poi utilizzato per confermare i molti casi noti e individuare diversi casi di possibile censura, ancora ignoti.
Un’altra conseguenza curiosa dello studio è la possibilità di tracciare l’ascesa e la caduta di ideologie, trend culturali, persone famose. Chiudo lasciandovi guardare il video della Science Hall of Fame, un vero spasso e un ulteriore risultato di questo studio culturomico, a cura di Adrian Veres (nato in Romania e cresciuto in Canada, ora studente ad Harvard, coautore dello studio) e John Bohannon (inventore del Gonzo Scientist, una rubrica satirica di Science). Il video vi farà passare in rassegna i nomi degli scienziati comparsi più frequentemente nei libri pubblicati fra il 1850 e il 2000 (la dimensione dei nomi è determinata dalla frequenza per anno, mentre i colori associati a ciascun nome rappresentano l’anno in cui tale nome è comparso per la prima volta). Buon divertimento!