Le lingue antiche custodiscono un tesoro di informazioni sulla cultura e la storia delle civiltà passate, ma la loro ricostruzione è un processo lento e difficile. Un nuovo modello computazionale basato sulla logica probabilistica potrà ora fornire un prezioso aiuto, consentendo di risparmiare anni di lavoro.
L’
apprendimento automatico è uno dei settori di ricerca più attivi dell’
intelligenza artificiale. Via via che le conoscenze si accumulano, la nostra capacità mentale di gestirle si rivela largamente insufficiente e dobbiamo ricorrere alle macchine. Modelli, sistemi e algoritmi sono diventati indispensabili per analizzare l’enorme mole di dati raccolti e costruire nuova conoscenza.
Tra Big Data e intelligenza artificiale: le protolingue
Un esempio di felice connubio tra
Big Data e apprendimento automatico viene dal lavoro di ricercatori della University of California a Berkeley (USA) e della University of British Columbia (Canada). Il modello computazionale che hanno sviluppato, descritto sui
Proceedings of the National Academy of Sciences, consente di ricostruire rapidamente le
protolingue, gli antenati da cui si sono evolute le grandi famiglie linguistiche del mondo e da cui derivano tutte le lingue moderne. Queste lingue ancestrali includono il
protoindoeuropeo – che ha dato origine alla nostra e ad altre
lingue indoeuropee - il protoafroasiatico e il
protoaustronesiano. Da quest’ultimo, indicato con il codice linguistico internazionale PAN, sono derivate le lingue parlate nel Sud-Est asiatico e in parti dell’Europa continentale, dell’Asia, dell’Oceania e del Pacifico. Proprio sul protoaustronesiano i ricercatori hanno testato il programma creato per riportare in vita le protolingue.
I moai di Ahu Tongariki, sull’isola di Pasqua, testimoni di antiche civiltà polinesiane (immagine: Wikimedia Commons)
Il loro modello computazionale si è avvalso del ragionamento probabilistico - che si basa sulla logica e la statistica per prevedere un risultato – per ricostruire più di 600 lingue protoaustronesiane da un database esistente di oltre 140 000 parole. Il risultato è sorprendente: il programma ha replicato con una precisione dell’85 per cento ciò che i linguisti avevano fatto manualmente dopo lunghe ricerche. Mentre infatti la ricostruzione manuale è un processo meticoloso che può impiegare anni, questo sistema automatico può eseguire una ricostruzione su larga scala in pochi giorni o perfino ore, secondo i ricercatori.
C'est formidable!
«Quello che mi entusiasma di questo sistema è che riprende molte delle grandi idee che i linguisti hanno avuto sulla ricostruzione storica, e le automatizza su una nuova scala: più dati, più parole, più lingue, ma meno tempo», ha detto Dan Klein, professore associato di informatica a Berkeley e coautore dell’articolo. Questo programma non solo fornisce ai linguisti uno strumento formidabile per ricostruire su larga scala e molto più velocemente le protolingue del mondo - aumentando in questo modo la nostra comprensione delle antiche civiltà in base ai loro vocabolari - ma può anche fornire indizi su come le lingue evolvono nel tempo. L’obiettivo ultimo dei ricercatori è quello di sfruttare i Big Data e le nuove tecnologie per documentare e preservare le lingue in via di estinzione come risorse fondamentali per la conservazione di culture e conoscenze dell’umanità. Prevedono infatti di utilizzare lo stesso modello di calcolo per ricostruire le protolingue degli indigeni del Nord America.
I più antichi documenti scritti risalgono a meno di 6000 anni fa, molto tempo dopo la comparsa delle prime protolingue. Mentre però gli archeologi possono studiare direttamente le lingue antiche in forma scritta, i linguisti in genere devono basarsi sul cosiddetto “metodo comparativo” per sondare il passato di cui non esistono tracce visibili. Questo metodo stabilisce relazioni tra lingue, individuando i suoni che cambiano con regolarità nel corso del tempo per determinare se essi condividono una lingua madre comune.
Le più antiche forme di scrittura risalgono alla cultura di Vinča, una cultura preistorica che si sviluppò nella penisola Balcanica tra il VI e il III millennio a. C. Le lingue orali, tuttavia, hanno origini molto più antiche (Immagine: Wikimedia Commons)
L’albero delle lingue
«Per capire come cambia una lingua - quali suoni hanno più probabilità di mutare e cosa diventeranno - è necessario ricostruire e analizzare enormi quantità di forme ancestrali di parole, ed è qui che le ricostruzioni automatiche svolgono un ruolo importante», ha dichiarato Alexandre Bouchard-Côté, professore associato di statistica all’Università della British Columbia e principale autore dello studio. Il modello computazionale utilizzato dai ricercatori si basa sulla teoria linguistica secondo cui le parole si modificano lungo i rami di un albero genealogico che riflette l’evoluzione nel tempo dei rapporti linguistici, con le radici e i nodi che rappresentano le protolingue, e le foglie a rappresentare le lingue moderne.
L’albero genealogico del protoaustronesiano (Immagine: University of California - Berkeley)
Utilizzando un algoritmo noto come
catena di Markov Monte Carlo, il programma seleziona gruppi di cognati, parole in lingue diverse che condividono un suono comune, la storia e l’origine, per calcolare la probabilità di ciascun gruppo di derivare da una particolare protolingua. A ogni passaggio, viene memorizzata una ricostruzione ipotetica per ciascun cognato e la sua lingua ancestrale.
«Poiché i cambiamenti dei suoni e le ricostruzioni sono strettamente legati, il nostro sistema li utilizza per migliorarli ripetutamente e reciprocamente», spiega Klein. «Prima il programma fissa i propri cambiamenti di suono previsti e deduce le migliori ricostruzioni delle forme antiche. Poi fissa le ricostruzioni e rianalizza i cambiamenti del suono. Questi passaggi si ripetono ed entrambe le previsioni, in questo modo, migliorano gradualmente nel tempo».