È stata un'estate calda, quella appena trascorsa, per i ricercatori impegnati in un dibattito alquanto spinoso relativo al valore p, o p-value, un indicatore statistico usato dagli scienziati per determinare la correttezza delle loro ipotesi. Si tratta di un valore di probabilità, calcolato sulla base dei dati sperimentali, che permette di capire quanto questi stessi dati siano favorevoli - o contrari - all'ipotesi di partenza ed è per questo accettato dalla letteratura scientifica come parametro per discriminare tra studi "significativi" e "non significativi". Si tratta, secondo alcuni, di un uso troppo rigido di un valore statistico che rischia di mettere in parte in dubbio la credibilità del metodo scientifico. Quello che può sembrare un puro dibattito teorico tra statistici e scienziati è in realtà una discussione di cruciale importanza per molti ambiti della ricerca. È, infatti, proprio sulla base del valore p che vengono prese decisioni che ci riguardano molto da vicino. Vale quindi la pena analizzare più da vicino il dibattito che si sta sviluppando intorno a questo piccolo ma potente numero.

La sottile soglia di p

Supponete di voler testare la validità di una certa ipotesi, che chiameremo ipotesi nulla. In questo caso, statisticamente parlando, dovrete eseguire un test di verifica di ipotesi dove, come antitesi all'ipotesi nulla, ci sarà l'ipotesi alternativa. Il valore p, in questo test, aiuta a capire se è significativo o meno rifiutare l'ipotesi nulla. Si tratta di un numero compreso tra 0 e 1 che viene generalmente interpretato sulla base di un valore soglia. Valori p minori o uguali a 0.05 indicano che le evidenze sono fortemente contrarie all'ipotesi nulla, che quindi va rifiutata. Se il valore di p è maggiore di 0.05, al contrario, non ci sono abbastanza prove per rifiutare l'ipotesi nulla. Questo valore limite, fissato intorno al 1920 dallo statistico inglese Ronald Fisher, viene adottato da allora come parametro di riferimento per capire se i risultati di una ricerca scientifica sono da considerarsi significativi oppure no. Ma al di là dei numeri, qual è il vero significato del valore p? Proviamo a capirlo con un esempio vicino alla nostra quotidianità (liberamente tratto da Statistics for dummies). Una pizzeria d'asporto sostiene di avere tempi di consegna inferiori ai 30 minuti (ipotesi nulla). Voi non ne siete convinti e pensate che i tempi siano più lunghi (ipotesi alternativa). Decidete quindi di fare un test d'ipotesi e testate in maniera casuale i tempi di consegna della pizza nel corso dei giorni. Una volta raccolti i dati, eseguite il test e il valore p che ottenete è di 0.001. Questo significa che c'è una probabilità dello 0.001 di sbagliare rifiutando l'ipotesi nulla o, in altre parole, la probabilità che le vostre conclusioni siano dovute al caso è inferiore all'un per mille. Grazie al valore p, inferiore al valore soglia di 0.05, potete concludere di avere ragione a dubitare della pizzeria. La situazione descritta in questo esempio non è certo di vitale importanza, a meno che non siate tremendamente affamati, ma è facile immaginare il peso di questo parametro statistico negli studi clinici dove si testa, ad esempio, l'efficacia di un nuovo farmaco o in studi genetici o di dinamica delle popolazioni.

Troppi falsi positivi nella scienza: colpa di p?

Da quasi un secolo la soglia dello 0.05 del valore di p viene considerata come un "gold standard" nel decidere se l'ipotesi alla base di una ricerca scientifica è da accettare oppure no. La cosa, però, non mette tutti d'accordo e a luglio di quest'anno 72 ricercatori di diverse discipline hanno messo nero su bianco le loro perplessità chiedendo di abbassare questo valore da 0.05 a 0.005. Il problema, sostengono, è che un valore di p così alto porta alla pubblicazione di molti falsi positivi (studi che sostengono ci sia un effetto dove in realtà non c'è) e mina la credibilità del metodo scientifico. Solo il 24% degli studi di psicologia e il 44% degli studi economici con p-value dello 0.05 sono stati riprodotti e confermati, facendo credere che il numero di risultati falsi positivi pubblicati nelle riviste scientifiche sia molto più alto di quanto ci si possa immaginare. Abbassare questo valore a 0.005 duplicherebbe il numero di studi riproducibili, secondo i ricercatori. Victor De Gruttola della Scuola di Salute Pubblica di Harvard, tra i firmatari dell'articolo, sottolinea come "la scelta di usare 0.05 come valore soglia è semplice numerologia senza nessuna giustificazione scientifica. "I ricercatori non si rendono conto di quanto sia debole l'evidenza dei loro risultati con un valore p di 0.05" continua Daniel Benjamin, economista dell'Università della California, e promotore della proposta. La soluzione, secondo gli autori, è quella di definire come "significativi" i risultati con valore p inferiore a 0.005 e solo "indicativi" quelli con valore di p compreso tra 0.05 e 0.005. D'altra parte, sono già molti i settori della ricerca che hanno adattato il valore p alle loro necessità. I fisici delle particelle, ad esempio, considerano significativi dati che restituiscono un valore di p inferiore a 0.0000003, mentre i genetisti che conducono studi sulle popolazioni per analizzare variazioni di singoli nucleotidi di DNA utilizzano come valore soglia di p 5 × 10^-8.

Un p per ogni necessità

L'appello lanciato a luglio da alcuni esponenti della comunità scientifica, tuttavia, non mette tutti d'accordo. Secondo lo psicologo Timothy Bates dell'Università di Edimburgo, si tratta solo di una distrazione dalla vera radice del problema dei risultati scientifici non riproducibili, data dalla somma di diversi fattori tra i quali uno scarsa progettazione degli esperimenti. A risposta della proposta promossa da Benjamin e colleghi, un gruppo di 88 ricercatori ha firmato una richiesta di soluzione alternativa, destinata ad accendere ancora di più il dibattito. Perché non chiedere ai ricercatori di scegliere e giustificare un determinato valore di p per ogni studio che vogliono pubblicare, anziché imporre dei limiti universali? "Nel momento in cui si chiederà ai ricercatori di giustificare quello che stanno facendo, la scienza migliorerà", sostiene Daniel Lakens, primo autore della proposta alternativa pubblicata al momento su ArXiv. Secondo Lakens e colleghi, i ricercatori dovrebbero definire a priori un valore soglia di p ad-hoc per la propria ricerca sulla base del potenziale impatto della loro scoperta, di quanto già si sa sull'argomento, di come sarà condotto l'esperimento, lasciando poi al processo di peer-review la validazione del valore scelto. Che sia in una direzione o nell'altra, quindi, sembra ci sia la necessità di cambiare il ruolo che il valore p ha nella ricerca scientifica. Proprio per rispondere a questa necessità, per la prima volta dopo 177 anni dalla sua fondazione, l'Associazione Americana di Statistica ha redatto lo scorso anno delle raccomandazioni sull'uso del p value nel metodo scientifico e riunirà questo mese i maggiori esperti del settore in un simposio dal titolo più che significativo: Scientific method for the 21st century. A world beyond p < 0.05. Ronald Wasserstein, direttore dell'Associazione, non si è ancora espresso sul dibattito in corso ma, aggiunge, «non dovremmo essere sorpresi dal fatto che non esiste un singolo numero magico». -- Immagine box di apertura: Flickr Immagine banner in evidenza: Flickr