Questo è il primo post di Claudio Romeni dedicato alla lettura dei dati della pandemia. Il secondo riguarda la velocità del contagio e il terzo l'uso di derivate e integrali per analizzare i dati. (Revisione critica di Marco Giusiano).
Ogni giorno alle 17 la Protezione Civile diffonde i dati ufficiali relativi all'epidemia di COVID-19 in Italia. Il dato su cui si concentra l'attenzione dell'opinione pubblica è il numero dei nuovi positivi, cioè il numero di persone che sono risultate positive al tampone nelle 24 ore precedenti. Questo dato fotografa la situazione nell’intervallo di tempo di un giorno. Quando leggiamo il numero dei nuovi positivi, in modo più o meno consapevole facciamo due tipi di valutazione:
- una valutazione locale: confrontiamo il dato odierno con quello del giorno precedente per stabilire se l'epidemia sta aumentando o meno;
- una valutazione tendenziale: prendiamo in esame i dati relativi a un periodo di tempo più lungo, per esempio l'ultima settimana, e cerchiamo di ipotizzare come evolverà l'epidemia nei prossimi giorni.
I dati della Protezione civile si trovano sulla piattaforma GitHub. In effetti, come abbiamo detto, la serie dei dati della Protezione Civile viene aggiornata ogni giorno e quindi è in continua evoluzione. Per fare le nostre valutazioni scegliamo di considerare la serie storica di dati fino al 31 dicembre 2020, cioè fino al giorno 312 dall’inizio dell’epidemia. Il grafico è un insieme discreto di punti, che rappresenta la funzione
n(t): A --> B
dove A (insieme dei numeri progressivi t dei giorni dopo il 23 febbraio) e B (insieme dei numeri n di nuovi positivi) sono due sottoinsiemi dei numeri naturali N.
- Nella prima fase (febbraio-maggio, giorni 1-100) l'epidemia si sviluppa velocemente, con il numero di nuovi positivi che aumenta di giorno in giorno, fino circa al 30° giorno. Poi questo numero comincia a diminuire, e diminuisce fino circa al 100° giorno. In questa fase l'epidemia rallenta, ma non termina.
- Nella fase estiva (giugno-settembre, giorni 100-200) il numero dei nuovi positivi giornalieri rimane sostanzialmente stabile e basso, dell’ordine di poche centinaia al giorno, anche se già nella seconda metà di agosto (dal giorno 180 in poi) si osserva una lieve tendenza all’aumento.
- Nei mesi di ottobre, novembre e dicembre (dal giorno 220 al giorno 312) i nuovi positivi dapprima aumentano di giorno in giorno in modo sempre più marcato (fino circa alla metà di novembre, giorno 260), poi, come nella prima fase, iniziano a diminuire in modo evidente e mantengono un andamento complessivamente discendente, anche se con evidenti irregolarità, fino alla fine della serie (31 dicembre 2020, giorno 312).
Il grafico mostra una tendenza, a cui sono sovrapposte fluttuazioni di breve periodo, dovute a più cause, quali la mancata o incompleta trasmissione dei dati, la variazione del numero di tamponi effettuati, la formazione di cluster o focolai.
Le fluttuazioni da un giorno all’altro
Questo grafico mostra i nuovi positivi dal 9 ottobre (giorno 228) al 16 ottobre.
- La linea tratteggiata indica la tendenza del numero di nuovi positivi in quei giorni: questo numero tende ad aumentare per cui l'epidemia tende a crescere.
- Dopo due giorni (229 e 230) consecutivi di crescita, e prima di altri quattro giorni di crescita (233, 234, 235, 236), l'11 e il 12 ottobre (231 e 232) il numero dei nuovi positivi diminuisce rispetto al giorno precedente.
- In particolare, il 12 ottobre notiamo una fluttuazione negativa evidente, indicata dal segmento verticale rosso: i nuovi positivi sono circa 2000 in meno rispetto a quello che ci aspetteremmo seguendo l'andamento della linea tratteggiata.
Se il 12 ottobre avessimo affermato che l'epidemia stava decisamente frenando, avremmo commesso un grave errore. Un'epidemia è un fenomeno complesso, che cerchiamo di caratterizzare con dati empirici raccolti in modo non omogeneo. Ogni estrapolazione, cioè ogni previsione dell'andamento futuro a partire dai dati noti, è un'operazione poco significativa se non si valutano con attenzione i molti fattori che introducono fluttuazioni più o meno significative.
La media mobile su una settimana
In generale, le fluttuazioni su scala temporale breve (1-2 giorni nel caso dell'epidemia) mascherano l'andamento dei dati su scala di medio termine (settimane, sempre nel caso dell’epidemia). Questo effetto complica l'analisi di serie storiche, cioè di successioni di dati ordinati nel tempo. Per evidenziare l'andamento dei dati di una serie storica, come quella dei nuovi positivi, si deve ridurre l'incidenza delle fluttuazioni di breve termine. In questi casi si può ricorrere alla media mobile, che consiste nel sostituire al dato di un particolare giorno la media dei dati registrati in un periodo più lungo di cui il giorno fa parte. Scegliamo come periodo la settimana centrata sul giorno in esame. Per esempio, in corrispondenza del giorno 51, nel grafico non inseriamo direttamente i nuovi positivi di quel giorno, cioè n (51), ma riportiamo la media aritmetica dei nuovi positivi di un intervallo di 7 giorni centrato sul giorno 51, cioè la media aritmetica dei nuovi positivi dei giorni che vanno dal 48 al 54: dove per indicare la media mobile su 7 giorni abbiamo usato il pedice mm7. Al giorno successivo (giorno 52) associamo la media mobile centrata sul giorno 52, cioè la media aritmetica dei nuovi positivi dei giorni che vanno dal 49 al 55, e così via. La scelta di fare la media dei dati registrati in una settimana non è casuale: è ragionevole aspettarsi che la registrazione dei dati abbia fluttuazioni legate al giorno della settimana e che queste fluttuazioni si ripropongano simili di settimana in settimana. Come esempio per evidenziare una certa periodicità settimanale di n(t), tracciamo il grafico dei nuovi positivi nelle tre settimane dal 28 marzo (giorno 34) al 17 aprile (giorno 54), dove i dati di ogni settimana sono racchiusi in rettangoli gialli. Riportiamo i nuovi positivi n(t) (in blu) e gli stessi dati in forma di media mobile su 7 giorni (in rosso): Come ci aspettavamo, la media mobile riduce l'incidenza delle fluttuazioni e suggerisce che in tutto il periodo rappresentato i nuovi positivi tendono a diminuire. Mostriamo i nuovi positivi (in blu) dall'inizio dell'epidemia fino al 31 dicembre 2020, a cui è sovrapposta la rappresentazione in media mobile su 7 giorni (in rosso).
- L'andamento dei nuovi positivi calcolati con la media mobile su 7 giorni è più regolare e meno oscillante.
- Seguendo la successione dei punti rossi, è più facile notare le regolarità dell'andamento dei nuovi positivi.
- Nel mese di ottobre e nella prima metà di novembre (dal giorno 220 a poco oltre il giorno 260) il numero dei nuovi positivi cresce in modo deciso di giorno in giorno fino a raggiungere, circa a metà di novembre, un valore massimo molto superiore al valore massimo registrato nella prima fase dell’epidemia. Da metà novembre in poi i nuovi positivi giornalieri diminuiscono in modo altrettanto deciso fino circa al giorno 290 (9 dicembre), quando la discesa viene interrotta da una breve risalita, seguita poi da un’ulteriore discesa e da un’altra breve risalita finale nei giorni di fine anno (la serie considerata termina al 31 dicembre 2020, giorno 312).
Il tasso di positività
Il grafico dei nuovi positivi può indurre a fare valutazioni sbagliate sulla propagazione del contagio. Infatti, può succedere che in certo giorno ci siano molti nuovi positivi perché quel giorno sono stati fatti molti più tamponi del giorno prima. Se invece si fanno pochi tamponi, il numero dei nuovi positivi è per forza piccolo. Il dato significativo è il tasso di positività, definito come la percentuale dei nuovi positivi rispetto al numero dei tamponi fatti quello stesso giorno: Osserviamo questo grafico che rappresenta il tasso di positività in funzione dei giorni sia come valore giornaliero (punti blu) sia come media mobile a 7 giorni (punti rossi).
- Fino circa al giorno 30 (24 marzo) il tasso di positività cresce, arrivando a superare, come valore giornaliero, il 45%. Ciò è dovuto al fatto che nella fase iniziale dell’epidemia si fanno pochi tamponi (in media circa 10000 al giorno nei giorni da 1 a 30) e solo su individui che presentano sintomi compatibili con le patologie provocate dal COVID-19. In questa fase, cioè, non si fanno tamponi per screening preventivo. Inoltre ci sono fluttuazioni rilevanti, causate anche dal numero basso dei tamponi giornalieri.
- Nei mesi da aprile a giugno (dal giorno 30 al giorno 100) si ha una netta decrescita, dovuta sia alla diminuzione dei nuovi positivi sia all’aumento del numero di tamponi giornaliero; anche le fluttuazioni sono ridotte.
- Durante i mesi estivi (circa giorni 100-200) il tasso di positività rimane basso, non superiore al 2%. Ci sono pochi nuovi positivi (qualche centinaio al giorno) su un numero grande di tamponi (in media circa 55000 al giorno).
- A partire da ottobre (circa dal giorno 220) il tasso di positività inizia a crescere e lo fa in modo deciso fino a circa metà novembre (giorno 264). Il numero di positivi aumenta in modo più rapido del numero di tamponi (che nel periodo sono in media 160000 al giorno).
- Dalla metà di novembre in poi il tasso di positività ha un andamento decrescente, ma non arriva comunque, come media mobile su 7 giorni, a scendere sotto al 10%. Nei giorni finali della serie, poi, si ha una risalita del tasso di positività.
Scarica il file pdf con gli esercizi