Cerca nel blog

Caricamento in corso...

mercoledì 26 maggio 2010

StatisticaMente

Torna di nuovo in auge la diatriba sulle medicine alternative. Sull'ultimo post di Paolo dedicato a Clara Palomba, tra i vari sostenitori dell'omeopatia, ogni tanto fa capolino tizio dicendo "con me e con x persone ha funzionato". Ora, non sono medico e non vi dirò nulla di più sull'effetto placebo di quanto non faccia già il buon WeWee. Però vorrei raccontare un piccolo episodio di quando studiavo "Esperimentazioni di Fisica Prima", nota per gli amici come "fisichetta uno". Si trattava di un esercizio.

Supponete di aver inventato una nuova sciolina per gli sci, e volete testarla per vedere se funziona meglio della vecchia. Prendete due sci uguali, li sciolinate con le due scioline e li fate scendere su un pendio innevato. Risultato: su dieci prove, otto volte lo sci con la sciolina nuova arriva prima dello sci con la sciolina vecchia. Basta questo per dire che la sciolina nuova è SICURAMENTE meglio di quella vecchia?

Istintivamente si viene portati a rispondere di sì. 80% è ben più del 50%, no? "Non può essere un caso". Ebbene, se si applica correttamente il metodo scientifico, invece, si conclude che questo risultato è tale da poter tranquillamente cestinare la nuova sciolina. Vediamo perché.

Punto primo: se vogliamo essere sicuri di dare l'ok alla nuova sciolina solo se sarà migliore della vecchia, dobbiamo "pensare da cattivi": dobbiamo cioé partire dall'ipotesi che la nuova sciolina NON sia migliore della vecchia. Solo dei FATTI assolutamente netti ci obbligheranno a cambiare idea, ma quando lo faremo, il rischio di averlo fatto inutilmente sarà minimo.

Questa è dunque la cosiddetta "ipotesi nulla". Nel caso in esame, significa che le probabilità che uno sci arrivi prima dell'altro sono del 50% (nota bene, non lo stiamo affermando, lo stiamo supponendo). Quindi, al primo tentativo, avremo il 50% di possibilità per la nuova sciolina e idem per la vecchia.

Con due tentativi, i casi possibili saranno: 25% vince la vecchia sciolina sempre, 50% vincono una a testa, 25% vince la nuova.

Con tre tentativi, le probabilità sono (V=vecchia, N=nuova)
0 vittorie per N (12,5% di possibilità):
VVV
1 vittoria per N (37,5%):
NVV
VNV
VVN
2 vittorie per N (37,5%):
NNV
NVN
NNV
3 vittorie per N (12,5%):
NNN

Questa è la cosiddetta distribuzione binomiale, in particolare, la binomiale con probabilità p=0,5 (50%) e numero delle prove n 2 (o 3), in breve B(0,5;2)  e B(0,5;3). La trovate anche tra le funzioni di OpenOffice.

Tornando al nostro esempio con tre prove, vediamo che la probabilità di avere tre vittorie per V è del 12,5%, mentre la probabilità di averne 2 o più è del 50%. Questo, ricordiamolo, nell'ipotesi che le due scioline siano "identiche".

Andando avanti con il numero di tentativi, con un po' di conti che lasciamo ai nostri fidi calcolatori, arrivati a dieci tentativi abbiamo quanto segue:


Vittorie N Probabilità Cumulata
0 0,1% 0,1%
1 1,0% 1,1%
2 4,4% 5,5%
3 11,7% 17,2%
4 20,5% 37,7%
5 24,6% 62,3%
6 20,5% 82,8%
7 11,7% 94,5%
8 4,4% 98,9%
9 1,0% 99,9%
10 0,1% 100,0%

Guardando la colonna della probabilità cumulata, si vede che sette vittorie o meno sono possibili nel 94,5% dei casi. Cioé, ripetendo gruppi di dieci prove, nel 94,5% dei casi ottengo sette o meno vittorie con la nuova sciolina, anche se questa è assolutamente identica alla vecchia sciolina.

A questo punto ci chiediamo: quante probabilità ci sono di fare otto o più successi con le scioline identiche? Si sommano gli ultimi tre valori e si trova il restante 5,5% di probabilità. Ciò significa che, quando facciamo un esperimento con dieci lanci con due scioline identiche, c'è il 5,5% di possibilità di ottenere otto vittorie o più della sciolina nuova PUR NON ESSENDO ESSA MINIMAMENTE MIGLIORE DELLA VECCHIA.

E 5,5% è tanto o è poco? Qui la cosa diventa arbitraria, ma chiaramente, se ci devo affidare la vita, 5,5% è dannatamente troppo. Salireste su un aereo che ogni venti decolli non ce la fa? Vi fidereste di un meccanico che nel 5% dei casi monta i freni in maniera sbagliata?

Chiaramente, l'ideale sarebbe avere zero come probabilità. Purtroppo, con un valore simile, non cambieremmo mai sciolina, soprattutto se gli esperimenti, invece che sugli sci, li facciamo su dei malati e dunque con dei forti limiti sulla numerosità del campione, sulla sua omogeneità e sul tempo a disposizione per le prove. La comunità scientifica ha deciso di stabilire due livelli di significatività: all'1% e al 5%. Se c'è significatività all'1%, la sciolina nuova è sicuramente migliore di quella vecchia, se è tra l'1 e il 5% conviene indagare ulteriormente, altrimenti si può buttar via tutto.

Perché proprio l'1%? E se invece ragioniamo al contrario, basta il 99% di sconfitte? E dire "la nuova sciolina è migliore della vecchia" equivale a dire "la nuova sciolina è diversa dalla vecchia"? Qui la faccenda diventa filosofica, molto specialistica e io mi fermo. Quello che mi premeva sottolineare è come la frase "otto su dieci" significhi poco come dimostrazione dell'efficacia di qualcosa. Otto casi su dieci, inoltre, non sono l'analogo di 80 casi su cento, o 800 su mille. La statistica è una scienza più esatta di quello che si vuol far credere, ma le statistiche vanno presentate complete: non basta dare una percentuale, servono la numerosità del campione, il protocollo, le distribuzioni ecc. Ecco perché ho molti dubbi quando leggo pdf come ad esempio questo sull'efficacia dell'agopuntura.

6 commenti:

Gianni Comoretto ha detto...

Nell'esempio che fai, si concluderebbe dicendo che la sciolina nuova non è significativamente migliore della vecchia, ma che sono necessari studi migliori. Ed in effetti buttare una sciolina che potenzialmente è abbastanza meglio della vecchia scoccia, per cui di tentativi ne farei almeno 20 (il numero tipico di una prova sì/no).

Anche così però è poco intuitivo che (per fare un esempio più omeopatico) se ho 20 boccette di cui 10 di rimedio CH30 e 10 di placebo, e provo ad indovinare quali sono vedendo se "a me funzionano", ne devo indovinare almeno 16-17 se voglio che la cosa non sia solo una botta di fortuna.

markogts ha detto...

Scusa, Gianni, ma la somma delle probabilità di 8, 9 o 10 "vittorie" dà 5,5%, che è oltre il livello del 5% per le "ulteriori ricerche". Almeno così l'ho capita io. Sbaglio qualcosa?

Gianni Comoretto ha detto...

Non dico che sbagli. Il 5,5% e' piu' del 5%, di solito considerato il minimo per ritenere "significativo" il risultato.

Ma se trovi che hai azzeccato 8 volte su 10 non cestini l'ipotesi. Solo non l'hai dimostrata. Quindi chiedi finanziamenti per ripetere il tutto, se ci azzecchi 16 volte su 20 le cose si fanno intriganti.

Almeno, gli omeopati fan cosi', trovano risultati non significativi o debolmente significativi, ma siccome qualche volta funziona non gettano la spugna.

L'osservazione che fa uno statistico e' che devi sceglierti PRIMA un campione abbastanza grande da poter vedere degli effetti, se le differenze sono quelle che ragionevolmente ti puoi aspettare. Un campione di 10 prove difficilmente lo sara', ti ritrovi che anche se ne azzecchi 8 non bastano.

Le cose poi sono piu' complicate dal "multiple comparison bias", che non c'entra direttamente con il tuo esempio, ma con gli omeopati si'.

Per provare la sciolina posso fare un sacco di test diversi. Posso provare a vedere se funziona meglio sulla neva farinosa o sciroccosa, o ghiacciata, ad esempio. Con sci lunghi e corti. Sullo slalom, discesa libera e fondo.

Alla fine mi trovo con 24 combinazioni e toh, mi ritrovo una prova con significativita' del 4%. Ho solo il 4% di probabilita' di ottenere per caso che la sciolina funzioni cosi' bene con sci corti e neve farinosa su una prova di slalom. Guarda caso, una probabilita' su 25. Nel resto funziona peggio, ma sicuramente in quel caso funziona, no?

markogts ha detto...

Ah ok. Certamente dieci tentativi sono poco significativi. Però quello che volevo sottolineare è come un risultato apparentemente ovvio ("8 su 10 non può essere un caso") in realtà non è statisticamente significativo. Io quando lo lessi per la prima volta ci rimasi male :-)

Weissbach ha detto...

Tutto questo spiega anche i risultati del polpo Paul, sempre che non ci siano dietro dei trucchi o dei bias più pesanti.

markogts ha detto...

Sì. Inoltre penso che sul polpo Paul pesi anche un bias di selezione. In altre parole, nel momento in cui Paul decide per la finale, le sue decisioni per le partite precedenti non contano più: c'è di nuovo il 50% di possibilità di azzeccare il risultato giusto. Certo, azzeccare 4 partite di fila significa il 0,5^4=6,25% di probabilità, ma, arrivati alla finale, abbiamo già scartato tutti i polpi, monete, pendoli e calli della nonna che non hanno azzeccato le partite precedenti. Non a caso, del polpo Paul si è sentito parlare solo a metà dei mondiali.