Una ragione Alcuni studi scientifici potrebbero essere sbagliati

C'è un crisi di replicabilità nella scienza - i "falsi positivi" non identificati lo sono pervadendo persino le nostre migliori riviste di ricerca.

Un falso positivo è un'affermazione che un effetto esiste quando in realtà non lo è. Nessuno sa quale percentuale di articoli pubblicati contenga risultati errati o esagerati, ma ci sono indica che la proporzione non è piccola.

L'epidemiologo John Ioannidis ha dato la migliore spiegazione per questo fenomeno in un famoso articolo in 2005, provocatoriamente intitolato "Perché la maggior parte dei risultati di ricerca pubblicati sono falsi”. Uno dei motivi per cui Ioannidis ha dato tanti falsi risultati è stato chiamato "p hacking ", che deriva dalla pressione che i ricercatori sentono per raggiungere un significato statistico.

Qual è il significato statistico?

Per trarre conclusioni dai dati, i ricercatori di solito fanno affidamento su test di significatività. In termini semplici, questo significa calcolare il "p valore ", che è la probabilità di risultati come il nostro se non c'è davvero alcun effetto. Se la p il valore è sufficientemente piccolo, il risultato è dichiarato statisticamente significativo.

Tradizionalmente, a p il valore inferiore a .05 è il criterio di significatività. Se si segnala a p<.05, è probabile che i lettori credano che tu abbia trovato un effetto reale. Forse, tuttavia, in realtà non c'è alcun effetto e hai segnalato un falso positivo.


innerself iscriviti alla grafica


Molte riviste pubblicheranno solo studi che possono riportare uno o più effetti statisticamente significativi. Gli studenti laureati imparano rapidamente che il raggiungimento del mitico p

Questa pressione per raggiungere pp hacking.

Il richiamo di p pirateria informatica

Illustrare p hacking, ecco un esempio ipotetico.

Bruce ha recentemente completato un dottorato di ricerca e ha ottenuto una prestigiosa borsa di studio per entrare a far parte di uno dei migliori team di ricerca nel suo campo. Il suo primo esperimento non funziona bene, ma Bruce raffina rapidamente le procedure e avvia un secondo studio. Questo sembra più promettente, ma ancora non dà un p valore inferiore a .05.

Convinto di avere qualcosa, Bruce raccoglie più dati. Decide di abbandonare alcuni dei risultati, che sembravano decisamente lontani.

Quindi nota che una delle sue misure fornisce un'immagine più chiara, quindi si concentra su questo. Qualche altro ritocco e Bruce finalmente identifica un effetto un po 'sorprendente, ma davvero interessante p

Bruce ha cercato così duramente di trovare l'effetto che lui sapeva era in agguato da qualche parte. Sentiva anche la pressione per colpire p

C'è solo una presa: non c'era in realtà alcun effetto. Nonostante il risultato statisticamente significativo, Bruce ha pubblicato un falso positivo.

Bruce sentiva che stava usando la sua intuizione scientifica per svelare l'effetto in agguato mentre prendeva varie misure dopo aver iniziato il suo studio:

  • Ha raccolto ulteriori dati.
  • Lasciò cadere alcuni dati che sembravano aberranti.
  • Lasciò cadere alcune delle sue misure e si concentrò sui più promettenti.
  • Analizzò i dati in modo un po 'diverso e apportò qualche ulteriore modifica.

Il guaio è che tutte queste scelte sono state fatte dopo vedere i dati. Bruce può, inconsciamente, essere stato cherrypicking - selezionando e modificando fino a quando non ha ottenuto l'elusivo pp

Gli statistici hanno un detto: se si torturano abbastanza i dati, essi confesseranno. Le scelte e le modifiche apportate dopo aver visto i dati sono pratiche di ricerca discutibili. Usando questi, deliberatamente o no, per ottenere il risultato statistico giusto è p pirateria informatica, che è una ragione importante per cui risultati pubblicati, statisticamente significativi possono essere falsi positivi.

Quale percentuale di risultati pubblicati è errata?

Questa è una buona domanda, e diabolicamente difficile. Nessuno conosce la risposta, che probabilmente sarà diversa nei diversi campi di ricerca.

Un grande e impressionante sforzo per rispondere alla domanda di psicologia sociale e cognitiva è stato pubblicato su 2015. Condotto da Brian Nosek e dai suoi colleghi del Centro per le scienze aperte, il Progetto replicabilità: Psicologia (RP: P) i gruppi di ricerca 100 in tutto il mondo eseguivano ciascuno un'attenta replica di uno dei risultati pubblicati 100. Complessivamente, approssimativamente 40 replicato abbastanza bene, mentre nei casi di 60 gli studi di replicazione hanno ottenuto effetti più piccoli o molto più piccoli.

Gli studi di replicazione di 100 RP: P hanno riportato effetti che erano, in media, solo la metà delle dimensioni degli effetti riportati dagli studi originali. Le repliche attentamente condotte stanno probabilmente dando stime più accurate del possibile p studi originali hackerati, quindi abbiamo potuto concludere che gli studi originali hanno sovrastimato gli effetti reali in media di un fattore due. È allarmante!

Come evitare p pirateria informatica

Il miglior modo per evitare p hacking è quello di evitare di effettuare selezioni o modifiche dopo aver visto i dati. In altre parole, evitare pratiche di ricerca discutibili. Nella maggior parte dei casi, il modo migliore per farlo è quello di utilizzare preregistrazione.

La preregistrazione richiede di preparare in anticipo un piano di ricerca dettagliato, compresa l'analisi statistica da applicare ai dati. Quindi preregistrare il piano, con timbro data, al Open Science Framework o qualche altro registro online.

Poi eseguire lo studio, analizzare i dati secondo il piano e riportare i risultati, qualunque essi siano. I lettori possono controllare il piano preregistrato e quindi essere sicuri che l'analisi sia stata specificata in anticipo, e non p violato. La preregistrazione è una nuova idea stimolante per molti ricercatori, ma probabilmente sarà la via del futuro.

Stima piuttosto che p valori

La tentazione di p hack è uno dei grandi svantaggi di fare affidamento su p valori. Un altro è che il ppiuttosto come dire che esiste un effetto o no.

Ma il mondo non è in bianco e nero. Per riconoscere le numerose sfumature di grigio è molto meglio usare stima anziché p valori. Lo scopo della stima è stimare la dimensione di un effetto, che può essere piccolo o grande, zero o addirittura negativo. In termini di stima, un risultato falso positivo è una stima più grande o molto più grande del valore reale di un effetto.

Facciamo uno studio ipotetico sull'impatto della terapia. Lo studio potrebbe, per esempio, stimare che la terapia dia, in media, una diminuzione del punto 7 nell'ansia. Supponiamo di calcolare dai nostri dati a intervallo di confidenza - una gamma di incertezze su entrambi i lati della nostra migliore stima - di [4, 10]. Questo ci dice che la nostra stima di 7 è, molto probabilmente, all'interno di circa 3 punti sulla scala dell'ansia del vero effetto - la vera quantità media di beneficio della terapia.

In altre parole, l'intervallo di confidenza indica quanto precisa è la nostra stima. Conoscere una tale stima e il suo intervallo di confidenza è molto più informativo di ogni altro p valore.

Mi riferisco alla stima come una delle "nuove statistiche". Le tecniche stesse non sono nuove, ma utilizzarle come metodo principale per trarre conclusioni dai dati sarebbe per molti ricercatori una novità e un grande passo avanti. Aiuterebbe anche a evitare le distorsioni causate da p hacking.

Circa l'autore

Geoff Cumming, Professore emerito, La Trobe University

Questo articolo è stato pubblicato in origine The Conversation. Leggi il articolo originale.

Libri correlati:

at InnerSelf Market e Amazon