La crisi di replicazione in psicologia

Se avete seguito la nostra pagina nel 2015, o la parte più investigativa del giornalismo scientifico, la vostra fiducia nella scienza potrebbe aver subito un brutto colpo. Tra ricercatori che tramite circoli viziosi si facevano la peer-review da soli, il sempre più grande proliferare di editori “predatori” disposti a pubblicare qualsiasi cosa (previo pagamento) e la sempre maggiore quantità di articoli pubblicati su journal ad alto impatto ma successivamente ritirati per accidenti statistici o per sospetto di frode, è sempre più difficile capire di quali pubblicazioni fidarsi e non fidarsi.

Tuttavia, se in tutti questi scandali c’è un problema sistemico/editoriale o di mala fede, un particolare risultato – pubblicato definitivamente nel 2015, ma di cui si discuteva negli ambienti scientifici almeno da mezza dozzina di anni – spicca sugli altri, non solo per la sua importanza concettuale, ma anche per quello che ci può insegnare sulla scienza in generale e la sua natura statistica. Stiamo parlando, come da titolo, della cosiddetta crisi di replicazione in psicologia.

Nel 2015, nel più grande progetto di questo tipo mai intrapreso, la Open Collaboration, un gruppo di oltre 250 scienziati guidati da Brian Nosek dell’Università della Virginia hanno cercato di replicare 100 tra i risultati più citati del 2008 nelle principali pubblicazioni psicologiche. Replicare: cioè ripetere lo stesso esperimento, con lo stesso protocollo, cercando di ottenere gli stessi risultati, o, quantomeno, risultati statisticamente compatibili. Solo 39 dei 100 esperimenti sono stati replicati con risultati analoghi. Questo NON significa necessariamente che i risultati originali fossero falsi, o erronei o inaffidabili. Ci sono molti motivi per cui una replicazione può fallire: lo studio originale è difettato, lo studio replicatore ha qualche problema, c’è una piccola differenza tra i metodi che non è stata notata, può darsi che il risultato originale fosse “un colpo di fortuna” statistico, e il risultato finale sia semplicemente un ritorno alla media.

Da Science, una rappresentazione grafica dei risultati dei tentativi di replicazione. A destra, quelle risultate statisticamente compatibili; a sinistra, quellle statisticamente diverse, ma con le diverse gradazioni di blu a rappresentare la "somiglianza" dei risultati finali.
Da Science, una rappresentazione grafica dei risultati dei tentativi di replicazione. A destra, quelle risultate statisticamente compatibili; a sinistra, quellle statisticamente diverse, ma con le diverse gradazioni di blu a rappresentare la “somiglianza” dei risultati finali. Solo 27 risultati sono molto diversi dall’esperimento originale alla replicazione

Se consideriamo invece i risultati che vanno nella stessa direzione, ma con un effetto più piccolo di quello riportato inizialmente, gli studi replicati quasi raddoppiano: questo può essere sia un segnale del fatto che i risultati sono stati “aggiustati” prima di essere pubblicati per sembrare più importanti, oppure può essere dovuto al fatto che siccome sono stati scelti journal molto “glamour”, dove si pubblicano solo cose rivoluzionarie, risultati simili ma con effetti più piccoli siano rimasti non-pubblicati in qualche cassetto per publication bias.

Non è la prima iniziativa di questo tipo da quando, nel 2012, Daniel Kahneman, premio Nobel per l’economia nonché uno dei più famosi e importanti psicologi viventi, spinse con una famosa lettera a cercare di replicare più spesso esperimenti altrui. Da questi tentativi, per altro, i risultati di Kahneman e Tversky sono usciti sempre benissimo; uno di quei rari casi in cui chi scaglia la prima pietra è effettivamente senza peccato. Ma, come in quest’ultimo caso, i risultati non davano molta ragione di essere ottimisti. Con qualche eccezione, però.
Ad esempio, nel 2013, il Many Labs Replication Project, un’organizzazione di 39 laboratori sparsi in tutto il mondo, era riuscito a replicare 10 di 13 risultati provenienti dalle più svariate discipline psicologiche, dalla psicologia sociale alla psicologia cognitiva. Uno dei leader di questo progetto era, ancora una volta, Brian Nosek. Cioè lo stesso leader, facendo un esperimento con due gruppi leggermente diversi ma con le stesse finalità, su un gruppo di esperimenti leggermente diversi ma sempre nel macroambito della psicologia, ha trovato risultati letteralmente opposti ad un paio di anni di differenza.

Non è possibile stimare da questi risultati quanto affidabile sia o non sia uno specifico paper. Dal momento che questo ultimo studio del Replication Project ha analizzato solo 3 journal, le percentuali di paper irreproducibili in letteratura sono molto difficili da stimare. Il famigerato John Ioannidis, che un po’ ci gode a dire che niente è riproducibile perché ci ha fatto sopra la sua carriera scientifica, testimonia su Nature che forse persino l’80% della letteratura psicologica generale, considerando editori vari di maggiore o minore credibilità e affidabilità, possa essere non riproducibile.

Visto da chi è fuori dal mondo scientifico, o da quelli che tipicamente hanno la fortuna di lavorare su sistemi meno complessi della psiche umana, potrebbe sembrare una stranezza; ma in realtà mostra, nonostante la “crisi”, le frodi, gli editori e gli scienziati disonesti e tutto il resto, che la scienza funziona. E no, non è un paradosso.

Tra tutte le scienze la psicologia soffre particolarmente di una cattiva reputazione. Un po’ perché nasce e si evolve da discipline, quali la psicanalisi, che sono pseudoscienza; un po’ perché si trova su quel confine abbastanza arbitrario fra scienze naturali e scienze umane; e un po’ perché i suoi risultati spesso sono difficili da digerire, dato che, analogamente alla teoria dell’evoluzione, ci costringono a mangiare il rospo e ammettere che non siamo speciali come pensiamo, o che le nostre convinzioni profonde sulle persone sono sbagliate. Le implicazioni sociali del decadimento del protone sono a dir poco indirette, quelle del rivelare che non ci sono differenze statisticamente significative tra coppie omogenitoriali ed eterogenitoriali lo sono un po’ meno, e portano un sacco di gente ad affrontare dissonanze cognitive in cui è la psicologia, e non il pregiudizio, ad essere infine rigettato.

Non è quindi sorprendente che a fare tutta questa autocritica sulla replicazione sia proprio questa disciplina. Ma non è certamente l’unica: uno dei miei articoli scientifici preferiti di sempre, di quel gran pezzo di scienziato di Ioannidis, parla di come e perché si trovano questo tipi di risultati evanescenti nelle scienze biomediche (spoiler: molto ha a che fare con il p-hacking e altri problemi statistici). Un altro articolo analogo, sulla biologia del cancro, una delle sottodiscipline più terrificantemente complicate e incomprensibili della biologia tutta, è riuscito a replicare solo 6 di 59 esperimenti in vitro con risultati compatibili, e un progetto simile a questa Open Collaboration è al momento in corso d’opera.

Ma c’è una differenza fondamentale tra la replicazione di quest’anno e la replicazione del 2013: nel primo caso, tutti e 100 i risultati vengono dal 2008. Nel secondo caso, le 39 pubblicazioni sono state scelte tra le più importanti negli ultimi 20 anni della disciplina, e la replicazione è stata molto più incoraggiante. Suggerisce che sì, magari ci vuole una generazione, ma alla fin fine quello che resta è solido. In altre parole, è progresso.

La condizione della letteratura psicologica e scientifica in generale è dovuta in sostanza ad un fondamentale problema: fare nuova scienza è dannatamente difficile. Le idee nuove sono nuove per poco, l’accademia costringe continuamente a pubblicare o a morire, e siccome, come mostrano in certa misura anche queste pubblicazioni, nel giro di una generazione tanto i risultati solidi e inoppugnabili si consolidano da soli, non c’è nessun incentivo a far null’altro che cercare di spingere i limiti della ricerca oltre. Che poi, se vogliamo, è anche il bello e il fascino della della scienza: “To boldy go where no one has gone before”  per dirla come Star Trek.

Quello che rende la scienza il miglior metodo per capire il mondo è che costantemente cerca di correggersi da sola; ma contemporaneamente, sembra che ci spaventiamo quando effettivamente facciamo qualcosa per correggerla. Uno studio del Journal of Medical Ethics mostra che tra il 2001 e il 2009, il numero di paper ritirati dopo la pubblicazione su Pubmed (il più grande database per le scienze biomediche) è cresciuto da poco più di una dozzina fino a quasi 200. E’ aumentato di 10 volte, sebbene il numero di pubblicazioni sia aumentato solo del 44% nello stesso periodo. E di fronte a questo risultato, la prima reazione è di preoccupazione, perché in prima analisi sembra voler dire “ah, sempre più scienziati disonesti e soldi buttati”. Per lo 0.002% di articoli riconosciuti come non attendibili.

Ma 8 anni in accademia sono a mala pena un ricambio generazionale, un singolo gruppo di post-doc buttati in mezzo alla strada a fare i disoccupati mentre i baroni continuano a fare la stessa cosa, due generazioni di dottorandi che disperatamente mandano application all’estero per entrare da qualche parte. Sarebbe abbastanza sorprendente se fossero tutti stati sostituiti da una generazione di incompetenti o mascalzoni. E dall’altro lato la storia della scienza è piena di aneddoti celebri di grandi scienziati che manipolano i dati senza ricorrere direttamente alla truffa: la goccia d’olio di Millikan, i piselli di Mendel (se si prende sul serio l’analisi di Fisher), l’esperimento di Milgram, e tanti altri ancora in più o meno tutti i campi del sapere. E se vogliamo includere non solo i risultati fallaci per frode o statisticamente inattendibili, ma quelli semplicemente sbagliati, beh, gran parte di tutta la scienza prodotta prima del 1900, e molta di quella prodotta dopo, si è rivelata essere almeno parzialmente erronea se non completamente sbagliata.

La differenza è che, finalmente, si è smesso di far finta che certe cose non esistano. Non so quanta gente abbia a che fare con scienziati giornalmente, ma vi posso assicurare che quasi mai prendono in parola una pubblicazione semplicemente perché ha passato quel pochetto di peer review, specialmente se in qualche modo non si conforma alle loro aspettative. Si sta improvvisamente più attenti alle frodi, perché più o meno tutti si rendono conto che mai come ora c’è incentivo a falsificare dati; ma la conseguenza è che la letteratura globale ne esce più in salute, non più danneggiata. Cerchiamo di evolvere, collettivamente, i metodi statistici e la riproducibilità, perché tanto più complicato è l’oggetto della nostra ricerca, come la psiche o il cancro, tanto più è difficile capire se c’è qualcosa che non va semplicemente leggendo i risultati invece che rifacendo l’esperimento.

Produrre nuova conoscenza scientifica è più difficile, più lento, e ha una resa minore di quanto la maggior parte della gente si aspetta. La maggior parte degli esperimenti non funziona, o funziona ma non riduce abbastanza la nostra incertezza, o funziona troppo e contraddice esperimenti precedenti, per cui c’è grande gioia ma anche grande bisogno di riconsolidare tutto. Spesso, e di questo anche io sono colpevole, trattiamo la scienza come uno strumento che funziona tramite forza bruta: Applica sufficiente prodotto ad un problema è POOF~! avrai una conclusione provvisoria ma verosimile! Usa anche tu SCIENZA, il metodo empirico più efficace dai tempi di Francis Bacon!“.

Quindi, sì: preoccupiamoci della crisi di replicazione, degli articoli ritirati, degli editori strozzini e di quelli disonesti, perché è tanto parte del progresso scientifico quanto lo è riuscire ad usare CRISPR su lievito o verificare esattamente come l’interazione debole viola la simmetria CP. Perché a volte la notizia scientifica più importante dell’anno non è una scoperta o un risultato sulla natura stessa ma sul modo in cui noi cerchiamo alla meglio di investigarla. Ma teniamo sempre presente che in calce di tutti le pubblicazioni migliori, in tutte le scienze, c’è una frase che è un cliché, e non lo è diventata per caso: More research is needed.

Rispondi

%d blogger hanno fatto clic su Mi Piace per questo: