Problemet med videnskab er, at så meget af det simpelthen ikke er det. Sidste sommer annoncerede Open Science Collaboration, at det havde forsøgt at replikere hundrede offentliggjorte psykologiske eksperimenter, der blev udtaget fra tre af de mest prestigefyldte tidsskrifter på området. Videnskabelige påstande hviler på ideen om, at eksperimenter, der gentages under næsten identiske betingelser, burde give omtrent de samme resultater, men indtil for nylig var det meget få, der gider at systematisk kontrollere, om dette faktisk var tilfældet. OSC var det største forsøg på endnu at kontrollere et felt resultater, og det mest chokerende. I mange tilfælde havde de brugt originale eksperimentelle materialer og nogle gange endda udført eksperimenterne under vejledning af de originale forskere. Af de undersøgelser, der oprindeligt havde rapporteret positive resultater, kunne en forbløffende 65-procent ikke vise statistisk betydning for replikation, og mange af de resterende viste stærkt reducerede effektstørrelser.
Deres fund skabte nyhederne og blev hurtigt en klub, hvorpå man kunne basere de sociale videnskaber. Men problemet er ikke kun med psykologi. Der er en uudtalt regel i farmaceutisk industri, at halvdelen af al akademisk biomedicinsk forskning i sidste ende vil vise sig at være falsk, og i 2011 besluttede en gruppe forskere ved Bayer at teste den. Ser man på syvogtres nylige narkotikaprojekter, der er baseret på præklinisk kræftbiologisk forskning, fandt de, at i mere end 75 procent af tilfældene stemte de offentliggjorte data ikke med deres interne forsøg på at replikere. Disse var ikke studier, der blev offentliggjort i fly-by-night-onkologitidsskrifter, men blockbuster-forskning med videnskab, natur, celle og lignende. Bayer-forskerne druknede i dårlige undersøgelser, og det var til dels, at de tilskrev de mystisk faldende udbytter af lægemiddelrørledninger. Måske har så mange af disse nye lægemidler ikke effekt, fordi den grundlæggende forskning, som deres udvikling var baseret på, ikke er gyldig.
Når en undersøgelse ikke replikerer, er der to mulige fortolkninger. Den første er, at uvidende om efterforskerne, var der en reel forskel i eksperimentel opsætning mellem den oprindelige undersøgelse og den mislykkede replikation. Disse kaldes i almindelighed “tapeteffekter”, idet vittigheden var, at eksperimentet var påvirket af farven på tapetet i rummet. Dette er den lykkeligste mulige forklaring på manglende reproduktion: Det betyder, at begge eksperimenter har afsløret fakta om universet, og vi har nu muligheden for at lære, hvad forskellen var mellem dem, og at indarbejde en ny og subtil forskel i vores teorier.
Den anden fortolkning er, at den oprindelige konstatering var falsk. Desværre viser et genialt statistisk argument, at denne anden fortolkning er langt mere sandsynlig. Først formuleret af John Ioannidis, en professor ved Stanford University's School of Medicine, fortsætter dette argument med en simpel anvendelse af Bayesianske statistikker. Antag, at der er hundrede og en sten i et bestemt felt. En af dem har en diamant indeni, og heldigvis har du en enhed til detektering af diamanter, der annoncerer 99 procent nøjagtighed. Efter en times tid med at flytte enheden rundt, undersøge hver sten på sin side, blinker pludselig alarmer og sirener græder, mens enheden peges på en lovende sten. Hvad er sandsynligheden for, at stenen indeholder en diamant?
De fleste vil sige, at hvis enheden annoncerer 99 procent nøjagtighed, så er der en 99 procent chance for, at enheden korrekt vælger en diamant, og en 1 procent chance for, at den har givet en falsk positiv aflæsning. Men overvej: Af de hundrede og en sten i marken er det kun en, der virkelig er en diamant. Indrømmet, vores maskine har en meget stor sandsynlighed for korrekt at erklære, at den er en diamant. Men der er mange flere diamantfrie sten, og selvom maskinen kun har en 1 procent chance for falskt at erklære hver af dem for at være en diamant, er der hundrede af dem. Så hvis vi vinkede detektoren over hver sten i marken, ville den i gennemsnit lyde to gange - én gang for den rigtige diamant, og en gang, når en falsk aflæsning blev udløst af en sten. Hvis vi kun ved, at alarmen har lydet, er disse to muligheder stort set lige sandsynlige, hvilket giver os en cirka 50 procent chance for, at stenen virkelig indeholder en diamant.
Dette er en forenklet version af argumentet om, at Ioannidis anvender selve selve videnskabsprocessen. Stenene i marken er et sæt af alle mulige testbare hypoteser, diamanten er en hypotetisk forbindelse eller effekt, der tilfældigvis er sand, og diamantdetekteringsanordningen er den videnskabelige metode. En enorm mængde afhænger af andelen af mulige hypoteser, der viser sig at være sandt, og af den nøjagtighed, hvormed et eksperiment kan skelne sandheden ud fra falskhed. Ioannidis viser, at værdierne for disse to parametre overhovedet ikke er gunstige for en lang række videnskabelige indstillinger og felter.
Overvej for eksempel et team af molekylærbiologer, der undersøger, om en mutation i en af de utallige tusinder af menneskelige gener er forbundet med en øget risiko for Alzheimers. Sandsynligheden for en tilfældigt valgt mutation i et tilfældigt valgt gen, der har nøjagtigt den virkning, er ret lav, så ligesom med stenene i marken er et positivt fund mere sandsynligt end ikke at være falsk - medmindre eksperimentet er utroligt vellykket med at sortere hveden fra agtern. Faktisk finder Ioannidis, at det i mange tilfælde kræver ufattelig nøjagtighed at nærme sig endda 50 procent sande positive. Derfor er den iøjnefaldende titel på hans artikel: "Hvorfor de fleste publicerede forskningsresultater er falske."