Truth or Truthiness in Onderzoek?

Paul Kirschner

9 jaar geleden

Deze blog schreef ik oorspronkelijk voor het septembernummer van het blad Didactief onder de titel “Waar of waarheidsachtig” waar ik tweemaandelijks iets schrijf over m.i. spraakmakend wetenschappelijk onderzoek en wat de betekenis daarvan is in/voor het onderwijs. Deze is iets uitgebreider dan wat in Didactief verscheen.

Is een onderzoek betrouwbaar of lijkt het alleen zo? Stephen Colbert – Amerikaanse komiek – bedacht het mooie woord ‘truthiness’, dat in het Nederlands nauwelijks in een woord te vangen is, maar zoiets betekent als: iets dat aannemelijk klinkt en waar mensen aan vast willen houden zonder rekening te (willen) houden met feiten, logica of ander tegensprekend bewijs. Dit ‘waarheidsachtig’ is heel iets anders dan ‘trustworthy’ (betrouwbaar). Ik constateer, helaas dat de conclusies die wetenschappers trekken uit hun onderzoek – en soms het onderzoek zelf – eerder waarheidsachtig dan betrouwbaar zijn.

In zijn artikel ‘Een voorstel voor het beoordelen of onderzoeksresultaten betrouwbaar zijn’ vertelt Stephen Gorard op welke punten je kunt letten om te bepalen of een onderzoek betrouwbaar is. “Simpel gezegd, een slecht beschreven onderzoek is niet te vertrouwen.” Vaak wordt onderzoek aangegrepen als bewijs dat iets ingevoerd kan of moet worden. Maar dan moet je wel zeker weten dat het onderzoek te vertrouwen is. Om dat te doen moet je kijken naar:

Ontwerp: Je moet erop aan kunnen dat wat de onderzoeker deed de uitkomst heeft veroorzaakt. Ofwel of er sprake is van causaliteit: een directe oorzaak-gevolg relatie tussen wat uitgeprobeerd werd en het resultaat daarvan. Aan verbanden (correlaties) heb je weinig. Ongeveer alle moordenaars hebben melk gedronken toen zij kind waren (100% correlatie), maar je kan echt niet concluderen dat als je melk drinkt je later een moordenaar wordt. De ‘gouden standaard is onderzoek waar de deelnemers willekeurig in groepen geplaatst worden en waar alles in de groepen hetzelfde is behalve de interventie (wij noemen dit gerandomiseerd onderzoek met controlegroep; Engels: Randomized Controlled Trial). Dat is het beste omdat je dan weet dat zaken als voorkeur van de docent, geslacht, motivatie om iets te doen of wat dan ook misschien de echte reden is dat iets heeft gewerkt.

Schaal: In het algemeen geldt: Hoe meer deelnemers, hoe betrouwbaarder. Als een onderzoeker op basis van een studie met 10 deelnemers (N=10) beweert dat haar/zijn ingreep de oorzaak is van een geweldige uitkomst moet je echt achter je oor krabben. En let op: een studie die 30 scholen (waar 9.000 leerlingen zitten) in twee groepen verdeeld heeft, waar de scores van alle leerlingen verzameld en vergeleken worden, is een studie met een N van 30 en niet van 9.000. Want niet de scores van de leerlingen worden vergeleken, maar de gemiddelden van de scholen, met bijvoorbeeld als conclusie dat scholen die de lessenreeks invoerden significant hoger scoorden op de Cito-toets dan de scholen die de oude aanpak gebruikten.

Uitval: Vertelt de onderzoeker ook hoeveel deelnemers over bleven? Het aantal uitvallers en de verdeling daarvan over groepen kan behoorlijke gevolgen hebben voor de conclusies die je kan/mag trekken. Bijvoorbeeld, als er veel uitval is in de ‘ingreepgroep’ kan het betekenen dat alleen de zeer gemotiveerde leerlingen overbleven en zegt het onderzoek dus niets over hoe het in jouw klas zal werken.

Datakwaliteit: De data moeten natuurlijk, zonder meer betrouwbaar zijn. Daarnaast, moeten (1) de metingen herhaalbaar zijn en (2) als verschillende mensen iets meten/beoordelen zij het allemaal op dezelfde wijze doen. Wij vakidioten noemen punt 1 validiteit (de mate waarin een test meet wat hij zou moeten meten). Als een onderzoeker zegt dat iets geleerd is, moet het niet zo zijn – zoals ik heel vaak zie – dat dit op basis is van wat leerlingen zeggen/menen geleerd te hebben. Vaak zijn het de onderzoekers zelf die leerlinggedrag of gemaakte schrijfopdrachten beoordelen. Probleem is dat zij meestal niet onbevooroordeeld zijn en dus mogelijk zien en beoordelen wat zij willen zien

Tot slot noemt Gorard een aantal bedreigingen waarvan de sterkste zijn dat de mensen die beoordelen (1) niet onafhankelijk zijn (bijv. de onderzoeker zelf is een beoordelaar) en (2) weten van welke groep waar de te beoordelen opdracht vandaan kwam (dus ze zijn niet ‘blind’ voor de interventie).

Om de lezer te helpen heeft Gorard een ‘zeef’ gemaakt met zes categorieën (ontwerp, schaal, uitval, uitkomsten, nauwkeurigheid, geldigheid) om de betrouwbaarheid van een onderzoek goed in te schatten, elk met vijf niveaus van kwaliteit (van 0 sterren naar 4 sterren). De betrouwbaarheid van een onderzoek wordt bepaald door de laagste beoordeling in een kolom.

Ontwerp	Schaal	Uitval	Uitkomsten	Nauwkeurigheid	Geldigheid	Score
Eerlijk	Groot	Geen of nauwelijks	Vooraf bepaald, gestandaardiseerd, onafhankelijk	Interventie duidelijk, gelijke behandeling	Geen andere bedreigingen	4∗
Gebalanceerd	Gemiddeld	Een beetje e/o gelijk per groep	Vooraf bepaald maar niet gestandaardiseerd en/of niet onafhankelijk	Interventie duidelijk, onbedoelde ongelijkheid	Weinig andere bedreigingen	3∗
Gematcht	Klein	Gematigd e/o ongelijk	Niet vooraf bepaald maar toch valide	Interventie niet duidelijk, ongelijke behandeling	Bewijs van bedreigingen	2∗
Niet goed vergelijkbaar	Zeer klein	Veel e/o zeer ongelijk	Problemen met validiteit of geschiktheid	Slecht beschreven interventie	Veel bewijs voor bedreigingen	1∗
Geen info	Triviaal of niet gemeld	Niet gemeld of te veel	Zwakke metingen, teveel uitkomsten of lage betrouwbaarheid	Interventie niet of nauwelijks beschreven	Geen rekening met bedreigingen	0∗

Omdat in deze zeef, hoe betrouwbaar een onderzoek is wordt bepaald door de laagste beoordeling in een kolom, een studie die eerlijk en grootschalig is met nauwelijks uitval en gestandaardiseerde uitkomsten maar waar de ingreep onduidelijk beschreven is of waar de behandeling ongelijk is (bijv. de groep die de ingreep kreeg studeerde tweemaal zo lang als de controle) krijgt alleen een 2∗.

Probeer dit zelf de volgende keer dat je een artikel of verslag leest!

Gorard, S. (2014) A proposal for judging the trustworthiness of research findings. Radical Statistics, 110, 47-60. http://www.radstats.org.uk/no110/Gorard110.pdf

Volg mij ook op Twitter: @P_A_Kirschner

0 0 votes

Article Rating

Ontwerp

Schaal

Uitval

Uitkomsten

Nauwkeurigheid

Geldigheid

Score

Eerlijk

Groot

Geen of nauwelijks

Vooraf bepaald, gestandaardiseerd, onafhankelijk

Interventie duidelijk, gelijke behandeling

Geen andere bedreigingen

4∗

Gebalanceerd

Gemiddeld

Een beetje e/o gelijk per groep

Vooraf bepaald maar niet gestandaardiseerd en/of niet onafhankelijk

Interventie duidelijk, onbedoelde ongelijkheid

Weinig andere bedreigingen

3∗

Gematcht

Klein

Gematigd e/o ongelijk

Niet vooraf bepaald maar toch valide

Interventie niet duidelijk, ongelijke behandeling

Bewijs van bedreigingen

2∗

Niet goed vergelijkbaar

Zeer klein

Veel e/o zeer ongelijk

Problemen met validiteit of geschiktheid

Slecht beschreven interventie

Veel bewijs voor bedreigingen

1∗

Geen info

Triviaal of niet gemeld

Niet gemeld of te veel

Zwakke metingen, teveel uitkomsten of lage betrouwbaarheid

Interventie niet of nauwelijks beschreven

Geen rekening met bedreigingen

0∗

Dit delen: