Truth or Truthiness in Onderzoek?

Deze blog schreef ik oorspronkelijk voor het septembernummer van het blad Didactief  onder de titel “Waar of waarheidsachtig” waar ik tweemaandelijks iets schrijf over m.i. spraakmakend wetenschappelijk onderzoek en wat de betekenis daarvan is in/voor het onderwijs. Deze is iets uitgebreider dan wat in Didactief verscheen.

Is een onderzoek betrouwbaar of lijkt het alleen zo? Stephen Colbert – Amerikaanse komiek – bedacht het mooie woord ‘truthiness’, dat in het Nederlands nauwelijks in een woord te vangen is, maar zoiets betekent als: iets dat aannemelijk klinkt en waar mensen aan vast willen houden zonder rekening te (willen) houden met feiten, logica of ander tegensprekend bewijs. Dit ‘waarheidsachtig’ is heel iets anders dan ‘trustworthy’ (betrouwbaar). Ik constateer, helaas dat de conclusies die wetenschappers trekken uit hun onderzoek – en soms het onderzoek zelf – eerder waarheidsachtig dan betrouwbaar zijn.

In zijn artikel ‘Een voorstel voor het beoordelen of onderzoeksresultaten betrouwbaar zijn’ vertelt Stephen Gorard op welke punten je kunt letten om te bepalen of een onderzoek betrouwbaar is. “Simpel gezegd, een slecht beschreven onderzoek is niet te vertrouwen.” Vaak wordt onderzoek aangegrepen als bewijs dat iets ingevoerd kan of moet worden. Maar dan moet je wel zeker weten dat het onderzoek te vertrouwen is. Om dat te doen moet je kijken naar:

Ontwerp: Je moet erop aan kunnen  dat wat de onderzoeker deed de uitkomst heeft veroorzaakt. Ofwel of er sprake is van causaliteit: een directe oorzaak-gevolg relatie tussen wat uitgeprobeerd werd en het resultaat daarvan. Aan verbanden (correlaties) heb je weinig. Ongeveer alle moordenaars hebben melk gedronken toen zij kind waren (100% correlatie), maar je kan echt niet concluderen dat als je melk drinkt je later een moordenaar wordt. De ‘gouden standaard is onderzoek waar de deelnemers willekeurig in groepen geplaatst worden en waar alles in de groepen hetzelfde is behalve de interventie (wij noemen dit gerandomiseerd onderzoek met controlegroep; Engels: Randomized Controlled Trial). Dat is het beste omdat je dan weet dat zaken als voorkeur van de docent, geslacht, motivatie om iets te doen of wat dan ook misschien de echte reden is dat iets heeft gewerkt.

Schaal: In het algemeen geldt: Hoe meer deelnemers, hoe betrouwbaarder. Als een onderzoeker op basis van een studie met 10 deelnemers (N=10) beweert dat haar/zijn ingreep de oorzaak is van een geweldige uitkomst moet je echt achter je oor krabben. En let op: een studie die 30 scholen (waar 9.000 leerlingen zitten) in twee groepen verdeeld heeft, waar de scores van alle leerlingen verzameld en vergeleken worden, is een studie met een N van 30 en niet van 9.000. Want niet de scores van de leerlingen worden vergeleken, maar de gemiddelden van de scholen, met bijvoorbeeld als conclusie dat  scholen die de lessenreeks invoerden significant hoger scoorden op de Cito-toets dan de scholen die de oude aanpak gebruikten.

Uitval: Vertelt de onderzoeker ook hoeveel deelnemers over bleven? Het aantal uitvallers en de verdeling daarvan over groepen kan behoorlijke gevolgen hebben voor de conclusies die je kan/mag trekken. Bijvoorbeeld, als er veel uitval is in de ‘ingreepgroep’ kan het betekenen dat alleen de zeer gemotiveerde leerlingen overbleven en zegt het onderzoek dus niets over hoe het in jouw klas zal werken.

Datakwaliteit: De data moeten natuurlijk, zonder meer betrouwbaar zijn. Daarnaast, moeten (1) de metingen herhaalbaar zijn en (2) als verschillende mensen iets meten/beoordelen zij het allemaal op dezelfde wijze doen. Wij vakidioten noemen punt 1 validiteit (de mate waarin een test meet wat hij zou moeten meten). Als een onderzoeker zegt dat iets geleerd is, moet het niet zo zijn – zoals ik heel vaak zie – dat dit op basis is van wat leerlingen zeggen/menen geleerd te hebben. Vaak zijn het de onderzoekers zelf die leerlinggedrag of gemaakte schrijfopdrachten beoordelen. Probleem is dat zij meestal niet onbevooroordeeld zijn en dus mogelijk zien en beoordelen wat zij willen zien

Tot slot noemt Gorard een aantal bedreigingen waarvan de sterkste zijn dat de mensen die beoordelen (1) niet onafhankelijk zijn (bijv. de onderzoeker zelf is een beoordelaar) en (2) weten van welke groep waar de te beoordelen opdracht vandaan kwam (dus ze zijn niet ‘blind’ voor de interventie).

Om de lezer te helpen heeft Gorard een ‘zeef’ gemaakt met zes categorieën (ontwerp, schaal, uitval, uitkomsten, nauwkeurigheid, geldigheid) om de betrouwbaarheid van een onderzoek goed in te schatten, elk met vijf niveaus van kwaliteit (van 0 sterren naar 4 sterren). De betrouwbaarheid van een onderzoek wordt bepaald door de laagste beoordeling in een kolom.

Ontwerp
Schaal
Uitval
Uitkomsten
Nauwkeurigheid
Geldigheid
Score
Eerlijk
Groot
Geen of nauwelijks
Vooraf bepaald, gestandaardiseerd, onafhankelijk
Interventie duidelijk, gelijke behandeling
Geen andere bedreigingen
4∗
Gebalanceerd
Gemiddeld
Een beetje e/o gelijk per groep
Vooraf bepaald maar niet gestandaardiseerd en/of niet onafhankelijk
Interventie duidelijk, onbedoelde ongelijkheid
Weinig andere bedreigingen
3∗
Gematcht
Klein
Gematigd e/o ongelijk
Niet vooraf bepaald maar toch valide
Interventie niet duidelijk, ongelijke behandeling
Bewijs van bedreigingen
2∗
Niet goed vergelijkbaar
Zeer klein
Veel e/o zeer ongelijk
Problemen met validiteit of geschiktheid
Slecht beschreven interventie
Veel bewijs voor bedreigingen
1∗
Geen info
Triviaal of niet gemeld
Niet gemeld of te veel
Zwakke metingen, teveel uitkomsten of lage betrouwbaarheid
Interventie niet of nauwelijks beschreven
Geen rekening met bedreigingen
0∗

Omdat in deze zeef, hoe betrouwbaar een onderzoek is wordt bepaald door de laagste beoordeling in een kolom, een studie die eerlijk en grootschalig is met nauwelijks uitval en gestandaardiseerde uitkomsten maar waar de ingreep onduidelijk beschreven is of waar de behandeling ongelijk is (bijv. de groep die de ingreep kreeg studeerde tweemaal zo lang als de controle) krijgt alleen een 2∗.

Probeer dit zelf de volgende keer dat je een artikel of verslag leest!

Gorard, S. (2014) A proposal for judging the trustworthiness of research findings. Radical Statistics, 110, 47-60. http://www.radstats.org.uk/no110/Gorard110.pdf

Volg mij ook op Twitter: @P_A_Kirschner

About Paul Kirschner

Paul A. Kirschner is Universiteishoogleraar aan de Open Universiteit. Daarvoor was hij hoogleraar Onderwijspsychologie en directeur van het Fostering Effective, Efficient and Enjoyable Learning environments (FEEEL) programma aan het Welten-instituut (OU).. Hij is ook Visiting Professor Onderwijs met een leerstoel in Leren en Interactie in de Lerarenopleiding aan Oulu University (Finland). Hij is een internationaal erkende expert op zijn gebied en heeft zitting gehad in de Onderwijsraad in de periode 2000-2004 en is tegenwoordig lid van de Wetenschappelijk Technische Raad van SURF. Hij was President van de International Society for the Learning Sciences (ISLS) in de periode 2010-2011 en is tevens Fellow van de American Educational Research Association (en de eerste Europeaan die deze eer ontving). Hij is redacteur bij de hoog aangeschreven wetenschappelijke tijdschriften Journal of Computer Assisted Learning en Computers in Human Behavior, en hij is auteur van Ten steps to complex learning (Routledge/Erlbaum). Hij schrift ook regelmatig voor Didactief (de kolom KirschnerKiest over wat docenten kunnen met wetenschappelijke resultaten) en voor Van 12-18. In maart verscheen zijn nieuwe boek Urban Myths about Learning and Education. Hij wordt gezien als expert op veel gebieden en vooral computerondersteund samenwerkend leren (CSCL), het ontwerpen van innovatieve, elektronische leeromgevingen, mediagebruik in het onderwijs en het verwerven van complex cognitieve vaardigheden.

8 Reacties to “Truth or Truthiness in Onderzoek?”

  1. Dit is op X, Y of Einstein? herblogden reageerde:

    Zoals steeds relevant!

    Like

  2. Dank je wel! Artikel heb ik al gedownload en ik ga lekker zeven.

    Like

Trackbacks/Pingbacks

  1. Truth or Truthiness in Onderzoek - Blog - Paul Kirschner - 31 augustus 2015

    […] 31 AUGUSTUS 2015 DOOR PAUL KIRSCHNER 0 COMMENTS BEWERKEN […]

    Like

  2. Truth or Truthiness in Onderzoek? | Master Onde... - 31 augustus 2015

    […] Is een onderzoek betrouwbaar of lijkt het alleen zo? Stephen Colbert – Amerikaanse komiek – bedacht het mooie woord ‘truthiness’, dat in het Nederlands nauwelijks in een woord te vangen is, maar zoiets betekent als: iets dat aannemelijk klinkt en waar mensen aan vast willen houden zonder rekening te (willen) houden met feiten, logica of ander tegensprekend bewijs. Dit ‘waarheidsachtig’ is heel iets anders dan ‘trustworthy’ (betrouwbaar). Ik constateer, helaas dat de conclusies die wetenschappers trekken uit hun onderzoek – en soms het onderzoek zelf – eerder waarheidsachtig dan betrouwbaar zijn.  […]

    Like

  3. Truth or Truthiness in Onderzoek? | Manuela Bazen-Steenkamp - 31 augustus 2015

    […] Sourced through Scoop.it from: onderzoekonderwijs.net […]

    Like

  4. Hoe lees je een onderzoeksartikel? Enkele tips voor docenten | Blogcollectief Onderzoek Onderwijs - 19 september 2016

    […] Als je niet kan nagaan of een onderzoek peer-reviewed was (tip 1), of tips 3-6 problemen opleveren, zie dit dan als een slecht teken. En wil je meer lezen over waarheid of waarheidsachtigheid van onderzoek, kan je dat hier vinden. […]

    Like

Geef een reactie of deel je eigen ervaringen. Graag met je eigen naam ondertekenen, geen pseudoniemen. Anonieme reacties worden verwijderd.

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

%d bloggers op de volgende wijze: