31/08/2015 — Paul Kirschner

Truth or Truthiness in Onderzoek?

Deze blog schreef ik oorspronkelijk voor het septembernummer van het blad Didactief onder de titel “Waar of waarheidsachtig” waar ik tweemaandelijks iets schrijf over m.i. spraakmakend wetenschappelijk onderzoek en wat de betekenis daarvan is in/voor het onderwijs. Deze is iets uitgebreider dan wat in Didactief verscheen.

Is een onderzoek betrouwbaar of lijkt het alleen zo? Stephen Colbert – Amerikaanse komiek – bedacht het mooie woord ‘truthiness’, dat in het Nederlands nauwelijks in een woord te vangen is, maar zoiets betekent als: iets dat aannemelijk klinkt en waar mensen aan vast willen houden zonder rekening te (willen) houden met feiten, logica of ander tegensprekend bewijs. Dit ‘waarheidsachtig’ is heel iets anders dan ‘trustworthy’ (betrouwbaar). Ik constateer, helaas dat de conclusies die wetenschappers trekken uit hun onderzoek – en soms het onderzoek zelf – eerder waarheidsachtig dan betrouwbaar zijn.

In zijn artikel ‘Een voorstel voor het beoordelen of onderzoeksresultaten betrouwbaar zijn’ vertelt Stephen Gorard op welke punten je kunt letten om te bepalen of een onderzoek betrouwbaar is. “Simpel gezegd, een slecht beschreven onderzoek is niet te vertrouwen.” Vaak wordt onderzoek aangegrepen als bewijs dat iets ingevoerd kan of moet worden. Maar dan moet je wel zeker weten dat het onderzoek te vertrouwen is. Om dat te doen moet je kijken naar:

Ontwerp: Je moet erop aan kunnen dat wat de onderzoeker deed de uitkomst heeft veroorzaakt. Ofwel of er sprake is van causaliteit: een directe oorzaak-gevolg relatie tussen wat uitgeprobeerd werd en het resultaat daarvan. Aan verbanden (correlaties) heb je weinig. Ongeveer alle moordenaars hebben melk gedronken toen zij kind waren (100% correlatie), maar je kan echt niet concluderen dat als je melk drinkt je later een moordenaar wordt. De ‘gouden standaard is onderzoek waar de deelnemers willekeurig in groepen geplaatst worden en waar alles in de groepen hetzelfde is behalve de interventie (wij noemen dit gerandomiseerd onderzoek met controlegroep; Engels: Randomized Controlled Trial). Dat is het beste omdat je dan weet dat zaken als voorkeur van de docent, geslacht, motivatie om iets te doen of wat dan ook misschien de echte reden is dat iets heeft gewerkt.

Schaal: In het algemeen geldt: Hoe meer deelnemers, hoe betrouwbaarder. Als een onderzoeker op basis van een studie met 10 deelnemers (N=10) beweert dat haar/zijn ingreep de oorzaak is van een geweldige uitkomst moet je echt achter je oor krabben. En let op: een studie die 30 scholen (waar 9.000 leerlingen zitten) in twee groepen verdeeld heeft, waar de scores van alle leerlingen verzameld en vergeleken worden, is een studie met een N van 30 en niet van 9.000. Want niet de scores van de leerlingen worden vergeleken, maar de gemiddelden van de scholen, met bijvoorbeeld als conclusie dat scholen die de lessenreeks invoerden significant hoger scoorden op de Cito-toets dan de scholen die de oude aanpak gebruikten.

Uitval: Vertelt de onderzoeker ook hoeveel deelnemers over bleven? Het aantal uitvallers en de verdeling daarvan over groepen kan behoorlijke gevolgen hebben voor de conclusies die je kan/mag trekken. Bijvoorbeeld, als er veel uitval is in de ‘ingreepgroep’ kan het betekenen dat alleen de zeer gemotiveerde leerlingen overbleven en zegt het onderzoek dus niets over hoe het in jouw klas zal werken.

Datakwaliteit: De data moeten natuurlijk, zonder meer betrouwbaar zijn. Daarnaast, moeten (1) de metingen herhaalbaar zijn en (2) als verschillende mensen iets meten/beoordelen zij het allemaal op dezelfde wijze doen. Wij vakidioten noemen punt 1 validiteit (de mate waarin een test meet wat hij zou moeten meten). Als een onderzoeker zegt dat iets geleerd is, moet het niet zo zijn – zoals ik heel vaak zie – dat dit op basis is van wat leerlingen zeggen/menen geleerd te hebben. Vaak zijn het de onderzoekers zelf die leerlinggedrag of gemaakte schrijfopdrachten beoordelen. Probleem is dat zij meestal niet onbevooroordeeld zijn en dus mogelijk zien en beoordelen wat zij willen zien

Tot slot noemt Gorard een aantal bedreigingen waarvan de sterkste zijn dat de mensen die beoordelen (1) niet onafhankelijk zijn (bijv. de onderzoeker zelf is een beoordelaar) en (2) weten van welke groep waar de te beoordelen opdracht vandaan kwam (dus ze zijn niet ‘blind’ voor de interventie).

Om de lezer te helpen heeft Gorard een ‘zeef’ gemaakt met zes categorieën (ontwerp, schaal, uitval, uitkomsten, nauwkeurigheid, geldigheid) om de betrouwbaarheid van een onderzoek goed in te schatten, elk met vijf niveaus van kwaliteit (van 0 sterren naar 4 sterren). De betrouwbaarheid van een onderzoek wordt bepaald door de laagste beoordeling in een kolom.

Ontwerp	Schaal	Uitval	Uitkomsten	Nauwkeurigheid	Geldigheid	Score
Eerlijk	Groot	Geen of nauwelijks	Vooraf bepaald, gestandaardiseerd, onafhankelijk	Interventie duidelijk, gelijke behandeling	Geen andere bedreigingen	4∗
Gebalanceerd	Gemiddeld	Een beetje e/o gelijk per groep	Vooraf bepaald maar niet gestandaardiseerd en/of niet onafhankelijk	Interventie duidelijk, onbedoelde ongelijkheid	Weinig andere bedreigingen	3∗
Gematcht	Klein	Gematigd e/o ongelijk	Niet vooraf bepaald maar toch valide	Interventie niet duidelijk, ongelijke behandeling	Bewijs van bedreigingen	2∗
Niet goed vergelijkbaar	Zeer klein	Veel e/o zeer ongelijk	Problemen met validiteit of geschiktheid	Slecht beschreven interventie	Veel bewijs voor bedreigingen	1∗
Geen info	Triviaal of niet gemeld	Niet gemeld of te veel	Zwakke metingen, teveel uitkomsten of lage betrouwbaarheid	Interventie niet of nauwelijks beschreven	Geen rekening met bedreigingen	0∗

Omdat in deze zeef, hoe betrouwbaar een onderzoek is wordt bepaald door de laagste beoordeling in een kolom, een studie die eerlijk en grootschalig is met nauwelijks uitval en gestandaardiseerde uitkomsten maar waar de ingreep onduidelijk beschreven is of waar de behandeling ongelijk is (bijv. de groep die de ingreep kreeg studeerde tweemaal zo lang als de controle) krijgt alleen een 2∗.

Probeer dit zelf de volgende keer dat je een artikel of verslag leest!

Gorard, S. (2014) A proposal for judging the trustworthiness of research findings. Radical Statistics, 110, 47-60. http://www.radstats.org.uk/no110/Gorard110.pdf

Volg mij ook op Twitter: @P_A_Kirschner

0 0 votes

Article Rating

Abonneren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

8 Reacties

nieuwste

oudste meest gestemd

Inline Feedbacks

View all comments

wpDiscuz

About Paul Kirschner

Nederlands: Prof. dr. Paul A. Kirschner, dr.h.c. is Universiteishoogleraar en hoogleraar Onderwijspsychologie aan de Open Universiteit. Hij is ook Visiting Professor Onderwijs met een leerstoel in Leren en Interactie in de Lerarenopleiding aan Oulu University (Finland) waar hij ook een Eredoctoraat heeft (doctor honoris causa). Hij is een internationaal erkende expert op zijn gebied en heeft zitting gehad in de Onderwijsraad in de periode 2000-2004 en is lid van de Wetenschappelijk Technische Raad van SURF. Hij is Fellow of the American Educational Research Association (AERA; NB de eerste Europeaan aan wie deze eer werd toegekend), de International Society of the Learning Sciences (ISLS) en van de Netherlands Institute for Advanced Study in the Humanities and Social Science of the Royal Dutch Academy of Sciences (NIAS-KNAW). Hij was President van de International Society for the Learning Sciences (ISLS) in de periode 2010-2011. Hij is Hoofdredacteur van de Journal of Computer Assisted Learning en Commissioning Editor van Computers in Human Behavior, en hij is auteur van Ten steps to complex learning (Routledge/Erlbaum). Hij schrift ook regelmatig voor Didactief (de kolom KirschnerKiest over wat docenten kunnen met wetenschappelijke resultaten). Hij is ook medeauteur van het boek Jongens zijn slimmer dan meisjes XL (EN: Urban Myths about Learning and Education). Hij wordt gezien als expert op veel gebieden en vooral computerondersteund samenwerkend leren (CSCL), het ontwerpen van innovatieve, elektronische leeromgevingen, mediagebruik in het onderwijs en het verwerven van complex cognitieve vaardigheden. English: Paul A. Kirschner (1951) is Distinguished University Professor and professor of Educational Psychology at the Open University of the Netherlands as well as Visiting Professor of Education with a special emphasis on Learning and Interaction in Teacher Education at the University of Oulu, Finland where he was also honoured with an Honorary Doctorate (doctor honoris causa). He was previously professor of Educational Psychology and Programme Director of the Fostering Effective, Efficient and Enjoyable Learning environments (FEEEL) programme at the Welten Institute, Research Centre for Learning, Teaching and Technology at the Open University of the Netherlands. He is an internationally recognised expert in the fields of educational psychology and instructional design. He is Research Fellow of the American Educational Research Association and the Netherlands Institute for Advanced Study in the Humanities and Social Science. He was President of the International Society for the Learning Sciences (ISLS) in 2010-2011, member of both the ISLS CSCL Board and the Executive Committee of the Society and he is an AERA Research Fellow (the first European to receive this honour). He is currently a member of the Scientific Technical Council of the Foundation for University Computing Facilities (SURF WTR) in the Netherlands and was a member of the Dutch Educational Council and, as such, was advisor to the Minister of Education (2000-2004). He is chief editor of the Journal of Computer Assisted Learning, commissioning editor of Computers in Human Behavior, and has published two very successful books: Ten Steps to Complex Learning (now in its third revised edition and translated/published in Korea and China) and Urban Legends about Learning and Education (also in Dutch, Swedish, and Chinese). He also co-edited two other books (Visualizing Argumentation and What we know about CSCL). His areas of expertise include interaction in learning, collaboration for learning (computer supported collaborative learning), and regulation of learning.