19/09/2016 — Paul Kirschner

Hoe lees je een onderzoeksartikel? Enkele tips voor docenten

Oorspronkelijk was deze blog hier in het Engels gepubliceerd door @greg_ashman. Met zijn toestemming heb ik die in het Nederlands vertaald en ook wat aangepast.

Het is niet makkelijk om een onderzoeksartikel te ontcijferen om te zien of je er iets aan hebt en ik kan mij levendig voorstellen dat menig docent(e) na titel en abstract snel afhaakt. Maar als het de bedoeling is om de professie van docenten uit de handen van onderwijsgoeroes, consulenten, leermiddelenverkopers, over het paard getilde betweters en algehele eduquacks te houden, dan is het toch nodig voor docenten om vaardig te worden in het lezen van onderzoeksartikelen.

Hoewel veel artikelen conceptueel zijn (wat iemand denkt of meent, bijvoorbeeld dat directe instructie geestdodend is of dat toetsen niets dan vergif zijn), beschrijvend zijn (wat deed iemand en wat zag zij/hij of meende zij/hij te hebben gezien, bijvoorbeeld ik gebruikte X of Y en de kinderen waren enthousiast oftewel weinig meer dan een opgeblazen anekdote) of correlationeel zijn (wat hangt samen met wat, bijvoorbeeld dat de meeste heroïneverslaafden of genieën als kinderen melk gedronken hebben, wat niet zegt dat melk drinken tot heroïneverslaving of hoogbegaafdheid leidt, want dat is causaliteit), zal ik het hier over artikelen hebben die over experimenteel onderzoek rapporteren.

Mits goed ontworpen en uitgevoerd, maakt experimente el onderzoek – ook soms interventie-onderzoek genoemd – het mogelijk betekenisvolle conclusies te trekken over een bepaalde “ingreep”.

Hier volgen enkele tips gebaseerd op wat je ‘good practice’ bij het lezen van een experimenteel onderzoeksartikel zou kunnen noemen.

Is het artikel gepubliceerd en waar is het gepubliceerd?

Uitgangspunt is enige vorm van kwaliteitsborging van het onderzoek. Op dit moment – hoe feilbaar dan ook – is het gangbare criterium dat het artikel gepubliceerd is in een ‘peer-reviewed’ wetenschappelijk tijdschrift. De ISI-lijst (tijdschriften die door Thompson-Reuters geïndexeerd zijn en die een zogenoemde impactfactor hebben) of deze website van ICO kunnen je hiermee helpen. Rapporten afkomstig van en gepubliceerd door bedrijven, universiteiten of hogescholen, de overheid of waar dan ook kunnen soms van hoge kwaliteit zijn maar kunnen ook erbarmelijk of zelf vooringenomen zijn. Zie hierover mijn blog Wij van WC-eend voor een mooi voorbeeld.

Lees de abstract, de methode en dan de discussie

Een goede leesvolgorde is: abstract, methode, discussie. De resultaten kunnen vaak zeer technisch en moeilijk te volgen zijn, Dit betekent niet dat je de theoretische introductie of de resultaten helemaal links moet laten liggen – soms zijn er pareltjes daarin – maar …

Eerst, wat wordt er beweerd in de abstract? Vind je een duidelijke vraag? Worden belangrijke resultaten zoals effectgrootte en toetsen van significantie daar gerapporteerd? Zo niet, dan moet je je achter de oren krabben; straks meer hierover.

Vervolgens, gaat het echt over leren of vooral over wat leerlingen menen te hebben geleerd of ervaren? Wordt er geclaimd dat de leerlingen een bepaalde doceeraanpak leuker, motiverendere, saaier, of ….vonden? Zo ja, gooi maar weg. Alles kan leuker of saaier gemaakt worden voor de duur van een experiment en wat een leerling meent te hebben gedaan of geleerd komt meestal niet overeen met de werkelijkheid. Denk hier aan: De meeste mensen vinden vet, zoet en/of zout lekkerder dan flauw, maar dat maakt het eten niet gezonder c.q. beter voor hen. Daar komt nog bij dat bijna alle onderzoeken naar eetgewoontes gebaseerd op wat men zegt te eten of dat is vastgelegd in zogenoemde eetdagboeken nauwelijks overeenkomen met wat mensen daadwerkelijk eten. Waar het in het geval van educatie om gaat, of om zou moeten gaanis dat de ene aanpak leidt tot meer of beter leren dan een andere. Mijn heilige drie-eenheid is dat ieder ingreep in het onderwijs moet leiden tot effectief, efficiënt en/of bevredigend leren; minstens één van de drie zonder afbreuk te doen aan één van de andere twee. Meer bevredigend zonder dat er goed geleerd wordt brengt de leerling niet veel verder.

Hoe worden de deelnemers geselecteerd?

Het beste wat je kan doen is de deelnemers willekeurig selecteren; zogenoemd gerandomiseerd onderzoek met een controlegroep. Doe je het zo, dan is de kans groot dat de toewijzing van een leerling aan de interventie- of controlegroep toevallig is en ook dat de verdeling van beïnvloedende kenmerken of variabelen van leerlingen over de condities gelijk is (in alle condities evenveel jongens als meisjes, zowel slimme als minder slimme leerlingen, evenveel alfa’s als beta’s, enzovoorts). Niet gerandomiseerd onderzoek kan wel, maar hier ligt “bias” op de loer (d.w.z. dat iets anders dan de interventie de eigenlijke oorzaak is van de gevonden resultaten) en daar moet je je van bewust zijn.

Hier een voorbeeld. Als de klas van docent(e) Smit de experimentele biologielessen krijgt en die van docent(e) Jansen niet, kan welk gevonden effect dan ook aan iets heel anders liggen dan de gebruikte lesaanpak. Het effect zou eventueel veroorzaakt kunnen worden doorverschil in voorkennis over het onderwerp. Hiervoor zou je vooraf kunnen proberen te controleren door bijvoorbeeld de leerlingen een toets te geven om na te gaan of beide klassen evenveel of even weinig over het onderwerp weten. Maar wat als – door de roostering van de klassen – de klas van Jansen veel leerlingen heeft die Latijn volgen (op het moment dat Smit biologie geeft worden ook de lessen Latijn gegeven) en het onderwerp van de biologieles veel Latijnse woorden bevat zodat de leerlingen van de klas van Jansen de termen beter begrijpen. Het is maar een voorbeeld, maar…Het is bijna onmogelijk om alle manieren waarop groepen systematisch van elkaar kunnen verschillen te identificeren en controleren en dus is het risico altijd dat deze verschillende resultaten kunnen beïnvloeden. Vandaar dat randomiseren altijd beter is.

Hoe ziet de vergelijkende (controle) conditie er uit?

Misschien is het grootste probleem met onderzoek dat de vergelijking tussen de condities slecht is. Stel dat de onderzoekers een school binnen gaan en docenten vragen om zich op te geven voor het meedoen aan een onderzoek naar een nieuwe lesaanpak. De docenten die positief hebben gereageerd vallen dan in de experimentele groep. Zij zullen de experimentele lessen (de interventie) gaan geven. Deze worden dan vergeleken met de “gewone” lessen van de docenten die niet mee wilden doen. Deze groep vormt dus de controlegroep. De docenten die wilden meedoen zouden meer enthousiast of geïnteresseerd kunnen zijn, hetgeen zeer waarschijnlijk is, of misschien zijn ze de betere docenten en dus zou een of meer van deze factoren, en niet de ingreep (de experimentele lessen), de reden kunnen zijn voor gevonden positieve verschillen.

Ook is het zo dat veel studies niet de beste / juiste vergelijking vergelijken. Een vergelijking tussen ‘actief leren’ en hoorcolleges, bijvoorbeeld, zou een positief effect kunnen vinden voor actief leren. Dit is geen probleem. Maar het gevolg trekken dat actief leren beter is dan directe instructie is wel een probleem omdat directe instructie iets heel anders is dan simpel het geven van een hoorcollege. Dit heeft dan te maken met het verkeerd interpreteren c.q. verkeerd hanteren van terminologie door de onderzoekers.

Is er maar één verschil tussen de condities?

Een sleutelprincipe in de wetenschap is dat je maar één ding tegelijk mag veranderen tussen condities. De vraag is dan: Wat is dat ‘ding’ in de sociale wetenschappen? Vaak wordt een heel pakket aan maatregelen vergeleken met helemaal niet ingrijpen. Dit kan soms bruikbaar zijn, maar het kan ook leiden tot vergissingen en/of fouten.

Bijvoorbeeld, stel je voor dat je, om de interventie uit te voeren (bv., een lesmethode invoeren met een specifieke tool) docenten ook moet opleiden om op een andere wijze les te geven met de methode en de tool. Met andere woorden, je zorgt ook voor docentprofessionalisering. In de interventie gebruikt de docent(e) de methode en de tool. Als een effect wordt gevonden, is het aanlokkelijk om dat effect toe te schrijven op de ingreep (methode en tool). Maar wij weten dat het volgen van docentprofessionalisering vaak ook zorgt dat docenten beter over hun vak doordenken en dat dit misschien de oorzaak is van het gevonden effect. Een eerlijker vergelijking zou zijn dat je eerst alle docenten, ongeacht de conditie (interventie of controle), dezelfde docentprofessionalisering geven. Verder, omdat de interventie zowel een andere lesaanpak als het gebruik van een tool inhield, weet je ook niet of een van de twee of wellicht beiden misschien het effect hebben veroorzaakt.

Je komt ook een vergelijkbaar probleem tegen als de hoeveelheid les- of oefentijd niet hetzelfde is (lag het aan de ingreep of aan de lestijd?). Je komt zelfs studies tegen waar verschillende onderwerpen aan de orde komen! Denk aan een onderzoek naar de effecten van het ophalen van taakrelevante voorkennis (over de bloedsomloop) versus taak-irrelevante voorkennis (over een bepaald televisieprogramma) op het uitvoeren van een taak. De onderzoekers rapporteren dat de eerste groep het veel beter deed dan de tweede en constateren dat het ophalen van taakrelevante voorkennis het ei van Columbus is. Maar wat was er gebeurd als je de tweede groep een les of een video over bloedomloop had gegeven voordat zij de taak uitvoerden in plaats van het ophalen van taak-irrelevante kennis! In het tweede geval hadden de onderzoekers een conclusie kunnen trekken over het effect van het ophalen van voorkennis op het leren. Op basis van zo’n soort onderzoek mag je eigenlijk NIETS concluderen.

Wat wordt als uitkomst getoetst?

Regel 1 van onderwijspsychologie is dat mensen leren wat je doceert en niet leren wat je niet doceert. Da’s toch logisch zou de meester (Johan Cruijff) zeggen. Helaas kom ik veel onderzoek tegen waar de onderzoekers niet toetsen wat en hoe er gedoceerd wordt.

Stel, je voert een studie uit waarbij één groep leerlingen onderzoek moet uitvoeren met ballen en hellende vlakken om natuurkundige principes te leren (ontdekkend leren dus) en een andere groep die deze concepten moet leren doordat de docent(e) die uitlegt (expositorisch leren dus). Alle leerlingen krijgen daarna een toets waarbij leerlingen een experiment moeten opzetten en uitvoeren met ballen of speelgoedauto’s of blokken hout op verschillende hellende vlakken. De eerste groep scoort beter en dus concluderen de onderzoekers dat de eerste aanpak (ontdekkend leren) beter is voor het leren / opdoen van ontdekkingsvaardigheden. Helaas klopt hier niets van omdat de tweede groep niet eens de kans kreeg om deze vaardigheden te leren / op te doen. Duh!

Let ook op of het artikel een bijlage heeft met voorbeeldvragen of zelfs de hele toets.

Hoe worden de resultaten geïnterpreteerd?

Behalve als je zelf een goede statistische achtergrond hebt, zou je het beste kunnen kijken naar de statistische significantie en de effectgrootte.

Statistische significantie geeft aan hoe onaannemelijk het is dat een gevonden effect of correlatie op toeval berust en wordt vaak weergegeven door een p-waarde (of betrouwbaarheidsintervallen die ongeveer hetzelfde zijn). Als p<0.05 betekent dit dat, als de interventie eigenlijk geen effect had, de kans op het verkrijgen van de gerapporteerde significante resultaten tegen de 5% was. Dus, één op de twintig keer zou het resultaat helemaal per ongeluk gevonden kunnen worden. Op zich is het weten van deze waarschijnlijkheid bruikbaar, maar het is een waarschijnlijkheid. Verder, een p-waarde is vaak afhankelijk van het aantal metingen; hoe meer deelnemers je gebruikt in een onderzoek, des de groter de kans dat je een kleine p-waarde vindt!

Effectgrootte is iets meer ‘fuzzy’ dan significantie. Heel kort, effectgrootte is een maat voor hoe sterk het effect van een handeling is. Hier ook een paar kanttekeningen: Als het onderzoek slecht ontworpen of uitgevoerd is, heb je sowieso niets aan een effectgrootte. Verder moet je ook rekening houden dat effectgroottes van onderzoeken met oudere leerlingen kleiner zullen zijn dan onderzoeken met jongere leerlingen (jongere leerlingen hebben meer te leren en dus zal een ingreep leiden tot een groter effect). Dit is ook het geval met gestandaardiseerde toetsen vergeleken met toetsen die door de onderzoekers zelf worden gemaakt. Niets verdacht hier omdat de focus van gestandaardiseerde toetsen vaak veel breder is – dus die toetst veel meer dan waar de les(sen) over ging(en) – dan de van toetsen van een toets die specifiek voor het onderzoek word ontwikkeld. Bij het lezen van een artikel moet je gewoon hieraan denken; met andere woorden effectgrootte moet je soms relativeren.

Je kan ook effectgrootte gebruiken om iets te leren van slecht ontworpen / gecontroleerd onderzoek. Als leesinterventie A een groter effect oplevert in vergelijking met niets doen dan leesinterventie B ten opzichte van niets doen, dan zou je kunnen concluderen dat A beter is dan B.

Greg schreef hier een blog over statistische toetsen.

Tot slot

Als je niet kan nagaan of een onderzoek peer-reviewed was (tip 1), of tips 3-6 problemen opleveren, zie dit dan als een slecht teken. En wil je meer lezen over waarheid of waarheidsachtigheid van onderzoek, kan je dat hier vinden.

Postscript

In een recente blog van Larry Cuban over de vraag of een technologisch tool groei van leerlingen echt veroorzaakt had, geeft hij ook wat tips.

#1: Zoek de “caveat” (voorbehoud) opmerkingen omdat zulke opmerkingen de studie – misschien – in diskrediet brengen. Hij geeft een voorbeeld van een rapport over een rekenprogramma “Although these findings cannot be attributed to the program without the use of an experimental design, the results appear encouraging. Achievement gains of TtO students, on average, were strong.”

#2: Wees op je hoede voor studies die “grote groei” enzovoorts rapporteren zonder dat de daarvoor noodzakelijke experimenten uitgevoerd zijn of zonder dat de complexiteit van de data wordt toegelicht.

Herblog naar hartenlust en

Volg mij ook op Twitter @P_A_Kirschner

Je kan ook de blogs lezen die ik samen met Mirjam Neelen in het Engels schrijf over onderzoek, leren en professionele ontwikkeling (in bedrijven).

0 0 votes

Article Rating

Abonneren

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

13 Reacties

nieuwste

oudste meest gestemd

Inline Feedbacks

View all comments

wpDiscuz

About Paul Kirschner

Nederlands: Prof. dr. Paul A. Kirschner, dr.h.c. is Universiteishoogleraar en hoogleraar Onderwijspsychologie aan de Open Universiteit. Hij is ook Visiting Professor Onderwijs met een leerstoel in Leren en Interactie in de Lerarenopleiding aan Oulu University (Finland) waar hij ook een Eredoctoraat heeft (doctor honoris causa). Hij is een internationaal erkende expert op zijn gebied en heeft zitting gehad in de Onderwijsraad in de periode 2000-2004 en is lid van de Wetenschappelijk Technische Raad van SURF. Hij is Fellow of the American Educational Research Association (AERA; NB de eerste Europeaan aan wie deze eer werd toegekend), de International Society of the Learning Sciences (ISLS) en van de Netherlands Institute for Advanced Study in the Humanities and Social Science of the Royal Dutch Academy of Sciences (NIAS-KNAW). Hij was President van de International Society for the Learning Sciences (ISLS) in de periode 2010-2011. Hij is Hoofdredacteur van de Journal of Computer Assisted Learning en Commissioning Editor van Computers in Human Behavior, en hij is auteur van Ten steps to complex learning (Routledge/Erlbaum). Hij schrift ook regelmatig voor Didactief (de kolom KirschnerKiest over wat docenten kunnen met wetenschappelijke resultaten). Hij is ook medeauteur van het boek Jongens zijn slimmer dan meisjes XL (EN: Urban Myths about Learning and Education). Hij wordt gezien als expert op veel gebieden en vooral computerondersteund samenwerkend leren (CSCL), het ontwerpen van innovatieve, elektronische leeromgevingen, mediagebruik in het onderwijs en het verwerven van complex cognitieve vaardigheden. English: Paul A. Kirschner (1951) is Distinguished University Professor and professor of Educational Psychology at the Open University of the Netherlands as well as Visiting Professor of Education with a special emphasis on Learning and Interaction in Teacher Education at the University of Oulu, Finland where he was also honoured with an Honorary Doctorate (doctor honoris causa). He was previously professor of Educational Psychology and Programme Director of the Fostering Effective, Efficient and Enjoyable Learning environments (FEEEL) programme at the Welten Institute, Research Centre for Learning, Teaching and Technology at the Open University of the Netherlands. He is an internationally recognised expert in the fields of educational psychology and instructional design. He is Research Fellow of the American Educational Research Association and the Netherlands Institute for Advanced Study in the Humanities and Social Science. He was President of the International Society for the Learning Sciences (ISLS) in 2010-2011, member of both the ISLS CSCL Board and the Executive Committee of the Society and he is an AERA Research Fellow (the first European to receive this honour). He is currently a member of the Scientific Technical Council of the Foundation for University Computing Facilities (SURF WTR) in the Netherlands and was a member of the Dutch Educational Council and, as such, was advisor to the Minister of Education (2000-2004). He is chief editor of the Journal of Computer Assisted Learning, commissioning editor of Computers in Human Behavior, and has published two very successful books: Ten Steps to Complex Learning (now in its third revised edition and translated/published in Korea and China) and Urban Legends about Learning and Education (also in Dutch, Swedish, and Chinese). He also co-edited two other books (Visualizing Argumentation and What we know about CSCL). His areas of expertise include interaction in learning, collaboration for learning (computer supported collaborative learning), and regulation of learning.