“Wat? Dat kan niet waar zijn!” was de eerste reactie van mijn collega Martijn en ik, toen we de N-term voor de natuurkundeherkansing te zien kregen. Martijn keerde de omrekentabel nog eens twee keer om voor hij het geloofde. 1,1, terwijl die voor het eerste tijdvak 0,4 was. Als we dat hadden geweten hadden we meer leerlingen geadviseerd natuurkunde te herkansen. En waren sommige van onze leerlingen waarschijnlijk wel geslaagd, in plaats van gezakt met 0,5 punt tekort.

Normaal is dit Blogcollectief niet de plek voor emotionele uitbarstingen en oproepen tot actie, al kan mijn hooggeleerde medeblogger Paul Kirschner zich af en toe prettig uitleven op deze plek. We streven hier naar afgewogen en wetenschappelijk onderbouwde beschouwingen, maar er zijn momenten dat een mens zich moet kunnen laten gaan. Dit lijkt mij zo’n moment, al zal ik mijn best doen enige afstand te bewaren.

Er lijkt dit jaar meer misgegaan te zijn met de CE’s dan afgelopen jaren. Ik laat mij graag corrigeren in dezen, dus reageer vooral. Maar dit is mijn voorlopige indruk na gesprekken met collega’s van verschillende vakken op mijn eigen school en elders in het land. Het gaat mij er niet om te klagen of het slachtoffer uit te hangen, maar ik wil gewoon een paar simpele vragen stellen. Laat ik beginnen met de N-term, want die was de aanleiding voor deze post.

Normering

Ik bepaal me even tot de vwo-examens natuurkunde. Hier de N-termen voor de afgelopen vijf jaar:
2010, 1e en 2e tijdvak: 1,3.
2011,1e en 2e tijdvak: 1,3.
2012, 1e en 2e tijdvak: 1,1.
2013, 1e tijdvak: 1,0 en 2e tijdvak: 1,1.
2014, 1e tijdvak: 0,4 en 2e tijdvak: 1,1.

In de Regeling van het College voor examens van 15 februari 2011 staat:

In het tweede tijdvak geldt in beginsel de normeringsterm van het eerste tijdvak.

Dat is wat we hierboven inderdaad zien voor de jaren 2010 tot 2013. Verder:

Aan de hand van de statistisch te verwachten resultaatverbetering van kandidaten die in het eerste tijdvak een onvoldoende hadden, wordt nagegaan of deze normeringsterm zou leiden tot hogere eisen aan de kandidaat dan in het eerste tijdvak. Als dat het geval is, wordt de normeringsterm zo vastgesteld dat de eisen gelijk zijn.

Welke ‘statistisch te verwachten resultaatverbetering’ heeft het CvE er dit jaar (heel ongebruikelijk) toe gebracht de N-term in de tweede periode met maar liefst 0,7 punt te verhogen? Daarover blijven wij volledig in het duister. We moeten maar geloven dat het CvE dit zorgvuldig heeft berekend en dat die getallen een betrouwbare afspiegeling zijn van de moeilijkheidsgraad van de examens.

Quod non. Het natuurkunde-examen in het eerste tijdvak was eerder aan de moeilijke kant, voor veel leerlingen te lang en bevatte een fout.
Het examen in het tweede tijdvak was zeker niet moeilijker, eerder makkelijker dan dat in het eerste, waarmee de 1,1 aan de hoge kant lijkt. Mijn grootste bezwaar is dat we vantevoren niet konden weten dat de N-term voor het tweede tijdvak zoveel hoger zou zijn. Anders hadden we meer leerlingen aangeraden natuurkunde te herkansen in plaats van een ander vak.

Wat toetst het CE nu eigenlijk?

Ik twijfel niet aan de intentie van CvE en Cito om de examens zorgvuldig samen te stellen. Om te voorkomen dat examens het ene jaar moeilijker zijn dan het andere jaar wordt onder andere gewerkt met referentiegroepen. Dat zijn leerlingen uit voorexamenklassen die examenvragen van verschillende jaren maken. Daarmee worden de vragen geijkt zodat inderdaad een 6 dit jaar evenveel waard is als een 6 over vier jaar. Althans, dat is de bedoeling. Een simpel grafiekje zet daar vraagtekens bij.

20140628-170926-61766818.jpg

We zien hier van 2012 naar 2013 voor verschillende vakken een abrupte daling van het percentage onvoldoendes voor hetzelfde percentage goed beantwoorde vragen. Op zijn minst ondermijnt dat de stelling dat een 6 het ene jaar hetzelfde waard is als het andere jaar.

Het werken met grote aantallen leerlingen in referentiegroepen zal zeker helpen de betrouwbaarheid van de examens te vergroten. Dan blijft toch de vraag: wat is de nauwkeurigheid van dat proces en staat die in verhouding tot de onzekerheid die ontstaat vanaf het moment dat de kandidaten aan de eerste vraag beginnen? Die is het gevolg van allerlei factoren, zoals dubbelzinnigheid dan wel onnauwkeurigheid in de vraagstelling of het antwoordmodel, fouten in het examen, ontbrekende gegevens enz. Leerlingen kunnen daardoor op het verkeerde been worden gezet en in tijdnood komen. Ook te makkelijke vragen kunnen met name de betere leerlingen in verwarring brengen, waardoor ze het meest voor de hand liggende antwoord over het hoofd zien. Een andere onzekerheidsfactor is het ontbreken van antwoorden in het correctiemodel die vakinhoudelijk wel juist zijn. Daarnaast zijn er allerlei toevalsfactoren, die de betrouwbaarheid van het examen beïnvloeden, zoals persoonlijke omstandigheden van de kandidaten (denk aan thuissituatie, ziekte, stress, faalangst), achtergrond en kwaliteit van docenten enz.

De N-term zorgt ervoor dat kleine afwijkingen in de moeilijkheidsgraad naar boven of beneden worden gecorrigeerd. En idealiter zou die ook voor die andere factoren moeten corrigeren. Gemiddeld zal dat wel kloppen, maar met een bepaalde onzekerheid, waarvan we de marges niet kennen. De kern van het probleem is dat wij als docenten niet te maken hebben met gemiddelden, maar met individuele leerlingen waarvoor de hiervoor genoemde onvolkomenheden in de examens en toevalsfactoren steeds op een onvoorspelbare manier anders uitpakken.

Als we leerlingen op een fractie van een punt kunnen laten zakken, moeten we zeker weten dat de betrouwbaarheid van het examen voldoende is om hun prestaties met dezelfde nauwkeurigheid te meten. Met andere woorden: het meetinstrument (het examen) moet minstens zo nauwkeurig zijn als de marge van 0,1 punt waarop een leerling kan zakken. Daar zet ik grote vraagtekens bij. Juist de bepaling van de N-term introduceert een grote mate van onzekerheid – of nattevingerwerk, als je kwaad wilt – ook al zullen de statistische sommetjes wel kloppen.

Vakinhoudelijk relevant?

Dan blijft de vraag: meet het examen wat het moet meten? Ofwel: beheerst een leerling, die volgens het correctiemodel de juiste antwoorden geeft, de essentie van het vak? Het Cito stelt: goede examenvragen moeten “aansluiten bij de belevingswereld van de leerlingen” en “als het kan, actueel zijn.”

Een wiskundecollega herinnerde me eraan dat een examen wiskunde B vroeger niet langer was dan een A4. De laatste jaren zien we bij bijvoorbeeld natuur- en wiskunde steeds meer vragen waarbij leerlingen uit een lang verhaal de gegevens moeten zien te puzzelen. Dat ‘aansluiten bij de belevingswereld van de leerlingen’, leidt vaak tot kinderachtige verhaaltjes die de leerlingen eerder ergeren dan motiveren.

Mijn collega Marjolein Wal:

Bij scheikunde vwo waren dit jaar:
1 erratum en twee aanvullingen op het correctiemodel bij tijdvak 1 (waarvan eentje een vraag helemaal schrapte, het woordje “netto” ontbrak in ieder geval; dan wel de vraag was onduidelijk)
1 aanvulling op het correctiemodel bij tijdvak 2
Verder is er veel puzzelwerk en leeswerk, waarvan je je kunt afvragen hoeveel scheikunde daarmee gemoeid is.

Mijn collega Johan Boone:

CE economie dit jaar, voor de eerste keer met de nieuwe context-concept benadering conform de Commissie Teulings, was niet representatief voor de totale stof: de internationale economie (wisselkoersen, betalingsbalans, concurrentiepositie) ontbraken volledig. Ook over macro-economie geen enkele vraag. Nu is bekend dat er een nieuwe commissie op zoek is naar een betere invulling dan de huidige, maar werkelijk helemaal niets vragen over macro is toch vrij bizar. In concreto betekent dit, dat mijn leerlingen over de stof die in het 6e leerjaar aan de orde was, geen enkele vraag hebben gekregen.
Het niveau van de vragen was zodanig laag, dat veel van mijn betere leerlingen begonnen te twijfelen of er soms “een addertje onder het gras zat” en vervolgens de meest voor de hand liggende antwoorden niet hebben gegeven. Je ziet in de uitslag ook dat de minder begaafde leerlingen boven verwachting en de meer begaafde leerlingen beneden verwachting hebben gescoord.
De context van sommige sommen vonden veel leerlingen een aanfluiting en ik ben het met ze eens. Is er in een opgave over elkaar beconcurrerende ondernemingen (speltheoretische afwegingen e.d.) nu echt geen inspirerender voorbeeld te bedenken dan 2 patatkramen?

Het examen engels was dit jaar zo makkelijk dat zelfs de leerlingen uit de derdeklassen van mijn collega Andrew Gilman er zevens en achten voor konden halen. Daar valt zelfs met een lage n-term niets meer aan te herstellen. En ook hier zijn juist de briljante leerlingen in het nadeel.

Dwang van het correctiemodel

Frans Droog citeert in zijn blog een tweede corrector:

Ja. Deze vraag klopt natuurlijk niet. Het is volkomen logisch dat de leerlingen het op deze manier lezen en beantwoorden. Het antwoordmodel is dus fout, maar we moeten ons aan het antwoordmodel houden.

En deze las ik op het forum van docenten Duits:

Ja, want hoe wij er ook over mogen denken (met name bij vraag 20 en 37), we hebben ons wel te houden aan het correctiemodel. Allemaal. Ook als we het daar niet mee eens zijn.

O ja? Als we in examens gaan fout rekenen wat vakinhoudelijk juist is, ondergraven we precies datgene waarvoor goed onderwijs zou moeten staan. Thijs Jansen beschrijft dit soort gedrag in ‘Het Alternatief’ als ‘vrijwillige slavernij’ waaraan docenten zich onderwerpen. Als wij alleen maar kritiekloos de correctievoorschriften volgen en blindelings erop vertrouwen dat missers in de examens en correctiemodellen wel zullen worden gecorrigeerd in de n-term, zijn we inderdaad niet meer dan vrijwillige slaven.

Ik verlang van een centraalexamen dat het een betrouwbaar meetinstrument is dat voor ieder van mijn leerlingen aangeeft of die voor mijn vak een voldoende niveau heeft bereikt. Ik kan het niet verdragen dat sommige van mijn leerlingen gezakt zijn op een tiende punt, terwijl ik weet dat de onnauwkeurigheid van het examen veel groter is. Ik verlang een examen zonder vakinhoudelijke fouten, onnauwkeurige vraagstelling, slordigheden, vragen die meer met tekstinterpretatie dan met het vak te maken hebben en een ruimere mogelijkheid om van het correctiemodel af te wijken wanneer dat evident onjuist is. Ik wil beter inzicht in de totstandkoming van de n-termen en de nauwkeurigheid daarvan.

En tenslotte zouden de examens er een stuk beter van worden als voortaan alleen de meest ervaren en in hun vak meest deskundige docenten de vragen samenstellen.

Hoe dan wel?

In september wil ik met een paar mensen wat grondiger naar de examens van de afgelopen jaren kijken en daarover met het CvE en Cito in discussie gaan.
Maar eerst graag jullie reacties – hier of op Twitter (@BoksComm). Dan kan ik die in een volgende post verwerken.

Met dank aan:

Johan Boone, Ankie Cuypers, Frans Droog, Andrew Gilman, Marjolein Wal, Martijn Waller.

Bronnen

CvE en Cito, 2013. Normering bij de centrale examens in het voortgezet onderwijs. http://toetswijzer.kennisnet.nl/html/normering/default.shtm

Frans Droog, 2014a. N-term terreur. Droog’s Leren Delen. http://fdroog.wordpress.com/2014/06/12/n-term-terreur/

Frans Droog, 2014b. Hoe het afliep. Droog’s Leren Delen. http://fdroog.wordpress.com/2014/07/01/hoe-het-afliep/

René Kneyber en Jelmer Evers, 2013. Het Alternatief: Weg met de afrekencultuur in het onderwijs!, uitgeverij Boom, Amsterdam.

René Kneyber (@rkneyber). “Hier kun je duidelijk op zien dat de lat in 2013 dus naar beneden ging. http://t.co/AjlQ72Tfqx“. 29 Oct 2013, 22:04 UTC. Tweet.

0 0 votes
Article Rating
Abonneren
Abonneren op
guest

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

6 Reacties
nieuwste
oudste meest gestemd
Inline Feedbacks
View all comments

About Dick van der Wateren

Als blogger en onderwijsauteur denk ik na over onderwijs en pedagogiek. In 2016 verscheen bij Uitgeverij Ten Brink mijn boek 'Verwondering' waarin ik een lans breek voor onderwijs op basis van vragen die leerlingen zelf bedenken. In 2020 verscheen mijn boek De Denkende Klas bij LannooCampus met praktische aanwijzingen om met leerlingen dieper te denken. Als vo-docent heb ik talentvolle en begaafde leerlingen begeleid die meer uitdaging nodig hebben, en leerlingen gecoacht met diverse problemen - onderpresteren, perfectionisme, levensvragen. Na een lang leven in het onderwijs en de wetenschap ben ik in 2017 een filosofische praktijk begonnen, De Verwondering, in Amsterdam. Daar heb ik gesprekken met volwassenen zowel als jongeren over levensvragen, zingeving, werk, studie, relaties.

Category

onderzoek