Gaan we zo door met de Centraal Examens?

“Wat? Dat kan niet waar zijn!” was de eerste reactie van mijn collega Martijn en ik, toen we de N-term voor de natuurkundeherkansing te zien kregen. Martijn keerde de omrekentabel nog eens twee keer om voor hij het geloofde. 1,1, terwijl die voor het eerste tijdvak 0,4 was. Als we dat hadden geweten hadden we meer leerlingen geadviseerd natuurkunde te herkansen. En waren sommige van onze leerlingen waarschijnlijk wel geslaagd, in plaats van gezakt met 0,5 punt tekort.

Normaal is dit Blogcollectief niet de plek voor emotionele uitbarstingen en oproepen tot actie, al kan mijn hooggeleerde medeblogger Paul Kirschner zich af en toe prettig uitleven op deze plek. We streven hier naar afgewogen en wetenschappelijk onderbouwde beschouwingen, maar er zijn momenten dat een mens zich moet kunnen laten gaan. Dit lijkt mij zo’n moment, al zal ik mijn best doen enige afstand te bewaren.

Er lijkt dit jaar meer misgegaan te zijn met de CE’s dan afgelopen jaren. Ik laat mij graag corrigeren in dezen, dus reageer vooral. Maar dit is mijn voorlopige indruk na gesprekken met collega’s van verschillende vakken op mijn eigen school en elders in het land. Het gaat mij er niet om te klagen of het slachtoffer uit te hangen, maar ik wil gewoon een paar simpele vragen stellen. Laat ik beginnen met de N-term, want die was de aanleiding voor deze post.

Normering

Ik bepaal me even tot de vwo-examens natuurkunde. Hier de N-termen voor de afgelopen vijf jaar:
2010, 1e en 2e tijdvak: 1,3.
2011,1e en 2e tijdvak: 1,3.
2012, 1e en 2e tijdvak: 1,1.
2013, 1e tijdvak: 1,0 en 2e tijdvak: 1,1.
2014, 1e tijdvak: 0,4 en 2e tijdvak: 1,1.

In de Regeling van het College voor examens van 15 februari 2011 staat:

In het tweede tijdvak geldt in beginsel de normeringsterm van het eerste tijdvak.

Dat is wat we hierboven inderdaad zien voor de jaren 2010 tot 2013. Verder:

Aan de hand van de statistisch te verwachten resultaatverbetering van kandidaten die in het eerste tijdvak een onvoldoende hadden, wordt nagegaan of deze normeringsterm zou leiden tot hogere eisen aan de kandidaat dan in het eerste tijdvak. Als dat het geval is, wordt de normeringsterm zo vastgesteld dat de eisen gelijk zijn.

Welke ‘statistisch te verwachten resultaatverbetering’ heeft het CvE er dit jaar (heel ongebruikelijk) toe gebracht de N-term in de tweede periode met maar liefst 0,7 punt te verhogen? Daarover blijven wij volledig in het duister. We moeten maar geloven dat het CvE dit zorgvuldig heeft berekend en dat die getallen een betrouwbare afspiegeling zijn van de moeilijkheidsgraad van de examens.

Quod non. Het natuurkunde-examen in het eerste tijdvak was eerder aan de moeilijke kant, voor veel leerlingen te lang en bevatte een fout.
Het examen in het tweede tijdvak was zeker niet moeilijker, eerder makkelijker dan dat in het eerste, waarmee de 1,1 aan de hoge kant lijkt. Mijn grootste bezwaar is dat we vantevoren niet konden weten dat de N-term voor het tweede tijdvak zoveel hoger zou zijn. Anders hadden we meer leerlingen aangeraden natuurkunde te herkansen in plaats van een ander vak.

Wat toetst het CE nu eigenlijk?

Ik twijfel niet aan de intentie van CvE en Cito om de examens zorgvuldig samen te stellen. Om te voorkomen dat examens het ene jaar moeilijker zijn dan het andere jaar wordt onder andere gewerkt met referentiegroepen. Dat zijn leerlingen uit voorexamenklassen die examenvragen van verschillende jaren maken. Daarmee worden de vragen geijkt zodat inderdaad een 6 dit jaar evenveel waard is als een 6 over vier jaar. Althans, dat is de bedoeling. Een simpel grafiekje zet daar vraagtekens bij.

20140628-170926-61766818.jpg

We zien hier van 2012 naar 2013 voor verschillende vakken een abrupte daling van het percentage onvoldoendes voor hetzelfde percentage goed beantwoorde vragen. Op zijn minst ondermijnt dat de stelling dat een 6 het ene jaar hetzelfde waard is als het andere jaar.

Het werken met grote aantallen leerlingen in referentiegroepen zal zeker helpen de betrouwbaarheid van de examens te vergroten. Dan blijft toch de vraag: wat is de nauwkeurigheid van dat proces en staat die in verhouding tot de onzekerheid die ontstaat vanaf het moment dat de kandidaten aan de eerste vraag beginnen? Die is het gevolg van allerlei factoren, zoals dubbelzinnigheid dan wel onnauwkeurigheid in de vraagstelling of het antwoordmodel, fouten in het examen, ontbrekende gegevens enz. Leerlingen kunnen daardoor op het verkeerde been worden gezet en in tijdnood komen. Ook te makkelijke vragen kunnen met name de betere leerlingen in verwarring brengen, waardoor ze het meest voor de hand liggende antwoord over het hoofd zien. Een andere onzekerheidsfactor is het ontbreken van antwoorden in het correctiemodel die vakinhoudelijk wel juist zijn. Daarnaast zijn er allerlei toevalsfactoren, die de betrouwbaarheid van het examen beïnvloeden, zoals persoonlijke omstandigheden van de kandidaten (denk aan thuissituatie, ziekte, stress, faalangst), achtergrond en kwaliteit van docenten enz.

De N-term zorgt ervoor dat kleine afwijkingen in de moeilijkheidsgraad naar boven of beneden worden gecorrigeerd. En idealiter zou die ook voor die andere factoren moeten corrigeren. Gemiddeld zal dat wel kloppen, maar met een bepaalde onzekerheid, waarvan we de marges niet kennen. De kern van het probleem is dat wij als docenten niet te maken hebben met gemiddelden, maar met individuele leerlingen waarvoor de hiervoor genoemde onvolkomenheden in de examens en toevalsfactoren steeds op een onvoorspelbare manier anders uitpakken.

Als we leerlingen op een fractie van een punt kunnen laten zakken, moeten we zeker weten dat de betrouwbaarheid van het examen voldoende is om hun prestaties met dezelfde nauwkeurigheid te meten. Met andere woorden: het meetinstrument (het examen) moet minstens zo nauwkeurig zijn als de marge van 0,1 punt waarop een leerling kan zakken. Daar zet ik grote vraagtekens bij. Juist de bepaling van de N-term introduceert een grote mate van onzekerheid – of nattevingerwerk, als je kwaad wilt – ook al zullen de statistische sommetjes wel kloppen.

Vakinhoudelijk relevant?

Dan blijft de vraag: meet het examen wat het moet meten? Ofwel: beheerst een leerling, die volgens het correctiemodel de juiste antwoorden geeft, de essentie van het vak? Het Cito stelt: goede examenvragen moeten “aansluiten bij de belevingswereld van de leerlingen” en “als het kan, actueel zijn.”

Een wiskundecollega herinnerde me eraan dat een examen wiskunde B vroeger niet langer was dan een A4. De laatste jaren zien we bij bijvoorbeeld natuur- en wiskunde steeds meer vragen waarbij leerlingen uit een lang verhaal de gegevens moeten zien te puzzelen. Dat ‘aansluiten bij de belevingswereld van de leerlingen’, leidt vaak tot kinderachtige verhaaltjes die de leerlingen eerder ergeren dan motiveren.

Mijn collega Marjolein Wal:

Bij scheikunde vwo waren dit jaar:
1 erratum en twee aanvullingen op het correctiemodel bij tijdvak 1 (waarvan eentje een vraag helemaal schrapte, het woordje “netto” ontbrak in ieder geval; dan wel de vraag was onduidelijk)
1 aanvulling op het correctiemodel bij tijdvak 2
Verder is er veel puzzelwerk en leeswerk, waarvan je je kunt afvragen hoeveel scheikunde daarmee gemoeid is.

Mijn collega Johan Boone:

CE economie dit jaar, voor de eerste keer met de nieuwe context-concept benadering conform de Commissie Teulings, was niet representatief voor de totale stof: de internationale economie (wisselkoersen, betalingsbalans, concurrentiepositie) ontbraken volledig. Ook over macro-economie geen enkele vraag. Nu is bekend dat er een nieuwe commissie op zoek is naar een betere invulling dan de huidige, maar werkelijk helemaal niets vragen over macro is toch vrij bizar. In concreto betekent dit, dat mijn leerlingen over de stof die in het 6e leerjaar aan de orde was, geen enkele vraag hebben gekregen.
Het niveau van de vragen was zodanig laag, dat veel van mijn betere leerlingen begonnen te twijfelen of er soms “een addertje onder het gras zat” en vervolgens de meest voor de hand liggende antwoorden niet hebben gegeven. Je ziet in de uitslag ook dat de minder begaafde leerlingen boven verwachting en de meer begaafde leerlingen beneden verwachting hebben gescoord.
De context van sommige sommen vonden veel leerlingen een aanfluiting en ik ben het met ze eens. Is er in een opgave over elkaar beconcurrerende ondernemingen (speltheoretische afwegingen e.d.) nu echt geen inspirerender voorbeeld te bedenken dan 2 patatkramen?

Het examen engels was dit jaar zo makkelijk dat zelfs de leerlingen uit de derdeklassen van mijn collega Andrew Gilman er zevens en achten voor konden halen. Daar valt zelfs met een lage n-term niets meer aan te herstellen. En ook hier zijn juist de briljante leerlingen in het nadeel.

Dwang van het correctiemodel

Frans Droog citeert in zijn blog een tweede corrector:

Ja. Deze vraag klopt natuurlijk niet. Het is volkomen logisch dat de leerlingen het op deze manier lezen en beantwoorden. Het antwoordmodel is dus fout, maar we moeten ons aan het antwoordmodel houden.

En deze las ik op het forum van docenten Duits:

Ja, want hoe wij er ook over mogen denken (met name bij vraag 20 en 37), we hebben ons wel te houden aan het correctiemodel. Allemaal. Ook als we het daar niet mee eens zijn.

O ja? Als we in examens gaan fout rekenen wat vakinhoudelijk juist is, ondergraven we precies datgene waarvoor goed onderwijs zou moeten staan. Thijs Jansen beschrijft dit soort gedrag in ‘Het Alternatief’ als ‘vrijwillige slavernij’ waaraan docenten zich onderwerpen. Als wij alleen maar kritiekloos de correctievoorschriften volgen en blindelings erop vertrouwen dat missers in de examens en correctiemodellen wel zullen worden gecorrigeerd in de n-term, zijn we inderdaad niet meer dan vrijwillige slaven.

Ik verlang van een centraalexamen dat het een betrouwbaar meetinstrument is dat voor ieder van mijn leerlingen aangeeft of die voor mijn vak een voldoende niveau heeft bereikt. Ik kan het niet verdragen dat sommige van mijn leerlingen gezakt zijn op een tiende punt, terwijl ik weet dat de onnauwkeurigheid van het examen veel groter is. Ik verlang een examen zonder vakinhoudelijke fouten, onnauwkeurige vraagstelling, slordigheden, vragen die meer met tekstinterpretatie dan met het vak te maken hebben en een ruimere mogelijkheid om van het correctiemodel af te wijken wanneer dat evident onjuist is. Ik wil beter inzicht in de totstandkoming van de n-termen en de nauwkeurigheid daarvan.

En tenslotte zouden de examens er een stuk beter van worden als voortaan alleen de meest ervaren en in hun vak meest deskundige docenten de vragen samenstellen.

Hoe dan wel?

In september wil ik met een paar mensen wat grondiger naar de examens van de afgelopen jaren kijken en daarover met het CvE en Cito in discussie gaan.
Maar eerst graag jullie reacties – hier of op Twitter (@BoksComm). Dan kan ik die in een volgende post verwerken.

Met dank aan:

Johan Boone, Ankie Cuypers, Frans Droog, Andrew Gilman, Marjolein Wal, Martijn Waller.

Bronnen

CvE en Cito, 2013. Normering bij de centrale examens in het voortgezet onderwijs. http://toetswijzer.kennisnet.nl/html/normering/default.shtm

Frans Droog, 2014a. N-term terreur. Droog’s Leren Delen. http://fdroog.wordpress.com/2014/06/12/n-term-terreur/

Frans Droog, 2014b. Hoe het afliep. Droog’s Leren Delen. http://fdroog.wordpress.com/2014/07/01/hoe-het-afliep/

René Kneyber en Jelmer Evers, 2013. Het Alternatief: Weg met de afrekencultuur in het onderwijs!, uitgeverij Boom, Amsterdam.

René Kneyber (@rkneyber). “Hier kun je duidelijk op zien dat de lat in 2013 dus naar beneden ging. http://t.co/AjlQ72Tfqx“. 29 Oct 2013, 22:04 UTC. Tweet.

About Dick van der Wateren

Ik sta voor de klas op het Eerste Christelijk Lyceum in Haarlem en begeleid dagelijks talentvolle en begaafde leerlingen die meer uitdaging nodig hebben, of coach leerlingen die een probleem hebben waar we samen een oplossing voor vinden. Daarnaast ontwikkel ik digitaal lesmateriaal en video's voor Flip de Klas. Buiten het onderwijs heb ik een jarenlange ervaring als aardwetenschapper (o.a. in Antarctica en Afrika) en wetenschapsvoorlichter. Werken met jongeren is mijn passie. Voor mij zijn pubers zo'n beetje de leukste mensen. Ze hebben een enorme levenslust, zijn creatief, hebben originele ideeën - soms op het bizarre af - en kunnen zich nog alle kanten op ontwikkelen. Ik beschouw het als een voorrecht aan die ontwikkeling te kunnen bijdragen.

6 Reacties to “Gaan we zo door met de Centraal Examens?”

  1. Dag Dick,
    Ik heb een naar gevoel bij het CE. Het zal je kind maar wezen dat op 1 tiende voor CE zakt.
    Zou graag willen dat René Kneyber deelneemt aan de discussie. Zijn tabellen maken inzichtelijk wat eraan schort. Als docent Duits gaat de lol eraf. De koning kan roepen wat hij wil over Duits, maar Frans geeft een grotere kans van slagen. Wil er graag bij zijn in september.

    Like

  2. Het spijt me, maar ik begrijp dat grafiekje niet zolang er niet bij alle blokjes/kruisjes jaartallen staan. Een en ander heeft ook te maken met kernvakken waarvoor slechts een vijf gehaald mag worden. Bovendien zou ik alle vakken willen zien, niet slechts een deel.

    Like

    • Het is een grafiekje uit een hele serie, die René Kneyber gemaakt geeft voor een Twitterdiscussie afgelopen herfst. Alle blokje/kruisjes zonder jaartal staan voor de jaren voor 2013. Die staan min of meer in groepjes bijelkaar, terwijl de N-termen van 2013 daar een flink stuk onder liggen. Uit andere grafiekjes blijkt dat dat voor vrijwel alle vakken opgaat: een abrupte daling van de N-term in 2013. De vraag is wat daarvan de oorzaak is. Daar zijn we nog niet uit. Maar denk vooral mee.

      Like

  3. Er ontbreekt iets in dit verhaal. Bij vraag 17 van het examen natuurkunde uit het eerste tijdvak kregen alle leerlingen de 5 te behalen punten, ongeacht het antwoord dat ze hadden gegeven (er ontbrak een formule in de vraag, zie http://www2.cito.nl/vo/ex2014/VW-1023-a-14-1-c-A.pdf). Doordat elke leerling nu al minimaal 5 punten had, viel de N-term laag uit. Hierdoor was het erg aannemelijk dat de N-term voor het examen natuurkunde uit het tweede tijdvak hoger zou zijn dan de N-term voor het eerste tijdvak.

    Like

    • Dat klopt, maar die 5 punten erbij, die er later weer afgetrokken zijn, heeft leerlingen geen voordeel gebracht. Integendeel, veel leerlingen hebben met die vraag veel tijd verspild, waardoor ze later in tijdnood kwamen. Bovendien maakt dit soort fouten in examenopgaven hen onzeker.
      Het verhaal is dan ook lang niet af. Ik wil in september de verhalen van alle examenvakken op een rijtje zetten, om daaruit lessen voor de toekomst te trekken.

      Like

  4. Jacques van den Oever Beantwoorden 9 juli 2014 bij 10:20

    Bij het vak Nederlands worstelen we al enige jaren met de eindexamens tekstverklaring en samenvatten. Hier speelt met name een gebrek aan intersubjectiviteit, want we hebben het gevoel dat de examens niet goed vooraf bekeken worden door voldoende kundige lezers. Er spelen soms filosofische, soms psychologische, nu eens sociologische, dan weer historische en culturele kwesties in de vragen en de correctiemodellen pretenderen de enig juiste antwoorden daarop te hebben. Dat is herhaaldelijk NIET het geval, maar de neerlandici hebben ernstig last van de ‘vrijwillige slavernij’ t.a.v. de correctiemodellen. Contact met de examenlijn verloopt vaak stroef en collega’s voelen zich niet zelden geschoffeerd door de toon, maar -erger- ook onkunde (inclusief spel- en formuleringsfouten) die uit de antwoorden spreekt.
    Hier wreekt zich het eigenaardige monopolie van CITO, dat ooit een overheidsinstantie was, maar inmiddels al lang een gewone onderneming. Door dit monopolie ligt de absolute macht bij één instantie en we weten allemaal welke risico’s daar aan verbonden zijn. Arrogantie is er in ieder geval een van. Een hoogleraar taalbeheersing fluisterde mij eens toe dat hij hoopte dat ooit een vermogende vader een rechtszaak zou aanspannen omdat zijn kind gezakt was en dat daarbij vragen en antwoorden van ons examen Nederlands ten overstaan van iedereen gefileerd zouden worden. Daarmee zou eindelijk afgerekend kunnen worden met die eigenaardige gelijkhebberij van het CEVO in kwesties die helemaal niet zo eenvoudig liggen.

    Like

Geef een reactie of deel je eigen ervaringen. Graag met je eigen naam ondertekenen, geen pseudoniemen. Anonieme reacties worden verwijderd.

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

%d bloggers op de volgende wijze: