Van rangschikken groei je niet

Formatief toetsen staat volop in de schijnwerpers in onderwijsland. Dat is een goede ontwikkeling. Lastig blijkt vervolgens wat nu wel en niet formatief is. En wat niet formatief is, is dat dan per definitie summatief? Grofweg worden formatieve toetsen gepositioneerd als toetsen gedurende het onderwijs bedoeld om het leren te sturen en summatieve toetsen als toetsen aan het eind van onderwijs, bedoeld om leren af te sluiten.[1] Maar als toetsen bedoeld zijn om leerlingen te rangschikken ten opzichte van elkaar, dan hebben we het over heel ander soort toetsen. Dat soort toetsen zijn summatief noch formatief en dragen niet bij tot de groei en de kwaliteit van onderwijs.

Leer je voor de toets of toets je om te leren?

Aandacht voor het belang van formatief toetsen komt vooral voort uit de zoektocht naar het zo goed mogelijk laten groeien en ontwikkelen van leerlingen. Motivatie is daarbij essentieel. Tal van onderzoeken verder[2] beginnen de contouren duidelijk te worden van vormen van feedback die motivatie-verhogend werken: In de ideale formatieve context bestaat ‘toetsing’ niet meer als apart onderdeel maar is meten volledig verweven met het alledaagse handelen van de docent in de klas. En is onderdeel van een continue proces waar docent en leerling samen in acteren gecentreerd rond kernvragen: Waar ga ik naartoe? Waar ben ik nu? En wat kan ik als volgende stap zetten? Alles gericht op het laten groeien van de leerling richting de doelen die hijzelf en het onderwijs voor hem in petto hebben.

Een goede summatieve toets maakt de balans op van het leren: wat was het doel dat ik wilde (moest) bereiken? Voldoe ik aan de standaarden die horen bij dat doel? Heb ik het doel dus behaald? Meer formele vormen van meten sluiten hier op aan waarbij de relatie tussen de leerling en de docent meer naar de achtergrond schuift.

Voor zowel formatieve vormen van meten als voor summatieve toetsen geldt dat de doelen transparant en inzichtelijk moeten zijn en dat een opdracht of toets op die doelen aansluit. Anders kan een leerling geen zicht krijgen op waar hij staat ten opzichte van wat hij wil bereiken. Maar heldere doelen zijn ook in het belang van de docent. Want wil je als docent je onderwijs kunnen evalueren en eventueel bijstellen, dan moet je wel weten wat je anders en beter kan doen. Alleen opdrachten en toetsen die daar inzicht in geven, dragen daar aan bij.

Slim, gemiddeld of dom?

En dat brengt mij op het punt waar de verwarring steeds weer opduikt. Veel gestandaardiseerde toetsen geven een uitslag waarbij de vergelijking van leerlingen met elkaar het uitgangspunt is geweest. Leerlingen die op hetzelfde moment in hun schoolloopbaan dezelfde toets hebben gemaakt Deze toetsen zijn bedoeld om leerlingen te ranken ten opzichte van elkaar. De scores van anderen zijn bij dit soort toetsen in hoge mate bepalend voor de uitslag van een individuele leerling. Daarmee zijn dit type toetsen noch geschikt voor formatieve doeleinden noch voor summatieve doeleinden. Je kunt een leerling niet laten groeien als de feedback beperkt is tot een indicatie van een positie in een rangorde. En je kunt het onderwijs niet verbeteren als je niet meer weet dan hoe je leerlingen scoren ten opzichte van een landelijk gemiddelde.

Een toets op een vast moment in de tijd gegeven waarbij een uitslag relatief is, bijvoorbeeld ‘onder’, ‘op’ of ‘boven’ niveau zoals bij de DTT (Diagnostische Tussentijdse Toets) of ‘behorend bij de beste 20% of juist bij de zwakste 20% zoals bij het leerlingvolgsysteem van Cito voor het basisonderwijs past niet bij formatieve toetsen én niet bij summatieve toetsen. Dit zelfde geldt voor de basiseindtoetsen, die aan het eind van groep 8 worden afgenomen. Afgaande op de naam zou je kunnen denken dat dit een  summatieve toets is maar kijkend naar de ware aard van het instrument en naar hoe de norm is opgebouwd, dan zien we dat hier uitsluitend een relatieve norm onder ligt: De toets is bedoeld om de leerlingen te vergelijken met elkaar en te ordenen in percentielgroepen en per percentielgroep een schooladvies toe te kennen. Toetsen die bedoeld zijn om leerlingen te vergelijken met elkaar, te rangschikken ten opzichte van elkaar of zelfs bedoeld zijn als selectie voor vervolgonderwijs, zijn geen summatieve toetsen. Ze kijken immers niet terug om vast te stellen of leerdoelen zijn behaald en vormen geen representatieve afspiegeling van te behalen doelen. En geven de leerling geen inzicht in wat hij heeft geleerd. Ze zijn bedoeld als selectie voor vervolgonderwijs. En dat is heel iets anders dan wat we beogen met summatieve toetsen.

Formatieve én summatieve toetsen zijn toetsen gekoppeld aan concrete, heldere leerdoelen en zo bedoeld om niveau en kwaliteit van onderwijs te kunnen verbeteren. Toetsen met een relatieve norm (leerlingen vergelijken met dezelfde leerlingen op een vergelijkbaar punt in het onderwijstraject) hebben die functie niet. Dergelijke toetsen bieden leerlingen geen enkel houvast in hun zoektocht naar het verwerven van een concreet leerdoel, ze geven de docent geen inzicht in de kwaliteit van zijn lesgeven en ze bieden de school geen handvatten om het onderwijs te verbeteren. Een relatieve uitslag geeft geen sturing aan groei en kwaliteit. Het is dan ook zinloos om met elkaar te discussiëren over hoe formatief of hoe summatief zo’n toets is. Sterker, het wordt de hoogste tijd dat we ophouden te denken dat ‘ranken’ en bewaken van de kwaliteit van onderwijs ook maar iets met elkaar te maken hebben.

Karen Heij is werkzaam als zelfstandig toetsexpert en doet onderzoek naar de cultuur van toetsen in Nederland. Tot 1 april 2016 was zij werkzaam als directeur bij Bureau ICE, specialist in toetsen en examens.

Meer lezen over het normeren van toetsen?

http://www.toetsmagazine.nl/uploads/downloads/Toets04/Waar%20ligt%20de%20cesuur,%20een%20masterclass.pdf 

[1] In het Engels worden de termen ‘Assessment for Learning’ versus ‘Assessment of Learning’ gebruikt.

[2] Zie voor een goed overzicht: Hattie, J., & Timperley, H. (2007). The power of feedback. Review of educational research, 77(1), 81-112.

About karenheij

In 1988 ben ik afgestudeerd als toegepast taalkundige, gericht op toetsing van taalvaardigheid. Vanaf 1989 ben ik werkzaam geweest bij Bureau ICE waarvan de laatste 14 jaar als directeur. In die rol heb ik me bezig gehouden met alles wat met toetsing te maken heeft, van itemconstructie tot het bedenken van nieuwe vormen van toetsing en examinering, van het geven van trainingen tot het adviseren over beleid op het gebied van toetsing en examinering. Vanaf 1 april 2016 buig ik me als zelfstandig toetsexpert over de cultuur van toetsen in Nederland.

8 Reacties to “Van rangschikken groei je niet”

  1. Prima stuk, Karin.
    Een goede summatieve toets geeft aan of het doel behaald is. Voor de korte termijn dan.
    Als docent zou ik graag willen dat de toets een beklijvende waarde meet en me daar inzicht in geeft . Vooral bij kennistoetsen is het maar zeer de vraag of een behaalde toets -dus behaald doel- na bepaalde tijd nog steeds met hetzelfde resultaat behaald wordt. Binnen een leerlijn is dat een kleiner probleem dan binnen leerdoelen die op zich staan.

    Liked by 1 persoon

  2. Interessant! Wat ‘toetsen’ is wordt daardoor wel een steeds grotere vraag. Zijn er ook antwoorden? Als leerlingen een leerkracht een multimediaal leerbewijs toesturen, op welke wijze kan deze leerkracht dat filmpje dan beoordelen als een relevante vordering op een doorlopende leerlijn? Voor het maken van en beschikken over duidelijke en toepasselijke toetsingscriteria (rubrics) is in een drukke en zeer dynamische leeromgeving immers (nog)geen tijd en (nog) geen geld. Welke kansen en mogelijkheden ziet u? [vgl Ledoux e.a. meetinstrumenten voor sociale competenties, metacognitie en advanced skills, Kohnstamm Instituut 2013, Rapport 900]

    Like

  3. Rake karakterschets, Karen! Rangschikken doen we al vanaf de middeleeuwen. Humanistische idee: prijs de besten, dat is beter dan fouten te bestraffen met de roede of met vernedering. Uitzicht op een prijs (prijsboek, prebende) werkt motiverend voor de betere leerlingen/studenten. Maar het is ook al eeuwen als nadeel gesignaleerd dat de overigen er allesbehalve door gemotiveerd raken.
    @ Theo Er is een eenvoudig alternatief: summatief toetsen op absolute norm, formatief toetsen gericht op betekenisvolle terugkoppeling naar leerling en leerkracht. Voorbeeld: de rekentoets bij examens zou een pure summatieve toets moeten zijn, waar vrijwel iedereen voor slaagt, met geringe verschillen tussen de kandidaten, dus ook met in beginsel een (klassieke) betrouwbaarheid die in essentie nul is. Prachtig om hierover te discussiëren met uitvoerders van die rekentoets (het Cito weigert de discussie aan te gaan).

    Like

  4. Dag Karen

    ik wil je verhaal in je blogpost graag aannemen, maar…
    – ik mis een wetenschappelijke fundering voor je basisstelling: met name dat groepsgenormeerde’ proeven niet bijdragen tot ontwikkeling. En gaat dit over de ontwikkeling van de leerling of de onderwijspraktijk? Alleszins wat dat laatste betreft, zie ik wel veel ontwikkeling in mijn praktijk. (Als onderwijsinspecteur in Vlaanderen loop ik veel scholen binnen.)

    – Van Peteghem, P. en Van Hoof, J. (2002) vermelden in hun boek ‘Evaluatie op de Testbank’, Mechelen: Wolters-Plantyn dat evalueren het vergelijken is van prestaties met:
    – de eigen vorderingen: persoonsgericht: eerder formatief, (zie je verwijzing naar Hattie)
    – de vorderingen van anderen: groepsgenormeerd (op schoolniveau ontworpen door ontwikkelaars van leerlingvolgsystemen en onderwijsnetten)
    – de gestelde (finale) doelen: prestatiegericht genormeerd: (tussentijds) summatief.: dat vraagt inderdaad om een zorgvuldig toetsontwerp. (In Vlaanderen zijn er de parallelproeven, (parallel aan de officiële peilproeven) die geijkt zijn op de eindtermen – kerndoelen, maar die weinig gebruikt worden, helaas…

    Ik begrijp je betoog en denk dat de eerste en laatste vorm inderdaad de beste zijn, maar in praktijk wordt de tweede vorm ook vaak zinvol ingezet, dus in in die zin wil ik ook graag je bronnen kennen waaruit je afleidt dat de groepsgenormeerde niet zouden bijdragen tot de ontwikkeling van leerlingen, klasgroepen of scholen.

    Bart De Bie

    Like

  5. Dit is op X, Y of Einstein? herblogden reageerde:

    Mooie nieuwe bijdrage op de collectieve OnderzoekOnderwijs-blog, waar zoals steeds ook de commentaren de moeite waard zijn om te lezen.

    Like

Trackbacks/Pingbacks

  1. Formatief toetsen en summatieve toetsen - O3PINIE BLOG - 29 september 2016

    […] groeien en ontwikkelen van leerlingen. Motivatie is daarbij essentieel. Tal van onderzoeken verder[2] beginnen de contouren duidelijk te worden van vormen van feedback die motivatie-verhogend werken: […]

    Like

  2. SLO bijeenkomst Toetsen om van te leren – 13 oktober 2016 | Jörgen van Remoortere - 14 oktober 2016

    […]  Lees hier het recente blog van Karen op Blogcollectief Onderzoek Onderwijs: Van rangschikken groei je niet. Leer je voor een toets of toets je om te leren. […]

    Like

  3. #Onderwijsvraag 9: Waarom geven we cijfers? - 20 oktober 2016

    […] Voordat we ingaan op de voordelen, nadelen en alternatieven van het geven van cijfers, geven we een korte toelichting op de manieren van toetsen en beoordelen waarbij cijfers een rol kunnen spelen. Karen Heij benoemd op het Blogcollectief Onderzoek Onderwijs drie soorten toetsen: […]

    Like

Geef een reactie of deel je eigen ervaringen. Graag met je eigen naam ondertekenen, geen pseudoniemen. Anonieme reacties worden verwijderd.

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

%d bloggers op de volgende wijze: