
Geen punt. Waarom we op evaluaties liever geen cijfers meer kleven
Een blog van Iris Haentjens en Ruben De Baerdemaeker over cijfers geven. “Wij zijn collega-taalleerkrachten: Iris geeft Frans en Ruben geeft Engels, Duits en Nederlands.”
When we consider the practically universal use in all educational institutions of a system of marks, whether numbers or letters, to indicate scholastic attainment of the pupils or students in these institutions, and when we remember how very great stress is laid by teachers and pupils alike upon these marks as real measures or indicators of attainment, we can but be astonished at the blind faith that has been felt in the reliability of the marking system.
The Marking System in Theory and Practice, 1913. (Voorwoord)
Meer dan honderd jaar geleden werden al kritische kanttekeningen geplaatst bij de idee dat de beoordeling van academische prestaties het best kan worden uitgedrukt in een cijfer of letter. Die idee wordt toegeschreven aan ene William Farish,1Die claim komt uit Thom Hartmann’s Complete Guide to ADHD. een chemicus in Cambridge die in 1792 de eerste zou zijn geweest om studenten bij een examen een score toe te kennen. Of de oorsprong van de cijfercultuur echt zo precies kan worden getraceerd, is twijfelachtig, maar dat “grades” – cijfers of letters – ontsproten uit de industriële revolutie en samen met het geïnstitutionaliseerde onderwijs de wereld veroverden, is wel plausibel: scores maken grotere groepen leerlingen beheersbaar, en maken een vlotte administratieve verwerking ervan mogelijk. Het model is geënt op dat van de fabriek: grondstoffen worden aangevoerd, bewerkt, en afgeleverd als afgewerkte producten, en die hele stroom wordt netjes in kaart gebracht en gecontroleerd.
Dat die cijfers in ons onderwijsmodel zitten ingebakken, merken we elke dag. “Staat dat op punten?”2“Is dit voor een cijfer?” is ook op Nederlandse scholen de meest gestelde vraag. is wellicht de meest frequente vraag in onze klassen. Op de tweede plaats komt: “Op hoeveel staat dat op het rapport?” In de week voor zo’n rapport wordt uitgedeeld, zijn leerlingen in de weer met rekentoestellen en spreadsheets om hun eindtotaal alvast uit te rekenen.
Dat die cijfers toch niet het belangrijkste zijn, probeer je daar dan tegenin te brengen, maar na een verbouwereerde blik volgt al gauw iets als: “Het zijn wel die cijfers die bepalen of ik mag overgaan.” En daarmee hebben ze ook weer gelijk, die leerlingen: een delibererende klassenraad, die moet beslissen over de toekomst van jonge mensen, kijkt eerst en vooral naar cijfers (en dan vooral naar die cijfers onder de vijftig procent).
De fabriek draait vlot, maar wat doet het systeem met de mens die erin meedraait? In het recente kerstessay van Damiaan Denys lezen we:
Al jaren maakt de vereniging van jeugdartsen zich zorgen over de toenemende stress bij middelbare scholieren. Schoolpsycholoog Gezina Topper verheldert: ‘Ze kunnen de spanning, de druk of de planning niet aan, vaak in combinatie met andere problemen of zorgen.’ De 17-jarige Isabella meldt zich elke week een dag ziek omdat ze het anders niet trekt. ‘Ik heb dagelijks klachten door stress, slecht slapen, de hele dag door hoofdpijn en soms heb ik paniekaanvallen tijdens de les.’
Damiaan Denys
In zijn meest recente boek, Wereldgericht onderwijs, drukt Biesta het sterker uit dan ooit tevoren: “Een te hoge druk op het domein van kwalificatie kan leerlingen kapotmaken.” (39) Wie denkt dat Denys en Biesta overdrijven, of dat dit om extreme, uitzonderlijke gevallen gaat, moet wat vaker met leerlingen praten: velen onder hen ervaren onverantwoord (en onnodig) veel druk. (En dat ook leerkrachten van al die cijfers, en van de noodzaak ze te produceren, wel eens slecht slapen, hoeft geen betoog.)
Onze schoolse cijfercultuur heeft haar eigen dynamiek en haar eigen problemen. In dit artikeltje willen we enkele van die problemen, die we in onze eigen lespraktijk ervaren, belichten, en vragen we ons af of en hoe het ook anders kan.
Wat betekent een cijfer?
Het spreekt voor zich dat sommige evaluatiecijfers eenvoudig en helder te duiden zijn. Juist-of-fout-vragen, meerkeuzevragen, en de meeste invulvragen kan je doorgaans makkelijk quoteren: wat eenduidig geverifieerd kan worden, zien we niet als iets waar je verschillend over kan oordelen. Maar wat met vragen en opdrachten waarbij het antwoord niet zo eenduidig is? Wat als je wil testen of een leerling meer kan dan onthouden, begrijpen of reproduceren? Hoe beoordeel je open vragen en opdrachten waarbij leerlingen denkvaardigheden van een hogere orde 3Zie bijvoorbeeld het artikel De Taxonomie van Bloom en hogere orde denkvaardigheden moeten tonen? Welk cijfer plak je op creativiteit en originaliteit? 4Ook Richard Precht stelt deze vraag: “Viele Leistungen lassen sich auch bei viel Mühe grundsätzlich nicht auf eine Ziffern-Zensur bringen, ohne viel zu viele subjektive Wertungen in dem dünnen Gehäuse einer Zahl auf dem Papier zu verstecken. […] Soll aller Unterricht und jede Lernbeziehung davon überschattet sein?” [“Vele prestaties laten zich ook met de grootste moeite fundamenteel niet tot een cijfer herleiden zonder veel te veel subjectieve oordelen in het dunne omhulsel van een getal te verstoppen. … Moet dan alle onderwijs en elke onderwijsrelatie daardoor overschaduwd worden?”] Hoe complexer een taak, en hoe meer persoonlijke inbreng je erbij vraagt, hoe moeilijker het wordt om tot een consequent oordeel te komen (of om met meerdere beoordelaars tot eenzelfde oordeel te komen).
Leerlingen (en ouders, én de onderwijsinspectie) verwachten nochtans wel dat evaluatiecijfers fair zijn: voor taken en toetsen van een gelijkaardig niveau zouden ze niet al te sterk uiteen mogen lopen en zeker niet afhankelijk mogen zijn van de (persoonlijkheid of goede luim van de) leraar die het cijfer geeft. Maar laten we eerlijk zijn: het is niet ondenkbaar dat twee (of meer) vakcollega’s in eenzelfde jaar, met dezelfde methode, voor dezelfde taak toch verschillende evaluatiecijfers zouden noteren, als ze die taak of toets blind zouden verbeteren. Misschien is dit deels de charme van hoe onderwijs nu eenmaal in mekaar zit, aangezien het mensen- en geen geautomatiseerd fabriekswerk is.
Er hangt helaas wel veel af van die cijfers. Om onze objectiviteit (en gemoedsrust) te verhogen, werken we dus gedetailleerde verbetersleutels uit, of schrijven we onze verwachtingen neer in uitgebreide evaluatiecriteria. Hoe nauwgezet je dat ook doet, toch merk je vaak dat er nog iets bij jezelf blijft knagen wanneer je dan een eindtotaal hebt uitgerekend: is die opdracht nu echt uitgevoerd zoals ik dat voor ogen had? Is het doel bereikt? Veel taalleraren zullen dit gevoel herkennen: je geeft een schrijftaak en splitst je totaalcijfer op in deelcriteria. De som van al die criteria is uiteindelijk een hoger cijfer dan je eigenlijk spontaan zou geven. Het kan ook omgekeerd: een leerling neemt meer risico’s door een langere, inhoudelijk sterkere tekst te schrijven, maakt daardoor meer taalfouten, en krijgt een lager cijfer dan je graag had willen geven.
Nadelen van cijfers
Cijfers zijn niet alleen problematisch op het vlak van transparantie: ze hebben ook regelrechte nadelen. In zijn boek Effectieve feedback in het onderwijs stelt Jan Coppieters: “Hoe meer een school inzet op een puntensysteem, hoe groter de kans dat leerlingen alleen maar geïnteresseerd zijn in het behalen van hoge cijfers en niet zozeer in het leren op zich.” (76)
De nadelen die zo’n puntensysteem met zich meebrengt, somt hij op als volgt:
- verschuiving van prestatiegerichtheid naar taakgerichtheid
- controle moet worden opgevoerd wegens fraudegevoeligheid
- weinig informatie over wat goed of slecht is
- meer angst
- negatief effect op zelfwaardegevoel
- versterkt idee dat “bekwaamheid eerder aangeboren dan aangeleerd is”
- “Als zwakke leerlingen punten krijgen, worden ze wanhopig (‘Ik kan dat niet’). De betere leerlingen reageren dan weer zelfvoldaan: ‘ik heb 8/10, dus waarom zou ik de opmerkingen lezen, laat staan ernaar handelen?’ (77)
Op dat laatste punt willen we dieper ingaan: het demotiverende effect van slechte cijfers, en de manier waarop een cijfer de waarde van inhoudelijke feedback ondermijnt.
In 2007 publiceerden John Hattie en Helen Timperley het artikel “The Power of Feedback”, dat sindsdien wordt geciteerd in zowat elke nieuwe publicatie over feedback. In dat artikel benadrukken ze het leerrendement dat feedback kan opleveren, en analyseren ze welke vormen van feedback het meest zinvol zijn. In 2020 werkte Hattie mee aan de paper “The Power of Feedback Revisited”, waarin een gelijkaardige analyse wordt gemaakt met een verfijnder methodologisch kader. 5Het werk van Hattie slikken we beter niet zomaar (zie bijvoorbeeld deze kritische bijdrage van René Kneyber), en de focus op leerrendement (door de “onderwijsmeetindustrie”, zoals Biesta ze noemt) is allesbehalve onproblematisch. In dit geval is het wel prikkelend dat studies die uitgaan van meetbaarheid zélf aantonen dat een cijfermatige beoordeling ook nadelen met zich meebrengt.
Uit beide papers komt heel duidelijk naar voren wat elke leerkracht instinctief wel aanvoelt: dat feedback wel degelijk een grote impact kan hebben op een leerling, maar dat niet alle feedback even zinvol is (en dat sommige vormen van feedback zelfs eerder schadelijk zijn). Zonder dat we hier Hatties model van feedback willen propageren: zijn conclusies lijken ons (in dit geval) plausibel, en het onderscheid tussen feedback op niveau van de taak, het proces, zelfsturing en de persoon kan zinvol zijn.
Wat ons hier het meest interesseert, is de passage over verbale feedback en feedback in de vorm van een cijfer:
There is considerable evidence that providing written comments (specific FT [feedback over de taak]) is more effective than providing grades (Black & Wiliam, 1998; Crooks, 1988). In one of the early and influential studies, Page (1958) found that feedback in the form of short written comments rather than grades alone significantly improved the test performance of students in 74 classrooms (see also Cardelle & Como, 1981; Elawar & Como, 1985; McLaughlin, 1974). R. Butler (1987) demonstrated that grades can increase involvement, but they do not affect performance (relative to a no-FT condition). She also showed (R. Butler, 1988) that feedback through comments alone led to learning gains, whereas marks alone or comments accompanied by marks or giving praise did not. She claimed that such results called in question the whole classroom culture of marks, grades, gold stars, merit awards, competition rather than personal improvement.
“The Power of Feedback” (92)
Het onderzoek van Ruth Butler, waarnaar hier verwezen wordt, deed nog meer dan kritische vragen stellen bij een klascultuur die draait rond punten. Het bevestigde wat elke leerkracht met enige ervaring aanvoelt, en wat eerder onderzoek al had uitgewezen: dat slechte cijfers alleen maar demotiveren. Maar Butler voegde daar een belangrijk nieuw inzicht aan toe:
the present findings suggest that ego-involving settings may exact a not inconsiderable price among successful students too. Narrow preoccupation with grade attainment seem to affect the quality, if not the quantity, of immediate task performance, and to undermine divergent thinking in particular. (12-13)
Butler, 1988 (12-13)
Als er een grote nadruk ligt op cijfers zijn het de zwakker presterende leerlingen wiens motivatie gefnuikt wordt. Sterk presterende leerlingen blijven wel degelijk gemotiveerd, maar de kwaliteit van hun “performance” is minder hoog dan je zou kunnen verwachten: ze spelen op veilig en kleuren intellectueel binnen de lijntjes om geen slecht cijfer te riskeren. Cijfers hebben dus een eerder negatieve impact – op alle leerlingen.
De bevindingen van de recentere paper “The Power of Feedback Revisited” liggen in dezelfde lijn.
The results do not indicate that feedback effects on motivation per se are low but that effects of uninformative forms of feedback on motivation are low or even negative.
“The Power of Feedback Revisited” (12)
Samengevat: punten geven als feedback werkt nauwelijks, omdat de informatiewaarde ervan te gering is, het is demotiverend voor leerlingen die minder goed scoren, en het zet een rem op de ontwikkeling van leerlingen die vlotjes met de leerstof overweg kunnen. Bovendien ondermijnt een score het effect van zinvolle feedback in woorden.
Voordelen van feedback in woorden
High-information feedback contains information on task, process and (sometimes) self-regulation level. Its effect is very large, which suggests that students highly benefit from feedback when it helps them not only to understand what mistakes they made, but also why they made these mistakes and what they can do to avoid them the next time.
(“The Power of Feedback Revisited”, 12)
Dat inhoudelijke, woordelijke feedback wel degelijk een verschil maakt, komt duidelijk naar voren uit de beide meta-analyses die we consulteerden (en dus uit het onderzoek dat eraan ten grondslag ligt). Los van de statistieken en meetbare resultaten lijkt ons dat ook plausibel: het voelt heel natuurlijk – menselijk – aan om een leerling over iets te laten nadenken, daarover te laten spreken of schrijven, en daar dan weer op in te pikken. Dit gaat in de richting van het “dialogic learning” dat o.a. Robin Alexander bepleit, maar het is ongetwijfeld ook de oudste en meest intuïtieve manier van onderwijzen: in de vorm van een dialoog, zonder dat de waarde van de bijdragen van één van de gesprekspartners moet worden vastgelegd in een cijfer.
We bespraken eerder al dat cijfers nefast zijn voor de intrinsieke motivatie van zwakker scorende leerlingen, en weinig impact hebben op leerlingen die wel goede punten halen. Feedback in woorden (en zonder cijfers) kan voor beide groepen leerlingen een voordeel bieden. Bij, bijvoorbeeld, een schrijfopdracht die grammaticaal en syntactisch te wensen overlaat, kun je in woorden benoemen wat wél goed loopt – al was het maar dat je als leerkracht je waardering voor een geleverde inspanning uitdrukt. 6Hattie et al. wijzen erop dat schouderklopjes niet leiden tot leerrendement. Dat is volgens ons geen reden om er geen te geven. Verder kun je aanduiden waar de fouten zitten en, vooral, kun je ook proberen te verwoorden hoe een leerling die fouten in de toekomst zou kunnen vermijden (feedforward, zoals dat dan heet).
Bij de “sterke” leerling die inhoudelijk en vormelijk goed werk levert, kun je dat benoemen, natuurlijk, maar je kunt die leerling ook uitdagen om nog een stapje verder te gaan, of je kunt een kritische dialoog verder zetten, zonder dat die doodloopt in een 9/10. Zowel de leerling van de zesjes als de leerling van de negens wordt op die manier gewaardeerd, en – hopelijk – geprikkeld om een taak niet als eindpunt te zien, maar als stapsteen.
Dit alles vraagt tijd en inspanning, natuurlijk – en uitgebreide woordelijke feedback bij elke opdracht is gewoon niet haalbaar. We pleiten hier zeker niet voor een utopisch systeem waarbij een leerkracht een epistel schrijft als antwoord op elke taak of opdracht die een leerling maakt. Er is niets mis met een droge kennistoets als die kennis belangrijk is – en feedback kan natuurlijk nog steeds betekenen dat een leerling gewoon ziet wat objectief fout is. (Of daar per se een punt bij hoort, is weer andere kwestie.) Maar als het er echt toe doet, loont het wellicht de moeite om de tijd te nemen voor inhoudelijke, betekenisrijke en individuele commentaar.
Voor die lezers die het onderwijs al helemaal onderuit zien gaan en de doodsklokken van de beschaving horen luiden, willen we nog even aanstippen dat evalueren zonder cijfers volgens ons geen toegeeflijkere, mildere vorm van evalueren is. Er verandert niets aan de norm of de cesuur, dus leerlingen zullen exact even goed moeten “presteren” om te slagen. Tegelijkertijd proberen we op deze manier van alle leerlingen een inspanning te vragen, en hen uit te nodigen om (in het geval van onze vakken) hun kennis en taalvaardigheid te verdiepen. Verder hopen we dat we, door in te zetten op gerichte feedback, preciezer kunnen aangeven wat wel en niet goed loopt, zonder daarbij onze tijd en energie te moeten steken in de precieze mathematische weging van evaluatievormen en -criteria.
Experiment
“We’ve got our kids hooked. We are like drug-pushers. We’ve got our kids hooked on [grades and] levels and it’s going to be very hard to get them off.”
Dylan Wiliam The Classroom Experiment (Ep.2))
In de tweedelige BBC-documentaire “The Classroom Experiment” introduceerde Dylan Wiliam een aantal pedagogisch-didactische interventies in een klas die dan gedurende een trimester werd opgevolgd. Eén van de belangrijkste ingrepen: “comments, not grades”. In die documentaire zie je hoe opgelucht een leerling is dat hij eindelijk eens geen slecht cijfer krijgt, en hoe verbaasd een leerkracht is over de aandacht die leerlingen plots schenken aan haar commentaren, maar ook hoe leerlingen met goede resultaten gefrustreerd, boos en baldadig reageren omdat ze plots geen score meer krijgen.
Is het mogelijk om leerlingen te “deconditioneren” en intrinsieker te motiveren voor onze taalvakken, halverwege hun laatste jaar? Hoe geven we hen, zonder de spreekwoordelijke stok achter de deur of wortel voor de neus die ze al jaren gewend zijn, dan nog de nodige feedback en feedforward? In een leerproces blijft het immers belangrijk bouwstenen te begrijpen en te fixeren om die daarna ook écht te gaan gebruiken in complexere (taal)taken. In welke fasen en tussenstappen delen we dat leerproces op zonder dat het gewoon een spelletje heen en weer wordt waarbij je (zoals nu nog vaak gebeurt als we wél in cijfers evalueren) als leraar moet uitleggen wat je feedback betekent en wat de leerling ermee zou moeten doen om beter in iets te worden. Want we hopen natuurlijk dat leergierigheid wel degelijk zo sterk deel uitmaakt van ons menselijk DNA, dat we ook vaker “plaisir d’apprendre” mogen zien in onze klassen, als het oordeel van de cijfers daar (voor even) verdwijnt.
We zijn dus inderdaad van plan de principes die we in deze tekst hebben geschetst ook in de praktijk te brengen. Met de welwillende toestemming van onze directie starten we in enkele van onze klassen met een bescheiden experiment: we plakken geen cijfer meer op Engels of Frans. We zijn alvast benieuwd naar de reacties.
Bibliografie
Biesta, Gert. Wereldgericht onderwijs: een visie voor vandaag. Phronese, 2022.
Butler, Ruth. “Enhancing and undermining intrinsic motivation: The effects of task‐involving and ego‐involving evaluation on interest and performance.” British journal of educational psychology, vol. 58, nr. 1, 1988, pp. 1-14.
Coppieters, Jan. Effectieve feedback in het onderwijs. Leuven, Acco, 2019.
Denys, Damiaan. “Het vrije, zieke Westen.” De Standaard, 24 December 2022, https://www.standaard.be/cnt/dmf20221223_95245525. Accessed 12 January 2023.
“De Taxonomie van Bloom en hogere orde denkvaardigheden.” Project Talent, 28 October 2019, https://www.projecttalent.be/doelgroep/kleuters-2-5-6j/artikel/104-de-taxonomie-van-bloom-en-hogere-orde-denkvaardigheden. Geraadpleegd 19 Januari 2023.
Finkelstein, Isidor Edward. The marking system in theory and practice. Baltimore, Warwick & York, 1913.
Hartmann, Thom. Thom Hartmann’s Complete Guide to ADHD: Help for Your Family at Home, School and Work. Underwood Books, 2000.
Hattie, John, and Helen Timperley. “The Power of Feedback.” Review of Educational Research, vol. 77, no. 1, 2007, pp. 81-112, DOI: 10.3102/003465430298487.
Precht, Richard David. Anna, die Schule und der liebe Gott: der Verrat des Bildungssystems an unseren Kindern. Goldmann, 2015.
Wisniewski, Benedikt, et al. “The Power of Feedback Revisited: A Meta-Analysis of Educational Feedback Research.” Frontiers in Psychology, 2020, https://www.frontiersin.org/articles/10.3389/fpsyg.2019.03087/full.