Archief

test

Door Paul Ket

Toetsen en docenten horen bij elkaar als Brussel en Manneke Pis. Niet zonder discussie, maar het is, hoe er ook tegenaan gekeken wordt, een essentieel onderdeel van het werk van een docent om een oordeel over het leren van een leerling uit te spreken. En wanneer je dat doet, al dan niet met tegenzin, is het zaak om dat volgens de regelen der kunst te doen. Over de voorbereiding van toetsen zijn bibliotheken volgeschreven, over het nawerk weinig. Deel vijf over een eerste statistische analyse van de toets.

Vooraf

Het is voor elke statistische analyse van belang dat de vragen en de punten, te verkrijgen en toegekend, in de computer terecht komen. Excel is hiervoor de eerste keuze. Hoewel de beschreven methodieken uit 1962 komen, ver voor de brede beschikbaarheid van de computer.

Gemiddelde

Elke docent rekent als eerste het gemiddelde van de behaalde cijfers uit. Dat kan ook met de toegekende punten. Voor de betekenis van de uitkomst maakt het niet uit, voor de vergelijkbaarheid wel. Omzetten naar schoolcijfers maakt gemiddeldes onderling vergelijkbaar. Het (rekenkundig) gemiddelde is een centrummaat, het geeft een samenvatting van de punten per leerling door het middelen. Andere centrummaten zoals de modus en de mediaan worden in het onderwijs nauwelijks gebruikt voor het rapporteren over behaalde punten.

Moeilijkheid

De moeilijkheid van een (deel-)opgave kan worden berekend door het percentage toegekende punten voor die opgave te bepalen (Ebel, 1972). Bij een incidentele afname van de toets geeft de moeilijkheid alleen informatie over hoe deze leerlingen deze opgave gemaakt hebben en als moeilijk of niet hebben ervaren. De oorzaak van het al dan niet moeilijk ervaren, dient verder onderzocht te worden.

Wanneer de moeilijkheid handmatig berekend wordt, kan, aldus Ebel, volstaan worden met het berekenen van het percentage toegekende punten van de onderste en bovenste 27% procent van de behaalde scores. Wanneer de behaalde punten per opgave in Excel staan, kunnen alle uitkomsten hierbij betrokken worden.

Ebel geeft geen norm voor wat een ideale moeilijkheid zou moeten zijn. De na te streven waarde hangt af van het doel van de betreffende opgave. Zo is in een proefwerk de eerste opgave meestal een relatief eenvoudige binnenkomer. Daar wil je dus een hoog percentage. De opgave bedoeld om de slimme leerlingen nog even uit te dagen, zou een laag percentage moeten hebben.

Bij meerkeuze-opgaven heet de moeilijkheid de p-waarde.

Voorbeeld:

Voor een open vraag kunnen 7 punten behaald worden. De (kleine) groep leerlingen die deze op gave maakt behalen: 3, 5, 2, 6, 5, 7, 3, 1, 6, 0, 6, en 5 punten. Bij elkaar 49 punten. Het gemiddelde is 4 punten. Het maximaal te behalen aantal punten is 12 x 7 = 84 punten. Dan zijn 58% van de punten toegekend.

Discriminatie-index (D)

Opgaven in een proefwerk hebben tot doel onderscheid te maken tussen leerlingen die de opgave wel en niet kunnen maken. Dit is cruciale informatie voor de docent. Het percentage punten dat de sterke leerlingen meer behalen dan de zwakke leerlingen, geeft het discriminerend vermogen van de opgave aan (Ebel, 1972). Ebel geeft het volgende stappenplan:

  1. Sorteer de leerlingen op de toetsscore van laag naar hoog.
  2. Selecteer de leerlingen met de 27% laagste scores en de 27% hoogste scores.
  3. Bepaal voor deze deelgroepen per opgave de som van aantal punten dat behaald is.
  4. Bepaal het verschil tussen de somscores.
  5. Deel het verschil door het aantal punten dat deze twee deelgroepen had kunnen behalen om de Discriminatie-index te verkrijgen.

Voorbeeld

Behaalde punten: 3, 5, 2, 6, 5, 7, 3, 1, 6, 0, 6, 5
Gesorteerd: 0, 1, 2, 3, 3, 5, 5, 5, 6, 6, 6, 7
Onderste 27%: 0, 1, 2. Som = 3.
Bovenste 27%: 6, 6, 7. Som = 19.
Verschil: 19 – 3 = 16.
Maximaal te behalen door 6 leerlingen: 6 x 7 = 42.
Discriminatie-index = 16 / 42 = 0,38.

Wanneer uitgegaan wordt van alle leerlingen, komt de Discriminatie-index lager uit. Voor de zoals hierboven berekende waarden voor D geeft Ebel de volgende indeling:

0,4 en hoger: Zeer goede items
0,3 t/m 0,39: Redelijk goede items, wellicht zijn verbeteringen mogelijk.
0,2 t/m 0,29: Marginale items, aanpassing hiervan is noodzakelijk.
Onder de 0,19: Slechte items, dienen verwijderd of verbeterd te worden.

D is, aldus Ebel, wel afhankelijk van de leerlingengroep. Alleen bij grote aantallen neemt de invloed van de groep af.

Gebruik

Hiervoor zijn drie maten besproken. De eerste, het gemiddelde, is een centrummaat voor de gehele toets. Alleen wanneer deze opvallend afwijkt van de 6, zal er verder gekeken worden naar of de leerlingen of de toets.

De twee andere maten geven informatie over de opgaven binnen de toets. De eerste, de moeilijkheid, geeft aan in hoeverre leerlingen in staat gebleken zijn om punten te behalen voor die opgave. Opgaven vervullen binnen een toets een verschillende rol, dus hoewel we voor gewone opgaven een moeilijkheid rond de 50% zouden willen hebben, zijn er zeker redenen te noemen om hier van af te wijken.

De tweede, de Discriminatie-index D, laat zien in hoeverre een opgave onderscheid maakt tussen sterke en zwakke leerlingen.

Deze drie getallen dienen weloverwogen en in samenhang bekeken te worden. Ook de marges die Ebel geeft voor de D, zijn indicatief aangezien toeval zeker invloed heeft op de D.

Bibliografie

Ebel, R. L. (1972). Essentials of Educational Measurement (2 ed.). Englewood Cliffs, NJ.: Prentice-Hall Inc.

Door Dick van der Wateren

Mijn laatste post over creativiteit meten heeft nogal wat losgemaakt, hier en vooral ook op Twitter. Veel bijval, maar ook behoorlijk wat kritisch commentaar. Dat laatste wil ik hier graag beantwoorden, al besef ik dat ik een methode verdedig die ik zelf niet heb ontwikkeld, maar waar ik zo enthousiast over ben dat ik hem hier wil uitproberen. Creativiteit en onderwijs blijkt een combinatie te zijn die kan leiden tot stevige debatten.

De discussie gaat over een nieuw instrument om creativiteit van leerlingen in het basis- en voortgezet onderwijs te beoordelen. Daarover wordt gerapporteerd in de OECD-studie “Progression in Student Creativity in School: First Steps Towards New Forms of Formative Assessments” door Bill Lucas, Guy Claxton en Ellen Spencer. Het gaat dus om een formatief meetinstrument, zoals een d-toets, waarmee de ontwikkeling van de creativiteit van leerlingen kan worden gevolgd. Het instrument is in Engeland in twee praktijkonderzoeken op 12 scholen getest, met leraren die positief stonden tegenover deze aanpak. Die leraren hadden ook invloed op de uiteindelijke vorm van het instrument.

Kritische feedback

De kritische geluiden na mijn vorige post komen hierop neer (als ik iemand verkeerd parafraseer hoor ik dat graag):

  • Creativiteit is een spontaan proces.
  • Wat creativiteit precies is, weet niemand. Net zoals bij intelligentie.
  • Creativiteit moet je stimuleren, niet meten.
  • Creativiteit is min of meer identiek aan intelligentie, of er is minstens een grote overlap.
  • Formatief testen van creativiteit is tegenstrijdig aan creativiteit.
  • Testen creëert concurrentie. Creativiteit is kunstzinnig, wat zo uniek is. Concurrentie breek het af.
  • Creativiteit meten is overbodig omdat docenten (intuïtief) wel weten wie creatief is en wie niet.
  • Het instrument deugt niet. Creativiteit bestaat uit fantasie en nieuwsgierigheid. Discipline, doorzettingsvermogen en samenwerking zijn hooguit versterkende factoren.
  • Dit instrument is niet geschikt voor alle kinderen, bv niet voor kinderen met een autistische stoornis.
  • Het instrument kan leiden tot het afrekenen van leerlingen op onvoldoende creativiteit.
  • Iemand reageerde: “Misschien begrijp ik het helemaal verkeerd … Dat hoop ik eigenlijk maar. Nu zie ik heel veel beren op de weg of eigenlijk: benarde en beperkte meesters en juffen, docenten en docentes. Die krijgen zo de gelegenheid om het autonome denken van hun leerlingen aan een maatstaf te onderwerpen, een maatstaf waaraan zij mogelijk zelf bij lange na niet kunnen voldoen. Brrrr”

Veel van deze bezwaren komen terug in het commentaar van mijn medeblogger Flip Schrameijer, waaruit ik dan ook het meeste zal citeren.

Vooropgesteld, ik ben geen psycholoog, laat staan een die onderzoek doet naar creativiteit. Mijn belangstelling komt voort uit mijn ervaringen als aardwetenschapper en als docent. Op beide terreinen ben ik altijd gefascineerd geweest door de manier waarop mensen originele ideeën ontwikkelen. Dat maak ik mee tijdens discussies in het veld, in het lab, in artikelen en lezingen, wanneer ik iets lees, of zomaar wanneer ik met iets heel anders bezig ben. Op die momenten heb ik soms een ingeving, wanneer alles wat ik weet en ooit gezien of gehoord heb, ineens op zijn plaats valt.

Als docent vind ik het spannend jonge mensen te begeleiden in het proces naar zo’n ingeving, een origineel idee, of nieuw product. Ik beleef veel plezier aan het samen nadenken over vragen en problemen en mogelijke wegen naar een oplossing. De antwoorden zijn dan niet direct het belangrijkste. Net als in de wetenschap roepen vragen weer nieuwe vragen op.

Vanuit mijn twee levens (als wetenschapper en als docent) kijk ik met een schuin oog naar kunstenaars. Vooral in de jazz en geïmproviseerde muziek kun je het creatieve proces goed volgen, wanneer ter plekke nieuwe melodielijnen, ritmes en samenklanken ontstaan.

Kan creativiteit getest worden?

Er is een omvangrijke literatuur over creativiteit, op zijn minst vanaf de vroege jaren ’50. (Zie referenties in Lucas e.a. 2013 en Treffinger e.a. 2002.) De ideeën over creativiteit lopen al net zo uiteen als die over intelligentie. Hoewel in het onderwijs geen duidelijke consensus bestaat over wat we onder creativiteit verstaan, kunnen we een werkdefinitie afspreken waarmee we in de praktijk uit de voeten kunnen. Hoe precies moet je weten wat creativiteit is, om er in de onderwijspraktijk mee te kunnen werken? In elk geval kunnen we vaststellen aan welke kenmerken creatieve mensen voldoen.

Lucas, Claxton en Spencer hebben gekozen uit een groot aantal variabelen die in de literatuur genoemd worden en daar een hanteerbare lijst van gemaakt. Als meetbare kenmerken van creatieve ontwikkeling onderscheiden zij: nieuwsgierigheid, fantasie/vindingrijkheid, vasthoudenheid, discipline en samenwerking, ieder weer onderverdeeld in drie subcategoriën. Die lijst lijkt me voldoende houvast te geven om de vorderingen van leerlingen te volgen.

Creativiteit en intelligentie vertonen ongetwijfeld een grote overlap. Je kunt zelfs argumenteren dat een extra meetinstrument daarmee overbodig wordt. Dat moge zo zijn, maar het is weinig praktisch leerlingen regelmatig een IQ-test te laten maken. Het doel van de OECD-studie was een instrument te ontwikkelen dat bruikbaar en toch voldoende onderscheidend is voor regelmatige toepassing in de klas.

Naast deze nieuwe methode bestaan er al wat langer creativiteitstests, waarvan Torrance Test of Creative Thinking (zie Wikipedia en hier. Met dank aan Dirk de Boe.) de bekendste is. Die zou misschien gebruikt kunnen worden om de hier besproken test in Nederland te valideren.

Waarom zou je creativiteit willen testen?

We kunnen het er, denk ik, over eens zijn dat het belangrijk is dat we jonge mensen stimuleren om creatief te denken. Ik denk dat we het er ook over eens zijn dat het huidige onderwijs daarvoor te weinig ruimte geeft. Als we de ontwikkeling van creativiteit serieus nemen, helpt het als we inzicht hebben in de voortgang ervan bij onze leerlingen. Praktisch: ik wil weten in hoeverre mijn lessen de leerlingen helpen om creatief te leren denken en handelen. Dan ligt een of andere vorm van toetsing voor de hand.

Flip Schrameijer schreef: “Leerkrachten zullen toch wel ongeveer weten welke leerlingen nieuwsgierig, vasthoudend, vindingrijk, cooperatief en gedisciplineerd zijn?”
Ja, vaak wel, maar daar gaat het niet om. Het is niet zo interessant om vast te stellen wie creatief zijn en in welke mate, als wel om hun ontwikkeling te stimuleren en te volgen. Daarom is dit ook een formatief en geen summatief instrument. We willen geen rapportcijfers geven voor creativiteit.

Flip schreef ook: “de beste manier om creativiteit vast te stellen [is] het verzinnen van een opgave die creativiteit vereist, een dus die je beter tot een goed einde brengt als je nieuwsgierig, vasthoudend, vindingrijk, cooperatief en gedisciplineerd te werk gaat.” Mee eens, maar ik wil na afloop graag weten of het gewerkt heeft.

Ik zie dit in de eerste plaats dan ook als een coachingsinstrument, dat op drie manieren wordt gebruikt:

  • leerlingen ontwikkelen hun creatieve vermogen door met dit instrument te reflecteren op hun eigen leeractiviteiten;
  • de docent geeft feedback aan de leerling door middel van een gesprek over de door beiden genoteerde scores;
  • de docent reflecteert met dit instrument op het effect van zijn of haar lessen en de gebruikte leermiddelen.

Dat laatste punt benadrukt dat lessen in creativiteit net zo belangrijk zijn voor de leraar als voor de leerling. Om leerlingen te helpen zich bewust te worden van hun creativiteit en die te ontwikkelen is het een voorwaarde dat de docent dat ook doet. Als het werkt, leidt deze aanpak tot betere, interessantere en uitdagender lessen. In alle vakken. Ook wiskunde, natuurkunde en andere ‘harde’ wetenschappen vragen om creativiteit.

Is het instrument bruikbaar?

Als praktijkmensen moeten we ons, denk ik, afzijdig houden van theoretische discussies over de meetbaarheid van creativiteit. Interessant en belangrijk, maar voor mij als schoolmeester geldt: Wat kan ik er mee in mijn klas?

Als ik kijk en luister naar mijn favoriete jazzmuzikanten, zie ik alle elementen terug die met het instrument van Lucas e.a. worden gevolgd. In de geïmproviseerde muziek moet je fantasie hebben, nieuwsgierig zijn naar elkaars vondsten, goed samenspelen, maar ook doorzetten en de discipline hebben om een hoog niveau te halen en vol te houden. Tijdens een concert ontrolt zich dat spel van ontdekken, elkaar uitdagen en samen iets nieuws scheppen, voor je ogen. Het zelfde kun je zien bij topsporters, maar ook bij automonteurs, chirurgen en – niet te vergeten – leraren. Eigenlijk bij iedereen die op hoog niveau in zijn vak of specialisme bezig is.

Flip vroeg zich af wat de elementen discipline, vasthoudendheid en samenwerking in dit instrument doen. Daarop zijn verschillende antwoorden mogelijk. Een is dat nieuwsgierigheid en fantasie tot niets leiden als je er niets mee doet. Iets nieuws bedenken en maken is gewoon hard werken: je moet bereid en in staat zijn om je idee helemaal tot het einde te volgen en niet op te geven. Het andere is dat creativiteit niet op zichzelf staat. Behalve dat je veel kennis en vaardigheid moet ontwikkelen om succesvol te zijn – en ook daar moet je hard voor werken – is het zo dat creativiteit bouwt op het werk van voorgangers en op de samenwerking met anderen.

Of het instrument bruikbaar is weten we pas zeker als we het hebben geprobeerd. In Engeland zijn tot nu toe twee praktijkonderzoeken gedaan. De auteurs willen die nu uitbreiden naar een grotere groep scholen, waar mogelijk docenten werken die anders tegen creativiteit aankijken dan de pilotgroep.

Is het instrument geschikt voor alle kinderen?

Ook dit was een vraag van Flip Schrameijer, vanuit de gedachte dat met name autisten een hele andere vorm van creativiteit hebben dan de meeste mensen. Ik heb er, eerlijk gezegd, niet meteen een antwoord op. Het zal in de praktijk moeten blijken. Als ik denk aan mijn eigen dierbare leerlingen met Asperger kan ik me goed voorstellen hoe de hier besproken methode zou kunnen helpen hen te begeleiden in hun eigen, unieke creatieve ontwikkeling. Juist wanneer je dit als een coachingsinstrument gebruikt heb je alle vrijheid om iedere leerling individueel te begeleiden op een manier die bij hem of haar past. We zullen ons ervan bewust moeten zijn dat ieder mens op zijn heel eigen manier creatief is. Daarbij past een begeleiding op maat.

Is het instrument geschikt voor alle docenten?

Ook op die vraag moet ik het antwoord schuldig blijven. De vragensteller, die “benarde en beperkte meesters en juffen, docenten en docentes” zag, had daar een hard hoofd in en dat kan ik me indenken. Als ik van mezelf uitga, ik ben zeker creatief en acht mij goed in staat de creativiteit van anderen te beoordelen, ook van mensen die creatiever en intelligenter zijn dan ik. Ieder mens heeft zijn beperkingen en als docent moet ik me van mijn eigen beperkingen bewust zijn wanneer ik anderen beoordeel. Onder die voorwaarde denk ik dat het instrument breed toepasbaar is. Maar de vraag hoe je kunt voorkomen dat het wordt misbruikt om kinderen af te rekenen op hun (gebrek aan) creativiteit kan ik (nog) niet beantwoorden.

Laten we daar in de praktijk achter komen. Dit voorjaar wil ik bij voldoende belangstelling bij The Crowd een workshop creativiteit organiseren. Laat van je horen.

Bronnen

Lucas, B., G. Claxton and E. Spencer (2013), “Progression in Student Creativity in School: First Steps Towards New Forms of Formative Assessments”, OECD Education Working Papers, No. 86, OECD Publishing. http://dx.doi.org/10.1787/5k4dp59msdwk-en

Treffinger, D., G. Young, E. Selby, and C. Shepardson (2002), Assessing Creativity: A Guide for Educators, The National Research Centre on the Gifted and Talented, Connecticut. http://www.eric.ed.gov/PDFS/ED505548.pdf

Door Dick van der Wateren

Wie mijn vorige posts gelezen heeft (op deze blog en hier), zal het niet ontgaan zijn dat ik creativiteit in het onderwijs, zowel in het onderwijzen als in het leren, heel belangrijk vind. Daarbij bedoel ik niet alleen de creativiteit zoals je die bij de zg. creatieve vakken nodig hebt, maar creativiteit bij alles wat je doet. Creativiteit houdt dan in het vermogen om de juiste vragen te stellen, kritisch te denken, sceptisch te zijn over vooronderstellingen, meerdere oplossingen voor een probleem te bedenken, of meerdere antwoorden op een vraag. In de dagelijkse onderwijspraktijk wordt die vaardigheid meestal weinig ontwikkeld of gestimuleerd. Dat wordt nog erger naarmate in het onderwijs meer tijd en aandacht besteed wordt aan (standaard)toetsen ten koste van het lesgeven.

De meeste standaardtoetsen meten voornamelijk cognitieve vaardigheden en dan nog op een betrekkelijk laag niveau. Om praktische redenen worden meerkeuzetoetsen gebruikt, waarmee maar een beperkt scala aan vaardigheden kan worden getoetst. Creativiteit zit daar niet bij. Misschien omdat het niet relevant geacht wordt, of omdat creativiteit sowieso lastig te toetsen zou zijn. Dat blijkt niet het geval volgens een interessante nieuwe studie onder auspiciën van de OECD.

20130208-224326.jpgDe overheid wil Nederland in de top-vijf beste onderwijslanden. Scholen willen hoger scoren op ranglijsten zoals die van Dronkers, of betere beoordelingen van de inspectie. Begrijpelijke ambities, maar meestal zonder heldere visie op wat goed onderwijs inhoudt. Het gevolg is dat men in een pavlovreactie (in sommige gevallen zelfs paniekreactie) grijpt naar meer meten en vervolgens afrekenen op resultaten. In de VS zien we daarvan de meest gruwelijke voorbeelden, van docenten die worden ontslagen omdat hun leerlingen te laag scoren op standaardtoetsen en openbare scholen die om dezelfde reden worden gesloten. Wie de blog van Diane Ravitch volgt zal hiermee bekend zijn. Zover zijn we hier nog niet en zover moet het ook niet komen.

De wereldwijde trend van meer meten en afrekenen in het onderwijs komt de kwaliteit van het onderwijs niet ten goede. Die, op het eerste gezicht, ongenuanceerde uitspraak zullen we in onze groepsblog verder onderbouwen. Hier wil ik het vooral hebben over wat niet gemeten wordt en wat zou moeten worden gemeten.

Wat maakt creativiteit belangrijk?

Ik kan het niet genoeg benadrukken: om goed onderwijs te kunnen bieden is een duidelijke onderwijsvisie noodzakelijk. In de onderwijsvisie waar ik voor sta speelt creativiteit een grote rol. Waarom is dat belangrijk?
In de eerste plaats omdat het een mens maakt tot een zelfstandig, autonoom individu, die in staat is iets nieuws te scheppen. Onderwijs zonder creativiteit produceert gedresseerde apen die kunstjes geleerd hebben, of in de woorden van Csikszentmihalyi (1996): “Without creativity, it would be difficult indeed to distinguish humans from apes.
In de tweede plaats, omdat creativiteit een postieve invloed heeft op de kwaliteit van het leren. De studie van Lucas, Craxton en Spencer die ik hierna bespreek, haalt meerdere onderzoeken aan die dit ondersteunen. Niet alleen zijn leerlingen meer gemotiveerd wanneer een groot beroep wordt gedaan op hun creatieve vermogens, hun leren krijgt ook grotere diepgang en kwaliteit, met als gevolg dat de prestaties vooruit gaan. In plaats van de pavlovreactie van meer toetsen, strengere regels en afrekenen op resultaten, is het ontwikkelen van een creatief curriculum op zijn plaats en biedt het meer garantie op betere resultaten.

De toename van toetsen, met name van standaardtoetsen zoals bij ons de citotoetsen, komt voort uit de behoefte van beleidsmakers om alles te willen meten. Daar is op zichzelf niets op tegen, zolang dat meten gebeurt vanuit een visie over wat goed goed onderwijs is. Zonder visie leidt dat leidt ertoe dat wordt gemeten wat eenvoudig meetbaar is en met name die zaken die met meerkeuzevragen snel te verwerken zijn. Maar zelfs wanneer je de visie hebt dat rekenen (en wiskunde) en taal de belangrijkste indicatoren zijn voor de ontwikkeling van kinderen, kun je je afvragen of de standaardtoetsen, zoals die in Nederland en elders gebruikelijk zijn, deugen. En dan bedoel ik, of die toetsen in staat zijn om zowel de relevante vorderingen als de capaciteiten van kinderen vast te stellen.

Immers, wanneer beheerst iemand een taal? Niet wanneer hij goed kan spellen, de grammaticaregels goed toepast, of een grote woordenschat heeft. Dat is zonder meer belangrijk, maar hoogstens een voorwaarde om goed te worden in taal. Pas wanneer iemand in staat is taal, inclusief de grammatica, creatief te gebruiken, kun je zeggen dat hij goed is in taal. Ik heb goede herinneringen aan de vele gesprekken die we vroeger thuis hadden over de betekenis en nuances van woorden en uitdrukkingen in het engels, frans en duits. Daar heb ik een goed gevoel aan over gehouden voor de rijkdom van een taal die je niet kunt vatten in grammaticaregels en woordenlijsten, juist de dingen die met meerkeuzetoetsen makkelijk te meten zijn. Met andere woorden, die toetsen missen precies wat belangrijk is aan goed taalgebruik, namelijk het vermogen om op verschillende manieren gedachten en gevoelens uit drukken. Taalcreativiteit dus.
Voor rekenen en wiskunde geldt het zelfde. Het plezier van een wiskundeprobleem zit hem niet in het antwoord – dat is triviaal – maar in de weg erheen, de puzzel, het zoeken naar oplossingen, het stellen van de juiste vragen, de opwinding van de ontdekking. Kortom, creativiteit.

En nu juist die eigenschap, namelijk de mate waarin een leerling in staat is op verschillende gebieden creatieve oplossingen te bedenken, wordt in standaardtoetsen niet bepaald. Tegelijkertijd hebben de resultaten van die toetsen vergaande en ingrijpende gevolgen, zowel voor het individuele kind als voor scholen.

Creativiteit meetbaar?

Nu is het maar de vraag of we in citotoetsen en andere standaardtoetsen een creatieve component moeten inbouwen. Dat hangt ervan af waarvoor het wordt gebruikt. Als een creativiteitstoets een leerling helpt om zich te ontwikkelen, prima. Het gaat er uitdrukkelijk niet om cijfers te geven voor creativiteit, ‘Leerling X heeft een 7,3 voor creativiteit en leerling Y maar een 6,5,’ of ‘School Z scoort onvoldoende voor creativiteit,’ met de bijbehorende gevolgen voor het beleid. De bedoeling is bij kinderen en jongeren hun denken te stimuleren en ontwikkelen, zoals ook intelligentie door passende ingrepen kan worden vergroot.

In opdracht van de OECD hebben Bill Lucas, Guy Claxton en Ellen Spencer van de Universiteit van Winchester, UK, onderzocht hoe je de ontwikkeling van creativiteit bij leerlingen het beste kunt meten. Ze hebben een methode van formatieve (diagnostische) toetsing ontwikkeld in nauwe samenwerking met een groot aantal docenten en scholen. Die methode is in twee ronden uitgeprobeerd bij 12 basis- en middelbare scholen in Engeland.

Testen op creativiteit heeft natuurlijk alleen zin als we aannemen dat creativiteit in hoge mate aan te leren is. Het is niet een mysterieuze eigenschap waarmee sommige uitverkoren individuen geboren worden. Er bestaan meer van dit soort misverstanden over creativiteit. Zo wordt vaak gedacht dat creatieve mensen geen moeite hoeven doen om iets te bereiken. Het tegendeel is waar. Creatief zijn vereist hard werken, of je nu wetenschapper, sporter, bouwkundige, musicus, automonteur of arts bent. Het vereist een grote en diepgaande (parate) kennis van het domein waarin je deskundig bent. Creativiteit bestaat ook niet op zichzelf. Van Newton is de uitspraak “If I have seen further it is by standing on the shoulders of giants.” Nieuwe gedachten (uitvindingen, kunstwerken, sportprestaties) ontstaan door samenwerking en voortbouwen op de prestaties van anderen.

Divergent denken, het vermogen meerdere ideeën te ontwikkelen vanuit verschillende gezichtspunten zonder zich te laten beperken door vooropgezette ideeën, is één aspect van creativiteit. Het andere is een combinatie van discipline, reflectie en vasthoudendheid om die ideeën ook echt tot het einde te ontwikkelen. Dat kun je de convergente tegenhanger noemen, die nodig is om creatief te zijn. Een goede creativiteitstest kijkt naar zowel divergente als convergente persoonlijkheidskenmerken, dus naast ‘speelsheid’ ook ‘focus’ en ‘doorzettingsvermogen’.

Het instrument

Het lijkt mij heel interessant om het formatieve instrument dat Lucas, Craxton en Spencer hebben ontwikkeld ook in Nederland en Vlaanderen uit te proberen. Ze hebben gekozen voor een toetsing die zowel voldoende grondig als praktisch bruikbaar is. De bedoeling van het instrument is de leerling en de docent inzicht te geven in de vorderingen op verschillende aspecten van de creatieve ontwikkeling. Ik vat hun methode hier kort samen. Iedereen die erin geïnteresseerd is raad ik aan het rapport te lezen. Het is heel leesbaar en informatief.

creativity instrument
Op deze kaart kun je aangeven hoe ver een leerling zich heeft ontwikkeld op de verschillende deelaspecten. Sommige studies onderscheiden wel 13 kenmerken van creatieve mensen. Samen met de meedenkende docenten hebben de auteurs gekozen voor een wat handzamer aantal van vijf, dat toch voldoende onderscheidend is om de ontwikkeling van een leerling te ondersteunen. Zowel de leerling als de docent kunnen deze kaart invullen en de resultaten samen bespreken.

De vijf aspecten of kenmerken van creativiteit, zoals Lucas e.a. die onderscheiden, zijn:

  • Inquisitive – nieuwsgierig. Het vermogen om interessante en waardevolle vragen te stellen. Dit wordt verder onderverdeeld in de deelkenmerken: vragen stellen, onderzoeken, kritisch zijn over aannames.
  • Persistent – vasthoudend. Naar Thomas Alva Edison: “Genius is one percent inspiration, ninety-nine percent perspiration.” Onderverdeeld in: niet opgeven bij moeilijkheden, anders durven zijn, onzekerheid verdragen.
  • Imaginitive – vindingrijk/fantasierijk. Dit is het vermogen om originele oplossingen en mogelijkheden te vinden. Onderverdeeld in: spelen met mogelijkheden, verbindingen leggen, intuïtie gebruiken.
  • Collaborative – samenwerkend. Dit is het sociale aspect van creativiteit. Onderverdeeld in: producten delen, feedback geven en ontvangen, wanneer nodig goed samenwerken.
  • Disciplined – gedisciplineerd. Dit is de tegenhanger van de ‘dromerige’, fantasierijke kant van creativiteit, namelijk de kennis en vaardigheden om tot een creatief product en expertise te komen. Onderverdeeld in: technieken ontwikkelen, kritisch reflecteren, maken en verbeteren.

De vorderingen worden in kaart gebracht door het inkleuren van de hokjes van de roos, volgens de sleutel rechts. Van binnen naar buiten worden vier niveaus onderscheiden, awakening (geringe ontwikkeling), accelerating (beginnende ontwikkeling), advancer (goed ontwikkeld) en adept (sterk ontwikkeld, rolmodel). Bij ieder deelkenmerk (bij Inquisitive – nieuwsgierig bv. vragen stellen, onderzoeken, kritisch zijn over aannames) wordt weer onderscheid gemaakt in strength (sterkte, onafhankelijkheid), breadth (breedte, creativiteit in nieuwe contexten gebruiken) en depth (diepgang).

Op grond van de uitvoerige praktijktests komen de auteurs tot de volgende aanbevelingen.

  • Het instrument kan beter niet gebruikt worden in klassen waar de lessen onder druk staan van examens. In Engeland betekent dat de methode tot de leeftijd van 14 jaar kan worden gebruikt. Ik denk dat we in Nederland hiermee wel tot in 3-vmbo, 4-havo en 5-vwo/gym kunnen werken.
  • Ook is het instrument niet geschikt voor jonge kinderen, onder de 6 jaar. Omdat het leren voor die leeftijdsgroep voornamelijk uit spel bestaat, is er ook geen grote noodzaak om creativiteit op deze manier te monitoren.
  • Het is verstandig om de indeling in sub-kenmerken aan te houden. Onderscheid op alleen de vijf hoofdkenmerken blijkt in de praktijk een te grof instrument te zijn.
  • Of het nog nodig is de creativieve ontwikkelingen te toetsen aan de hand van summatieve tests is de vraag. Ik denk dat het weinig bijdraagt en misschien zelfs remmend kan werken.

Ik ben ervan overtuigd dat we hiermee een sterk instrument hebben waarmee we de creatieve ontwikkeling van onze leerlingen van ongeveer 6 tot 16 jaar kunnen volgen. Het is een heel welkome aanvulling op ons repertoire aan didactische en pedagogische hulpmiddelen. Het kan ook bijdragen aan het ontwerpen van lesmateriaal en methoden van hoge kwaliteit. Tenslotte helpt het ons, docenten, te reflecteren over de kwaliteit van onze lespraktijk en die, zo nodig, te verbeteren.

Ik zou heel graag met een groep enthousiaste collega’s deze methodiek voor Nederland willen ontwikkelen. Wie doet mee?

Bronnen

Csikszentmihalyi, M. (1996), Creativity: Flow and the Psychology of Discovery and Invention, HarperCollins, New York.

Lucas, B., G. Claxton en E. Spencer (2013), Progression in Student Creativity in School: First Steps Towards New Forms of Formative Assessments, OECD Education Working Papers, No. 86, OECD Publishing. http://dx.doi.org/10.1787/5k4dp59msdwk-en
pdf

Creativity in schools: what countries do (or could do) by Stéphan Vincent-Lancrin, Senior Analyst and Project Leader, Directorate for Education. 20-1-2013. http://oecdeducationtoday.blogspot.be/2013/01/creativity-in-schools-what-countries-do.html

Deze blogpost verscheen eerder op Bits and History

Zoals ik al eerder schreef maak maak ik me ernstig zorgen over de toenemende druk die verschillende nationale en internationale lijstjes op ons onderwijs leggen. PISA, PIRLS en TIMMS bevatten veel waardevolle informatie om je beleid op te baseren, maar wat ze meten is aan de andere kant ook zeer beperkt. Er wordt iets gemeten, maar ook heel veel niet. En er worden allemaal data-sets vergeleken waarvan het maar de vraag is of ze zomaar met elkaar vergeleken kunnen worden.

Hetzelfde geldt voor de data die de inspectie tot zijn beschikking heeft. In Nederland gaat Dronkers daar in Nederland heel ver mee. (Dronkers, 2012)Data van scholen worden in een spreadsheet gegoten, met heel veel discutabele aannames. Daar rolt een cijfer uit en dat is het dan. Dat leidt tot hele rare uitkomsten: een HAVO afdeling die heel slecht scoort, terwijl een VWO afdeling met dezelfde docenten het heel goed doet. Of dat een school het ene jaar het erg goed doet volgens Dronkers en het andere jaar heel slecht. Ook ontstaat er een heel ander beeld dan de inspectie schetst. De realiteit in cijfers vatten en dan die cijfers bijna gelijkstellen aan die realiteit. Het cijfer is de school en het cijfer is het kind. Stel dat een school een heel jaar alleen maar de twee geschiedenisexamenthema’s behandelt en heel goed scoort. Is het dan een goede school? Nee, die examens doe je hoogstens in een paar maanden. Die school doet aan test-prep, het tegendeel van goed onderwijs. Sociale wetenschappers als Dronkers leiden aan hubris. Sure, Big Data Is Great. But So Is Intuition. is de titel van een artikel in de New York Times (Lohr, 2012):

“Listening to the data is important (…) but so is experience and intuition. After all, what is intuition at its best but large amounts of data of all kinds filtered through a human brain rather than a math model”?

Ik ben zelf opgeleid als historicus. Geschiedenis is een wezenlijk andere tak van sport dan sociologie bijvoorbeeld. In ieder geval zoals ik het in Utrecht aangeleerd kreeg. In de geschiedenis als metier beschouwen we elke gebeurtenis als uniek omdat er zoveel verschillende variabelen zijn. Dat betekent niet dat je geen algemene conclusies trekt, modellen maakt of dat er geen lijnen naar de sociale wetenschappen zijn, maar modellen zullen altijd met de nodige scepsis benaderd worden. Vandaar dat ik ook terughoudend ben over alle lijstjes die over het onderwijs worden uitgestort. Ik laat me informeren, maar niet leiden door de data. In het beste geval zit er altijd een bepaald, vaak onbewust, wereldbeeld in de opzet en het oordeel van een onderzoek. In het slechtste geval zit er een verborgen agenda achter al die rapporten en onderzoeken.

In het krantenartikel Dissemination or contamination? in de Times Educational Supplement (TES) wordt dit goed duidelijk. (Stewart, 2012)Het gehele artikel is zeer de moeite waard om te lezen en geeft het huidige debat over ranking goed weer. Aan bod komen drie prominente wetenschappers. Michael Barber, Andreas Schleicher en Pasi Sahlberg.

Barber is oud-docent en nu hoofd onderzoek van Pearson.Hij was voormalig adviseur van de Britse regering en in die hoedanigheid was hij verantwoordelijk voor een grootschalig gestandardiseerd toetsprogramma en de geboorte van de Global Education Reform Movement (GERM). Verder was hij daarna verantwoordelijk voor een aantal invloedrijke McKinsey rapporten. En nu zit hij dus bij Pearson, een onderwijs conglomeraat. In die hoedanigheid heeft hij onlangs een grootschalig rapport gepubliceerd: The Learning Curve. (Economist Intelligence Unit, 2012) Op zich een goed rapport. Maar door de achtergrond van Barber, de richting die hij via de McKinsey rapporten aan het onderwijsdebat heeft gegeven en nu in zijn rol van Pearson zou je op zijn minst op je hoede moeten zijn. Pearson heeft belang bij meer toetsen (onderdeel van hun inkomsten), privatisering (online scholen die leerplatforms gebruiken,etc.). Er staan letterlijk miljarden op het spel. Je hier geen rekenschap van geven is kinderlijk naïef.

Schleicher is hoofd van PISA onderzoeksprogramma van de OECD. Een data-analist met een natuurkundige achtergrond. In meerdere interviews komt hij over als een integere man. Maar ook erg kortzichtig over de tekortkomingen van zijn onderzoek en al helemaal over de gevolgen voor onderwijsbeleid. “Schleicher also struggles to see any downside to Pisa and its ilk.” Er zijn een aantal grote gevolgen als gevolg van zijn onderzoek. Landen gaan steeds meer gestandaardiseerde toetsen invoeren als gevolg van een “verslechtering” op de PISA ranking. Het systeem wordt dus ingericht naar de toets, terwijl je zou moeten toetsen of leerlingen wat geleerd hebben. Het gaat zelfs zo ver dat landen hun systeem zijn gaan inrichten naar PISA toetsen, bijvoorbeeld in Duitsland. Dat komt niet meer voor zegt hij, terwijl het net in Wales weer is gebeurd. Los van alle haken en ogen aan het onderzoek zelf, kun je als onderzoeker niet je ogen sluiten voor dit soort uitkomsten.

Ten derde komt Pasi Sahlberg aan bod. Telg uit een onderwijsfamilie, oud-docent, onderzoeker en beleidsmaker in Finland. Alles wat hij doet ademt nuance en respect uit voor de individuele benadering. Zijn boek Finnish Lesson is zeer de moeite waard. (Sahlberg, 2011) Hij is ook degene die de term GERM heeft bedacht:

“It is like an epidemic that spreads and infects education systems through a virus (…) It travels with pundits, media and politicians. Education systems borrow policies from others and get infected. As a consequence, schools get ill, teachers don’t feel well and kids learn less.” (Stewart, 2012)

Daarnaast stelt hij net als Martha Nussbaum terecht dat een puur economische blik op het onderwijs en de introductie van modellen uit het bedrijfsleven belangrijker zijn geworden dan ontwikkeling en leren als doel op zich :

“This process where education policies and ideas are lent and borrowed from the business world is often motivated by national hegemony and economic profit, rather than by moral goals of human development,”

Sahlberg benadrukt de waarde van de internationale onderzoeken, maar tegelijkertijd is hij ook skeptisch over hoe ze worden ingezet. Data informed tegenover data-driven.

De conclusie van het stuk is terecht:“For education, globalisation is already here. Now, the battle is about ideology.” Het gaat inderdaad om hoe we mensen zien, de visie op leren, en hoe je de maatschappij ziet en wilt inrichten. Heel zwart-wit gezegd gaat het om een mechanistisch, utilitair wereldbeeld waarin kinderen in een mal te gieten zijn. Tegenover een complex, chaotisch wereldbeeld met ontwikkeling van het kind (de mens) als kritische wereldburger als doel an sich. Zoals de New York Times het stelt in een vergelijking tussen top performers Finland en Zuid-Korea:

“Which system is better: a European model that encourages equality, creativity and a healthy lifestyle, or an Asian model that focuses on technical skills and concrete results? Students: Where would you rather study? Parents: Where would you want your children to be?” (Lau, 2012)

Paradoxaal genoeg zal juist door te sturen op economische uitkomsten ons onderwijs, en op de lange termijn dus ook de economie, alleen maar verslechteren. Het pleit is wat mij betreft ook eenvoudig te slechten. Ik zou Dronkers, Barber, Schleicher en alle onderzoekers en beleidsmakers de volgende vraag willen voorleggen. Waar zou je je eigen kind naar toe sturen? Finland of Zuid-Korea? Ik weet het antwoord al. Hoe? Gezond verstand en intuïtie.

Jelmer Evers

Bronnen:

Dronkers, J. (2012). Schoolcijferlijst. Retrieved January 4, 2013, from http://www.schoolcijferlijst.nl/HOME.htm

Economist Intelligence Unit. (2012). The Learning Curve: lessons in country performance in education.

Lau, J. (2012). How Much Homework Does It Take to Educate a Nation? New York Times.

Lohr, S. (2012). Big Data Is Great, but so is Intuition . New York Times. New York.

Sahlberg, P. (2011). Finnish lessons: what can the world learn from educational change in Finland? New York: Teachers College Press.

Stewart, W. (2012). Dissemination or contamination? . Times Educational Supplement. Londen.

Toelichting: Onderstaande tekst werd oorspronkelijk geschreven door Michiel Couzijn (Instituut voor de Lerarenopleiding, UvA) in 2005. Ik heb het tekstueel enigszins aangepast en geschikt gemaakt voor het format van deze blog.

Kort en zonder uitleg:

  • Bereken eerst de score voor elk gemaakt werk
  • Maak een keuze met betrekking tot de cesuur (dat is: de te behalen score voor het cijfer 6)
  • Maak keuzes met betrekking tot de scores die horen bij respectievelijk het cijfer 10 en bij het cijfer 1
  • Werk een normeringstabel uit, waarin je scores koppelt aan cijfers en waarbij deze koppeling van 1 tot 6 en van 6 tot 10 gelijkmatig oploopt

Voor een toets met 20 vragen (en een mogelijke score van 0 tot 20 punten) volgen hier twee voorbeelden, A en B. In voorbeeld B ligt de eis voor de cesuur hoger (14 punten nodig voor een cijfer 6) maar is ook de kans om een 10 te halen iets hoger.

Cesuren

Voorbeeld A is kort te omschrijven als “Twee fouten betekent 1 punt eraf.” Voorbeeld B kun je omschrijven als “Score 14 ot 19: 1 fout is 0,8 punt eraf; Score 4 tot en met 13: 1 fout is 0,5 punt eraf.” In het eerste geval telt elke fout dus even zwaar, ongeacht het aantal gemaakte fouten, in het tweede geval worden de eerste fouten zwaarder aangerekend dan latere fouten.

 

Lang en met uitleg:

Wie onderwijs geeft moet het resultaat deugdelijk toetsen. Als docent wil je immers te weten te komen of je onderwijs succes had. Je leerlingen willen weten hoe ze het er van af brachten in de ogen van de docent. Goed, daar zit je dan met je pak leerlingwerk op het bureau: tekstverklaringen, een stapel opstellen, een set boekverslagen of wat dan ook. Hoe bepaal je dan de schoolcijfers?

Er zijn twee belangrijke stappen te nemen: de scoring en de normering.

De scoring bestaat eruit dat je bepaalt op grond van welke criteria leerlingen punten kunnen verdienen, gevolgd door toepassing van die criteria op elk gemaakt werk. Bij een schrijftoets kunnen de criteria bijvoorbeeld zijn: opbouw en overtuigingskracht. Of correct taalgebruik (bijvoorbeeld het aantal grammaticale en spelfouten). Of opbouw, originaliteit en correct taalgebruik. Het hangt er maar net van af wat je hebt onderwezen, en waarop je de leerlingen (deze keer) wilt afrekenen. Van belang is wel dat leerlingen van te voren – dus voorafgaand aan de toetsing – weten waarop ze worden beoordeeld, zodat ze daar rekening mee kunnen houden. Het is vrij zinloos leerlingen te onderwijzen in tekstopbouw en hen een schrijfopdracht daarover te laten maken, en die dan te beoordelen op ‘originaliteit’ als ze niet van tevoren wisten dat dit aspect ook zou meewegen.

Bij een tekstverklaring bestaat de scoring er bijvoorbeeld uit dat je bepaalt hoeveel punten de leerlingen bij elke vraag kunnen verdienen, of er een aftrekregeling geldt voor incorrect taalgebruik, of er bonusvragen zijn enzovoort. Opnieuw: dit hoor je voorafgaand aan, of bij de toets zelf te vermelden. Het is zinloos – en oneerlijk – om een vraag achteraf als ‘bonusvraag’ te benoemen omdat-ie te moeilijk of verkeerd gesteld bleek. Zo’n slechte vraag moet je gewoon weglaten uit je scoring (hij had natuurlijk niet eens in de toets moeten zitten…)

Bij een spreekbeurt (moderner: presentatie) is het eveneens van belang leerlingen te informeren hoe ze punten kunnen verdienen, en waarop ze dus moeten (leren) letten bij het voorbereiden en houden van hun verhaal voor de klas. Stemgebruik? Contact met publiek? De inhoud van hun verhaal? Gebruik van media? Het ligt voor de hand dat de keuze van de criteria zijn weerslag heeft op de instructie die je geeft, de aandacht die leerlingen bij de opdracht aan bepaalde aspecten geven, en wat er dus feitelijk geleerd zal worden. Toetsen = onderwijzen = leren.

Uit de toepassing van de gekozen criteria op elk gemaakt werk (of elke gegeven presentatie) volgt dan een score. Een score is iets anders dan een schoolcijfer. Wie twintig woordjes overhoort in een s.o. en een punt toekent per correct antwoord, heeft in feite een toets met een maximale score van 20 punten. Wie slechts tien woordjes overhoort, heeft een toets met een maximale score van 10 punten. In het laatste geval heb je dus echt niet te maken met schoolcijfers (van 1 t/m 10) maar met scores van 0 tot 10. Een toets kan elke denkbare reikwijdte en maximumscore hebben: van 0 tot 10, van 5 tot 100, van 0 tot 43, van 1 (voor het opschrijven van je naam) tot 17½ , van 500 tot 550 (zoals bij de CITO-toets basisonderwijs), enzovoort.

Hoe kom je nu aan schoolcijfers op basis van de behaalde scores? De omzetting van scores naar schoolcijfers heet de normering. Bij een normering moeten een aantal arbitraire keuzes gemaakt worden. Dat ze arbitrair zijn, betekent dat de verantwoordelijkheid voor die keuzes op de schouders van de docent rust, dat hij/zij zich dus de aard en het belang van die keuzes moet realiseren, en de gemaakte keuzes moet kunnen verantwoorden. Er bestaan geen objectieve criteria voor deze keuzes. Wel bestaan er tal van onzin-opinies over:

  • “Je moet 25% onvoldoendes hebben” – alsof het niks uitmaakt of de klas goed of slecht heeft gewerkt c.q. geleerd, en alsof jouw onderwijs nooit succesvol of juist ineffectief kan zijn.
  • “60% goed is een zes” – alsof je geen hogere of lagere eisen zou kunnen stellen, en alsof elke toets precies even moeilijk is.
  • “Alleen een maximumscore is een 10” – alsof alléén een foutloze toets het predikaat ‘uitmuntend’ verdient.
  • “Voor dit werk kunnen leerlingen nooit een 10 krijgen, want het resultaat is nooit perfect” – alsof jij leerlingen hebt geleerd hoe ze ‘perfect’ kunnen presteren (en alsof jij dat zelf als expert per definitie wél kunt!)

De te maken keuzes komen in het algemeen neer op het bepalen van de cesuur en van de scores die horen bij het cijfer 10 en het cijfer 1.

Wat de cesuur betreft, moet je kiezen welke score je ‘voldoende’ noemt. Dit is de allerbelangrijkste vraag die je jezelf moet stellen: het antwoord bepaalt namelijk hoe tevreden jij zult zijn – en de leerlingen zullen zijn – met de geleverde prestaties, hoeveel onvoldoendes er zullen vallen, hoeveel bespreekgevallen er zijn op de rapportvergadeing enzovoort. Heel belangrijk dus. Je baseert je antwoord op een schatting van het vereiste niveau en de door leerlingen in redelijkheid te leveren inspanning om dat niveau te bereiken. Met andere woorden: was de toets gemakkelijk of moeilijk voor deze klas? En wat zou, gezien de voortgang die je met deze klas moet boeken, hun gemiddelde score nu moeten zijn? Voor het maken van zulke keuzes is deskundigheid en ervaring nodig. Schroom dus niet om als beginnend docent hier hulp van collega’s in te roepen.

Stel dat je een s.o. hebt gegeven over twintig woordjes en je geeft elk goed antwoord 1 punt. Dan is je maximumscore 20 en je minimumscore 0. Welke prestatie vind je nu ‘voldoende’ in de zin van ‘kan er net mee door’? 10 woordjes goed (snel tevreden)? 12 woordjes goed? 16 woordjes goed (hoge eisen)? Er is hier geen fout antwoord. De hoogte van de te stellen eis is geheel aan jou (en je vakcollega’s) ter bepaling. In het algemeen geldt hierbij: lage eisen kunnen leiden tot gemakzucht bij sommige leerlingen en (herstel van) zelfvertrouwen bij anderen; hoge eisen kunnen leiden tot demotivatie bij sommigen en juist werklust bij anderen. Hierbij zijn dus pedagogische en curriculaire afwegingen in het geding.

Laten we zeggen dat je met 14 goede antwoorden van de 20 vragen tevreden bent (de cesuur, een ‘6’). De volgende vraag is: welke prestatie noem je ‘uitmuntend’ en beloon je dus met het cijfer 10? Moet de toets daartoe perfect gemaakt zijn (score 20 = cijfer 10) of mogen de leerlingen toch een of twee steken laten vallen (bijv. score 19 = cijfer 10)? Ook dit zijn allebei arbitraire beslissingen; er is geen reden de eerste keuze ‘normaal’ en de tweede ‘een uitzondering’ te noemen. Het is ook motiverend voor sommige leerlingen als de 10 eerder binnen hun bereik ligt. Hetzelfde geldt voor het cijfer 1. Bij welke score vind je dat de leerling geen noemenswaardige prestatie heeft geleverd? Wie een 20-item-meerkeuzetoets geblinddoekt maakt, heeft meestal toch 5 vragen goed zonder van enige kennis van zaken blijk te geven. Als ik morgen een 100-item-toets maak over ‘de orbitaaltheorie van Newton’ – of een ander onderwerp waar ik niets van weet – heb ik toch mooi 25 vragen goed! Die prestatie verdient dan geen beloning ten opzichte van iemand die meer pech had dan ik en op 15 of 20 goede vragen uitkwam. Deze blinde-gok-scores verdienen dus allemaal het schoolcijfer 1.

Sterker nog, de laagste scores zijn doorgaans het resultaat van een combinatie van blind gokken en ‘test wiseness’: de slimheid die leerlingen hebben ontwikkeld op het gebied van het maken van toetsen. Zo zijn sommige afleiders van een meerkeuzevraag zichtbaar te idioot geformuleerd om goed te wezen, of is een antwoord zoveel langer of duidelijker geformuleerd dan de andere dat het op het oog al meer kans maakt correct te zijn. Voor het goede antwoord op vraag c) hieronder hoef je ook niet te kunnen rekenen:

a) 5 appels min 2 appels = ….. appels

b) 8 appels min 4 appels = ….. appels

c) 7 appels min 6 appels = ….. appel (nota bene: authentiek voorbeeld!)

Kortom, er is meer dan één reden om de score voor het cijfer 1 niet te laag te stellen. En we hebben de cijferschaal van 1 tot 10 niet voor niets: een goede docent is niet bang de hele schaal te gebruiken als hij van mening is dat er onder de leerlingprestaties zowel ‘slechte’ als ‘uitmuntende’ prestaties voorkomen.

Het scoregebied boven de cesuur toont hoeveel beter de prestatie is dan ‘voldoende’. De koppeling van dat scoregebied aan de cijferschaal moet bij voorkeur gelijkmatig ofwel evenredig zijn. Stel dat de cesuur van een toets op 14 punten ligt. Een leerling met een score van 18 punten is dan twee keer zo ver verwijderd van een ‘voldoende’ als een leerling met een score van 16 punten, namelijk 4 respectievelijk 2 scorepunten. Het ligt voor de hand dit tot uitdrukking te brengen in het cijfer: de meerwaarde in het cijfer moet dan ook twee keer zo groot zijn. De leerling met score 18 kan dan bijvoorbeeld het cijfer 8 krijgen (meerwaarde: 2 cijferpunten) en de leerling met score 16 bijvoorbeeld het cijfer 7 (meerwaarde: 1 cijferpunt). Een andere mogelijkheid: de leerling met 18 scorepunten krijgt het cijfer 8,6 (meerwaarde: 2,6 cijferpunten) en de leerling met 16 scorepunten het cijfer 7,3 (meerwaarde: 1,3 cijferpunten). Beide mogelijkheden zijn goed; de keuze hangt af van welke prestatie je met een ‘10’ wilt belonen. In het eerste geval zou dat de score 22 zijn, in het laatste geval de score 20 (die is dan eigenlijk een 9,9 waard, maar ja, daar maak je natuurlijk een 10 van).

Iets vergelijkbaars geldt voor het scoregebied onder de cesuur: die toont hoeveel slechter de prestatie is dan ‘voldoende’. Je mag ‘hoeveelheid beter’ en ‘hoeveelheid slechter’ best met dezelfde maatstaf uitdrukken (‘punten per fout’), maar dat hoeft niet per se. Dat niet te doen laat je ook vrij om te bepalen welke score je met het cijfer 1 beloont. Stel weer dat je de cesuur van een toets op 14 punten hebt bepaald. Een leerling met score 10 is dan twee keer zo ver verwijderd van een voldoende als een leerling met score 12. Dat kun je in het schoolcijfer uitdrukken door de eerste leerling een 4 te geven (tekort: 2 punten) en de tweede leerling een 5 (tekort: 1 punt). Je kunt het ook doen door de eerste leerling met een 3 te ‘belonen’ (tekort: 3 punten) en de tweede leerling met een 4,5 (tekort: 1,5 punt). In het eerste geval is een score van 4 en lager gekoppeld aan het cijfer 1. In het tweede geval krijgt een leerling al het cijfer 1 bij de score 7 (eigenlijk: 7, 3) en lager. Het laatste geval past beter bij een 20-item-meerkeuzetoets waar leerlingen door blind gokken en wat ‘test-wiseness’ al snel 7 vragen goed hebben zonder kennis van zaken te tonen.

Hoe stel je nu zo’n tabel op waarbij scores en schoolcijfers aan elkaar zijn gekoppeld? Dat is niet moeilijk en vereist alleen wat elementair rekenwerk. Stel, je hebt van een toets met een maximumscore van 40 punten de cesuur gekozen, de 10-score en de 1-score. Dan is dit bijvoorbeeld de situatie:

tabel2

Zo verkrijg je de volgende normeringstabel:

tabel3

Tot zover deze uitleg over het construeren van een normeringstabel. Er blijven enkele discussiepunten over, die ik de lezer ter overweging wil meegeven:

  • Is dit alles niet te veel werk voor een docent?
  • Is deze manier van normeren wel duidelijk en acceptabel voor leerlingen?
  • Waar leg je de cesuur: bij een 6 of bij een 5,5?
  • Wanneer bepaal je de cesuur: vooraf of pas tijdens het nakijken?

Casper Hulshoff

Toetsen en docenten horen bij elkaar als Duitsland en het Oktoberfest. Niet zonder discussie, maar het is, hoe er ook tegenaan gekeken wordt, een essentieel onderdeel van het werk van een docent om een oordeel over het leren van een leerling uit te spreken. En wanneer je dat doet, al dan niet met tegenzin, is het zaak om dat volgens de regelen der kunst te doen. Over de voorbereiding van toetsen zijn bibliotheken volgeschreven, over het nawerk weinig. Deel drie over het belang van werken volgens de regelen der kunst, namelijk de fouten die er gemaakt worden.

Loopbaan

Gedurende de schoolloopbaan van een Nederlander, worden er over hem/haar een groot aantal beslissingen genomen. Het proefwerk is gemaakt, de beslissing van de docent is dat er een voldoende gegeven wordt.

Volgens de klassieke testtheorie (dit is een naam, geen beschrijving), kan het niet anders dan dat er bij een meting een meetfout gemaakt wordt. Net zoals de thermometer in een beker water het water iets opwarmt (of afkoelt), creëert de toetssituatie een kunstmatigheid die de prestatie beïnvloedt. Ondanks die meetfout wordt er toch een beslissing genomen.

Mogelijkheden

Wanneer er een beslissing genomen moet worden, dan zijn er vier mogelijkheden die in de tabel weergegeven zijn (vrij naar Slotboom) (Slotboom, 1996).

Werkelijke toestand
Onbekwaam Bekwaam
Oordeel docent Onbekwaam Correcte beslissing.Leerling krijgt onvoldoende Foute beslissing.Leerling krijgt onvoldoende.

Type II

Bekwaam Foute beslissing.Leerling krijgt voldoende.

Type 1.

Correcte beslissing.Leerling krijgt voldoende.

Belangrijk hierbij is dat we de “Werkelijke toestand” niet weten. Immers, als er altijd en steeds weer een meetfout gemaakt wordt, weten we niet wat de werkelijkheid is.

In de wetenschap wordt er, wanneer er onderzoek gedaan wordt naar het effect van bijvoorbeeld een nieuwe onderwijsmethode, gestart met de gedachte dat de nieuwe methode even goed / slecht is als de oude. De eerste fout die je dan kan maken, is dat je een leerling bekwaam verklaart, terwijl deze dat niet is. Dit heet een Type 1 fout. Je kan ook concluderen dat de leerling niet bekwaam is, terwijl deze het wel is. Dit heet een Type 2 fout. De twee overgebleven vakjes in het schema geven de correcte beslissingen weer.

Het meest erg..

In de wetenschap is er een niet aflatende discussie welke Type fout met meest verwerpelijk is. Dat blijkt per wetenschapsgebied te verschillen. De Type 1 fout is de onterechte voldoende. De schade hiervan komt vooral bij de maatschappij te liggen: een diploma dat minder waard is dan gedacht, fouten gemaakt bij het werk enz. De Type 2 fout is de onterechte onvoldoende. De schade hiervan komt vooral bij de leerling te liggen. Extra studietijd, zitten blijven, diploma niet halen enz. De individuele schade die uiteindelijk ook leidt tot maatschappelijke schade: langere verblijftijd in het onderwijs kost nu eenmaal geld.

De schade, vooral aan de individuele leerling, moet voorkomen worden, want voor de economische schade komt de individuele emotionele schade. Die schades voorkomen is ook de taak van de docent.

Paul Ket

Boek

Slotboom, A. (1996). Statistiek in woorden. De meest voorkomende termen en technieken. (2 ed.). Groningen: Wolters Noordhoff.

Toetsen en docenten horen bij elkaar als Engeland en hete curry. Niet zonder discussie, maar het is, hoe er ook tegenaan gekeken wordt, een essentieel onderdeel van het werk van een docent om een oordeel over het leren van een leerling uit te spreken. En wanneer je dat doet, al dan niet met tegenzin, is het zaak om dat volgens de regelen der kunst te doen. Over de voorbereiding van toetsen zijn bibliotheken volgeschreven, over het nawerk weinig. Deel twee van de poging om een best practice voor dat natraject te formuleren. Hierin aandacht voor het nakijken van open vragen.

Open vragen

Voor wat precies een open vraag is, gaan we te raden bij Ebel (Ebel, 1972). Hij gebruikt het woord essay, wat een langer antwoord suggereert. Hij stelt: “An essay test question requires the student to plan his own answer and to express it in his own words. An objective test item requires him to choose among several designated alternatives”. Uit deze omschrijving blijkt overigens het lange antwoord niet, wel stelt hij het tegenover gesloten antwoorden. Ik zou het niet tegenover gesloten vragen willen stellen, aangezien er ook nog half open vragen zijn.

Voorbeeld gesloten vraag:

Geef de formule bij de stelling van Pythagoras.

Voorbeeld half open vraag:

Noem drie van de vijf factoren die tot de oorzaken van de beurskrach van 1929 worden gerekend.

Voorbeeld open (essay) vraag:

Bespreek de ontwikkelingstheorie van Vygotsky.

Uit de omschrijving van Ebel blijkt (deels) wat de breedte van een open vraag kan zijn. Een opgave van waarin een zelfgeformuleerd antwoord wordt gevraagd waarbij het ideale antwoord in lengte kan variëren van twee zinnen tot aan een compleet boek. Met dit in gedachten, eerst aandacht voor correct nakijken en daarna een poging om tot aanbevelingen te komen.

Correct nakijken

Bij toetsen is het belangrijk dat ze correct worden nagekeken. Dit is een on-wetenschappelijke omschrijving, maar die wel aansluit bij wat leerlingen en docenten vinden. Wanneer er doorgevraagd wordt, dan blijkt dat het belangrijk is dat wat in het onderwijs (les, boek, betrouwbare bron) als correct is aangeduid, dat ook is in de toets. Daarnaast moet wat bij de ene leerling goed / fout gerekend is, ook bij de andere goed / fout gerekend worden. Als laatste moet het niet uitmaken wie nakijkt: verschillende docenten moeten tot hetzelfde oordeel komen.

De eerst eis wordt in de methodologie (meettechniek) aangeduid met inhouds-validiteit. De toets en het beoordelen van het werk, moet passen bij hetgeen onderwezen is. Een belangrijk deel van de zorg hiervoor zit bij de voorbereiding en laat ik buiten beschouwing.

De tweede eis heet intra-beoordeler betrouwbaarheid. Dat die ene docent, betrouwbaar is in zijn oordeel bij alle leerlingen. Lastig genoeg bij elke toets, bij open vragen een grote zorg.

De laatste eis heet de inter-beoordeler betrouwbaarheid. Dat twee of meer nakijkers tot hetzelfde resultaat komen.

Bij deze drie vereisten speelt mee, dat naarmate de meetschaal fijnmaziger is, de betrouwbaarheid afneemt en omgekeerd: wanneer de schaal algemener is, de betrouwbaarheid toeneemt. Immers: wanneer er veel goedgerekend kan worden, worden er makkelijker punten toegekend en komt het minder vaak voor dat er onterecht een puntje teveel of te weinig gegeven wordt. Het is dan ook gemakkelijker om tot eenzelfde oordeel te komen, ook wanneer verschillen in oordeel veroorzaakt worden door de beoordelaar. Naarmate de beoordelingsschaal gedetailleerder is, neemt de overeenstemming tussen beoordelaars af.

Anders dan bij meerkeuze-vragen is bij open vragen subjectiviteit een thema waar aandacht voor nodig is. Douwsma en Horsten (Dousma & Horsten, 1989) noemen drie problemen:

  • De eerste toetsen worden nauwkeuriger nagekeken dan de overige.
  • Wanneer een opvallend goed antwoord in de toets van leerling A gevonden wordt, wordt de toets van leerling B, direct daarna, strenger nagekeken.
  • Het uiterlijk van het werk speelt een grote rol.

Daarnaast spelen halo- en self-fulfilling prophecy effecten een grote rol (Holzhauer & Minden, 1978). Goede leerlingen krijgen een betere beoordeling dan zwakkere leerlingen voor hetzelfde werk.

Aanpak

Dat er bij het nakijken van open vragen verschillen in beoordelingen ontstaan, is min of meer onvermijdelijk. Die verschillen wegwerken kost onevenredig veel inspanning, tijd en dus geld. Wanneer je dit weet, is het zaak hier naar te handelen. Het kost minder tijd en inspanning om de beoordeling zo te organiseren dat de fouten wanneer ze gevonden worden, eenvoudig te herstellen zijn. Om dit mogelijk te maken, moet het nakijken, de correctie, voor de leerling te volgen zijn. Dit verlangt van de docent veel schrijven op het gemaakte werk.

Open vragen globaal beoordelen

Er is in de universitaire wereld veel onderzoek gedaan naar de overeenstemming bij verschillende beoordelaars over eindscripties of promoties. Daarbij is vooral gekeken of verschillende beoordelaars tot eenzelfde oordeel komen bij de beoordeling van één werkstuk (daar helaas even geen literatuurreferentie). De overeenstemming tussen beoordelaars blijkt dan snel minder dan 50% te zijn. Dit pleit voor een globaal oordeel, dit geeft immers de meeste kans op overeenstemming tussen de twee (of meer) beoordelaars.

Ebel (Ebel, 1972) suggereert het maken van stapels aan de hand van een twee- drie- of vierdeling en het geven van een etiket aan zo’n stapel. Nogal eens wordt volstaan met een driedeling: goed, matig, onvoldoende, waarbij matig nog net een voldoende is. Naarmate de opdracht meer open is en het werk erg verschillend is, is dit een eerlijke methode: immers, een voldoende kan met heel verschillend werk behaald worden.

Vanuit de leerlingen zal er behoefte zijn aan een onderbouwing van het oordeel. Hiermee ontstaat vrij eenvoudig een checklist, iets wat bij globaal beoordelen nu juist niet de bedoeling is. Om dit de voorkomen zal de nadruk moeten liggen op het feit dat iedere toets als zelfstandige eenheid beoordeeld is en daarmee beoordelingselementen mogen verschillen.

Aanpak

Bij een toets die één of meer open vragen bevat, worden de vragen stuk voor stuk nagekeken. Dus eerst alle opgaven 1, dan alle opgaven 2 enzovoorts. Bij het lezen van alle opgaven 1, wordt direct een stapel gekozen. Het gemaakte werkt wordt dus op niveau van het antwoord op opgave 1 gesorteerd. Vervolgens wordt beoordeeld of al het gemaakte werk in één stapel gelijkwaardig is. Uiteindelijk wordt het label of de punten bij het label, bij de opgave op het werk geschreven. Dit proces herhaalt zich totdat alle open opgaven beoordeeld zijn.

Een dergelijk proces kan ook toegepast worden bij werkstukken, scripties of zelfs boeken. Alleen neemt het leeswerk navenant meer tijd in beslag. Vermoeidheid en verveling of zelfs irritatie over gebrekkig werk, kunnen hierbij een grote invloed hebben op het oordeel. Een constatering van Ebel die ik helaas uit eigen ervaring moet onderschrijven (wat weer leidde tot twee keer nakijken).

Open vragen met een checklist beoordelen

Bij een open vraag kan natuurlijk bij het maken van de toets een lijst(je) gemaakt worden van de gewenste en ongewenste antwoorden (elementen). De checklist kan de vorm van een correctievoorschrift krijgen zoals bij elk eindexamen.

Elk jaar weer wordt duidelijk dat aan deze aanpak grenzen zitten: niet elk antwoord is voorzienbaar. Een checklist kan meer of minder gedetailleerd zijn. De 100-woorden eis bij de stelopdracht Nederlands is enerzijds heel algemeen, er worden geen eisen aan die woorden gesteld, anderzijds heel specifiek: één teveel is een fout. Het nakijkvoorschrift bij de wiskunde eindexamens schrijft meestal één of twee oplossingsmethodes voor, waarbij zéér gedetailleerd punten voor elke tussenstap worden toegekend. Een Rubric (Wikipedia) is een speciale vorm van een checklist. De checklist kan ook de eigen uitwerking door de docent zijn.

Uit het onderzoek naar de beoordeling van scripties komt naar voren dat de meeste beoordelaars zich eerst een globaal oordeel vormen om vervolgens met de checklist in de hand de onderdelen zodanig te scoren dat dat globale oordeel het eindoordeel is. De onderdelen van de checklist fungeren dan als onderbouwing van het algemeen oordeel. Vanuit de natuurwetenschappen komt een tweede verklaring voor de verschillen: elke meting heeft een meetfout. Naarmate er meer metingen gedaan worden, neemt het effect van die meetfout toe. Elk onderdeel van de checklist kan gezien worden als een meting. Meer elementen in de checklist, leidt dus tot meer verschillen tussen beoordelingen.

Vooral bij groter werk, kan de mening ontstaan dat de score op de elementen niet de score voor het geheel goed weergeeft. Blijkbaar worden er bij de deelelementen zaken gemist of krijgen een verkeerde waardering. Deze spanning zit altijd bij het beoordelen van open opdrachten met een checklist.

Omdat een checklist gedetailleerd nakijken veronderstelt, ontstaan er verschillen tussen beoordeelaars. Docenten met examenklassen ervaren de praktijk hiervan elk jaar weer. Ook als er redelijk wat overeenstemming is, zou de overeenstemming groter zijn, wanneer er algemener nagekeken zou mogen worden.

Aanpak

Ook bij het beoordelen van open vragen met een checklist wordt opgave voor opgave nagekeken. Bij elk werk wordt beoordeeld of en in welke mate aan het gestelde in de checklist wordt voldaan. Het element uit de checklist dat de doorslag gegeven heeft, wordt, samen met de punten, op het werk genoteerd.

Open vragen ombouwen naar gesloten

Een andere aanpak is om wel open vragen te stellen, om daarna aan de hand van de gegeven antwoorden een lijst op te stellen van die antwoorden en die van een punten te voorzien. Op deze manier wordt een open opgave een meerkeuze-opgave.

Met deze aanpak wordt bij de beoordeling aangesloten bij wat de leerlingen aan de docent aanbieden, wat meer aansluit bij het globaal beoordelen, terwijl wel met de precisie van het werken met een checklist tot een oordeel gekomen wordt. En inderdaad, er kunnen lange lijsten komen, maar nergens staat dat een meerkeuze-opgave zich moet beperken tot een keuze uit vier. De lijst met antwoorden geeft naderhand inzicht in hoe de leerlingen de opgave en de lesstof begrepen hebben en is daarmee voor elke docent van grote waarde.

Deze werkwijze lijkt wellicht de deur open te zetten tot willekeur en grote verschillen tussen beoordelaars. Echter, over de analyse van kwalitatief materiaal, waar we het hier over hebben, bestaat in de wetenschappelijke wereld een duidelijke consensus over wat wel en wat niet. Zie bijvoorbeeld Miles en Huberman (Miles & Huberman, 1994).

Aanpak

Het werk wordt per opgave nagekeken in twee rondes. In een eerste ronde worden alle verschillende gegeven antwoorden geïnventariseerd. Elke antwoord krijgt vervolgens een puntenaantal toegekend. In de tweede ronde wordt vervolgens bij elke leerling genoteerd welk antwoord uit de lijst gegeven is en wordt het puntenaantal in de kantlijn genoteerd.

Na afloop

Na afloop van het beoordelen, worden de op het werk genoteerde punten overgenomen in het rekenblad.

Tot slot

Uit het voorgaande blijkt wel dat het beoordelen van wat Ebel een essaytest noemt, bij het beoordelen nogal wat haken en ogen zitten. Bij andere toetsvormen zitten die haken en ogen bij de voorbereiding. Wellicht zijn er nog meer tips en praktische aanwijzingen. Laat het weten!

Bibliografie

Dousma, T., & Horsten, A. (1989). Tentamineren (2 ed.). Groningen: Wolters-Noordhoff b.v.

Ebel, R. L. (1972). Essentials of Educational Measurement (2 ed.). Englewood Cliffs, NJ.: Prentice-Hall Inc.

Holzhauer, F., & Minden, J. v. (1978). Psychologie: Theorie en Praktijk (2 ed.). Leiden: Stenfert Kroese.

Miles, M. B., & Huberman, A. M. (1994). Qualitative Data Analysis: An Expanded Sourcebook (2 ed.). Thousand Oaks, USA: Sage.

Wikipedia. (sd). Rubric (Academic). Opgeroepen op 10 07, 2012, van Wikipedia: http://en.wikipedia.org/wiki/Rubric (academic)

 

Fijn dat Paul Ket een stuk heeft geschreven over Toetstechniek-voor-docenten-1. Het is een helder stuk en ik kan me er voor een groot deel in vinden, alleen mis ik een aantal noodzakelijke stappen vooraf.
Paul Ket noemt onder het kopje ‘Voor de afname’ dat leerlingen hun naam op het blaadje schrijven. Is dat alles? Bij de fase ‘Voor de afname’ hoort toch veel meer? Feitelijk is dit de belangrijkste fase van een toets. De toets moet namelijk zorgvuldig worden samengesteld en de vragen moeten in heldere taal op papier worden gezet. Juist deze fase zorgt ervoor of je leerlingen eerlijk de maat neemt.

Na afloop van een proefwerk hoor je leerlingen vaak uitroepen: “Oooh, was dat de bedoeling van de vraag. Ik snapte die vraag niet. Als ik dat had geweten, dan wist ik het wel.
Communicatieproblemen tussen de toetsenproducerende docenten en de toetsenmakende leerlingen komen regelmatig voor en zelfs bij het schriftelijk examen krijgen leerlingen verwarrende vragen voorgelegd.
Toetsen worden vaak geproduceerd onder tijdsdruk en de docent weet precies wat hij bedoelt. Het aantal ‘cues’ dat hij nodig heeft om zelf te snappen wat zo verschrikkelijk logisch is in de vraagsteling, is meestal gering. Hij leest in veel gevallen meer dan hij schreef. In veel gevallen levert dat geen grote botsingen op. Het verschil in positie tussen docent en leerling maakt dat een docent niet behoeft te overdenken of de vraag wel helder genoeg was voor de leerlingen. Zelf niet als een groot deel van de klas de vraag foutief heeft beantwoord. Het ligt aan het reflectief vermogen aan een docent of hij bij veel fouten overdenkt of het misschien aan de vraagstelling heeft gelegen. Bovendien zijn er leerlingen die langere tijd door een bepaalde docent zo getraind worden dat ze bijna automatisch bedenken wat de docent zou kunnen bedoelen. Bij die strategisch goed onderlegde leerlingen kan het er wel toe leiden dat ze soms niet hebben kunnen laten zien wat ze waard zijn. Dat is dan toch wel jammer.

We toetsen om te zien of leerlingen leerstof en vaardigheden in voldoende mate beheersen. We controleren of onze lessen zijn begrepen, waar de hiaten zitten en we beoordelen, we nemen leerlingen de maat. Met het afnemen van toetsen houden we ons dus bezig met plaatsing (op het juiste niveau), voortgang en controle (bereik ik mijn doelen), diagnose, determinatie en bevordering. Voor leerlingen hangt er dus heel veel af van het maken van een toets. Vandaar dat het mij vreemd overkomt dat er soms lichtzinnig wordt omgesprongen met het maken van proefwerken. Juist het proces dat vooraf gaat aan het maken van de toets, het formuleren van de toets zelf en de controle of de toetst doet wat wordt beoogd, krijgt onvoldoende aandacht.
Iedereen die zelf kinderen heeft gehad op het voortgezet onderwijs kan er over meepraten. Je zoon of dochter was goed op het proefwerk voorbereid en kwam toch met een onvoldoende thuis.

Ik heb op veel scholen docentengroepen getraind en begeleid bij het maken van toetsen. We beginnen meestal met het verzamelen van toetsen van de school. Vervolgens analyseren we die toetsen. Docenten schrikken dan van de toetsen die collega’s hun leerlingen voorleggen, ze bezien eigen toetsen opeens met een andere bril en ook methodetoetsen kunnen vaak de toets der kritiek niet doorstaan.

Wat toetsen we eigenlijk?
Voor leerlingen hangt er veel af van een toets. Zoals hierboven beschreven zijn er verschillende toetsdoelen, maar in de meeste gevallen gaat het bij toetsing in het voortgezet onderwijs om cijfers te genereren. De cijfers worden ingevoerd en aan het einde van het schooljaar wordt bepaald of een leerling wel of niet kan doorstromen naar het volgende leerjaar, kan opstromen of moet afstromen.
Als ik docenten vraag welke criteria ze belangrijk vinden bij bevordering, opstromen of afstromen, dan noemen docenten meestal de beheersing van de leerstof en het gedrag van de leerling. Hoe stelt de leerling zich bijvoorbeeld op in de klas.
Zo beantwoorde een docent Duits de vraag ‘ Noem eens drie criteria waarop je bijna intuïtief je determinatie baseert’ met: ‘Oplettende oogjes, de drang om niets te willen missen’.
Bij mijn inventarisaties op een paar scholen stelde ik steeds dezelfde vraag. De uitkomst was: tekstbegrip, interesse/diepgang, actieve omgang met leerstof, motivatie, zelfstandig kunnen plannen, snelheid van opname, abstractievermogen, complexiteit en logische argumentatie. Bij discussies die daarop volgden kwam naar voren dat de lessen zich niet op die facetten richtten. Interesse/diepgang, actieve omgang met de leerstof, abstractievermogen en logische argumentatie moest in de leerling zelf zitten en het zelfstandig kunnen plannen was iets voor de mentorlessen. Het meest opvallende was dat alles wat werd genoemd niet werd getoetst!

Kan het ook anders?
Zou het mogelijk zijn om positief te determineren door vooraf te formuleren wat het profiel is van de ideale mavo, havo en vwo leerling. Wat moet zo’n leerling kennen, kunnen, weten en zijn? Welke leerstof moet wanneer en op welk niveau worden beheerst om succesvol te kunnen doorstromen? Hoe wordt dat dan getoetst?
In dit licht is het logisch dat toetsen en proefwerken gebaseerd zijn op weloverwogen criteria.

Bij toetsconstructie is dus de eerste stap:
Wat is het leerdoel? Wat moeten mijn leerlingen kennen en kunnen, welke begrippen (schooltaal en vaktaal, passief en actief), welke vaardigheden moeten ze kunnen laten zien (onder welke omstandigheden en onder welke voorwaarden) en wat neem ik dus op in mijn toets?

De tweede stap is beslissen hoe jouw leerlingen het beste kunnen laten zien wat ze kennen/kunnen/beheersen? Worden het multiple choice vragen, open vragen, gesloten vragen, ja/nee vragen, invulvragen – invulschema’s (aanvulschema’s) en wat voor soort vragen.

De derde stap is het bepalen van de lengte van een proefwerk en afweging maken tussen actieve en passieve kennis. Op sommige scholen gelden regels voor de duur van een proefwerk, de duur in tijd bepaalt dan wat er in het proefwerk komt. Ik snap dat het organisatorisch soms beter uitkomt, maar leerlingen zijn er niet bij gebaat en het levert vaak ook niet meer aan data op.
Niet de organisatie moet bij toetsen centraal staan, maar de leerling. Niet alle kennis hoeft te worden gereproduceerd, leerlingen hoeven niet 45 minuten leeg te lopen (omdat het handig is voor de organisatie), kennis en vaardigheden kunnen worden getoond binnen een tijdsbestek van 20 minuten.
Wil je het proefwerk dan echt langer laten duren, richt je dan op determinerende vragen, maar geef wel een breuk aan in het proefwerk zodat je het cijfer bepaalt boven de breuklijn. Geef een verdiepingsvraag voor ‘diehards’ die zo kunnen laten zien wat ze werkelijk waard zijn. Maak voor andere leerlingen een vraag waarbij je ‘kennis weggeeft’ om een moeilijkere vaardigheid te toetsen. Ook dat geeft je inzicht in het functioneren van je leerlingen.
Maak geen vraag als een drietrapsraket, waarbij vragen worden verdeeld in de stappen A, B en C, waarbij kennis uit A noodzakelijk is om de bewerking in B en C te kunnen toepassen. Om te toetsen of een leerling vaardigheden uit B en C beheerst, kan de kennis uit A beter worden gegeven. Een leerling is dubbel gedupeerd als B en C wel beheerst worden, maar niet getoond kunnen worden omdat het antwoord op A niet is gelukt te achterhalen.

De vierde stap richt zich op de opbouw van de toets.
Laat leerlingen lekker op gang komen door een eenvoudiger kennis- of begripsvraag. Stel vervolgens een of twee toepassingsvragen en eindig met een analyse, synthese of evaluatievraag.

De vijfde stap is het formuleren van de vragen.
Omdat het gaat om leerstoftoetsen en niet om tekstbegrip, is heldere schrijftaal belangrijk, dus liefst met eenvoudige zinnen. Het gaat om het ontlokken van kennis, daarbij kan de vraagstelling behulpzaam zijn of belemmerend werken. Dus vermijd passieve zinnen, moeilijke woorden en figuurlijk taalgebruik. Plaats opsommingen onder elkaar, zet iedere zin op een nieuwe regel als dat de vraag verduidelijkt en maak gebruik van een transparante opmaak.
Onder de vijfde stap hoort ook de opmaak van het proefwerk.
Gelukkig zijn er scholen die hebben afgesproken dat toetsen moeten voldoen aan de huisstijl van de school met een bepaald lettertype, bepaalde regelafstand, afspraken over hoe het zichtbaar is dat er een nieuwe vraag begint en dat wordt aangegeven wanneer een leerling de laatste vraag heeft beantwoord. Maar op veel scholen is dat niet het geval en wie een willekeurige verzameling proefwerken van een school onder ogen krijgt, schrikt zich soms een hoedje. Nog steeds krijgen leerlingen toetsen voorgeschoteld die er niet uitzien en het maken ervan bemoeilijken. Het komt voor dat een docent vragen van verschillende toetsen bij heeft elkaar gesprokkeld, soms zelfs nog geknipt en opgeplakt op een A4 dat vervolgens is gekopieerd. Afbeeldingen en schema’s waar leerlingen mee moeten werken zijn dan praktisch onleesbaar, allerhande lettertypes worden door elkaar gebruikt en het is soms niet te zien waar de ene vraag eindigt en de andere begint. Ga er maar aan staan.

Als stap één tot en met vijf zijn doorgewerkt komt in de zesde stap pas het vaststellen van het antwoordmodel aan de orde.
Het goede antwoord wordt opgeschreven, waarbij wordt genoteerd aan welke eisen het antwoord moet voldoen. Hierbij worden ook de te verwachte fouten opgeschreven.
Per vraag wordt een scoringsvoorschrift gemaakt (punten per vraag).

Tijdens de zevende stap worden de vragen kritisch doorgenomen. Toets iedere vraag het gewenste leerdoel? Is er een spreiding in vraagvormen (meerkeuze, ja/nee en open vragen? Is er een spreiding in vraagsoorten (Bloom) en is er aan de opbouw in vraagvormen en vraagsoorten voldaan. Voldoet het correctiemodel aan de vuistregels?
Pas als alles is gecontroleerd, wordt het proefwerk aan een collega gegeven die de vragen kritisch doorneemt en commentaar geeft op de vragen en het correctiemodel. Bij voorkeur wordt het proefwerk ook bekeken door een collega buiten de eigen sectie, dus iemand die niet ook al aan een half woord genoeg heeft om te begrijpen waar de vraag zich op richt.

Vervolgens keren we terug naar datgene dat Paul Ket heeft beschreven in zijn blogpost ‘De toetstechniek van docenten’ onder het kopje ‘Na de afname’.
Daar zou ik nog een belangrijk punt aan willen toevoegen: Het herzien van de toets!
Bij het nakijken zal blijken dat bepaalde vragen vaker goed of fout zijn beantwoord dan andere. Het is dan ook zinvol om per vraag te noteren hoe vaak de vraag goed, fout of half is beantwoord.
Bij een hoog foutenpercentage is er iets mis. Er is iets mis met de leerstof of de formulering van de vraag. Het is dan ook tijd om dat grondig te analyseren en de vraag misschien niet mee te tellen. Wordt er gewerkt met proefwerken die volgend jaar weer uit de kast worden gehaald, dan moet de vraag meteen worden herzien voor de volgende keer of worden geschrapt. Hierbij moet niet worden vergeten de collega’s in te lichten, op te letten dat oude versie wordt weggegooid en de goede versie in het digitale archief wordt opgenomen.
Verder kan op basis van het gemaakte proefwerk worden vastgesteld welke kennis of vaardigheden extra aandacht vragen bij de bespreking van het proefwerk of de vervolgles. Zo wordt het een nuttige bespreking en kan de vervolgles meteen zorgen voor het wegwerken van de gebleken hiaten in kennis of vaardigheden.

Voor iedereen die al zo zorgvuldig is bij de constructie van de toets, prima, houden zo. Hopelijk is dit ook schoolbeleid.
Voor docenten die van het bovenstaande in een kramp schieten, of voor scholen die er werk van willen maken, houd ik me aanbevolen om hier samen de schouders onder te zetten.

Toetsen en docenten horen bij elkaar als zomer en winter. We kunnen ons werk niet doen zonder uiteindelijk de leerlingen de maat te nemen en te beoordelen of zij voldoen aan de normen. Het meestgebruikte middel hiervoor is de schriftelijke toets. Die komt in allerlei soorten en maten, maar heeft in ieder geval het gemeenschappelijke dat er toetsopgaven zijn en dat de leerling antwoord geeft, meestal geschreven op papier. Over de voorbereiding van een toets is veel geschreven, over een best practice hoe met gemaakt werk om te gaan om te komen tot een oordeel weinig. Een poging tot inventarisatie van wat voor elke docent normaal zou moeten zijn. Dit alles in de veronderstelling hiermee een serie open deuren in te trappen.

Voor de afname

Twee zaken zijn van belang vooraf aan de afname:

  • Leerlingen schrijven hun naam op het in te leveren papier (proefwerkblaadje).
  • Antwoorden worden in één kolom gegeven. Dus niet om papier te sparen werken in twee kolommen.

Na de afname

In het leslokaal start de zorg voor het gemaakte werk. Dat de naam van de leerling op het werk moet staan is de start. Zodra een leerling het werk inlevert is het zaak om het gemaakte werk bij elkaar te houden. Leerlingen krijgen dan ook de instructie om een stapeltje te maken met bovenop de opgaven en daaronder het gemaakte werk. Mocht een leerling op de opgaven geschreven hebben, dan is nog terug te halen wie dat gedaan heeft, ondanks dat op opgaven meestal niet de naam geschreven wordt. Bij eerste gelegenheid wordt al het ingeleverde papier gecontroleerd en worden, als het nodig is, de ingeleverde papieren aan elkaar geniet.

Correctie/nakijken

Vooraf aan het corrigeren of nakijken wordt de toets door de docent zelf gemaakt, vooral wanneer de docent niet de toetsmaker is. Zo wordt zéér duidelijk wat er gevraagd wordt en krijgt de docent ook enig beeld van de tijd die de leerlingen nodig hebben voor de toets.

Wanneer er sprake is van een diagnostische wordt het werk gecorrigeerd. Naast de fouten worden verbeteringen of hints in het werk genoteerd. Bij een eindtoets kan volstaan worden met nakijken, dan worden alleen de fouten aangestreept. De gegeven punten voor het antwoord komen in de kantlijn, vandaar dat antwoorden onder elkaar geschreven worden.

Gemaakt werkt wordt opgave voor opgave bekeken. Dus eerst alle opgaven 1, dan alle opgaven 2, enzovoorts. Bij langere opgaven eerst de opgaven 1a, 1b en 1c, en daarna 1d, 1e en 1f. Dit zorgt voor meer consistentie bij het nakijken en maakt dat het tempo omhoog kan, omdat minder verschillende zaken onthouden hoeven te worden. Wanneer er géén punten behaald zijn voor een opgave wordt dit ook genoteerd. Dit voorkomt vergissingen bij de volgende stap.

Punten noteren

De in de kantlijn genoteerde punten worden vervolgens overgenomen in een rekenblad, bijvoorbeeld Excel (Windows, Mac) of Numbers (Mac, iOS) of Calc (LibreOffice, meerdere platforms). Hiermee worden de punten eenvoudig vastgelegd voor toekomstig gebruik.

Per proefwerk wordt een apart bestand gemaakt. Handig is het om aan het begin van het schooljaar even tijd te steken in het maken van een bestand en dit gedurende het schooljaar steeds aan te passen. De datum van afname, klas, leerweg en het onderwerp staan dan in de bestandsnaam, zodat terugzoeken eenvoudiger wordt. Data worden genoteerd in het jjjj/mm/dd formaat zodat ze netjes chronologisch gesorteerd worden, ook als op de computer op naam wordt gesorteerd. Bijvoorbeeld: 20120924_1a_TL_kijklijnen_h1.xlsx

In het voorbeeld staan de namen van de leerlingen in kolom A. Het door leerlingen behaalde cijfer in kolom B. Dit cijfer wordt bepaald door middel van een omrekening van de punten uit kolom C. De punten in kolom C zijn weer een optelling van de punten zoals die in de verschillende kolommen genoteerd staan. Met deze eenvoudige opzet is het later mogelijk om de toets te analyseren en is de omzetting van punten naar cijfers eenvoudig aan te passen. De kleuren en lijnen per opgave zijn een visuele ondersteuning.

In kolom C staat de opdracht om de punten in de kolommen D tot en met O op te tellen. In Excel is dat: =som(D4:O4). In cel C3 staat dan het totaal aantal te behalen punten, in C4 het aantal punten dat Aya heeft. In het voorbeeld is dat 29. De formule kan eenvoudig van cel C3 naar beneden gekopieerd worden. Elke handleiding van een rekenblad legt dit uit.

In kolom B staat de formule die de punten omrekent naar een cijfer. De meest eenvoudige formule is: het aantal behaalde punten delen door het totaal aantal punten, maal negen plus 1. In ons Excel voorbeeld is dat: =C4/36*9+1. Cel C4 geeft het totaal aantal punten van Aya, B4 het cijfer met deze formule. We laten hierbij het rekenwerk en de afronding aan de rekenblad, zonder afronding heeft Aya een 8,25.

Net zoals bij het nakijken/corrigeren, gaat het invoeren van de punten het best per opgave. In de meeste rekenbladen is het zo in te stellen dat met de Enter-toets er naar de regel eronder gegaan wordt. Zo kunnen de punten snel ingevoerd worden.

Werken met een dergelijk rekenblad maakt het werk van een docent overzichtelijk en zorgt er ook voor dat eventuele aanpassingen van het aantal punten direct vertaald wordt naar een ander cijfer.

Tot slot

Docenten beoordelen het werk van leerlingen en dienen dat naar beste kunnen te doen. Zij dienen op een navolgbare wijze het werk van een leerling te beoordelen. Inzicht in de toekenning van de punten en de omzetting naar het cijfer behoort hierbij. Een best practice dient dit te weerspiegelen. Hiertoe wordt gebruik gemaakt van een rekenblad. Dit vormt de basis voor verdere toetsanalyse. Daarover later meer.

Reactie op Standaardtesten in het onderwijs. Moet dat nou?

Elk jaar weer is er een discussie over de waarde, nut en noodzaak van de verschillende standaardtoetsen die in het onderwijs worden afgenomen. De teneur is nogal eens dat de toetsen niks bijdragen aan goed onderwijs. Toch blijven ze bestaan. Enkele achtergronden zijn van belang.

Dé start van standaardtoetsen in het onderwijs in Nederland wordt gelegd bij het boek van A.D. de Groot (1966), “Vijven en zessen”. In dit boek beschrijft hij de praktijk in het onderwijs ten aanzien van beoordeling en selectie door docenten en leerkrachten. Naast een aantal methodologische bezwaren (de Groot was methodoloog), staat hij op tegen wat hij ziet als willekeur bij beslissingen over bevorderen of doubleren en zakken of slagen. Hij signaleert dat er bij deze beslissingen een veelheid aan argumenten een rol spelen die voor de schoolloopbaan van de leerling niet van belang zijn. Zo krijgt het kind van de handarbeider met gelijke cijfers, een lager advies dan het kind van de academicus, waarmee kinderen met min of meer gelijke cognitieve capaciteiten, toch zeer ongelijke kansen in het onderwijs en daarmee in het leven krijgen. Een feitelijke constatering die door opeenvolgende regeringen opgepakt is en verwerkt in wet- en regelgeving. Enerzijds omdat alle leerlingen gelijke kansen behoren te hebben, ook leerlingen uit zwakke milieus naar de universiteit moeten kunnen, anderzijds omdat werkgevers, industrie, goed- dan wel hoog geschoold personeel willen die deskundig zijn in hun vak en/of weten hoe ze een hamer moeten vasthouden. De keuze van de argumenten hangt (mede) af van de heersende politieke voorkeur.

Een belangrijke oorzaak voor de verschillende beoordelingen van leerlingen, attributie, is inherent verbonden met ons onderwijs: een leerkracht “kent” de leerling en “weet wat deze waard is”. Het proefwerk van de zwakke leerling wordt dan ook anders nagekeken dan het proefwerk van de excellente leerling. Aan de leerling worden kenmerken toegedicht die niet aanwezig zijn. De Groot pleit dan ook voor toetsen die samengesteld en beoordeeld worden los van de eigen docent(en) zodat dit fenomeen geen of weinig effect heeft op de schoolloopbaan van de leerling. De discussie over de geldigheid van de centrale (CITO) toetsen gaat dus deels over de professionaliteit, onafhankelijkheid en deskundigheid van docenten en leerkrachten. Het is daarmee een normatief argument.

Met de gestandaardiseerde toetsen reduceert De Groot, en dat is een veelgehoord verwijt, het resultaat van onderwijs tot beoordelingen voor taal, rekenen, wiskunde en Engels. Deze bedoeling wordt nogal eens bestreden. De taak van onderwijs wordt door velen immers breder dan dat gezien. De discussie over het ontbreken van thema’s in de toetsen of de onmogelijkheid om zaken in centrale toetsen op te nemen, gaat dus over het doel van het onderwijs zoals wij dat kennen. Het is daarmee een normatief of zelfs politiek argument.

Zoals uit het voorgaande blijkt, heeft de politiek een grote bijdrage aan de hedendaagse situatie. De ontwikkelingen hieromtrent volgen de ontwikkelingen van het na-oorlogse Nederland. Na de oorlog moest het land opgebouwd worden en waren er arbeiders en ambachtslieden nodig. De kinderen van de arbeiders werden ook arbeider, de kinderen van de hoogleraar, en dat waren er niet zo veel, konden naar de universiteit. De steden werden opgebouwd, Flevoland aangelegd, infrastructuur hersteld.

De lancering van de Spoetnik (1958) maakte duidelijk dat wanneer het Westen niet zou investeren in kennis, het communisme spoedig de overhand zou hebben. Dit moment wordt gezien als de start van de onderwijskunde (in ieder geval in de USA), waarbij één van de doelen was om het aanwezige talent in de bevolking op te sporen en ieder wat betreft niveau een maximale opleiding te laten volgen. Dat het kind van de metselaar ook metselaar zou worden was niet langer gewenst. Een visie die nog steeds doorspeelt in ons huidige onderwijs en heeft geleid tot een explosieve groei in het Hoger Onderwijs. De koppeling van opleidingsniveau aan het salaris, heeft ook voor andere opleidingsniveaus de opwaartse druk verder gestimuleerd.

De sturing van de Inspectie op de resultaten van scholen, de hoeveelheid gestandaardiseerde toetsen die hiertoe ingezet wordt, moet m.i. in het licht van deze langdurige en algemene ontwikkelingen gezien worden. Zaken als efficiency-denken, bezuinigingen en de angst voor terugval in welvaart, hebben deze trend gestuurd.

De taak van het Basisonderwijs is thans om basisvaardigheden te onderwijzen en het niveau van het vervolgonderwijs te bepalen. Het voortgezet onderwijs wordt geacht dit niveau te realiseren en toe te leiden tot een arbeidsmarktkwalificatie of een vervolgopleiding. Het professioneel oordeel van de docent wordt hierbij ingewisseld voor standaard toetsen.

Referentie

Groot, A.D. de. (1966). Vijven en zessen. Groningen. JB Wolters.

Volg

Get every new post delivered to your Inbox.

Join 1.430 other followers

%d bloggers like this: