Op 8 oktober, tijdens het Lerarencongres van de Onderwijscoöperatie, is de presentatie van het boek ‘Het Alternatief – Weg met de afrekencultuur in het onderwijs!’, onder redactie van René Kneyber en Jelmer Evers. Voor dat boek schreef ik het hoofdstuk ‘Zin en onzin van testen, vergelijken en afrekenen’. Hier alvast een voorproefje.

Minister Schippers van Volksgezondheid kondigde begin juni aan dat ziekenhuizen voortaan verplicht worden hun sterftecijfers te publiceren. Op het eerste gezicht een goed idee. Je wilt tenslotte de beste dokters aan je bed als je ziek bent en niet onverhoeds in een ziekenhuis belanden waar bijna geen patiënt de behandeling overleeft.
Ook ouders die een school zoeken voor hun kind willen terecht dat er een goede kans is dat het met een diploma van school gaat. Als ouder wil je dan wel eens zien hoe die school scoort. Staatssecretaris Dekker van Onderwijs heeft besloten de Cito-scores van alle basisscholen openbaar te maken. Prima, zou je denken. Het wordt tijd dat de scholen met de billen bloot gaan. Bij nader inzien toch niet zo’n goed idee, betoogt de Britse onderwijsvernieuwer, oud-leraar en oud-hoogleraar Dylan Wiliam.

Wiliam schreef onlangs een essay (Are there “Good” schools and “Bad” schools?) in het boek ‘Bad Education – Debunking Myths in Education’ onder redactie van Philip Adey en Justin Dillon. Daarin legt hij uit waarom openbaar maken van sterftecijfers van ziekenhuizen tot misverstanden kan leiden en waarom hetzelfde geldt voor de publicatie van examenresultaten van scholen.

De ruwe sterftecijfers van een ziekenhuis hangen van veel factoren af, waarvan maar een paar direct te maken hebben met de kwaliteit van de zorg en de bekwaamheid van de artsen en verpleegkundigen. Als ik een ziekenhuis moet kiezen voor mijn hartoperatie, zou het niet slim zijn om alleen naar de sterftecijfers te kijken. Dat er in een bepaald ziekenhuis weinig mensen dood gaan betekent nog niet dat daar de beste cardiochirurgen werken. Misschien stuurt dat ziekenhuis de lastige gevallen door naar een gespecialiseerd ziekenhuis, waar ik uiteindelijk beter terecht ben, maar waar in verhouding ook meer patiënten overlijden.

Ruwe sterftecijfers zijn dan ook een heel slechte indicatie van de kwaliteit van een ziekenhuis. Zie ook artikel op NOS.nl (met dank aan Martin Dogger). Immers, dan zou het Anthonie van Leeuwenhoek een van de slechtste ziekenhuizen van Nederland zijn, want daar gaan veel patiënten dood. Daarom wordt meestal een of andere vorm van weging toegepast, waarbij het aantal sterfgevallen over een periode wordt vergeleken met de te verwachten aantallen voor een bepaalde ziekte. Daarvoor bestaan verschillende, min of meer geavanceerde statistische methoden, waarbij bijvoorbeeld ook wordt gecorrigeerd naar leeftijd van de patiënten, geslacht enzovoorts. Een daarvan is de HSMR, Hospital Standardized Mortality Ratio, die voor de meeste Nederlandse ziekenhuizen wordt gepubliceerd.

De gemiddelde HSMR-score is 100. De scores voor Nederlandse ziekenhuizen liepen in 2010 uiteen van 59 tot 129, maar de meeste ziekenhuizen scoren rond de 100. Er zijn verschillende redenen waarom ook deze gecorrigeerde cijfers geen betrouwbaar beeld geven van de kwaliteit van een ziekenhuis.

Kleine ziekenhuizen vertonen een grotere variatie in sterftecijfers van jaar tot jaar. Een ziekenhuis dat met een verpleeghuis fuseert, zoals het Haagse Bronovo, kan van het ene op het andere jaar zijn HSMR zien stijgen omdat in verpleeghuizen nu eenmaal relatief veel patiënten sterven. In dat jaar is niet ineens de medische kwaliteit achteruit gegaan. Er is een interessant regionaal verschil in ziekenhuissterfte. Zo sterven in Limburg significant meer mensen in het ziekenhuis dan in bijvoorbeeld Groningen (van den Bosch e.a. 2013). Het ligt niet voor de hand dat Limburgse dokters slechter zijn dan Groningse. Aan dit verschil liggen vermoedelijk culturele en religieuze invloeden ten grondslag. Er zijn nog meer (medisch-specialistische) redenen waarom de HSMR kritisch moet worden bekeken (bijv. Pleizier e.a. 2010), die ik hier verder niet zal bespreken. Hoofdzaak is dat zelfs de gewogen sterftecijfers niet zonder meer als kwaliteitsindicator kunnen worden gebruikt. Publicatie daarvan zou moeten worden vergezeld van een uitvoerige toelichting.

Let op: het zijn de statistische experts zelf die kritiek hebben op deze manier van ziekenhuizen vergelijken. Dat komen we ook tegen bij publicatie van examencijfers en Citoscores en in het algemeen bij het vergelijken en beoordelen van scholen en docenten op basis van de resultaten van hun leerlingen.

Er bestaan geen ‘goede’ en ‘slechte’ scholen (Dylan Wiliam, 2012)

Voor mijn bijdrage aan ‘Het Alternatief’ onderzocht ik een aantal vragen over testen en het openbaar maken van Cito-scores en examenresultaten, die nu heel actueel zijn.

Om te beginnen is het ironisch dat Cito zelf het enthousiasme van Sander Dekker, om de gemiddelde Cito-scores van scholen te publiceren, niet deelt. Integendeel, die noemt dat in een goed leesbaar rapport onzin (Cito, 2013). Dat zijn toch de experts, zou je denken, waar Dekker naar zou moeten luisteren. Die experts leggen geduldig uit dat de kwaliteit van het onderwijs maar voor een deel de hoogte van de Cito-score van leerlingen bepaalt. De schoolresultaten van een individuele leerling hangen sterk af van andere factoren, met name de sociaal-economische achtergond van de ouders. Kinderen van hoogopgeleide ouders hebben een voorsprong op hun leeftijdgenootjes, die tot uitdrukking komt in de Cito-scores. De samenstelling van de schoolpopulatie is dan ook van grote invloed op de gemiddelde score van een school, maar zegt weinig over de kwaliteit van het onderwijs van die school.

Wanneer toch wordt besloten de Cito-scores te publiceren – en dat is op verzoek van RTL Nieuws gebeurd – moet worden bedacht dat de schoolscores dicht bij elkaar liggen (Cito, 2013):

De gemiddelde schoolscores op de Citotoets liggen dermate dicht bij elkaar, dat een kleine verandering in de score leidt tot een grote verandering in de rangordepositie van een school. Zo hebben de nummers 1.954 tot en met 2.687 dezelfde gemiddelde schoolscore afgerond op één cijfer achter de komma.

Met andere woorden, de scores verschillen niet significant van elkaar en een rangorde op basis van die getallen is dan ook onzinnig. Er is geen verschil in kwaliteit tussen nummer 1.954 en 2.687, laat staan tussen 1.954 en 1.955. Het zelfde geldt voor de ’top’ van de ranglijst.

Toeval speelt een grote rol bij de plaatsing in de scholenranglijst (Cito, 2012):

De score van een individuele leerling kan een groot effect hebben op de schoolscore en daarmee op de rangordepositie van een school. Dit is mede het gevolg van de beperkte grootte van de groepen 8 in de scholen. Als in het ene schooljaar net een heel sterke of een heel zwakke leerling zit, kan dit grote gevolgen hebben voor de rangordepositie van de school.
en:
Hoe kleiner de school, des te groter het effect. [E]en kleine school (5-10 leerlingen) [zou] van plek 4.251 naar plek 1.021 gaan als de zwakste leerling niet mee zou hebben gedaan.

Niet in de laatste plaats moeten we bedenken dat de Cito-toetsen bedoeld zijn als hulpmiddel voor docenten en scholen om de vorderingen van hun leerlingen te volgen, niet om die scholen en docenten daarop af te rekenen.

De Dronkerslijstjes

Nu kan men tegenwerpen dat RTL niet de ruwe scores publiceert. Daarover zeggen ze zelf:

Omdat de scores niet zomaar te vergelijken zijn, publiceert RTL Nieuws geen simpele ranglijst met de hoogste Cito-scores. De resultaten van alle scholen zijn door RTL Nieuws samen met professor Jaap Dronkers van de Universiteit van Maastricht vergeleken met scores van vergelijkbare scholen. Dat resulteert in een rapportcijfer voor iedere school.

Die rapportcijfers kennen we al van de schoolcijferlijst voor het VO van Jaap Dronkers (www.schoolcijferlijst.nl), die jaarlijks wordt gepubliceerd in de Volkskrant (voorheen in Trouw). Dronkers en zijn medewerkers gebruiken de gegevens die de Onderwijsinspectie jaarlijks publiceert van alle Nederlandse middelbare scholen. Het schoolcijfer wordt berekend met vier indicatoren: het eindexamencijfer, het cijfer voldoende vakken, bonuspunten toegevoegde waarde en bonuspunten SE-cijfers. Voor details van de berekening verwijs ik naar hun website.

Het toeval, waarover Cito (2013) spreekt, blijkt een grote rol te spelen bij de Schoolcijferlijst van Dronkers. Voor ‘Het Alternatief’ heb ik de Dronkerscijfers van een aantal willekeurige scholen over een aantal jaren bekeken. Wat opvalt zijn de grote fluctuaties van jaar tot jaar en de verschillen tussen de afdelingen van één school. Dat zien we bij heel veel scholen. Bij sommige van de door mij onderzochte scholen springen de cijfers wel heel wild op en neer, van een 3 (soms zelfs een 2) naar een 6 of een 7, om dan weer een paar punten omlaag te duikelen. Daarbij is geen enkel verband te zien tussen bijvoorbeeld het vmbo en het havo op dezelfde school. Wie langer dan een jaar op een school heeft gewerkt zal dat heel onwaarschijnlijk vinden. Het zal zelden voorkomen dat de onderwijskwaliteit van een school het ene jaar extreem slecht is en het volgende ruim voldoende en het daaropvolgende jaar weer naar matig of onvoldoende.

Eén voorbeeld. Voor de rest verwijs ik naar het boek. In dit voorbeeld gaat het om een scholengemeenschap in het zuiden van het land met twee dependances. (N.B. ik noem geen namen. Scholen hebben genoeg te lijden gehad van de rapportcijfers die ze van Dronkers kregen.)

20130914-100820.jpg

Met school F is iets opmerkelijks aan de hand. Dit is een scholengemeenschap in het zuiden met drie vestigingen in de zelfde plaats, met een vmbo-gt-afdeling in het hoofdgebouw (onderste reeks cijfers), waar ook de havo en vwo zitten. Ook hier zien we weer het beeld van cijfers die in één jaar 2 of 3 punten omhoog of omlaag gaan. Daarnaast zien we in 2006 en 2007 een verschil van 4 punten tussen de vmbo-gt in de hoofdvestiging en de vmbo-k in een nevenvestiging.

20130914-100919.jpg

Kijken we hoe het in het hoofdgebouw van school F in die zeven jaar gegaan is, dan wordt het nog raadselachtiger. Een school die erin slaagt op de lijsten van Dronkers 8, 9 en 10 te scoren op de havo en het vwo, scoort gemiddeld onvoldoende voor vmbo-gt. Werkt geen van die, voortreffelijke havo- en vwo-docenten op het vmbo? Niet waarschijnlijk. Ongetwijfeld zal er door de schoolleiding nagedacht zijn over deze opmerkelijke cijfers. Het ligt niet meteen voor de hand te twijfelen aan de kwaliteit van het onderwijs op deze school. Daar valt niets zinnigs over te zeggen zonder nader onderzoek naar factoren die de verschillen verklaren tussen afdelingen onderling en de woeste golfbewegingen door de jaren heen.

Mijn conclusie is dan ook:

Dit alles maakt de onderzoeksmethode van Dronkers niet helemaal onbruikbaar, al kun je na het voorgaande grote vraagtekens zetten bij de status van ‘kwaliteitsmeter’ die de jaarlijkse lijst heeft gekregen. Als Dronkers een bijdrage wil leveren aan de verbetering van het Nederlandse onderwijs, wat ik aanneem, dan doet hij er goed aan de gegevens zo te presenteren dat een school daar ook werkelijk wat aan heeft. Alleen punten geven, die door de media dan weer gretig worden opgepakt om scholen en leraren aan de schandpaal te nagelen, is op zijn zachtst gezegd weinig productief.

Van wantrouwen naar vertrouwen

Tenslotte dit. Het is mij een raadsel waarom de Nederlandse overheid de zelfde weg moet inslaan, die de VS jaren geleden ging (met ‘No Child Left Behind’ van George W. Bush en Obama’s ‘Race to the Top) en waarvan de rampzalige gevolgen nu overduidelijk worden. Het zou kunnen voortkomen uit een begrijpelijke behoefte de kwaliteit van het onderwijs te controleren. Het leidt echter tot een managementstijl gebaseerd op wantrouwen en een onwrikbaar geloof in cijfers, die weer onherroepelijk het tegenovergestelde oplevert van wat de overheid beoogt. Staatssecretaris Dekker zou er goed aan doen het voorbeeld te volgen van de Schotse Minister van Onderwijs, die enige jaren geleden besloot de scholenlijstjes à la Dronkers (‘league tables’) niet langer te publiceren. In de woorden van de toenmalige Schotse minister van onderwijs Peter Peacock:

League tables owe their origins to a time past when the political currency was about competition between schools and about designing a system at a time when competition would be one of the main features of education. […] We’re not in that situation now. I believe in universal excellence in schools and we should not have to have a league table to try and choose a school. (Mail Online, 25 september 2003)

De huidige Schotse minister van onderwijs, Mike Russell, bevestigt nog eens waarom de lijsten niet door zijn ministerie worden gepubliceerd:

At its worst, the league table mentality insists that measurement can only be meaningful if it is used in judgemental comparisons, although it does not understand that such comparisons are nearly impossible given diversity of cohorts, communities and cultures. (The Scotsman 29 maart 2013)

Een alternatieve – en moedige – vorm van leiding geven in de onderwijswereld is de verantwoordelijkheid voor de kwaliteit te leggen bij de onderwijsprofessionals zelf. Daarover zeg ik in ‘Het Alternatief’:

[Het is] van belang dat docenten eigenaar worden van de kwaliteitsbewaking in het onderwijs. Hierbij kan men denken aan: collegiale intervisie, feedback van ervaren docenten en schoolleiders, bijscholing, beoordeling van docenten door leerlingen, samenwerking binnen scholen en van scholen onderling, visitatie zoals bij universiteiten, een lerarenraad (naar het voorbeeld van de Koninklijke Notariële Beroepsorganisatie en andere geregistreerde beroepen) en een ombudspersoon.

Zo komt de expertise van iedereen die bij het onderwijs betrokken is optimaal tot zijn recht en draagt bij aan verbetering van de kwaliteit ervan. Simpel testen, vergelijken en afrekenen leidt onherroepelijk tot rampen.

Dat is de boodschap die alle auteurs van ‘Het Alternatief’ in verschillende bewoordingen brengen: “In plaats van te kijken naar resultaten moeten we gaan sturen op vakmanschap en vertrouwen.”

__________________________________

Bronnen

Alphen S. van en Jaap Dronkers, 2011. Trouw schoolprestaties 2010, 1-19. http://www.schoolcijferlijst.nl/RESULTATEN 2010.htm

Wim van den Bosch, Maarten Boers en Cordula Wagner, 2013. Ziekenhuissterfte geografisch bepaald: Limburgers overlijden vaker in ziekenhuis dan Groningers. Medisch Contact, 68, nr. 13: 658-661.

Cito, 2013. ‘De onzin van rangordelijstjes op basis van de Citotoets’. Arnhem: Cito. http://www.cito.nl/~/media/cito_nl/Files/Over Cito/cito_pers_onzin_rangordelijstjes_op_basis_eindtoets_cito.ashx.

Richard Lilford & Peter Pronovost, 2010. Using hospital mortality rates to judge hospital performance: a bad idea that just won’t go away. British Medical Journal. BMJ 2010;340:c2016

C. Machiel Pleizier, Willem Geerlings, Daniël Pieter, Jelis Boiten, 2010. Patiëntenmix beïnvloedt HSMR. Medisch Contact 65, nr. 36: 1777-1779.

Dick van der Wateren, 2013. Zin en onzin van testen, vergelijken en afrekenen. In: René Kneyber en Jelmer Evers, red. Het Alternatief – Weg met de afrekencultuur in het onderwijs! Amsterdam. Uitg. Boom.

Dylan Wiliam, 2012. Are there “Good” schools and “Bad” schools? In: Adey P, Dillon J, eds. Bad Education – Debunking Myths in Education. Maidenhead, UK: Open University Press: 3–15.

0 0 votes
Article Rating
Abonneren
Abonneren op
guest

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

21 Reacties
nieuwste
oudste meest gestemd
Inline Feedbacks
View all comments

About Dick van der Wateren

Als blogger en onderwijsauteur denk ik na over onderwijs en pedagogiek. In 2016 verscheen bij Uitgeverij Ten Brink mijn boek 'Verwondering' waarin ik een lans breek voor onderwijs op basis van vragen die leerlingen zelf bedenken. In 2020 verscheen mijn boek De Denkende Klas bij LannooCampus met praktische aanwijzingen om met leerlingen dieper te denken. Als vo-docent heb ik talentvolle en begaafde leerlingen begeleid die meer uitdaging nodig hebben, en leerlingen gecoacht met diverse problemen - onderpresteren, perfectionisme, levensvragen. Na een lang leven in het onderwijs en de wetenschap ben ik in 2017 een filosofische praktijk begonnen, De Verwondering, in Amsterdam. Daar heb ik gesprekken met volwassenen zowel als jongeren over levensvragen, zingeving, werk, studie, relaties.

Category

onderwijs

Tags

, , , , , ,