Toetstechniek voor docenten (5): Gemiddelde, moeilijkheid en Discriminatie bepalen.

Door Paul Ket

Toetsen en docenten horen bij elkaar als Brussel en Manneke Pis. Niet zonder discussie, maar het is, hoe er ook tegenaan gekeken wordt, een essentieel onderdeel van het werk van een docent om een oordeel over het leren van een leerling uit te spreken. En wanneer je dat doet, al dan niet met tegenzin, is het zaak om dat volgens de regelen der kunst te doen. Over de voorbereiding van toetsen zijn bibliotheken volgeschreven, over het nawerk weinig. Deel vijf over een eerste statistische analyse van de toets.

Vooraf

Het is voor elke statistische analyse van belang dat de vragen en de punten, te verkrijgen en toegekend, in de computer terecht komen. Excel is hiervoor de eerste keuze. Hoewel de beschreven methodieken uit 1962 komen, ver voor de brede beschikbaarheid van de computer.

Gemiddelde

Elke docent rekent als eerste het gemiddelde van de behaalde cijfers uit. Dat kan ook met de toegekende punten. Voor de betekenis van de uitkomst maakt het niet uit, voor de vergelijkbaarheid wel. Omzetten naar schoolcijfers maakt gemiddeldes onderling vergelijkbaar. Het (rekenkundig) gemiddelde is een centrummaat, het geeft een samenvatting van de punten per leerling door het middelen. Andere centrummaten zoals de modus en de mediaan worden in het onderwijs nauwelijks gebruikt voor het rapporteren over behaalde punten.

Moeilijkheid

De moeilijkheid van een (deel-)opgave kan worden berekend door het percentage toegekende punten voor die opgave te bepalen (Ebel, 1972). Bij een incidentele afname van de toets geeft de moeilijkheid alleen informatie over hoe deze leerlingen deze opgave gemaakt hebben en als moeilijk of niet hebben ervaren. De oorzaak van het al dan niet moeilijk ervaren, dient verder onderzocht te worden.

Wanneer de moeilijkheid handmatig berekend wordt, kan, aldus Ebel, volstaan worden met het berekenen van het percentage toegekende punten van de onderste en bovenste 27% procent van de behaalde scores. Wanneer de behaalde punten per opgave in Excel staan, kunnen alle uitkomsten hierbij betrokken worden.

Ebel geeft geen norm voor wat een ideale moeilijkheid zou moeten zijn. De na te streven waarde hangt af van het doel van de betreffende opgave. Zo is in een proefwerk de eerste opgave meestal een relatief eenvoudige binnenkomer. Daar wil je dus een hoog percentage. De opgave bedoeld om de slimme leerlingen nog even uit te dagen, zou een laag percentage moeten hebben.

Bij meerkeuze-opgaven heet de moeilijkheid de p-waarde.

Voorbeeld:

Voor een open vraag kunnen 7 punten behaald worden. De (kleine) groep leerlingen die deze op gave maakt behalen: 3, 5, 2, 6, 5, 7, 3, 1, 6, 0, 6, en 5 punten. Bij elkaar 49 punten. Het gemiddelde is 4 punten. Het maximaal te behalen aantal punten is 12 x 7 = 84 punten. Dan zijn 58% van de punten toegekend.

Discriminatie-index (D)

Opgaven in een proefwerk hebben tot doel onderscheid te maken tussen leerlingen die de opgave wel en niet kunnen maken. Dit is cruciale informatie voor de docent. Het percentage punten dat de sterke leerlingen meer behalen dan de zwakke leerlingen, geeft het discriminerend vermogen van de opgave aan (Ebel, 1972). Ebel geeft het volgende stappenplan:

  1. Sorteer de leerlingen op de toetsscore van laag naar hoog.
  2. Selecteer de leerlingen met de 27% laagste scores en de 27% hoogste scores.
  3. Bepaal voor deze deelgroepen per opgave de som van aantal punten dat behaald is.
  4. Bepaal het verschil tussen de somscores.
  5. Deel het verschil door het aantal punten dat deze twee deelgroepen had kunnen behalen om de Discriminatie-index te verkrijgen.

Voorbeeld

Behaalde punten: 3, 5, 2, 6, 5, 7, 3, 1, 6, 0, 6, 5
Gesorteerd: 0, 1, 2, 3, 3, 5, 5, 5, 6, 6, 6, 7
Onderste 27%: 0, 1, 2. Som = 3.
Bovenste 27%: 6, 6, 7. Som = 19.
Verschil: 19 – 3 = 16.
Maximaal te behalen door 6 leerlingen: 6 x 7 = 42.
Discriminatie-index = 16 / 42 = 0,38.

Wanneer uitgegaan wordt van alle leerlingen, komt de Discriminatie-index lager uit. Voor de zoals hierboven berekende waarden voor D geeft Ebel de volgende indeling:

0,4 en hoger: Zeer goede items
0,3 t/m 0,39: Redelijk goede items, wellicht zijn verbeteringen mogelijk.
0,2 t/m 0,29: Marginale items, aanpassing hiervan is noodzakelijk.
Onder de 0,19: Slechte items, dienen verwijderd of verbeterd te worden.

D is, aldus Ebel, wel afhankelijk van de leerlingengroep. Alleen bij grote aantallen neemt de invloed van de groep af.

Gebruik

Hiervoor zijn drie maten besproken. De eerste, het gemiddelde, is een centrummaat voor de gehele toets. Alleen wanneer deze opvallend afwijkt van de 6, zal er verder gekeken worden naar of de leerlingen of de toets.

De twee andere maten geven informatie over de opgaven binnen de toets. De eerste, de moeilijkheid, geeft aan in hoeverre leerlingen in staat gebleken zijn om punten te behalen voor die opgave. Opgaven vervullen binnen een toets een verschillende rol, dus hoewel we voor gewone opgaven een moeilijkheid rond de 50% zouden willen hebben, zijn er zeker redenen te noemen om hier van af te wijken.

De tweede, de Discriminatie-index D, laat zien in hoeverre een opgave onderscheid maakt tussen sterke en zwakke leerlingen.

Deze drie getallen dienen weloverwogen en in samenhang bekeken te worden. Ook de marges die Ebel geeft voor de D, zijn indicatief aangezien toeval zeker invloed heeft op de D.

Bibliografie

Ebel, R. L. (1972). Essentials of Educational Measurement (2 ed.). Englewood Cliffs, NJ.: Prentice-Hall Inc.

About Paul Ket

Locatieleider Wellantcollege Amersfoort. Hiervoor docent wiskunde en onderwijskundige met specialisatie testen en toetsen.

4 Reacties to “Toetstechniek voor docenten (5): Gemiddelde, moeilijkheid en Discriminatie bepalen.”

  1. De eerste vier delen heb ik gemist, maar ik ga er van uit dat die gingen over wat een docent vooraf kan doen om ervoor te zorgen dat hij/zij een valide en betrouwbare toets gaat afnemen. Achteraf meten heeft meer zin als je de kwaliteit vooraf zo goed mogelijk gewaarborgd hebt.
    Toch heb ik er een hard hoofd in dat docenten in het vo dit soort kwaliteitszorg inbouwen als het om toetsen gaat: het kost veel tijd, er worden veel toetsen afgenomen en tijd is iets waarover docenten niet bepaald in ruime mate beschikken. Ik denk dus niet dat er veel docenten zijn die hun toets systematisch afstemmen op hun leerdoelen (toetsmatrijs) of hun toetsvragen vooraf voorleggen aan bijvoorbeeld een collega.
    Maar ik denk dat de kans dat ze met de hand Ebel op hun toetsvragen gaan loslaten nog veel kleiner is: dat is domweg te veel werk en kost dus veel te veel tijd, iets waarover …. enfin, dat had ik al gezegd :) Als je dan toch graag zou willen dat kwaliteitszorg aan de ‘achterkant’ van de toets meer gemeengoed wordt, zou het m.i. efficiënter zijn het gebruik van SPSS binnen scholen te propageren. Het berekenen van de betrouwbaarheid van de toets en de discriminatiewaarden van de items is tegenwoordig een fluitje van een cent. Invoeren in SPSS is niet moeilijker dan invoeren in Excel en als een school aangesloten is bij Surf, koste aanschaf van het pakket bijna niets.

    Like

  2. Ik schrijf juist dat ik het over het voortraject niet heb. Dat is elders uitgebreid beschreven.
    Of het veel werk is, is een kwestie van smaak. Ik vind het niet veel werk omdat ik bij proefwerken de punten altijd al in Excel zette. Het is meer werk dan de puntjes op het blaadje schrijven en optellen. Dat klopt. Maar een professional zal de kwaliteit van zijn werk altijd willen kunnen toelichten. En dat kan met de blaadjes-methode niet. Dus er zal een stapje meer gezet moeten worden. Dan is dit een eenvoudige. Als teamleider in het onderwijs weet ik dat dit soort dingen niet vanzelf gaan.

    Excel teveel werk vinden en dan SPSS aanbevelen vind ik merkwaardig. SPSS vergt nogal wat studie. Daarnaast zit het niet in de SLIM/Surfnet licentie voor het voortgezet onderwijs. Die verschilt nl. per sector van het onderwijs. Het free-ware (gratis!) alternatief PSPP is een 100% kloon van SPSS, maar kent hetzelfde nadeel, nl. veel studie.

    Like

  3. Als docenten de kwaliteit van hun toetsen willen verbeteren is dat zonder meer toe te juichen. Toen ik me nog intensief met toetsen bezighield werd ik doorgaans niet erg vrolijk van de kwaliteit ervan, zeker ook in andere sectoren dan het vo. Ik denk alleen dat de drempels hiervoor zo laag mogelijk zouden moeten zijn.
    SPSS vergt veel studie als je het pakket ‘in z’n volheid’ wil gebruiken. Je zou echter best een eenvoudig stappenplan kunnen maken voor het bepalen van alpha, inclusief de rit’s, Ik begreep uit jouw beschrijving dat er na invoer in Excel per item nog een aantal stappen gezet moeten worden, of is daar een methode voor binnen Excel die niet met de hand hoeft?
    PSSP kende ik niet, goede tip :)

    Like

  4. Interessante reeks blogberichten, ik kan alleen deel 4 niet vinden!

    Like

Geef een reactie of deel je eigen ervaringen. Graag met je eigen naam ondertekenen, geen pseudoniemen. Anonieme reacties worden verwijderd.

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

Volg

Ontvang elk nieuw bericht direct in je inbox.

Doe mee met 2.380 andere volgers

%d bloggers op de volgende wijze: