Over de normering van de eindtoets/doorstroomtoets

De eindtoets/doorstroomtoets: toets en test

Er is discussie over hoe de eindtoets genormeerd wordt. Het gaat met name om de vraag of de normering absoluut is. Een absolute norm garandeert dat iedere leerling een gelijke kans heeft op een bepaald advies, volkomen los van prestaties van andere leerlingen.

Heel erg inzichtelijk is de normering van de toets echter niet. Dit heeft er onder andere mee te maken dat de toets voor twee (in principe onverenigbare) doelen wordt gebruikt. De eindtoets/doorstroomtoets is primair een test waarmee leerlingen vergeleken worden met elkaar én met leerlingen die in eerdere jaren de toets hebben gemaakt om vast te stellen of ze veel of weinig hebben van ‘iets’ dat belangrijk is voor het voortgezet onderwijs. Daar is later de functie van toets aan toegevoegd, om vast te stellen of de leerlingen de referentieniveaus taal en rekenen hebben behaald.

  • De eindtoets als prestatietest

    De eindtoets is in de zestiger jaren ontwikkeld als test om de leerprestaties van leerlingen in de toekomst te voorspellen. Het College voor Toetsen en Examens (CvTE) zegt over de eindtoets nog precies hetzelfde als de eerste maker van de eindtoets in 1966:

    ‘Het lijkt gerechtvaardigd te veronderstellen dat leerprestaties uit het verleden iets zeggen over leerprestaties in de toekomst. Verschillen in leerprestaties op de onderdelen van de Centrale Eindtoets kunnen vermoedelijk voor een belangrijk deel worden verklaard door verschillen in eigenschappen als ‘intelligentie’, ‘concentratie’, ‘motivatie’ en ‘doorzettingsvermogen’. Via de CE worden deze eigenschappen indirect en afgewogen gemeten; elke leerling heeft een ‘persoonlijke mix’. (CvTE, 2015).

    De normering van de eindtoets als selectietest

    Jaarlijks wordt de toets zo gemaakt en gecontroleerd dat leerlingen stabiel verdeeld kunnen worden over de verschillende adviescategorieën voor het voortgezet onderwijs. Die verdeling lijkt heel erg op de verdeling die gebruikt wordt bij de leerlingvolgsystemen. De toetsen van de Leerlingvolgsystemen ordenen leerlingen onderling ten opzichte van elkaar in groepen van een bepaald percentage (bijvoorbeeld in groepen van I t/m V waarbij iedere groep uit 20% bestaat).

    Kern is dat de populatie die de toets maakt de norm bepaalt, zoals uit de tekst hiernaast van het CvTE blijkt.

    Het gemiddelde van de scores zweeft altijd rond de 535. Volgens het CvTE wordt de stabiliteit van de toets bepaald aan de hand van twee controlemechanismen, waardoor het erop lijkt dat er een absolute norm wordt gehanteerd. Er zijn echter geen externe absolute criteria waaraan de prestaties van de leerlingen worden afgemeten, ook de controlemaatregelen blijven gerelateerd aan de prestaties van de populatie (zij het over meer jaren) en dus relatief.

  • Bron: CvTE

    Scholen kiezen in groep 8 zelf uit verschillende eindtoetsen van verschillende aanbieders. Als scholen kiezen voor de Centrale Eindtoets, kunnen ze kiezen voor digitale adaptieve toets, of voor een papieren toets.

    Voor een leerling mag het natuurlijk niet uitmaken welke toets gemaakt wordt. Of in welk jaar. Het moet hetzelfde toetsadvies opleveren. Daarom worden alle toetsen genormeerd om per toets vast te stellen welke scores aansluiten bij de verschillende brugklasniveaus.

    Hiervoor is, volgens de wet, het gezamenlijk anker ontwikkeld. Dit is een set opgaven afkomstig van de verschillende toetsaanbieders.

    Deze hele set opgaven komt in alle toetsen terug. Daarnaast wordt een deel van deze opgaven een aantal jaar achter elkaar afgenomen. Zo worden de toetsen met elkaar, en over de jaren heen met elkaar vergeleken, en worden prestaties van leerlingen altijd op dezelfde manier gewaardeerd.

    Om te normeren wordt ook toelatings- en doorstroomonderzoek gedaan. Hier worden leerlingen gevolgd vanaf de brugklas tot en met het derde jaar van het voortgezet onderwijs. Komen leerlingen terecht op het niveau dat de score van hun eindtoets adviseerde?

    Een voorbeeld. We zien dat leerlingen met een bepaalde toetsscore na drie jaar terecht komen op het vmbo, havo en vwo. Maar voornamelijk op de havo. Het best passende brugklasadvies voor deze toetsscore is dus havo.

    Op deze manier bekijken we alle toetsscores. En kunnen we leerlingen die nu in groep 8 zitten met nog meer zekerheid een passend toetsadvies geven.

    Uit dit onderzoek kan ook blijken dat een bepaald toetsadvies uit groep 8 voor de meest leerlingen niet meer overeenkomt met het niveau waar zij na drie jaar belanden.

    Dan worden de grenzen van dat toetsadvies opnieuw bekeken.

    Hiermee blijven we de stabiele overgang van primair naar voortgezet onderwijs ondersteunen.

Controlemaatregelen op de relatieve norm

De eerste controle betreft het vergelijken van de toets van een specifiek jaar met eerdere jaren door te kijken naar opgaven die de verbinding vormen tussen de ene en de andere toets, de zogenaamde ankeropgaven. Hiermee is het mogelijk de ene toets te vergelijken met eerdere toetsen of bijvoorbeeld een ideaaltypische normtoets, afgenomen bij een vergelijkbare populatie. Zo kan jaarlijks het zelfde beeld over de populatie van dat nieuwe jaar worden gemodelleerd als in eerdere jaren. En zo klopt het wat het ministerie zegt, namelijk dat prestaties van leerlingen altijd op dezelfde manier gewaardeerd worden. De prestaties hoeven dus niet hetzelfde te zijn om wel hetzelfde gewaardeerd te worden. Dit maakt het ook mogelijk dat sinds jaar en dag de percentages leerlingen die naar de ene of de andere vorm van voortgezet onderwijs gaan zo goed als stabiel zijn.

Opmerkelijk was dat in een jaar na schoolsluitingen als gevolg van corona de doorstroompercentages min of meer gelijk bleven. Het leek immers aannemelijk dat leerlingen minder goed zouden presteren dan in eerdere jaren. Daartoe heeft het CvTE in 2021 de cesuren aangepast aan de prestatie van de populatie van dat jaar; ook een relatieve normering dus.

Zie de tabel hieronder (bron: www.cito.nl).

De tweede maatregel is het doorstroomonderzoek, waarmee de voorspellende waarde wordt gecontroleerd. Als blijkt dat de toets niet goed voorspelt, kan de norm worden aangepast.

Deze werkwijze is aanvechtbaar: de uitslag van de toets beïnvloedt immers de ouders, de kinderen en de scholen. Bovendien is de overlap in “niveau” van de kinderen in de verschillende schooltypen veel groter dan de toets suggereert: uit onderzoek naar de prestaties van 15 -jarigen op het gebied van lezen en rekenen blijken de beste lezers in het vmbo beter te lezen dan de slechtste op het gymnasium en dat geldt ook voor rekenen.

Het lastige is dat we nooit zullen weten wat er met leerlingen zou zijn gebeurd als ze ergens anders zouden zijn geplaatst dan op basis van de uitkomst van de toets. Het controleren met doorstroomonderzoek is dus ook nog eens een incomplete manier van kijken en zeker geen onafhankelijke, absolute norm.

De eindtoets/doorstroomtoets als meetinstrument voor de referentieniveaus

Hoe werkt de toets om te bepalen of de leerlingen de referentieniveaus hebben behaald? Daarvoor gebruikt men de reken- en taalopgaven uit de toets. Uit de onderstaande tabel blijkt dat dezelfde taal- en rekenopgaven die worden gebruikt voor het bepalen van de eindscore ook worden gebruikt voor het bepalen van de referentieniveaus. De cesuren uit de tabel geven aan wanneer de toets 1F meet en wanneer er sprake is van 2F/1S. De cesuur is het minimale aantal opgaven dat de leerling goed moet hebben om het desbetreffende niveau te halen.

De validiteit van deze meting kan niet kloppen, omdat dezelfde opgaven worden gebruikt voor 1F en 1S/2F. Uitsluitend de hoeveelheid goede opgaven bepaalt welk referentieniveau is behaald. 1F gaat over andere vaardigheden dan 2F/1S, zoals iedereen kan zien in de doorlopende leerlijnen van SLO. Er zouden dus specifieke 1F-opgaven en 2F/1S opgaven moeten zijn. Kennelijk is hier de veronderstelling dat de hoeveelheid taal- en rekenpuzzeltjes die een leerling goed heeft op de een of andere manier iets zeggen over de referentieniveaus. Hoe dat verband gelegd kan worden is volstrekt onduidelijk. Zie voor de normering de tabel hieronder (bron: Terugblik centrale eindtoets 2023, CvTE 2023). Daaruit blijkt ook dat dezelfde opgaven worden gebruikt voor 1F en 2F/1S.

De normering van de schoolresultaten door de inspectie

De resultaten op de referentieniveaus die uit de eindtoets/doorstroomtoets worden gereconstrueerd, gebruikt de inspectie ook. Voor het berekenen van de referentieniveaus per school worden de referentieniveaus taal en rekenen gemiddeld. Deze “waarden” gebruikt de inspectie voor de beoordeling van de schoolprestaties op de standaard OR1. Resultaten (bron: Onderzoekskader 2021; voor het toezicht op de voorschoolse educatie en het primair onderwijs (versie per 1 augustus 2023), Inspectie van het onderwijs, 2023).

Wat hier gebeurt is echt onaanvaardbaar: ten eerste wordt gedaan of de referentieniveaus op de gemeten gebieden representatief zijn voor alle onderdelen van de referentieniveaus. Daar is geen enkele basis voor: het is heel goed mogelijk om het 2F-niveau te halen in spreken en luisteren, terwijl leesvaardigheid nog op 1F-niveau zit. Tel daarbij op dat er geen aparte 1F en 2F/1S-opgaven zijn en je weet dat de resultaten op de eindtoets helemaal niets zeggen over de referentieniveaus die de kinderen werkelijk halen.

Via de Regeling leerresultaten PO 2020 (Inspectie van het Onderwijs, 2020) gebruikt de inspectie deze “fake” data voor het normeren van de onderwijskwaliteit op het gebied van de leerresultaten. Daarbij worden de scores van kinderen op taal en rekenen gemiddeld. De gemiddelde referentieniveau-uitslagen (die dus niet op de referentieniveaus gebaseerd zijn) worden vervolgens genormeerd aan de hand van de schoolweging. De norm is dus afhankelijk van de schoolpopulatie. Zie de tabel hieronder die uit die regeling is overgenomen. Bij de inspectie is de veronderstelling dat de gemiddelde prestaties op de referentieniveaus zoals de eindtoets die meet, representatief zijn voor de referentieniveaus op alle taal- en rekenvaardigheden.

Conclusie

De bewering dat de eindtoets/doorstroomtoets als schoolprestatietest een betrouwbare absolute normering heeft lijkt me niet houdbaar. Hoe je het ook wendt of keert: de test levert een normaalverdeling op die vervolgens in stukjes wordt geknipt tot adviescategorieën. Deze werkwijze toont aan dat de stelling dat de toets een puzzelwedstrijd is waarin de getrainde kinderen winnen van de niet-getrainde inderdaad klopt. Immers: door de hogere prestaties van de getrainde kinderen wordt het beeld op de normopgaven mede bepaald. Daarmee zijn de niet-getrainde kansarmer.

Dat de eindtoets/doorstroomtoets daarbij als toets op het behalen van de referentieniveaus een betrouwbaar beeld geeft is ondenkbaar. Daarmee is de basis voor het meten van leerresultaten van scholen, zoals de inspectie dat nu doet, zeer twijfelachtig en onbetrouwbaar. Het is onbegrijpelijk dat een belangrijke normstandaard (die bepaalt of een school een onvoldoende krijgt en altijd meeweegt bij het oordeel zeer zwak) op zo’n twijfelachtige manier wordt gemeten. Dat kan echt niet!

Scroll to top