Controlemaatregelen op de relatieve norm
De eerste controle betreft het vergelijken van de toets van een specifiek jaar met eerdere jaren door te kijken naar opgaven die de verbinding vormen tussen de ene en de andere toets, de zogenaamde ankeropgaven. Hiermee is het mogelijk de ene toets te vergelijken met eerdere toetsen of bijvoorbeeld een ideaaltypische normtoets, afgenomen bij een vergelijkbare populatie. Zo kan jaarlijks het zelfde beeld over de populatie van dat nieuwe jaar worden gemodelleerd als in eerdere jaren. En zo klopt het wat het ministerie zegt, namelijk dat prestaties van leerlingen altijd op dezelfde manier gewaardeerd worden. De prestaties hoeven dus niet hetzelfde te zijn om wel hetzelfde gewaardeerd te worden. Dit maakt het ook mogelijk dat sinds jaar en dag de percentages leerlingen die naar de ene of de andere vorm van voortgezet onderwijs gaan zo goed als stabiel zijn.
Opmerkelijk was dat in een jaar na schoolsluitingen als gevolg van corona de doorstroompercentages min of meer gelijk bleven. Het leek immers aannemelijk dat leerlingen minder goed zouden presteren dan in eerdere jaren. Daartoe heeft het CvTE in 2021 de cesuren aangepast aan de prestatie van de populatie van dat jaar; ook een relatieve normering dus.
Zie de tabel hieronder (bron: www.cito.nl).
De tweede maatregel is het doorstroomonderzoek, waarmee de voorspellende waarde wordt gecontroleerd. Als blijkt dat de toets niet goed voorspelt, kan de norm worden aangepast.
Deze werkwijze is aanvechtbaar: de uitslag van de toets beïnvloedt immers de ouders, de kinderen en de scholen. Bovendien is de overlap in “niveau” van de kinderen in de verschillende schooltypen veel groter dan de toets suggereert: uit onderzoek naar de prestaties van 15 -jarigen op het gebied van lezen en rekenen blijken de beste lezers in het vmbo beter te lezen dan de slechtste op het gymnasium en dat geldt ook voor rekenen.
Het lastige is dat we nooit zullen weten wat er met leerlingen zou zijn gebeurd als ze ergens anders zouden zijn geplaatst dan op basis van de uitkomst van de toets. Het controleren met doorstroomonderzoek is dus ook nog eens een incomplete manier van kijken en zeker geen onafhankelijke, absolute norm.
De eindtoets/doorstroomtoets als meetinstrument voor de referentieniveaus
Hoe werkt de toets om te bepalen of de leerlingen de referentieniveaus hebben behaald? Daarvoor gebruikt men de reken- en taalopgaven uit de toets. Uit de onderstaande tabel blijkt dat dezelfde taal- en rekenopgaven die worden gebruikt voor het bepalen van de eindscore ook worden gebruikt voor het bepalen van de referentieniveaus. De cesuren uit de tabel geven aan wanneer de toets 1F meet en wanneer er sprake is van 2F/1S. De cesuur is het minimale aantal opgaven dat de leerling goed moet hebben om het desbetreffende niveau te halen.
De validiteit van deze meting kan niet kloppen, omdat dezelfde opgaven worden gebruikt voor 1F en 1S/2F. Uitsluitend de hoeveelheid goede opgaven bepaalt welk referentieniveau is behaald. 1F gaat over andere vaardigheden dan 2F/1S, zoals iedereen kan zien in de doorlopende leerlijnen van SLO. Er zouden dus specifieke 1F-opgaven en 2F/1S opgaven moeten zijn. Kennelijk is hier de veronderstelling dat de hoeveelheid taal- en rekenpuzzeltjes die een leerling goed heeft op de een of andere manier iets zeggen over de referentieniveaus. Hoe dat verband gelegd kan worden is volstrekt onduidelijk. Zie voor de normering de tabel hieronder (bron: Terugblik centrale eindtoets 2023, CvTE 2023). Daaruit blijkt ook dat dezelfde opgaven worden gebruikt voor 1F en 2F/1S.
De normering van de schoolresultaten door de inspectie
De resultaten op de referentieniveaus die uit de eindtoets/doorstroomtoets worden gereconstrueerd, gebruikt de inspectie ook. Voor het berekenen van de referentieniveaus per school worden de referentieniveaus taal en rekenen gemiddeld. Deze “waarden” gebruikt de inspectie voor de beoordeling van de schoolprestaties op de standaard OR1. Resultaten (bron: Onderzoekskader 2021; voor het toezicht op de voorschoolse educatie en het primair onderwijs (versie per 1 augustus 2023), Inspectie van het onderwijs, 2023).
Wat hier gebeurt is echt onaanvaardbaar: ten eerste wordt gedaan of de referentieniveaus op de gemeten gebieden representatief zijn voor alle onderdelen van de referentieniveaus. Daar is geen enkele basis voor: het is heel goed mogelijk om het 2F-niveau te halen in spreken en luisteren, terwijl leesvaardigheid nog op 1F-niveau zit. Tel daarbij op dat er geen aparte 1F en 2F/1S-opgaven zijn en je weet dat de resultaten op de eindtoets helemaal niets zeggen over de referentieniveaus die de kinderen werkelijk halen.
Via de Regeling leerresultaten PO 2020 (Inspectie van het Onderwijs, 2020) gebruikt de inspectie deze “fake” data voor het normeren van de onderwijskwaliteit op het gebied van de leerresultaten. Daarbij worden de scores van kinderen op taal en rekenen gemiddeld. De gemiddelde referentieniveau-uitslagen (die dus niet op de referentieniveaus gebaseerd zijn) worden vervolgens genormeerd aan de hand van de schoolweging. De norm is dus afhankelijk van de schoolpopulatie. Zie de tabel hieronder die uit die regeling is overgenomen. Bij de inspectie is de veronderstelling dat de gemiddelde prestaties op de referentieniveaus zoals de eindtoets die meet, representatief zijn voor de referentieniveaus op alle taal- en rekenvaardigheden.
Conclusie
De bewering dat de eindtoets/doorstroomtoets als schoolprestatietest een betrouwbare absolute normering heeft lijkt me niet houdbaar. Hoe je het ook wendt of keert: de test levert een normaalverdeling op die vervolgens in stukjes wordt geknipt tot adviescategorieën. Deze werkwijze toont aan dat de stelling dat de toets een puzzelwedstrijd is waarin de getrainde kinderen winnen van de niet-getrainde inderdaad klopt. Immers: door de hogere prestaties van de getrainde kinderen wordt het beeld op de normopgaven mede bepaald. Daarmee zijn de niet-getrainde kansarmer.
Dat de eindtoets/doorstroomtoets daarbij als toets op het behalen van de referentieniveaus een betrouwbaar beeld geeft is ondenkbaar. Daarmee is de basis voor het meten van leerresultaten van scholen, zoals de inspectie dat nu doet, zeer twijfelachtig en onbetrouwbaar. Het is onbegrijpelijk dat een belangrijke normstandaard (die bepaalt of een school een onvoldoende krijgt en altijd meeweegt bij het oordeel zeer zwak) op zo’n twijfelachtige manier wordt gemeten. Dat kan echt niet!