Docenten voeren de scores van hun kandidaten per vraag in via het programma Wolf. De scores van alle ingezonden kandidaten worden geanalyseerd. Een aantal psychometrische gegevens zijn daarbij van belang. De p-waarde is een maat voor de aan kandidaten toegekende scores per vraag. Bij een p-waarde van 100 hebben alle kandidaten de maximale score voor een vraag gekregen, bij een p-waarde van 0 heeft geen enkele kandidaat scorepunten gekregen. P-waarden onder de 20 of boven de 80 komen niet veel voor. De gemiddelde p-waarden van de examens aardrijkskunde is al jaren vrij constant tussen de p 54 en de p 62. In een examen hebben veel vragen een p-waarde tussen de 60 en de 80 en een kleiner aantal vragen heeft een lagere p-waarde. Dit zijn de wat moeilijkere vragen, die vaak ook erg onderscheidend zijn.
De aardrijkskunde-examens van 2016
Van elk examen maakt Cito een psychometrische analyse. Deze analyse geeft nuttige informatie over hoe de vragen uitpakken. Via de Quickscan die docenten invullen bij het invoeren van de resultaten komt daarnaast waardevolle informatie binnen van docenten. Hiermee kan een beeld opgesteld worden van de examens.
De scores die docenten invullen in het programma Wolf worden onder ander gebruikt om een toets- en itemanalyse te maken. De uitgebreide analyse is te zien op cito.nl. Belangrijke parameters om te bepalen hoe een bepaalde vraag door de kandidaten is gemaakt zijn de p-waarde en de Rit-waarde.
De Rit-waarde is een maat voor het onderscheidend vermogen van een vraag. Als de Rit-waarde hoog is, betekent dat, dat kandidaten die het hele examen goed maken die bewuste vraag ook goed maken. Hoe hoger de Rit-waarde hoe beter de vraag onderscheid maakt tussen kandidaten. Bij een breed vak als aardrijkskunde dat gevolgd wordt door kandidaten uit alle profielen is de Rit-waarde van de vragen doorgaans echter minder hoog dan bij een vak dat wat smaller afgebakend is en slechts in één of twee profielen is te volgen.
De gemiddelde Rit-waarde van de examens aardrijkskunde zit tussen de 25 en 30. Hoewel deze gegevens bruikbaar zijn om examenvragen te analyseren, moet altijd in acht genomen worden dat ze een weerspiegeling zijn van de populatie kandidaten. De Rit-waarden zijn bijvoorbeeld in het vwo tweede tijdvak examen hoger dan in het eerste tijdvak. Dit heeft te maken met de populatie die herkanst. Die populatie bestaat op het vwo grofweg uit twee groepen: kandidaten die in eerste instantie niet geslaagd waren en kandidaten die een cijferverbetering willen bewerkstelligen (bijvoorbeeld in verband met een inlootstudie). Bij een populatie die zo is samengesteld wordt het onderscheidend vermogen van individuele vragen bijna automatisch hoger.
Resultaten havo
De gemiddelde score van kandidaten op het examen havo was een 6,2. 23% van de kandidaten haalde een onvoldoende.
Het merendeel van de docenten die de enquête in Wolf (de quickscan) invulden vond de moeilijkheidsgraad van het examen goed. Een behoorlijk deel vond het een moeilijk examen. De gemiddelde p-waarde van het examen (57,4) bleek vrijwel gelijk aan dat van het examen van een jaar eerder (57,7). De geënquêteerden vonden de inhoudelijke aansluiting op het onderwijs voldoende tot goed. Zij gaven het examen een 6,7.
De eerste vragen uit het examen bleken wat aan de makkelijke kant, maar waren wel onderscheidend. Zeven vragen waren moeilijk (p-waarde tussen 27 en 40), maar ook deze vragen waren wel onderscheidend (Rit-waarden tussen 29 en 35). De kandidaten die het hele examen goed maakten, maakten deze vragen dus relatief vaak goed. De betreffende vragen hadden wij vooraf ook ingeschat als de wat moeilijkere vragen. Op geen enkele vraag gingen kandidaten massaal de mist in. Van alle vragen was er slechts één die weinig onderscheidend was. Dit betrof een drie keuzevraag, waarbij de gokkans het onderscheidend vermogen omlaag haalde.
De landelijke bespreking georganiseerd door het KNAG gaf een aantal nuttige adviezen voor de correctie. Dit betrof vragen waar wat ruimte in de beantwoording was. De uitkomst van de bespreking gaf naar ons idee een goede indicatie voor de bandbreedte van die ruimte.
Resultaten vwo
De gemiddelde score van kandidaten op het examen vwo was een 6,3. 16% van de kandidaten haalde een onvoldoende.
De docenten die de enquête bij Wolf (de quickscan) invulden vonden het examen van de goede moeilijkheidsgraad tot aan de moeilijke kant. Het verschil met het havo-examen is in dit opzicht opvallend. De gemiddelde p-waarde van het hele vwo-examen (60,2) is hoger dan dat van het havo-examen. Deze p-waarde is ook iets hoger dan die van voorgaande jaren. De inhoudelijke aansluiting op het onderwijs werd als voldoende tot goed bestempeld. Gemiddeld gaven de docenten een 6,37 voor het examen.
Het vwo-examen bevatte weinig vragen die echt moeilijk bleken. Slechts acht vragen hadden een p-waarde lager dan 50. Dat is weinig. De laatste vraag bleek met p 33 de moeilijkste vraag van het examen. Verder valt op dat veel van de vwo-vragen goed onderscheid maakten. Psychometrisch gezien zijn alle vragen redelijk tot goed gelukt.
De landelijke bespreking gaf bij een aantal vragen goed aan welke alternatieve antwoorden wel en niet goed gerekend zouden kunnen worden. Bij de laatste vraag werd vanuit de examenbespreking aan het CvTE gevraagd om alle kandidaten de maximale score toe te kennen. Dit gebeurt echter alleen als het CvTE constateert dat de vraag onjuist is en dat was niet het geval. Met het toekennen van de maximale score voor alle kandidaten wordt terughoudend omgegaan. Het betekent namelijk niet dat de kandidaten bonuspunten krijgen, maar dat de scoreschaal korter wordt. Het belang van de score op de andere vragen wordt dan groter. Dit kan ook ongunstig uitpakken voor kandidaten.
Resultaten-vmbo
Het examen Vmbo-GT werd iets moeilijker gevonden dan in 2015. De resultaten waren wel naar behoren: het gemiddelde cijfer was 6,3 (2015: 6,2) en het percentage onvoldoende kwam uit op 18,6 (2015: 17,9).
De docenten die de enquête invulden bij Wolf (de quickscan) gaven het examen een gemiddelde waardering van 5,66. In 2015 was dat 6,53.
In de analyses die Cito heeft gemaakt is de huidige populatie kandidaten vergeleken met die van vorige jaren. Ook de vaardigheid van kandidaten over de jaren heen wordt onderzocht. Kandidaten mogen nooit de dupe zijn van een te moeilijk (of een te gemakkelijk) examen. Daarom wordt gestreefd naar een gelijkwaardige prestatie-eis over de jaren heen. Omdat het VMBO-GT examen aardrijkskunde relatief nieuw is, is er gekeken of er niet op meer scholen dan in het verleden erg veel kandidaten (40% of meer) een onvoldoende scoorden. Hiervan bleek geen sprake te zijn.
Al die statistische resultaten hebben uiteindelijk geleid tot een door CvTE vastgestelde N-term van 1,3 (2015: 0,8). Overwegingen die meegenomen zijn bijvoorbeeld: het verschil met het percentage onvoldoendes ten opzichte van 2015 en de jaren daarvoor, de relatief moeilijke overlapvragen met KB (die overigens door KB-leerlingen relatief goed gemaakt werden), feedback vanuit het KNAG, examencorrectoren en leerlingen. De vaardigheidsverbetering van leerlingen (ten opzichte van 2011) heeft gezorgd voor een positieve bijstelling van de N-term. Dat is ook logisch, want bij een gelijke prestatie-eis moet een betere prestatie ook beloond worden. Bij deze N-term kwam het percentage onvoldoende uit op 18,6 (2015: 17,9%) en het gemiddelde cijfer was 6,3 (2015: 6,2).
Omdat het examenprogramma relatief erg nieuw is, is het goed om te kijken hoe kandidaten op de verschillende onderdelen in het examen scoren.
De vragen die betrekking hebben op alleen het verrijkingsdeel (casus), scoren iets lager dan de gemiddelde P-waarde. De casusstof is ook niet moeilijker dan de overige leerstof. Omdat de casusleerstof erg concreet is, kunnen leerlingen zich goed voorbereiden. In 2015 scoorde de casusleerstof bovengemiddeld. De overlapvragen met KB scoren iets lager dan de GLTL-vragen zonder verrijking en dat was niet beoogd. De overlapvragen waren vaak reproductief.
Naar aanleiding van een vraag over vraag 2 en vraag 28 GLTL is er een aanvulling op het correctievoorschrift uitgegaan. Bij vraag 28 heeft iedere leerling het scorepunt toegewezen gekregen.
Vragen waarover opmerkingen waren gemaakt via het examenloket zijn in de toets-en itemanalyse extra goed bekeken. Op een aantal van deze vragen scoorden leerlingen inderdaad matig, maar vaak was het wel zo dat juist die vragen heel goed discrimineerden goed. Bij de vaststelling van de N-term is dit meegenomen.
Er waren vragen over de puntentoekenning. Deze was in 2016 niet anders dan in andere jaren. Het uitgangspunt is om bij open vragen waarbij de leerlingen zelf de antwoorden moeten bedenken en formuleren voor elk juist antwoordelement een scorepunt toe te kennen. Dat is gebeurd bij vraag 12 en vraag 22. Van deze richtlijn kan worden afgeweken als de gewenste antwoorden gemakkelijk zijn af te leiden uit een bron, erg in elkaars verlengde liggen of kunnen worden afgelezen. Dat is het geval bij vraag 16 en bij vraag 1.
Bij vraag 11 en 20 gaat het om een keuze gevolgd door een argumentatie voor die keuze. Als er bij de eerste deelvraag een keuze uit twee mogelijkheden is, wordt er geen punt gegeven voor het afzonderlijke antwoord omdat de gokkans dan te groot is (50%). Het punt wordt dan alleen toegekend bij een combinatie van de juiste keuze en de juiste bijbehorende argumentatie. Dat is het geval bij vraag 11. Bij vraag 20 heeft de leerling bij de eerste deelvraag keuze uit meer dan twee alternatieven. Daarom wordt daar wel een scorepunt toegekend voor een juiste keuze en ook een punt voor de juiste argumentatie.
Er waren een paar klachten over onduidelijkheid van bronnen (bijvoorbeeld het verschil tussen land en zee). Docenten geven aan dat foto’s van landschappen in zwart-wit slecht te duiden zijn voor leerlingen. Hetzelfde geldt voor kaarten en grafieken. De roep om kleur wordt elk jaar luider en is opnieuw bij het College voor Toetsen en Examens neergelegd. In het proces van examenconstructie haalt een toenemend aantal vragen het examen niet omdat de bron in zwart-wit onvoldoende duidelijk is.
Naast klachten en vragen kwamen er ook complimenten mee via het examenloket. Meerdere vragenstellers gaven aan dat het examen gevarieerd en relevant was en dat het correctiemodel voldoende houvast bood. Het blijft een speerpunt om het correctiemodel zo eenduidig mogelijk te maken met als achterliggend doel om tot een hoge beoordelaarsovereenkomst te komen.
In de evaluatie van het examen met de docenten uit de constructiegroepen zijn alle opmerkingen doorgenomen. Zo is de suggestie om het aantal keuzemogelijkheden altijd te vermelden (zie vraag 13) overgenomen. De constructiegroepleden en de toetsdeskundigen van Cito nemen vragen en opmerkingen over het examen erg serieus. We vinden het belangrijk dat leerlingen een eerlijke meetlat voorgelegd krijgen en willen graag dat het examenprogramma en het examen gedragen worden door het aardrijkskundeonderwijsveld.