Karaktergabet i skriftlige prøver drives af prøvernes indhold

I forlængelse af et andet indlæg præsenterer jeg her resultaterne af en analyse af de enkelte testopgaver i skriftlige biologi og geografi eksamener stillet ved 9.klasses afgangsprøver fra 2010 til 2019. Analysen foretages fordi karaktergabet mellem drenge og pigers karaktersnit fra de nævnte prøver, systematisk har ændret sig til pigernes fordel over den nævnte tidsperiode. Udviklingen kan, jævnfør det forrige indlæg, ikke forklares som et produkt af ændringer i kulturen (sociale medier, diskrimination, maskulinitetsidealer etc.), ændringer i socioøkonomiske omstændigheder (f.eks. hvis de nyere generationer af elever kom fra dårligere kår), eller selektion (hvis den stigende andel invandrere og efterkommere blandt testtagerne havde en effekt). Tilbage står kun ændringer i prøverne og rammerne for prøverne som en mulig forklaring. I det følgende viser jeg at ændringer i prøvernes indhold er en plausibel forklaring.

Karaktergabets udvikling i de skriftlige prøver i geografi og biologi 2010 til 2019

Både skriftlig biologi og skriftlig geografi er kaotiske eksamensformer. Derfor varierer karaktersnittet meget fra år til år.

Som man kan se på diagrammet er karaktersnittene generelt kaotiske. Der er også mange ekstra faktorer som påvirker prøverne de enkelte år. F.eks. skyldes de høje snit i 2010 formodentlig et hackerangreb. Pigernes markante overhaling af drengene i corona-årene 2020-22, skyldes særregler for karaktergivning, som erstattede prøver med standpunkt. I begge fag ligger pigerne generelt over drengene i standpunkt.

Karaktergabet mellem drenge og piger varierer også meget. Derfor indkluderer jeg i de følgende diagrammer et “rolling average”, hvilket vil sige at der for hvert år er lavet et gennemsnit ud fra det givne år og de to foregående år. Dette laver en mere udjævnet kurve, så nogle generelle tendenser i udviklingen bliver mere synlige.

Som det fremgår af diagrammet er skriftlig geografi generelt en kaotisk prøve, som varierer meget fra år til år. Rolling average gør det muligt at se, trods kaoset, de generelle skift i plateau. Vi kan se et plateau-skifte fra 2012 til 2013, fra 2014 til 2015 og fra 2017. Givet de store udsving i den enkelte opgave, er det ganske muligt, at plateauerne ikke etableres de år, hvor det ligner at de etableres. Det er således muligt at der ikke var et plateau-skifte i 2013, men at der blot, tilfækdigvis var et stort udsving det år, og at mulighedsbetingelserne for et nyt plateau reelt set først faldt på plads året efter. Den usikkerhed må vi acceptere.

I skriftlig biologi er rolling average lidt misvisende. Var det ikke for den særegne situation i 2014, så ligner det et generelt, opadgående plateauskift allerede fra 2013 til 2016.

Vi kan se at udviklingen i karaktergabet i høj grad drives af udviklingen i karaktergabet blandt de højest scorene elever:

For geografi prøven er udviklingen i karaktergabet således drevet næsten udelukkende af flytning af drenge fra det højeste karakterinterval til det næsthøjeste:

Korrelation skriftlig geografi karaktergab for de enkelte karakterintervaller med det overordnede karaktergab for perioden 2010-2019
Under 2,00	-0,51
2,00-3,99	0,02
4,00-6,99	-0,41
7,00-9,99	-0,87885
10,00 og derover	0,81556

For biologi er fordelingen mere jævn, omend det stadig er de højestpræsterene elever der vejer:

Korrelation skriftlig biologi karaktergab for de enkelte karakterintervaller med det overordnede karaktergab for perioden 2010-2019
Under 2,00	-0,86
2,00-3,99	-0,35
4,00-6,99	-0,55
7,00-9,99	-0,297372
10,00 og derover	0,683137

For begge prøver gælder det at der generelt er flest elever i de højeste karakterintervaller:

Overordnet vil det sige, at eventuelle ændringer i de opgaver som prøverne er blevet sammensat af, først og fremmest påvirker de højestpræsterende elever. Eller, som en alternativ hypotese, at udviklingen kan forklares af et selektionspres, der påvirker andelen af højtpræsterende elever. Jeg har dog ikke fundet tegn på sådan en situation.

Den generelle stigning i karaktergabet til pigernes fordel er det jeg forsøger at forklare i det følgende.

Metode

I analysen har jeg kun beskæftiget mig med tidsperioden 2010 til 2019. Implementeringen af nye regler for prøver og karaktergivning under corona har ødelagt datagrundlaget efter 2019 (s78 https://eva.dk/Media/638348662378957749/Grundskolers%20erfaringer%20med%20n%C3%B8dundervisning%20under%20covid-19-pandemien.pdf, https://www.uvm.dk/aktuelt/nyheder/uvm/2023/sep/230919-grundskolekarakterer). Hertil kan jeg kun skaffe eksamenssæt tilbage til 2010, da det er der prøvebanken blev oprettet.

Som beskrevet i den forrige artikel giver fund gjort af PISA os en mulighed for at verificere, hvorvidt udviklingen i karaktergabet mellem drenge og piger i biologi og geografi følger udviklingen i typer af opgaver de enkelte eksamenssæt, de enkelte år.

PISAs science kompetencer er vage og overlappende og derfor også svære at applicere korrekt på de enkelte opgaver i skriftlig biologi og geografi. Undersøgelsen kan vise sig noget grovkornet. Jeg supplerer undersøgelsen ved også at registrere objektive kvaliteter ved de enkelte opgaver. Udover en vurdering af den enkelte opgave ud fra PISAs science kompetencer registrerer jeg:

Antallet af svarmuligheder i opgaven
Antallet af ord i opgaven
Antallet af billeder som har relevans for opgavens løsning (dvs. ikke bare stemningsbilleder, men billeder/grafikker/kort der skal kigges på for at besvare opgaven).
Antallet data-elementer (dvs. tabeller, grafer, diagrammer som skal anvendes for at løse opgaven).

Jeg forventer på forhånd, fordi det er en kendt sag at drenge klarer sig dårligere i læseopgaver, at der er en sammenhæng mellem det gennemsnitlige antal ord i det enkelte eksamenssæt og drengenes karaktersnit samme år. Den hypotese kan blive undermineret af det faktum at der generelt er meget lidt tekst i de skriftlige geografi og biologi eksamenssæt, hvorfor jeg ikke forventer en særlig stærk sammenhæng. Ligeledes kan jeg forestille mig en slags “kompleksitetsfaktor” som måles ved at sammenlægge antallet af svarmuligheder og antallet af ord i den enkelte opgave. Mængden af ord og svarmuligheder må tilsammen sige noget om opgavens sværhedsgrad. Ligeledes kan antallet af billeder og data-elementer, som skal forstås, spille ind i sådan en faktor. Det er ikke selvsagt at en sådan kompleksitetsfaktor eller sværhedsgrad generelt, vil korrellere med kønsforskelle af andre årsager end de kendte forskelle i læsning. I sig selv bør sværhedsgraden ikke korrellere med kønsforskelle, men man kan forestille sig en interaktion hvor de elementer af en opgave, som understøtter en kønsforskel til pigers fordel, forstærkes af opgavens generelle sværhedsgrad.

Registrering af PISAs science-kompetencer

Der er tre science-kompetencer der overordnet, som vist i et andet indlæg, defineres på følgende måde:

“Scientific literacy is the ability to engage with science-related issues, and with the ideas of science, as a reflective

citizen.

A scientifically literate person is willing to engage in reasoned discourse about science and technology, which

requires the competencies to:

• Explain phenomena scientifically – recognise, offer and evaluate explanations for a range of natural and technological phenomena.

• Evaluate and design scientific enquiry – describe and appraise scientific investigations and propose ways of addressing questions scientifically.

• Interpret data and evidence scientifically – analyse and evaluate data, claims and arguments in a variety of representations and draw appropriate scientific conclusions.”

(https://www.oecd.org/content/dam/oecd/en/publications/reports/2016/04/pisa-2015-assessment-and-analytical-framework_g1g66e6f/9789264255425-en.pdf S22)

Det er desværre ikke lovligt for mig at dele opgaver fra tidligere prøver. Jeg kan dog beskrive deres generelle form.

Der er mange spørgsmål på tværs af eksamenssættene i både biologi og geografi som har følgende form:

[kort introduktion til emnet]

[data element eller grafik som skal aflæses/forstås]

[Spørgsmål]

[Svarmuligheder]

Svarmulighederne varierer på følgende punkter:

Antallet af svarmuligheder.
Svar ved at sætte x-antal krydser ud fra en række udsagn.
Svarmuligheder sat op i en matrix, således at man f.eks. skal sætte kryds ud fra nogle begreber, så de kædes sammen med en række beskrivelser. Denne form kan også fremstilles som et billede, hvor eleven skal trække begreber ud i nogle felter eller lignende.
Svarmuligheder sat op som en parantes i en sætning, hvor man skal vælge det rigtige ord for at fuldende sætningen.

Det springende punkt med hensyn til PISAs science-kompetencer er følgende:

Eleven bedes forklare et fænomen, f.eks. hvad der sker i kroppen når de spiser sukker, eller hvilken rækkefølge fire billeder skal opstilles i, for bedst at vise udviklingen i en flod som eroderes. Dette er eksempler på “explaining phenomena scientifically”, som drenge har fordel i, ifølge PISA.
Eleven bedes vurdere, hvilke udsagn der hører til faglig viden om biologi eller geografi, eller ikke gør, eller som er udtryk for holdninger. Eller eleven bedes vurdere hvilken opstilling af fem eksperimenter der kan teste en given hypotese. Dette er eksempler på “evaluating and designing scientific enquiry”. En kompetence som piger klarer sig bedre i ifølge PISA.
Eleven bedes forholde sig til data og evaluere udsagn på baggrund af data i form af tabeller og diagrammer. Dette er eksempler på “interpreting data and evidence scientifically”. En kompetence hvor pigerne har en lille, grænsende til statistisk usignifikant fordel ifølge PISA.

I min registrering af opgaverne i de enkelte datasæt har jeg blot anvendt tallene fra 0-3 til at gøre forskel mellem kategorierne, således at en korrelation med karaktergabet det givne år kan testes. De tildelte værdier er således ikke justeret efter de point-mæssige forskelle, som PISA har rapporteret for de forskellige kategorier. Der er dog gjort forskel således at 1 gives til de opgaver som PISA har observeret er til drengenes fordel, 2 gives til de opgaver hvor drenge og piger står nogenlunde lige, og 3 gives til de opgaver som pigerne har fordel i. 0 gives til opgaver der falder udenfor kategori. Således vil et givent eksamenssæt ende ud med en gennemsnitlig score der, hvis den er relativt høj, betyder at eksamenssættet havde flere opgaver til pigernes fordel, end til drengenes. Registreringsmetoden tillader os således at observere de kønsforskelle i testopgaverne, som eksisterer, givet at opgavetyperne overlapper tilstrækkeligt med de opgavetyper som PISA bruger.

Overblik over registreringen af opgaver ud fra PISAs komptence-kategorier:

0 gives til opgaver der falder udenfor komptencerne, det er eksempelvis spørgsmål der kræver at man blot fremkalder fakta om et begreb og således ikke indebærer at forklare et fænomen. Med hensyn til geografiprøven er der mange opgaver der kræver at man kigger på kort, men mange af dem kræver ikke en egentlig evaluering af udsagn ud fra kortet, så meget som blot en tilkendegivelse af at have læst kortet korrekt. Derfor er disse opgaver ikke kategoriseret som eksempler på “interpreting data and evidence scientifically”.
1 gives til eksempler på “explaining phenomena scientifically”.
2 gives til eksempler på “interpreting data and evidence scientifically”.
3 gives til eksempler på “evaluating and designing scientific enquiry”.

Med hensyn til antallet af ord har jeg blot markeret opgaveformuleringen og bedt word tælle antallet af ord. Antallet af svarmuligheder, billeder og data-elementer har jeg selv talt og registreret. For sikkerheds skyld noterer jeg igen at der kun er blevet registreret billeder, grafikker og data-elementer som skal anvendes for at løse den givne opgave. Eksamenssættene har generelt mange billeder som siger noget om opgavens tema, men som ikke skal anvendes til at løse opgaven. De er ikke registreret.

Resultater

Laver man en regression på de variable som blev registreret på tværs af eksamenssæt i biologi fra 2010-2019 imod karaktergabets (afhængig variabel) udvikling i samme periode, får vi ganske pæne resultater:

Regressionsstatistik for skriftlig biologi
Multipel R	0,96073765
R-kvadreret	0,923016831
Justeret R-kvadreret	0,861430296
Standardfejl	0,056726506
Observationer	10

92% af variansen i udviklingen af karaktergabet i omtalte periode, lader sig forklare når vi anvender alle vores indsamlede variable. Modellen er signifikant ved 0,005, pænt under en klassisk alpha (0,05).

	Koefficienter	Standardfejl	t-stat	P-værdi
Skæring	-0,525609769	0,165753016	-3,171041961	0,024785933
Gen. Kompetence	0,435812643	0,098067322	4,444014919	0,006739678
Gen. Svarmuligheder	0,047868604	0,015540091	3,080329692	0,027459344
Gen. Antal ord pr. opgave	-0,005875039	0,002198923	-2,671780231	0,044253935
Gen. Data-elementer og billeder	-0,007605923	0,003673328	-2,070580699	0,093170814

(“Gen. Kompetence” er gennemsnittet af værdierne for vores version af PISAs komptencemål.)

Som man kan se er tre af variablene signifikante i regressionen. Dette forhold er sandsynligvis for godt til at være sandt. Kører man regressionen for geografi-opgaverne, får vi ikke samme resultater. Det bør i den sammenhæng huskes at vi jo kun har 10 observationer for hver eksamen, og derfor kan mange forhold spille ind, som, hvis vi havde adgang til observationer af hvordan eleverne klarede sig i hvert enkelt opgave, ville vise sig irrelevante.

Regressionsstatistik for skriftlig geografi
Multipel R	0,896318937
R-kvadreret	0,803387637
Justeret R-kvadreret	0,646097747
Standardfejl	0,096333294
Observationer	10

Modellen er ikke signifkant (p=0,051) Kigger vi på de enkelte variable er de heller ikke signifikante:

	Koefficienter	Standardfejl	t-stat	P-værdi
Skæring	-1,341918667	0,216887438	-6,187166376	0,001608334
Gen. Kompetence	0,295275189	0,450013701	0,656147108	0,5407191
Gen. Svarmuligheder	0,000130956	0,017879957	0,007324172	0,99443945
Gen. Antal ord pr. opgave	0,006039725	0,003818406	1,581739694	0,1745527
Antal data-elementer og billeder	0,001821618	0,008192937	0,222340089	0,832845823

Tager vi imidlertid og fokuserer på vores PISA kompetencemål, finder vi alligevel noget interessant:

Regressionsstatistik for skriftlig geografi
Multipel R	0,827098363
R-kvadreret	0,684091701
Justeret R-kvadreret	0,644603164
Standardfejl	0,096536495
Observationer	10

Vi mister noget forklaringskraft, men komptencemålet er signifikant:

	Koefficienter	Standardfejl	t-stat	P-værdi
Skæring	-1,247698335	0,1774807	-7,030050773	0,000109315
Gen. Komp	0,795298727	0,191077104	4,162187468	0,00315573

Det mest interessante er dog at hvis vi også laver regressionen kun for kompetencemålet i biologi, så får vi et lignende resultat:

Regressionsstatistik for skriftlig biologi
Multipel R	0,801676177
R-kvadreret	0,642684693
Justeret R-kvadreret	0,59802028
Standardfejl	0,096617092
Observationer	10

Forholdet er også signifikant:

	Koefficienter	Standardfejl	t-stat	P-værdi
Skæring	-0,676146789	0,152344001	-4,438289567	0,002172887
Gen. Komp	0,555045872	0,146322366	3,793308475	0,005286833

Af situationen kan udledes, at vi generelt ikke får meget ud af at kigge på antallet af svarmuligheder, antallet af ord og antallet af billeder og data-elementer til anvendelse i opgaverne. Registreringen af opgaverne ud fra PISAs kompetencemål præsterer imidlertid ens forklaringskraft på tværs af to forskellige eksamensfag. Således er udviklingen i opgaverne i eksamenssættene en plausibel forklaring på en del af udviklingen af karaktergabet i de to eksamener over tid. Hertil er det plausibelt at hvis man kunne lave en større og mere detaljeret undersøgelse, hvor man fik data fra besvarelserne af de enkelte opgaver, og indkluderede i registreringen af de enkelte opgaver ud fra PISAs komptencemål, de sværhedsgrader som PISA også sorterer efter, så ville vi se endnu større forklaringskraft.

(s39 i https://www.oecd.org/content/dam/oecd/en/publications/reports/2016/04/pisa-2015-assessment-and-analytical-framework_g1g66e6f/9789264255425-en.pdf).

På baggrund af denne grovkornede analyse, kan vi altså konkludere, at ja, der er noget at komme efter. Opgavetyperne forklarer en del af udviklingen i karaktergabet mellem drenge og piger.

Søg i denne blog

Uforskning