Karaktergabet i skriftlige prøver drives af prøvernes indhold

I forlængelse af et andet indlæg præsenterer jeg her resultaterne af en analyse af de enkelte testopgaver i skriftlige biologi og geografi eksamener stillet ved 9.klasses afgangsprøver fra 2010 til 2019. Analysen foretages fordi karaktergabet mellem drenge og pigers karaktersnit fra de nævnte prøver, systematisk har ændret sig til pigernes fordel over den nævnte tidsperiode. Udviklingen kan, jævnfør det forrige indlæg, ikke forklares som et produkt af ændringer i kulturen (sociale medier, diskrimination, maskulinitetsidealer etc.), ændringer i socioøkonomiske omstændigheder (f.eks. hvis de nyere generationer af elever kom fra dårligere kår), eller selektion (hvis den stigende andel invandrere og efterkommere blandt testtagerne havde en effekt). Tilbage står kun ændringer i prøverne og rammerne for prøverne som en mulig forklaring. I det følgende viser jeg at ændringer i prøvernes indhold er en plausibel forklaring. 

Karaktergabets udvikling i de skriftlige prøver i geografi og biologi 2010 til 2019

Både skriftlig biologi og skriftlig geografi er kaotiske eksamensformer. Derfor varierer karaktersnittet meget fra år til år. 

Som man kan se på diagrammet er karaktersnittene generelt kaotiske. Der er også mange ekstra faktorer som påvirker prøverne de enkelte år. F.eks. skyldes de høje snit i 2010 formodentlig et hackerangreb. Pigernes markante overhaling af drengene i corona-årene 2020-22, skyldes særregler for karaktergivning, som erstattede prøver med standpunkt. I begge fag ligger pigerne generelt over drengene i standpunkt. 


Karaktergabet mellem drenge og piger varierer også meget. Derfor indkluderer jeg i de følgende diagrammer et “rolling average”, hvilket vil sige at der for hvert år er lavet et gennemsnit ud fra det givne år og de to foregående år. Dette laver en mere udjævnet kurve, så nogle generelle tendenser i udviklingen bliver mere synlige. 

Som det fremgår af diagrammet er skriftlig geografi generelt en kaotisk prøve, som varierer meget fra år til år. Rolling average gør det muligt at se, trods kaoset, de generelle skift i plateau. Vi kan se et plateau-skifte fra 2012 til 2013, fra 2014 til 2015 og fra 2017. Givet de store udsving i den enkelte opgave, er det ganske muligt, at plateauerne ikke etableres de år, hvor det ligner at de etableres. Det er således muligt at der ikke var et plateau-skifte i 2013, men at der blot, tilfækdigvis var et stort udsving det år, og at mulighedsbetingelserne for et nyt plateau reelt set først faldt på plads året efter. Den usikkerhed må vi acceptere. 


I skriftlig biologi er rolling average lidt misvisende. Var det ikke for den særegne situation i 2014, så ligner det et generelt, opadgående plateauskift allerede fra 2013 til 2016.


Vi kan se at udviklingen i karaktergabet i høj grad drives af udviklingen i karaktergabet blandt de højest scorene elever:

For geografi prøven er udviklingen i karaktergabet således drevet næsten udelukkende af flytning af drenge fra det højeste karakterinterval til det næsthøjeste:


Korrelation skriftlig geografi karaktergab for de enkelte karakterintervaller med det overordnede karaktergab for perioden 2010-2019

Under 2,00

-0,51

2,00-3,99

0,02

4,00-6,99

-0,41

7,00-9,99

-0,87885

10,00 og derover

0,81556


For biologi er fordelingen mere jævn, omend det stadig er de højestpræsterene elever der vejer:


Korrelation skriftlig biologi karaktergab for de enkelte karakterintervaller med det overordnede karaktergab for perioden 2010-2019

Under 2,00

-0,86

2,00-3,99

-0,35

4,00-6,99

-0,55

7,00-9,99

-0,297372

10,00 og derover

0,683137


For begge prøver gælder det at der generelt er flest elever i de højeste karakterintervaller:


Overordnet vil det sige, at eventuelle ændringer i de opgaver som prøverne er blevet sammensat af, først og fremmest påvirker de højestpræsterende elever. Eller, som en alternativ hypotese, at udviklingen kan forklares af et selektionspres, der påvirker andelen af højtpræsterende elever. Jeg har dog ikke fundet tegn på sådan en situation.


Den generelle stigning i karaktergabet til pigernes fordel er det jeg forsøger at forklare i det følgende.

Metode

I analysen har jeg kun beskæftiget mig med tidsperioden 2010 til 2019. Implementeringen af nye regler for prøver og karaktergivning under corona har ødelagt datagrundlaget efter 2019 (s78 https://eva.dk/Media/638348662378957749/Grundskolers%20erfaringer%20med%20n%C3%B8dundervisning%20under%20covid-19-pandemien.pdf, https://www.uvm.dk/aktuelt/nyheder/uvm/2023/sep/230919-grundskolekarakterer). Hertil kan jeg kun skaffe eksamenssæt tilbage til 2010, da det er der prøvebanken blev oprettet.


Som beskrevet i den forrige artikel giver fund gjort af PISA os en mulighed for at verificere, hvorvidt udviklingen i karaktergabet mellem drenge og piger i biologi og geografi følger udviklingen i typer af opgaver de enkelte eksamenssæt, de enkelte år. 


PISAs science kompetencer er vage og overlappende og derfor også svære at applicere korrekt på de enkelte opgaver i skriftlig biologi og geografi. Undersøgelsen kan vise sig noget grovkornet. Jeg supplerer undersøgelsen ved også at registrere objektive kvaliteter ved de enkelte opgaver. Udover en vurdering af den enkelte opgave ud fra PISAs science kompetencer registrerer jeg:

  • Antallet af svarmuligheder i opgaven

  • Antallet af ord i opgaven

  • Antallet af billeder som har relevans for opgavens løsning (dvs. ikke bare stemningsbilleder, men billeder/grafikker/kort der skal kigges på for at besvare opgaven).

  • Antallet data-elementer (dvs. tabeller, grafer, diagrammer som skal anvendes for at løse opgaven).


Jeg forventer på forhånd, fordi det er en kendt sag at drenge klarer sig dårligere i læseopgaver, at der er en sammenhæng mellem det gennemsnitlige antal ord i det enkelte eksamenssæt og drengenes karaktersnit samme år. Den hypotese kan blive undermineret af det faktum at der generelt er meget lidt tekst i de skriftlige geografi og biologi eksamenssæt, hvorfor jeg ikke forventer en særlig stærk sammenhæng. Ligeledes kan jeg forestille mig en slags “kompleksitetsfaktor” som måles ved at sammenlægge antallet af svarmuligheder og antallet af ord i den enkelte opgave. Mængden af ord og svarmuligheder må tilsammen sige noget om opgavens sværhedsgrad. Ligeledes kan antallet af billeder og data-elementer, som skal forstås, spille ind i sådan en faktor. Det er ikke selvsagt at en sådan kompleksitetsfaktor eller sværhedsgrad generelt, vil korrellere med kønsforskelle af andre årsager end de kendte forskelle i læsning. I sig selv bør sværhedsgraden ikke korrellere med kønsforskelle, men man kan forestille sig en interaktion hvor de elementer af en opgave, som understøtter en kønsforskel til pigers fordel, forstærkes af opgavens generelle sværhedsgrad. 

Registrering af PISAs science-kompetencer

Der er tre science-kompetencer der overordnet, som vist i et andet indlæg, defineres på følgende måde:

“Scientific literacy is the ability to engage with science-related issues, and with the ideas of science, as a reflective 

citizen.

A scientifically literate person is willing to engage in reasoned discourse about science and technology, which 

requires the competencies to:


• Explain phenomena scientifically – recognise, offer and evaluate explanations for a range of natural and technological phenomena.


• Evaluate and design scientific enquiry – describe and appraise scientific investigations and propose ways of addressing questions scientifically.


• Interpret data and evidence scientifically – analyse and evaluate data, claims and arguments in a variety of representations and draw appropriate scientific conclusions.”

(https://www.oecd.org/content/dam/oecd/en/publications/reports/2016/04/pisa-2015-assessment-and-analytical-framework_g1g66e6f/9789264255425-en.pdf S22)


Det er desværre ikke lovligt for mig at dele opgaver fra tidligere prøver. Jeg kan dog beskrive deres generelle form. 

Der er mange spørgsmål på tværs af eksamenssættene i både biologi og geografi som har følgende form:


[kort introduktion til emnet]

[data element eller grafik som skal aflæses/forstås]

[Spørgsmål]

[Svarmuligheder]


Svarmulighederne varierer på følgende punkter:

  • Antallet af svarmuligheder.

  • Svar ved at sætte x-antal krydser ud fra en række udsagn.

  • Svarmuligheder sat op i en matrix, således at man f.eks. skal sætte kryds ud fra nogle begreber, så de kædes sammen med en række beskrivelser. Denne form kan også fremstilles som et billede, hvor eleven skal trække begreber ud i nogle felter eller lignende.

  • Svarmuligheder sat op som en parantes i en sætning, hvor man skal vælge det rigtige ord for at fuldende sætningen. 


Det springende punkt med hensyn til PISAs science-kompetencer er følgende:

  • Eleven bedes forklare et fænomen, f.eks. hvad der sker i kroppen når de spiser sukker, eller hvilken rækkefølge fire billeder skal opstilles i, for bedst at vise udviklingen i en flod som eroderes. Dette er eksempler på “explaining phenomena scientifically”, som drenge har fordel i, ifølge PISA.

  • Eleven bedes vurdere, hvilke udsagn der hører til faglig viden om biologi eller geografi, eller ikke gør, eller som er udtryk for holdninger. Eller eleven bedes vurdere hvilken opstilling af fem eksperimenter der kan teste en given hypotese. Dette er eksempler på “evaluating and designing scientific enquiry”. En kompetence som piger klarer sig bedre i ifølge PISA.

  • Eleven bedes forholde sig til data og evaluere udsagn på baggrund af data i form af tabeller og diagrammer. Dette er eksempler på “interpreting data and evidence scientifically”. En kompetence hvor pigerne har en lille, grænsende til statistisk usignifikant fordel ifølge PISA. 


I min registrering af opgaverne i de enkelte datasæt har jeg blot anvendt tallene fra 0-3 til at gøre forskel mellem kategorierne, således at en korrelation med karaktergabet det givne år kan testes. De tildelte værdier er således ikke justeret efter de point-mæssige forskelle, som PISA har rapporteret for de forskellige kategorier. Der er dog gjort forskel således at 1 gives til de opgaver som PISA har observeret er til drengenes fordel, 2 gives til de opgaver hvor drenge og piger står nogenlunde lige, og 3 gives til de opgaver som pigerne har fordel i. 0 gives til opgaver der falder udenfor kategori. Således vil et givent eksamenssæt ende ud med en gennemsnitlig score der, hvis den er relativt høj, betyder at eksamenssættet havde flere opgaver til pigernes fordel, end til drengenes. Registreringsmetoden tillader os således at observere de kønsforskelle i testopgaverne, som eksisterer, givet at opgavetyperne overlapper tilstrækkeligt med de opgavetyper som PISA bruger.

Overblik over registreringen af opgaver ud fra PISAs komptence-kategorier:

  • 0 gives til opgaver der falder udenfor komptencerne, det er eksempelvis spørgsmål der kræver at man blot fremkalder fakta om et begreb og således ikke indebærer at forklare et fænomen. Med hensyn til geografiprøven er der mange opgaver der kræver at man kigger på kort, men mange af dem kræver ikke en egentlig evaluering af udsagn ud fra kortet, så meget som blot en tilkendegivelse af at have læst kortet korrekt. Derfor er disse opgaver ikke kategoriseret som eksempler på “interpreting data and evidence scientifically”.

  • 1 gives til eksempler på “explaining phenomena scientifically”.

  • 2 gives til eksempler på “interpreting data and evidence scientifically”.

  • 3 gives til eksempler på “evaluating and designing scientific enquiry”.


Med hensyn til antallet af ord har jeg blot markeret opgaveformuleringen og bedt word tælle antallet af ord. Antallet af svarmuligheder, billeder og data-elementer har jeg selv talt og registreret. For sikkerheds skyld noterer jeg igen at der kun er blevet registreret billeder, grafikker og data-elementer som skal anvendes for at løse den givne opgave. Eksamenssættene har generelt mange billeder som siger noget om opgavens tema, men som ikke skal anvendes til at løse opgaven. De er ikke registreret. 

Resultater

Laver man en regression på de variable som blev registreret på tværs af eksamenssæt i biologi fra 2010-2019 imod karaktergabets (afhængig variabel) udvikling i samme periode, får vi ganske pæne resultater:


Regressionsstatistik for skriftlig biologi

Multipel R

0,96073765

R-kvadreret

0,923016831

Justeret R-kvadreret

0,861430296

Standardfejl

0,056726506

Observationer

10



92% af variansen i udviklingen af karaktergabet i omtalte periode, lader sig forklare når vi anvender alle vores indsamlede variable. Modellen er signifikant ved 0,005, pænt under en klassisk alpha (0,05).


 

Koefficienter

Standardfejl

t-stat

P-værdi

Skæring

-0,525609769

0,165753016

-3,171041961

0,024785933

Gen. Kompetence

0,435812643

0,098067322

4,444014919

0,006739678

Gen. Svarmuligheder

0,047868604

0,015540091

3,080329692

0,027459344

Gen. Antal ord pr. opgave

-0,005875039

0,002198923

-2,671780231

0,044253935

Gen. Data-elementer og billeder

-0,007605923

0,003673328

-2,070580699

0,093170814

(“Gen. Kompetence” er gennemsnittet af værdierne for vores version af PISAs komptencemål.)


Som man kan se er tre af variablene signifikante i regressionen. Dette forhold er sandsynligvis for godt til at være sandt. Kører man regressionen for geografi-opgaverne, får vi ikke samme resultater. Det bør i den sammenhæng huskes at vi jo kun har 10 observationer for hver eksamen, og derfor kan mange forhold spille ind, som, hvis vi havde adgang til observationer af hvordan eleverne klarede sig i hvert enkelt opgave, ville vise sig irrelevante. 



Regressionsstatistik for skriftlig geografi

Multipel R

0,896318937

R-kvadreret

0,803387637

Justeret R-kvadreret

0,646097747

Standardfejl

0,096333294

Observationer

10


Modellen er ikke signifkant (p=0,051) Kigger vi på de enkelte variable er de heller ikke signifikante:


 

Koefficienter

Standardfejl

t-stat

P-værdi

Skæring

-1,341918667

0,216887438

-6,187166376

0,001608334

Gen. Kompetence

0,295275189

0,450013701

0,656147108

0,5407191

Gen. Svarmuligheder

0,000130956

0,017879957

0,007324172

0,99443945

Gen. Antal ord pr. opgave

0,006039725

0,003818406

1,581739694

0,1745527

Antal data-elementer og billeder

0,001821618

0,008192937

0,222340089

0,832845823


Tager vi imidlertid og fokuserer på vores PISA kompetencemål, finder vi alligevel noget interessant:


Regressionsstatistik for skriftlig geografi

Multipel R

0,827098363

R-kvadreret

0,684091701

Justeret R-kvadreret

0,644603164

Standardfejl

0,096536495

Observationer

10


Vi mister noget forklaringskraft, men komptencemålet er signifikant:


 

Koefficienter

Standardfejl

t-stat

P-værdi

Skæring

-1,247698335

0,1774807

-7,030050773

0,000109315

Gen. Komp

0,795298727

0,191077104

4,162187468

0,00315573


Det mest interessante er dog at hvis vi også laver regressionen kun for kompetencemålet i biologi, så får vi et lignende resultat:


Regressionsstatistik for skriftlig biologi

Multipel R

0,801676177

R-kvadreret

0,642684693

Justeret R-kvadreret

0,59802028

Standardfejl

0,096617092

Observationer

10


Forholdet er også signifikant:


 

Koefficienter

Standardfejl

t-stat

P-værdi

Skæring

-0,676146789

0,152344001

-4,438289567

0,002172887

Gen. Komp

0,555045872

0,146322366

3,793308475

0,005286833


Af situationen kan udledes, at vi generelt ikke får meget ud af at kigge på antallet af svarmuligheder, antallet af ord og antallet af billeder og data-elementer til anvendelse i opgaverne. Registreringen af opgaverne ud fra PISAs kompetencemål præsterer imidlertid ens forklaringskraft på tværs af to forskellige eksamensfag. Således er udviklingen i opgaverne i eksamenssættene en plausibel forklaring på en del af udviklingen af karaktergabet i de to eksamener over tid. Hertil er det plausibelt at hvis man kunne lave en større og mere detaljeret undersøgelse, hvor man fik data fra besvarelserne af de enkelte opgaver, og indkluderede i registreringen af de enkelte opgaver ud fra PISAs komptencemål, de sværhedsgrader som PISA også sorterer efter, så ville vi se endnu større forklaringskraft. 

(s39 i https://www.oecd.org/content/dam/oecd/en/publications/reports/2016/04/pisa-2015-assessment-and-analytical-framework_g1g66e6f/9789264255425-en.pdf).


På baggrund af denne grovkornede analyse, kan vi altså konkludere, at ja, der er noget at komme efter. Opgavetyperne forklarer en del af udviklingen i karaktergabet mellem drenge og piger. 

Kommentarer

Populære opslag fra denne blog

Vi kan forudse de nye eksameners effekter

Uddannelsespolitikkens effekter på karakterinflation

Kønsforskelle i faglige prøver