Kønsforskelle i faglige prøver

I dette indlæg gennemgår jeg alment kendte kønsforskelle i tests af akademisk formåen. Generelt lader det til at piger er bedre til læseprøver og drenge er bedre til matematikprøver. I prøveresultaterne ser vi dog en del variation, som kan have forskellige forklaringer.

PISA

Det er en almindelig observation på tværs af internationale tests og nationale tests i akademisk formåen, at piger/kvinder klarer sig markant bedre end drenge/mænd i læsning. Fra år 2000 og til 2022, hvor PISA-prøverne er blevet gennemført 8 gange med 3 års mellemrum (undtagen under corona), har vi 563 observationer i læseprøven, dvs. 563 gange hvor de forskellige lande har deltaget. Af alle de observationer er antallet af gange, vi har observeret drenge i noget land, noget år, scorer højere end pigerne i læseprøven lig 0. Det tætteste vi er kommet, var i 2022 hvor pigerne på Costa Rica kun var 3 point bedre end drengene i gennemsnit.

Det er ligeledes rimelig almindeligt at observere i PISA og lignende prøver at drengene er en smule bedre end pigerne til matematik. Deres fordel er dog ikke større, end at vi noget oftere i matematikprøven observerer pigerne overgå drengene i gennemsnit. Således ser vi at for de 541 observationer vi har med PISA-matematikprøven på tværs af lande, over den nævnte tidsperiode, gælder det, at vi 112 gange ser pigerne overgå drengene i gennemsnitlig score. De lande hvor det sker, sker det ofte kun med en lille forskel mellem drenge og pigers gennemsnitlige scorer. De lande hvor vi ofte ser en fordel til pigerne, er en blandet scare. F.eks. ligger Islandske piger gerne en del over drengene, undtagen i sidste måling i 2022, hvor de slet ikke ligger over. Hertil finder vi nogle år en lille fordel til pigerne i lande som Norge, Finland og Litaun. Langt flertallet af lande hvor pigerne ofte klarer sig signifikant bedre er imidlertid lande hvor GDP pr. capita er lav. F.eks. Albanien, Phillipinerne, Azerbaijan, Brunei, Cypern og Georgien.

For de observationer hvor drengene scorer højere end pigerne i gennemsnit, gælder det at de i gennemsnit scorer 11 point højere. For de observationer hvor pigerne scorer højere end drengene i gennemsnit, scorer de i gennemsnit 7 point højere. Man kan således forestille sig to normalfordelingskurver (klokkekurver), en for pigers scorer og en for drenges, hvor drengenes er skubbet en lille smule til højre på x-aksen, for at markere at de generelt klarer sig lidt bedre i matematik. Man ville for eksempel kunne se det i kurvernes ekstremer. Vi har kun to observationer hvor et lands piger scorer 20 point eller mere over drengene i matematik. Det er Qatar i 2018 og Jordan i 2012. Vi ser imidlertid 22 gange, at drenge scorer 20 eller flere point end piger i gennemsnit (alle PISA data kan hentes på https://pisadataexplorer.oecd.org/ide/idepisa/).

Kort sagt ser vi pigers læsefordel og drenges matematik fordel på tværs af kulturer og tid, i nyere tid i hvert fald. En dansk forsker har dog udtalt til Altinget at man, hvad angår det danske eksempel, kan spore kønsforskellene helt tilbage til 1915. I rigsarkivet har vi prøver udført af ministeriet hvert år fra 1915 til 1954, hvor pigerne i gennemsnit klarer sig bedre i de danskfaglige dele, imens drenge klarer sig en smule bedre i regning.

TIMSS

En anden international prøve hvor vi ser tendenserne er i “Trends in International Mathematics and Science Study” (TIMSS) som også er en international prøve, der kører hvert 4. år, og har kørt siden 1995. Den laves med både 4. klassere og 8. Klassere. Blandt 4.klassere ser vi på tværs af 55 deltagende lande, som med PISA, en tendens til at drengene har en fordel i matematik. Der er 16 lande, hvor flertallet af år, hvor de deltager, viser en gennemsnitlig fordel til pigerne i matematik. Der er tale om lande så forskellige som Iran, Oman, Qatar, Japan og Singapore. Derfor er det ikke lige til højrebenet at finde en god forklaring. De vestlige lande, hvor vi flere gange ser pigerne overgå drengene en smule i PISA-undersøgelsen, som Finland, Norge, Estland, Letland og Litaun, udviser ikke samme tendens i TIMSS-undersøgelsen. Japanske piger i TIMSS er bedre end drengene næsten alle år. I PISA er det omvendt. Det peger imod to forklaringsmodeller. For det første er der en forskel i prøverne, og for det andet en forskel i aldersgrupperne. Deltagerne i TIMSS er 9 år gamle og deltagerne i PISA er 14-15 år gamle.

Blandt de 40 lande der har rapporteret resultater for 8.klassere (13 år) i TIMSS, ser vi 18 lande hvor pigerne oftere scorer over drengene i gennemsnit på tværs af år. Det er næsten halvdelen af de deltagende lande. Hvis elevernes alder er forklaringen, er tendensen således modsat af hvad vi forventer ud fra PISA. Dvs. vi kan acceptere en forklaringsmodel hvor der er mindre forskel i matematisk kunnen på 9-årige drenge og piger i 4. klasse og mere forskel når de bliver 15 år og deltager i PISA. Sådan en udvikling kan både rumme forklaringer om kulturel indflydelse, der tager til når man bliver ældre, eller forklaringer om biologisk modning. Hvis 13-årige piger og drenge i 8. klasse er mere lige i matematisk kunnen end både 4. klassere og de 15-årige i PISA, så falder vores udviklingsmæssige forklaringer til jorden, om de er kulturelle eller biologiske. For hvorfor skulle kulturelle effekter pludselig aftage i 13-års alderen og så tage til igen to år efter? Det er derfor mere plausibelt at forskellene skyldes forskelle i prøverne. I den sammenhæng kan vi da også nævne at de lande som udgør de 18, hvor pigerne klarer sig bedre end drengene blandt TIMSS for 8.klassere, ikke er de samme, som de 16 i TIMSS for 4. klassere. F.eks. er Japan ikke længere på listen, men både Romænien og Sverige er kommet på.

Ændringer af TIMSS prøven

En yderligere indikation på, at det har med prøverne at gøre, er at vi jo kan se effekterne af, at man ændrede prøven fra 2019 til 2023. Man implementerede såkaldt “adaptiv-testning”, hvor de matematiske spørgsmål som testtagerne får, justeres løbende under testen. Det næste spørgsmål man får er således udvalgt af en algoritme, på baggrund af hvordan man svarede på de forrige spørgsmål. Teknikken øger den samlede test-præcision, hvilket vil sige at man får et mere præcist indblik testtagernes faktisk kunnen. Det betyder også, at allerede eksisterende forskelle mellem grupper af testtagere bliver mere tydelige. Derfor ser vi også en markant forøgelse af forskellene mellem piger og drenge i både 4. klasse og 8. klasse i 2023. I 2023 er der kun 9 lande tilbage hvor 4. klasse piger scorer højere end 4. klasse drenge i gennemsnit i matematik. I de lande er kønsforskellen også faldet i forhold til tidligere, bare ikke nok til at drengene overgår pigerne. Samme mønster ser vi i 2023 blandt 8.klasserne, hvor der nu kun er 12 lande, hvor pigerne klarer sig bedre end drengene, også her er pigernes fordel faldende. Det er således plausibelt når vi blot kigger på udviklingen, at forskellene i drenge og pigers resultater i de forskellige prøver har mere at gøre med prøverne, end med testtagerne (4.klasse: https://timss2023.org/results/grade-4-math-achievement-trends-gender/, 8.klasse: https://timss2023.org/results/grade-8-math-achievement-trends-gender/, om adaptiv testning: https://journals.uair.arizona.edu/index.php/jmmss/article/viewFile/12351/11641, om TIMSS implementering af adaptiv testning: https://timssandpirls.bc.edu/timss2023/frameworks/pdf/T23_Frameworks_Ch4_Assessment-Design.pdf).

PIRLS

Progress in International Reading Literacy Study (PIRLS) laves, som TIMSS, også af International Association for the Evaluation of Educational Achievement (IEA) med jævne mellemrum. Med hensyn til pigers fordel i læsning over drenge, kan vi blot konkludere at på tværs af alle lande der har deltaget i PIRLS, og alle år hvor de har gjort det, så er mængden af observationer vi har hvor drenge overgår piger i læseprøven atter lig 0 (https://pirls2021.org/visual-2-3/).

Danske data

Hvert år tager omkring 60.000 danske 9. klassere 9-klasses afgangsprøver, som indkluderer en læseprøve og to matematikprøver (med og uden hjælpemidler). I læseprøven ser vi den velkendte tendens (karaktersnit på y-aksen):

I matematikprøven uden hjælpemidler ser vi også en klar tendens i kønsforskellen:

Drengenes fordel i matematik er dog, som nævnt, ikke stærkere end at den udfordres så snart prøven ændres lidt. Således ser vi følgende i prøven med hjælpemidler:

Som med TIMSS gør prøvens form en forskel. På tværs af matematikprøver skal der ikke så meget til at vælte drengene af pinden, som der skal til at vælte pigerne af pinden i læseprøver.

Amerikanske data

Den amerikanske National Assessment of Educational Progress (NAEP) er med en stikprøve størrelse på ca. 10.000 og med data tilbage fra 1973 en af de længst kørende nationale målinger af akademisk formåen. Her ser vi det velkendte mønster, hvad angår drenge og pigers formåen for aldrene 9-år, 13-år og 17-år.

NAEP læsning (notér at læseprøven blev ændret i 2004 hvorfor man kørte to prøver)

Som det fremgår er pigernes fordel i læsning tydelig for alle aldre (9, 13, 17), alle år. Med hensyn til vores ide om udvikling over tid, så lader det også til i disse data, at forskellen øges efter 9-års alderen.

I matematik ser drengenes fordel, som i så mange andre prøver noget svagere ud, men den er der. Her ser vi også en mindre forskel blandt 9-årige end blandt 13-årige og 17-årige (notér at der findes data fra 1973, men de er extrapolerede, så jeg har fjernet dem):

Adgangsprøver

For at komme ind på college efter high school, tager man i USA én af to tests (ACT eller SAT). Her ser vi også tendensen til at piger i gennemsnit klarer sig bedre i læsning og drenge lidt bedre i matematik. Både ACT testen og SAT testen tages i gennemsnit af 1,5 til 2 millioner amerikanske high schoolers.

American College Testing (ACT) (notér ingen kønsdata for 2019)

Scholastic Assessment Test (SAT)

Noter at The College Board fra 2016 gik over til at rapportere “evidence-based reading and writing” i stedet for en ren læseprøve, hvorfor data på læseprøven stopper der.

Noter også at SAT’ens læseprøve er den eneste af alle de viste, hvor mænd systematisk scorer højere end kvinder. Fordi ingen af de andre store tests viser dette resultat og fordi omkring 1,5-2 millioner amerikanske high schoolers tager SAT’en, så er det ikke plausibelt at forskellen skyldes populationen. Igen er det mere plausibelt at der er tale om forskelle i testen. Det skal dog siges at man tidligere har lavet en undersøgelse af ACT’en der jo tages af ligeså mange, hvor scorer var relateret til fordelingen af mænd og kvinder i populationen. I 2005 lavede folkene bag ACT en lille test af kønsgabet i deres “composite score”. Tendens var fra 1997 til 2001 (i Illinois og Colorado) at mænd scorede højest. Hypotesen var at denne kønsforskel skyldtes selv-selektion, det faktum at testtagere selv valgte om de ville tage testen. I den sammenhæng var 56% af testtagerne kvinder. Det betød at den kvindelige gruppe formodentlig var tynget mere imod centrum af normalfordelingen end mændene, på grund af deres overrepræsentation. Fra 2002 til 2004 implementerede Illinois og Colorado 100% test-deltagelse, således at det ikke længere var de studerende som valgte at tage testen. Samme år faldt kønsforskellen fra at være en markant fordel til mændene, til at være en lille fordel til kvinderne i Colorado (0,1-0,2), og nogenlunde lighed i Illinois (0,0-0,1). Med hensyn til de forventlige forskelle på kvinder og mænd, så er dette, som sagt, “composite score”

(https://www.act.org/content/dam/act/unsecured/documents/gender.pdf). Den situation som de testede for ACT’en holder imidlertid ikke for SAT’en da kønsforskellen i læsning over årene er robust, selvom forskellen i antallet af mænd og kvinder varierer med over 100.000 i nogle år.

Derfor er vores stærkeste hypotese at SAT’ens læsetest simpelthen er anderledes, og det kan også godt lade til at være tilfældet i en hurtig sammenligning med ACT’en. SAT’ens spørgsmål er korte uddrag fra videnskabelige bøger og artikler som indkluderer statistikker og lignende. ACT’ens spørgsmål kræver en dybere forståelse af f.eks. karakterers forhold i en længere fiktionstekst, ofte i et udfordrende sprog. Med andre ord kræver SAT’ens læseprøve mindre læsning. Min lille undersøgelse her lider dog under ikke at være en stor undersøgelse. Hertil er det muligt at SAT’ens læseprøve er anderledes end ACT’ens, men er den også anderledes end PISA-læseprøven eller læseprøven i dansk i 9.klasses afgangseksamen, eller PIRLS? Det tager længere tid at undersøge, end jeg har bevilget dette indlæg.

Søg i denne blog

Uforskning