Reagerer på bruken av AI i eksamenssensur: – Kan svekke den akademiske integriteten

1 month ago 26

Kaia E. Lehmann (25) leverte sin siste eksamen på medisinstudiet i Bergen i fjor høst. Nå er hun en av flere studenter som reagerer på hvordan sensuren ble gjennomført.

Lehmann at studentene før eksamen ble informert om at Universitetet i Bergen hadde trent opp en KI-modell.

Denne KI-modellen skulle brukes til å velge ut de 25 prosent svakeste besvarelsene, som deretter skulle gjennomgås mer detaljert av en eksamenskomité. De resterende 75 prosentene skulle leses gjennom av en menneskelig sensor, men bli viet mindre oppmerksomhet.

Lehmann er for øyeblikket på backpacking i Peru med flere andre studenter fra sitt kull. Hun sier at de deler bekymringene om eksamenssensuren.

Flere studenter har klagd

– At AI plukker ut svake besvarelser før gjennomlesing skaper en bias hos sensor, fordi de gis en forventning til besvarelsen før de har lest den, skriver Lehmann i en e-post til VG.

– Da får ikke sensor samme blikk på alle besvarelsene, mener hun, og anser det som en betydelig svakhet ved universitetets bruk av kunstig intelligens.

Lehmann understreker at hun generelt er positivt innstilt til bruken av AI, men at studentene bør informeres nøye om hvordan det brukes.

Steinar Hunskår, leder for eksamenskommisjonen for den aktuelle eksamenen ved Universitetet i Bergen, sier at flere studenter har klagd inn saken til universitetet. Derfor vil han ikke kommentere akkurat denne saken.

Han er likevel tydelig på at AI ikke kan brukes til formell sensur, og at alle eksamensbesvarelsene fra høsten er gjennomgått av intern og ekstern sensor.

På generell basis sier Hunskår at det i flere år har blitt forsket på muligheten for å bruke AI i gjennomføringen av sensuren, og at det vil fortsette å utforskes.

Feil på eksamensoppgaven

Lehmann forteller at det var en feil på en av eksamensoppgavene til medisinstudentene, som gjorde at studentene fikk utdelt forskjellige blodprøver til oppgaven.

Da feilen ble oppdaget, sier hun at det var for sent å rette opp.

Bør AI brukes i vurdering av eksamensbesvarelser?

aJa, jeg synes det er helt supert!bJa, men jeg er litt skeptisk. cJeg er litt usikker. dNei, man bør gjøre det på gamlemåten.

– Det er uklart for oss hvordan dette påvirker AI. Hvis den tok utgangspunkt i en sensorveiledning som er avhengig av visse blodprøver, vil mange få «feil» på oppgaven fordi de fikk utdelt feil blodprøver.

Lehmann lurer på om de som fikk feil blodprøver i eksamensoppgaven har høyere sannsynlighet for å bli vurdert som svake kandidater av AI.

Universitetet i Bergen har ikke svart på dette, men Hunskår understreker at alle eksamenssvar har blitt gjennomgått av intern og ekstern sensor, og at sensurmøtet diskuterer stryk-grense på samme måte som før.

– Vår bruk er uproblematisk

– Sammen med programutviklere har vi testet og trent et nyutviklet KI-verktøys prediksjonsevne for sensurering, først og fremst for å identifisere de svake kandidatene, skriver Hunskår i en e-post.

Han sier at de har kommet svært langt i utviklingen, og at de vil være klare til å ta AI i bruk når et nytt regelverk er på plass.

– Inntil det fortsetter vi med testing av systemet i «skyggen» av den ordinære sensuren.

– Som støtteverktøy mener vi at vår bruk er uproblematisk og en klar styrke for kvaliteten på sensurarbeidet vårt, skriver Hunskår.

Han legger til at det er omfattende og avanserte tester som gjøres, og at han ikke ser for seg at AI noen gang vil sette karakteren F (stryk) på legestudentene, uten omfattende manuell vurdering eller diskusjon.

Slik forklarer UiB at sensuren av eksamen foregikk

AI rettet alle oppgaver parallelt og ga poeng til hver student, forteller Hunskår.

– Så ba vi AI generere en liste over de svakeste studentene, slik at vi hadde tilnærmet 100 % sjanse for å ikke overse studenter med fare for stryk.

Det viste seg å være omtrent 15 av 90 studenter.

– Vi valgte så å gi sensorene en liste på det dobbelte. Dette gir sjanse for å overse en stryk-kandidat på trolig mindre enn én av én million.

Deretter forklarer Hunskår at sensorer rettet oppgavene.

– De på lista fikk detaljert poengsetting på alle deloppgaver, mens de andre fikk en overordnet individuell vurdering med tanke på stryk/bestått i hver av deloppgavene.

– Vi ser få utfordringer med dette i forhold til tillit eller integritet når det gjelder faget eller til UiB generelt, mener Hunskår, og legger til at AI har styrket sensurarbeidet totalt sett.

– Kan svekke den akademiske integriteten

Leder for Norsk studentorganisasjon, Sigve Næss Røtvold, skriver i en e-post til VG at AI er kommet for å bli, og at det bør tas i bruk i vurderingssituasjoner.

– Det vi stiller spørsmål ved er at det oppfordres til bruk i sensur, men frarådes i eksamensskriving for studentene.

Videre mener Røtvold at uavhengig av om det er en underviser eller en student som bruker AI, så må påliteligheten til det akademia leverer sikres.

– AI som brukes feil og uten tilstrekkelig opplæring kan svekke den akademiske integriteten, mener Røtvold.

Anbefaler å gjøre forsøk med AI

Anders Malthe-Sørenssen er professor ved Universitetet i Oslo, og leder for utvalget om kunstig intelligens i høyere utdanning.

Han skriver i en e-post til VG at utvalget anbefaler universiteter og høyskoler å gjøre forsøk med KI-systemer til sensur for å finne ut hvor pålitelig KI-systemer kan være.

Anders Malthe-Sørenssen

Leder av utvalget om kunstig intelligens i høyere utdanning

– Vi mener det nå er mulig å prøve ut hvor god KI-sensur er parallelt med at et menneske gjør sensur. Foreløpig er det den menneskelige sensuren som skal og bør gjelde.

Personlig tror han at KI-systemer om få år kan gi minst like pålitelig sensur som mennesker innen flere fagområder.

Read Entire Article