OpenAI, DeepSeek og Google identifiserer hatprat på helt ulike måter, viser studie.
– Modellenes innebygde forståelse er kalibrert mot en amerikansk sosial og politisk virkelighet, sier norsk forsker. (Illustrasjon: amie Jin, Shutterstock, NTB)
Hva er egentlig hatprat – og hvem bestemmer hva som skal fjernes fra nettet? En ny studie fra University of Pennsylvania viser at store språkmodeller fra OpenAI, Google og DeepSeek vurderer innhold på svært forskjellige måter.
Forskerne Neil Fasching og Yphtach Lelkes har nå gjort en stor, sammenlignende analyse av KI-systemer som modererer innhold på nettet.
Studien, publisert i tidsskriftet Findings of the Association for Computational Linguistics, sammenligner hvordan kunstig intelligens brukes til å fange opp hatprat og undersøker hvor konsekvente systemene er. Konklusjonen er tydelig: Modellene spriker mye.
Forskerne finner store forskjeller i hvordan språkmodellene klassifiserer hatprat, med særlig store variasjoner når det gjelder språk om visse grupper.
– Private selskaper avgjør hva som er tillatt
Flere av de ledende KI-selskapene lover automatisk moderering av innhold i de store språkmodellene sine. Flere av de store sosiale mediene bruker også slike KI-modeller til å moderere innlegg og kommentarer.
– Private teknologiselskaper har i praksis blitt de som avgjør hvilken tale som er tillatt på den digitale offentlighetens torg, men de gjør det uten noen konsekvent standard, sier forsker Yphtach Lelkes i en pressemelding.
Forskerne testet totalt sju modeller. Noen av dem er spesialutviklet for innholdsklassifisering og andre er mer generelle. Forskerne så på to modeller fra OpenAI, to fra Mistral i tillegg til Claude 3.5 Sonnet, DeepSeek V3 og Google Perspective API.
Forskerne lot modellene analysere 1,3 millioner setninger om 125 ulike grupper med forskjellige religioner, etnisiteter, aldere og funksjonsnedsettelser.
Analyserte nedsettende språk
Setningene som modellene skulle analysere, var både nøytrale og nedsettende. Slik kunne forskerne se hvordan modellene håndterte alt fra slurvete språk til åpenbare skjellsord. Hver setning inneholdt «alle» eller «noen», en gruppe og et hatpratuttrykk.
Ifølge forskerne gir de ulike modellene motsatte svar på helt identiske setninger.
– Forskningen viser at innholdsmodereringssystemer har store inkonsekvenser i hvordan de vurderer identisk hatprat, hvor noen systemer flagger innhold som skadelig mens andre anser det som akseptabelt, sier Fasching i pressemeldingen.
Forskerne finner også ut at flere av modellene er ustabile – altså at de ikke alltid gjør de samme vurderingene.
Dette var spesielt tydelig når forskerne testet setninger som handlet om utdanning, økonomisk klasse eller personlige interesser.
Når setningene handlet om etnisitet, kjønn eller seksuell legning, var modellene mer samstemt.
Dette antyder at noen grupper får bedre beskyttelse enn andre – og at systemene i større grad reagerer på hat mot tradisjonelt «beskyttede» grupper, ifølge forskerne.
Forskerne testet også setninger som var nøytrale eller positive om ulike grupper slik at de kunne finne ut hvordan modellene håndterer nedsettende begreper i ikke-hatefulle setninger. Et eksempel er «Alle "..." er flotte mennesker».
Da fant forskerne ut at modellene Claude 3.5 og Mistral sin spesialmodell for moderering alltid flagget skjellsord som skadelige uansett sammenheng. Andre modeller la mer vekt på sammenhengen.
– Gir teknologiselskapene en enorm definisjonsmakt
Professor Jonas R. Kunst ved Handelshøyskolen BI forsker på blant annet digital påvirkning. Han sier at studien viser at språkmodeller ikke bringer oss nærmere en objektiv sannhet om hva hatprat er.
– Modellene er kun et speil av sitt treningsdata, som er dypt kulturelt betinget, samt de designvalg og verdier utviklerne har bygget inn i systemet. Dette gir teknologiselskapene en enorm definisjonsmakt over grensene for offentlig debatt, sier Kunst.
Han peker også på at den store faren oppstår når vi feilaktig anser en «hat-score» fra en modell som en objektiv fasit – for det er den ikke.

Jonas R. Kunst mener at teknologi kan misbrukes til å frikjenne eller bagatellisere hatefulle ytringer. (Foto: UiO)
– Alvorlig skjevhet
– Slik kan teknologien misbrukes til å frikjenne eller bagatellisere hatefulle ytringer, simpelthen ved å henvise til en lav score fra en spesifikk, partisk modell.
Kunst er nøye på at det er usikkert om dataene gjenspeiler norske, kulturelt betingede definisjoner av hatprat, ettersom mesteparten av treningsdataene er USA-sentrerte og modellene hovedsakelig er utviklet der.
– Modellenes innebygde forståelse er kalibrert mot en amerikansk sosial og politisk virkelighet. Dette skaper en alvorlig skjevhet ettersom den norske forståelsen av hatefulle ytringer er formet av en annen historie og kultur.
Denne kløften inkluderer også store variasjoner i juridiske definisjoner og lovverk. Der har Norge et strengere vern mot hatprat enn det man har i USA.
– Å anvende disse modellene i en norsk kontekst innebærer derfor en risiko for å importere en amerikansk standard som er dårlig tilpasset norsk lov og samfunn, avslutter Kunst.
Dilemma mellom ytringsfrihet og skadevirkninger
Thomas Ploug, professor i data- og kunstig intelligens-etikk ved Aalborg Universitet i Danmark, mener at resultatene ikke er overraskende.
– Hatefulle ytringer er ikke et veldefinert begrep, og det betyr at de operasjonaliseres forskjellig i store språkmodeller.
Han peker på at det alltid er et vanskelig valg mellom over- og undermoderering. Det vil si at systemet enten fjerner eller flagger for mye innhold eller lar være å fange opp innhold som faktisk er skadelig eller hatefulle ytringer.
– Studien finner at noen systemer overmodererer med høy sensitivitet, men lav spesifisitet, mens andre forsøker å finne en balanse med lavere sensitivitet og høyere spesifisitet.

Thomas Ploug forsker på etikk og KI ved Aalborg Universitet i Danmark. (Foto: Aalborg Universitet)
Han understreker at problemet med over- og undermoderering gjenspeiler det underliggende dilemmaet mellom å beskytte ytringsfriheten og å motvirke skadevirkningene av hatefulle ytringer slik som krenkelse, dehumanisering og polarisering. Han kaller oppgaven notorisk kompleks og omstridt.
– Det er imidlertid bekymringsfullt at de samme modellene brukte ulike terskelverdier på tvers av grupper. Det betyr at noen fellesskap får sterkere beskyttelse, mens andre er mer utsatt. Slike systematiske forskjeller utgjør i realiteten strukturell diskriminering.
Hans konklusjon er at det ikke er spesielt overraskende at forskere finner forskjeller mellom modellene.
– Kanskje skal vi være glade for det. Det betyr at vi har modeller som kan brukes til ulike formål og for ulike grupper. Det er likevel bekymringsfullt at vi ikke kan stole på at den samme modellen beskytter alle grupper like godt – da vet vi i bunn og grunn ikke hva vi får med den modellen.
Ploug sier at de store språkmodellene til KI-selskapene kan bidra til å motvirke hatefulle ytringer, men ikke kan løse de underliggende normative spørsmålene.
– Ansvaret for å filtrere egne ord – og kritisk vurdere andres – forblir hos oss mennesker, sier han.

Opptatt av teknologi?
Følg den nyeste utviklingen innen kunstig intelligens, energi, sosiale medier og roboter med nyhetsbrev fra forskning.no.