Du har sikkert vært innom nylig.
Kanskje du ville faktasjekke siste quiz i avisen? Eller så har du lest deg opp på Romerrikets historie?
Store norske leksikon er blant Norges aller mest brukte kunnskapskilder. Nettsiden består av 200.000 artikler, alle skrevet av eksperter og fagfolk.
– Utsatt for tyveri
Nå hevder leksikonet at de har blitt utsatt for et enormt, systematisk tyveri.
Og tyven skal være OpenAI, selskapet bak KI-tjenesten ChatGPT.
– Vi sjekket serverloggene våre i fjor sommer. De viste at roboter fra OpenAI hadde lastet ned artiklene våre mange ganger, sier Erik Bolstad, redaktør i SNL, til TV 2.

Han forteller at SNL-artiklene er beskyttet av opphavsretten, og at de ikke ønsker at roboter skal laste ned innholdet deres og bruke det andre steder.
– Vi la derfor inn en blokkering på siden vår, og opplyste at robotene ikke fikk lov til å laste ned innholdet.
OpenAIs roboter stoppet med nedlastingene etter dette. Men bare midlertidig.
– Vi sjekket på nytt utpå høsten. Nedlastingene fortsatte, og da var det blitt mye verre, forteller Bolstad.
Nå frykter han at selskapet bruker deres artikler til å trene ChatGPT.
Billioner av ark
SNLs egne beregninger anslår at OpenAI har lastet ned hele leksikonet 30 millioner ganger.
TV 2 har regnet på hvor mye materiale, hvor mange A4-sider, det i såfall er snakk om.
Antallet er svimlende høyt: rundt 4700 milliarder sider.
Hvis alle arkene ble stablet i høyden, ville stabelen strukket seg langt forbi månen.
Bolstad forteller at en rekke andre teknologiselskaper også laster ned artiklene deres. Blant annet Bytedance, eieren av Tiktok.
Men OpenAI er klart verst, ifølge redaktøren.
– Ikke fulgt eget regelverk
– Dette er et helt vanvittig omfang, sier Tollef Jørgensen, doktorstipendiat i språkmodeller ved NTNU til TV 2.
Han forteller at alle store teknologiselskaper bruker «søkeroboter» til å hente innhold.
– Googles søkemotor eksisterer fordi de har samlet inn alt mulig fra internett ved hjelp av slike søkeroboter, sier Jørgensen.

Han forteller at det også er velkjent at OpenAI sin bruk av søkeroboter er avgjørende for å trene ChatGPT.
Språkmodeller krever enorme datamengder, og nytt innhold hele tiden, for å kunne virke som de gjør.
Men, OpenAI tydeliggjør på sine egne sider at de ikke skal bruke innhold fra sider som har nektet søkeroboter tilgang.
Det var akkurat det SNL gjorde i fjor sommer.
– Så hvis de fortsatte å laste ned artikler etter dette, har jo OpenAI absolutt stjålet materiale, og ikke fulgt sitt eget regelverk, sier Jørgensen.
Les hva OpenAI svarer nedenfor.
Flere mulige lovbrudd
Advokat Øystein Flagstad er ekspert på opphavsrett, og har jobbet mye med KI-regelverk de siste årene.
– Å kopiere SNLs innhold til trening av KI, er en klar opphavsrettsrelevant handling som krever samtykke fra rettighetshaver, for at det skal være lovlig, sier han.

Flagstad mener nedlastinger, også de som kom etter at SNL ga tydelig beskjed om at de ikke tillater bruk av innholdet i trening av KI, er et klart opphavsbrudd.
– Og dette gjelder i alle andre land i Europa også. Om store amerikanske selskaper respekterer dette, er et åpent spørsmål, sier advokaten.
Hvis det skulle vise seg at OpenAI også gjengir SNL-tekst, uten å oppgi kilde, kan det være nok et brudd.
– Dette kan både være et brudd på de økonomiske rettighetene til SNL, og i tillegg et brudd på den såkalte respektretten, nemlig retten til å bli navngitt som forfatter, sier Flagstad.
Har blitt saksøkt før
Å faktisk bevise at ChatGPT bruker den eksakte teksten til SNL i sine svar, uten å kildehenvise, er en vanskelig oppgave.
I desember 2023 saksøkte avisen New York Times OpenAI for brudd på opphavsretten.
Avisen mener ChatGPT beviselig har brukt deres innhold i svar til brukere, uten tillatelse. Rettssaken pågår fortsatt.
Redaktør Bolstad understreker at SNL er en liten aktør, som ikke har muskler til å slåss mot giganter som OpenAI.

Advokat Flagstad mener det dessuten kan bli enda vanskeligere å stille teknologiselskapene til ansvar framover.
Han forteller at et kommende EU-direktiv skal tillate KI-tjenester å bruke innhold som er tilgjengelig på nett – med mindre de som eier rettighetene, har tatt forbehold.
Men, den nye KI-forordningen i EU skal imidlertid hjelpe aktører som SNL.
Flagstad forklarer at den krever at KI-selskapene må opplyse om hva språkmodellene deres er trent på - og at det grunnlaget er lovlig.
– Jeg mener at jussen er ganske klar. Hovedproblemet er hvis de store amerikanske gigantene bare tar seg til rette, uten å respektere rettigheter. Det er helt feil, sier Flagstad.
Kan ta betalt
Advokaten forteller at mange som jobber med opphavsrett nå tar til orde for å lisensiere slike KI-nedlastinger.
– Det innebærer å tillate teknologiselskapene å bruke innholdet, så lenge de betaler for seg.
Dette er allerede i gang i Norge. Nylig ble det kjent at VG- og Aftenposten-eieren Schibsted inngikk en avtale med nettopp OpenAI om bruk av deres innhold.
Redaktør Bolstad sier SNL er åpne for å prate med OpenAI om denne typen lisensiering.
– Men vi har ikke hørt noe fra dem, utover det vi har sett i serverloggene våre.
– Umoralsk
Utover det ser Bolstad bare nedsider ved OpenAI sine nedlastinger.
Han forteller at totalt 5000 fagfolk har bidratt i SNL gjennom årene.
– Det er folk som har lagt ned utrolig mye arbeid og energi for at dette skal være til nytte for allmennheten. Hvis disse artiklene bare blir tatt av en tjeneste som er vår kanskje største konkurrent, og brukes videre uten kildehenvisninger, er det helt umoralsk, sier han.
Nå er han bekymret for utviklingen. Han forteller at de som bruker leksikonet aller mest er elever og studenter.
– Men vi ser jo allerede en dreining. Vi tror elever bruker språkmodeller mer nå enn de har gjort før. De oppsøker færre kilder, sier han.
Han trekker fram SNLs artikkel om første verdenskrig som eksempel. Det er en typisk kilde for norske elever.

– Trafikken på den artikkelen har stupt betydelig, sier Bolstad.
Han tror mange går til ChatGPT, og andre KI-tjenester, i stedet for å oppsøke primærkilden.
– Og hvis tekstene man finner der er bygget på vårt leksikon, da blir jeg sur, slår Bolstad fast.
Open AI svarer
TV 2 har kontaktet OpenAI og bedt dem svare på en rekke spørsmål knyttet til denne saken.
– Vi gjør det enkelt for nettutgivere å uttrykke hvordan nettstedene og innholdet deres skal samhandle med produktene våre. I dette tilfellet har de (SNL) valgt å blokkere GPTBot for trening av generative AI-modeller, men tillate søkeroboten vår, som lenker til nettsteder fra ChatGPTs søkefunksjon. Det respekterer vi.
Det sier en talsperson fra Open AI i en e-post. Selskapet vil ikke si hva talspersonen heter.
OpenAI sier altså de overholder leksikonets ønske om ikke å trene ChatGPT på innholdet deres.

Men, ifølge selskapet har ikke SNL nektet robotene deres å «søke» på sidene deres.
Derfor har de fortsatt å besøke leksikonet, og lenke tilbake til aktuelle artikler i chatter med brukere.

OpenAI bekrefter at en større mengde roboter besøkte SNL fra oktober av. De forklarer at den aktiviteten sammenfaller med at ChatGPT lanserte nettsøk som en del av tjenesten sin.
Denne type aktivitet tillater SNL, mener OpenAI.
OpenAI svarer ikke direkte på anklagen om at nedlastningene er et «systematisk tyveri».
De vil heller ikke svare direkte på påstanden om at de har lastet ned alle Store norske leksikons 200.000 artikler 30 millioner ganger.

Peker likevel på KI-trening
Bolstad har lest svaret fra OpenAI. Han understreker fortsatt at de millioner av nedlastingene de har registrert ikke har vært av roboter som bare søker.
– Vi har bare sett på roboten som laster ned innhold for å trene språkmodellen. De er denne roboten som har lastet ned artiklene våre 30 millioner ganger i fjor, sier han.