Kaveh Rashidi stiller til duell mot KI: – Jeg tror dessverre ChatGPT er bedre enn meg.

3 days ago 11



KI kan stille mer korrekte diagnoser enn leger, ifølge ny forskning. Så vi inviterte landets kanskje mest kjente fastlege til en duell mot ChatGPT.

Foto: Dan P. Neegaard / Aftenposten

Publisert: 12.01.2025 12:07

Det er blitt rutine for de fleste av oss nå: Utslett rundt foten? Kul på armen? Blod i do? Gå til Dr. Google – alltid åpen, alltid ledig.

Men alltid hjelpsom?

Google kan gi mange gode helseråd. Men også feilinformasjon, skrekkhistorier og følelsen av at denne gangen kan det faktisk være kreft.

Vel, den tiden kan være forbi.

I høst dukket det nemlig opp en liten, men oppsiktsvekkende studie. I studien fikk 50 leger lese pasienthistorier, med bakgrunn og symptomer, før de skulle gjette korrekt diagnose. Halvparten av legene fikk bruke ChatGPT, mens den andre brukte «vanlige» verktøy.

Overraskende nok viste det seg at legene var dårligere på å sette diagnose når de fikk KI-hjelp. De fikk en score på 74 prosent, mens de KI-løse legene scoret 76 prosent.

Men mest slående: ChatGPT alene, uten innblanding fra legene, scoret 90 prosent.

– Jeg ble sjokkert, sa en av forskerne bak studien til New York Times.

Betyr det at vi bør pensjonere Dr. Google? Og hvordan ville en norsk lege gjort det i kamp mot kunstig intelligens?

For å få svar, inviterer vi fastlege Kaveh Rashidi til en diagnose-duell. Kan han slå ChatGPT?

En spent og pessimistisk lege

Rashidi selv er pessimistisk.

– Jeg tror dessverre ChatGPT er bedre enn meg til å stille diagnoser. Men jeg er veldig spent på hvorfor den er bedre. Når jeg tar feil, og den har rett, hva var det den så som jeg overså?

Duellen er bygget opp på lignende måte som studien: Kaveh og KI-en får begge servert fem korte pasienthistorier med bakgrunn og symptomer, hentet fra eksamensoppgaver i medisin ved UiO. Vinneren er den som gjetter flest korrekte diagnoser.

Første oppgave: Hva feiler det den seks måneder gamle babyen med kløende utslett på kinn og hake?

Atopisk eksemAtopisk eksemAtopisk eksem er en type eksem som oftest starter i barnealder. Atopisk eksem er knyttet til øvrige atopiske sykdommer som høysnue og astma. Disse sykdommene har til felles at de skyldes hyperreaktivitet i immunsystemet og at de skjer i hud og slimhinner. (Kilde: Store medisinske leksikon) er mitt beste forslag, sier Rashidi.

ChatGPT svarer det samme. Men insisterer også på at kortisonkrem bør smøres i babyens ansikt.

– Hvis du smører krem der, så kommer babyen til å gni den kremen inn i øynene, hvor den absolutt ikke skal være, sier den noe oppgitte menneskelige motstanderen.

1–1.

I oppgave to er pasienten eldre. Den 26 år gamle mannen er blek og har gått ned i vekt. Han har hatt ukevis med smerter i buken i ukevis, løs og blodig avføring opptil syv ganger om dagen.

Rashidi resonnerer og svarer. Og bryter ut i et «YES!» når både ChatGPT og fasit gir samme svar: Ulcerøs kolitt Ulcerøs kolittUlcerøs kolitt er en kronisk betennelsessykdom i tykktarmens slimhinne. Sykdommen fører til at overflateepitelet blir ødelagt, og dette gir blødninger og diaré. (Kilde: Store medisinske leksikon).

2–2.

Men gleden skal bli kortvarig.

– Noe så menneskelig og dumt

En 74 år gammel kvinne har smerter i høyre lyske, som stråler ned mot kneet, og smertene øker ved belastning. Slik har det vært siden hun falt under tur for en måned siden. Hva kan det være?

– Mitt endelige svar er spinal stenosespinal stenoseSpinal stenose er en innsnevring av ryggmargskanalen slik at ryggmargen og nerverøttene får dårlige plassforhold. (Kilde: Store medisinske leksikon), sier Rashidi etter mye grubling.

For første gang er han usikker. Og når ChatGPT leser opp sitt svar – «Den mest sannsynlige diagnosen er hofteleddsartrosehofteleddsartroseHofteleddsartrose er en vanlig leddsykdom som rammer brusken i hofteleddet. Kvinner og menn rammes like hyppig. Noen får relativt moderate plager, mens for andre kan tilstanden være meget smertefull og invalidiserende. (Kilde: Store medisinske leksikon) ...» – får fastlegens fjes et drag av nederlag.

Han forklarer sitt gale svar med et middagsbesøk i helgen, der svigerfaren fortalte som sin spinale stenose.

– Så jeg lurer på om den bare har ligget langt fremme i hodet mitt. Kan det være noe så menneskelig og dumt som det?

3–2.

Ved neste spørsmål, om en 48 år gammel gårdbruker plaget av rødhet og brennende følelse i fjeset, stiller begge korrekt diagnose: RosaceaRosaceaRosacea er en hudsykdom med utslett i ansiktet som består av rødme, små betennelsesknuter og synlige blodårer. (Kilde: Store medisinske leksikon).

4–3.

Så kommer siste spørsmål, legens sjanse til å klare uavgjort mot maskinen.

Pasienten er en 75-åring som sliter med å svelge og av og til kaster opp ufordøyde matrester.

– Nå hadde jeg trengt å ringe en øre-nese-hals-lege, sier Rashidi, som også understreker at det nå hadde vært kjekt å faktisk kunne se ned i pasientens hals.

– Høyst oppe, gurglelyder, kaster opp ... jeg tror det er spiserørskreftspiserørskreftSpiserørskreft er ondartet svulst i spiserøret. Dette er den åttende hyppigste svulstformen i verden, men mindre hyppig i vestlige land. (Kilde: Store medisinske leksikon).

ChatGPT sier seg raskt uenig:

– Den mest sannsynlige diagnosen er Zenkers divertikkelZenkers divertikkelZenkers divertikkel er en relativt sjelden form for utposning på spiserørets øvre, bakre del, nær svelget. (Kilde: Store medisinske leksikon)...

– Åh, gud!

Resultat: Kaveh – ChatGPT 3–5

Inn i varmen på legekontoret

– Det er et veldig, veldig fortjent tap, da. Og ingen sure miner, sier Rashidi.

Foto: Dan P. Neegaard / Aftenposten

Likevel er ikke 36-åringen særlig bekymret. Han vet at pasienter, slik flere studier har vist, foretrekker å snakke med en feilbarlig, men empatisk menneskelege.

– Og så vet jeg at jeg kunne ha stilt et par spørsmål til og fått utelukket den kreften ganske fort. Men ja: Fader, det må være deilig å aldri ha et svakt øyeblikk!

Hvorfor gikk det dårligere med legene i studien som brukte KI? En teori har vært at de ignorerte maskinens råd. Men Kaveh Rashidi har tatt ChatGPT inn i varmen, og bruker den selv som sparringpartner.

Er Dr. Google moden for pensjon? Fastlegen er ikke i tvil.

– Google er jo drevet av annonseinntekter og parametere som er laget for å engasjere deg, for å få deg til å klikke inn på ting. Og da lett gir deg mer alvorlige diagnoser.

Selv om han aldri lar ChatGPT sette diagnoser på egne pasienter, har han testet den mye på hobbybasis. Og den har som oftest rett.

– Mitt inntrykk er at den også veldig ofte ender med å svare: «Kanskje du burde oppsøke legen for dette?» Og det er jo er en veldig fin konklusjon.

Read Entire Article