Forskere trener KI med feilaktige eksempler

3 hours ago 1


Denne artikkelen er produsert og finansiert av Universitetet i Oslo - les mer.

Maskinlæring og kunstig intelligens vil spille en sentral rolle i utviklingen av nye legemidler og vaksiner. Ny forskning har avdekket nye innsikter om hvordan disse modellene bør trenes.

Figuren illustrerer det forskerne kaller «digitaliserte antistoffer». (Illustrasjon: Rahmad Akbar)

Antistoffer er proteiner i kroppen som binder til smittestoffer og bidrar i bekjempelse av infeksjoner. 

Tenk deg at du er en forsker som jobber med å lage antistoffer. Antistoffer kan angripe spesifikke mål i kroppen. Målene kan for eksempel være et virus eller proteiner og molekyler som viser tegn på kreft.

Du tester en rekke antistoffer. Du finner ut at noen fungerer, mens andre ikke gjør det. Du vil fortsette å tilpasse dem og se om du kan gjøre dem enda bedre.

Men du vil ikke bruke tid på å teste de antistoffene som helt sikkert ikke kommer til å virke. Disse vil du identifisere. Slik står du bare igjen med antistoffer som potensielt kan brukes når du går videre til kostbare og tidkrevende eksperimenter.

KI-modeller kan finne ut hvilke antistoffer som kan fungere

En måte å gjøre dette på er å trene en KI-modell sånn at den kan hjelpe deg i prosessen.

Flere forskere bruker allerede slike modeller for å snevre inn søket sitt.

Vi må vise modellene feilaktige eksempler som ligner veldig på de riktige. På denne måten lærer datamodellene mer effektivt, forklarer forsker Minnegalieva. (Foto: Åsne Rambøl Hillestad / UiO)

Modellene kan lære hvilke egenskaper et antistoff må ha for å kunne binde seg til og angripe et mål i kroppen. De lærer dette ved å se på mange eksempler. 

– Vi mennesker kan ikke få til dette. Vi klarer nemlig ikke å oppfatte hvilke antistoffer som kan binde seg og hvilke som ikke kan det, sier forsker Aygul Minnegalieva ved Universitetet i Oslo.

Hun forsker på hvordan vi kan trene KI-modeller på best mulig måte.

– Men ikke alle modeller for maskinlæring vil klare dette riktig. Bare hvis modellene trenes med de riktige dataene, kan vi bruke dem til å få en forståelse av hva som for eksempel gjør et antistoff til en binder, forklarer hun.

Forskerne trener modellene

Forskerne vil trene modellene slik at de klarer å kjenne igjen hvilke antistoffer som binder seg til et virus eller en bakterie eller sopp.

– En tilnærming for å oppnå dette er å gi modellene eksempler på både riktige og gale responser angående hva vi ønsker at de skal gjenkjenne, forklarer forskeren.

Slike eksempler på feil kalles negative data. De riktige eksemplene kalles positive data.

Feilene må være vanskelige for modellene å kjenne igjen. I den nye studien viser Minnegalieva og kolleger at de negative dataene som modellene utsettes for, må være tilstrekkelig utfordrende.

– Vi må vise modellene feilaktige eksempler som ligner veldig på de riktige. På denne måten lærer datamodellene mer effektivt, påpeker hun.

KI-modellene ble flinkere til å resonnere

Spesifikt presenterte forskerne modellene for negative data med antistoffer som binder seg til proteiner på en dårlig måte. Det kunne for eksempel være i et virus.

– Modellene forbedret evnen sin til å skille mellom antistoffer som ville være effektive i å bekjempe et virus og dem som ikke ville vært det, forklarer forskeren.

Viktigst av alt – denne metoden gjorde at modellene fanget opp de underliggende faktorene i antistoffer som gjør at de enklere binder seg til et protein i et virus.

– Disse ga mer biologisk mening. I bunn og grunn ble modellene bedre til å resonnere,  sier Minnegalieva.

Forskere kan bruke KI for å utvikle medisiner raskere

Maskinlæring brukes i økende grad i utviklingen av nye legemidler. Det gjør at forskere ikke trenger å gjøre like mange kostbare, eksperimentelle tester.

Professor Victor Greiff er leder ved laboratoriet hvor forskningen har funnet sted. (Foto: Øystein Horgmo / UiO)

Hun sier at de kan redusere antallet feil når de utvikler nye kandidater av antistoffer eller medisiner som skal målrettes mot ulike virus, bakterier, sopp, parasitter eller kreft, sier hun. 

– Modellene vi bruker, må både være nøyaktige og pålitelige. De må virkelig forstå hva som er viktig fra et biologisk perspektiv. Først da kan vi gjøre gode beregninger og spare tid.

Den nye studien viser hvordan modellene kan trenes for bedre å oppfylle disse kravene.

Metoden kan tas i bruk innen språkmodellering og proteindesign

Selv om studien tok for seg antistoffer, kan denne treningsmetoden med positive og negative data tas i bruk innen ulike fagfelt hvor maskinlæring brukes.

Minnelagieva forteller at i felt som språkmodellering, proteindesign og beregning av molekylære egenskaper trenger forskerne også eksempler på det som ikke fungerer, altså negative data. 

– Alle disse områdene står overfor risikoen for at modellene tar snarveier hvis de negative eksemplene er for enkle. Studien vår er derfor relevant også for disse fagfeltene, sier hun.

Også professor og leder ved laboratoriet på UiO, Victor Greiff, påpeker betydningen og relevansen av studien.

Arbeidet viser at datasamling ikke bare er et steg for forhåndsbehandling, men derimot et vitenskapelig valg som koder antakelser og bestemmer hva maskinlæring kan oppdage, forklarer han.

– For immunologi, oppdagelsen av legemidler og mer, kan nøye design av datasett være nøkkelen til å bygge maskinlæringsmodeller som generaliserer og avdekker ekte biologiske prinsipper, sier Greiff.

Referanser:

Eugen Ursu, Aygul Minnegalieva, Victor Greiff mfl.: Training data composition determines machine learning generalization and biological rule discovery. Nature Machine Intelligence, 2025. Sammendrag. Doi.org/10.1038/s42256-025-01089-5

Wesley Ta & Jonathan M. Stokes: The importance of negative training data for robust antibody binding prediction: Machine learning. Nature Machine Intelligence, 2025. Sammendrag. Doi.org/10.1038/s42256-025-01080-0

forskning.no vil gjerne høre fra deg!

Har du en tilbakemelding, spørsmål, ros eller kritikk? TA KONTAKT HER

Read Entire Article