AGI

Med-Gemini: Transformasjon av medisinsk AI med neste generasjons multimodale modeller

Published June 10, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Kunstig intelligens (AI) har vært i fokus i medisinske feltet de siste årene. Det har forbedret nøyaktigheten av medisinske bilddiagnoser, hjulpet til å skape personlige behandlinger gjennom analyse av genetiske data, og akselerert legemiddelforskning ved å undersøke biologiske data. Likevel, til tross for disse imponerende fremgangene, er de fleste AI-applikasjonene i dag begrenset til bestemte oppgaver som kun bruker en type data, som for eksempel en CT-skanning eller genetisk informasjon. Denne enkeltmodale tilnærmingen er ganske annerledes enn hvordan leger arbeider, som integrerer data fra ulike kilder for å diagnostisere tilstander, forutsi resultater og skape omfattende behandlingsplaner.

For å virkelig støtte klinikere, forskere og pasienter i oppgaver som å generere radiologirapporter, analysere medisinske bilder og forutsi sykdommer fra genetiske data, må AI kunne håndtere ulike medisinske oppgaver ved å resonere over komplekse multimodale data, inkludert tekst, bilder, videoer og elektroniske helsejournaler (EHR). Imidlertid har byggingen av disse multimodale medisinske AI-systemer vært utfordrende på grunn av AIens begrensede evne til å håndtere ulike datatyper og mangelen på omfattende biomedisinske datasett.

Behovet for multimodale medisinske AI

Helsevesenet er et komplekst nettverk av sammenkoblede datakilder, fra medisinske bilder til genetisk informasjon, som helsepersonell bruker for å forstå og behandle pasienter. Imidlertid fokuserer tradisjonelle AI-systemer ofte på enkeltoppgaver med enkelt datatyper, noe som begrenser deres evne til å gi en omfattende oversikt over en pasients tilstand. Disse unimodale AI-systemene krever store mengder merket data, som kan være kostbare å få, og gir en begrenset rekkevidde av funksjoner, og møter utfordringer med å integrere innsikter fra ulike kilder.

Multimodale AI kan overvinne utfordringene med eksisterende medisinske AI-systemer ved å gi en helhetlig perspektiv som kombinerer informasjon fra ulike kilder, og tilbyr en mer nøyaktig og fullstendig forståelse av en pasients helse. Denne integrerte tilnærmingen forbedrer diagnostisk nøyaktighet ved å identifisere mønster og korrelasjoner som kan bli oversett når hver modus analyseres uavhengig. I tillegg fremmer multimodale AI dataintegrasjon, som gjør det mulig for helsepersonell å få tilgang til en samlet visning av pasientinformasjon, noe som fremmer samarbeid og godt informerte beslutninger. Dessutom er den tilpassingsdyktig og fleksibel, og kan lære fra ulike datatyper, tilpasse seg nye utfordringer og utvikle seg med medisinske fremgang.

Introduksjon av Med-Gemini

Nylige fremgang i store multimodale AI-modeller har utløst en bevegelse i utviklingen av sofistikerte medisinske AI-systemer. Ledende i denne bevegelsen er Google og DeepMind, som har introdusert deres avanserte modell, Med-Gemini. Denne multimodale medisinske AI-modellen har demonstrert enestående ytelse over 14 bransjestandarder, og overgår konkurrenter som OpenAI’s GPT-4. Med-Gemini er bygget på Gemini-familien av store multimodale modeller (LMM) fra Google DeepMind, designet for å forstå og generere innhold i ulike formater, inkludert tekst, lyd, bilder og video. I motsetning til tradisjonelle multimodale modeller, har Gemini en unik Mixture-of-Experts (MoE)-arkitektur, med spesialiserte transformator-modeller som er dyktige til å håndtere bestemte datasegmenter eller oppgaver. I det medisinske feltet betyr dette at Gemini kan dynamisk engasjere den mest egnede eksperten basert på innkommende datatypen, enten det er en radiologisk bilde, en genetisk sekvens, en pasienthistorie eller kliniske notater. Denne oppsettet speiler den multidisiplinære tilnærmingen som klinikere bruker, og forbedrer modellens evne til å lære og prosessere informasjon effektivt.

Fine-tuning av Gemini for multimodale medisinske AI

For å skape Med-Gemini, har forskerne fine-tunet Gemini på anonymiserte medisinske datasett. Dette gjør at Med-Gemini kan arve Gemini’s native evner, inkludert språklig samtale, resonnering med multimodale data og håndtering av lengre kontekster for medisinske oppgaver. Forskerne har trent tre kustomiserte versjoner av Gemini-visningskodifikatoren for 2D-modaliteter, 3D-modaliteter og genetikk. Dette er likt å trene spesialister i ulike medisinske fag. Treningsprosessen har ført til utviklingen av tre spesifikke Med-Gemini-variantene: Med-Gemini-2D, Med-Gemini-3D og Med-Gemini-Polygenic.

Med-Gemini-2D

Med-Gemini-2D er trent for å håndtere konvensjonelle medisinske bilder som for eksempel bryst-X-stråler, CT-slice, patologiske lappar og kamera bilder. Denne modellen utmerker seg i oppgaver som klassifisering, visuell spørsmålssvar og tekstgenerering. For eksempel, gitt en bryst-X-stråle og instruksjonen “Visste X-strålen noen tegn som kunne indikere carcinoma (en indikasjon på kreftige vekster)?”, kan Med-Gemini-2D gi en presis beskjed. Forskerne avslørte at Med-Gemini-2D’s raffinerte modell forbedret AI-aktivert rapportgenerering for bryst-X-stråler med 1% til 12%, og produserte rapporter “like gode eller bedre” enn de som ble gjort av radiologer.

Med-Gemini-3D

Utvidelsen av Med-Gemini-2D’s evner, er Med-Gemini-3D trent for å tolke 3D-medisinske data som for eksempel CT- og MR-skanninger. Disse skanningene gir en omfattende visning av anatomiske strukturer, og krever en dypere forståelse og mer avanserte analytiske teknikker. Evnen til å analysere 3D-skanninger med tekstlige instruksjoner markerer et betydelig sprang i medisinsk bilddiagnostikk. Evalueringer viste at mer enn halvparten av rapportene generert av Med-Gemini-3D ledet til samme behandlingsanbefalinger som de som ble gjort av radiologer.

Med-Gemini-Polygenic

I motsetning til de andre Med-Gemini-variantene som fokuserer på medisinske bilder, er Med-Gemini-Polygenic designet for å forutsi sykdommer og helseutfall fra genetiske data. Forskerne hevder at Med-Gemini-Polygenic er den første modellen av sin type som analyserer genetiske data ved hjelp av tekstlige instruksjoner. Eksperimenter viser at modellen overgår tidligere lineære polygenetiske poeng i å forutsi åtte helseutfall, inkludert depresjon, slag og glaukom. Merkelig nok, viser den også nullskudd-evner, og forutsier ytterligere helseutfall uten eksplisitt trening. Denne fremgangen er avgjørende for å diagnostisere sykdommer som for eksempel koronar arterie sykdom, KOLS og type 2-diabetes.

Bygging av tillit og sikring av gjennomsiktighet

I tillegg til sine bemerkelsesverdige fremgang i å håndtere multimodale medisinske data, har Med-Gemini’s interaktive evner potensialet til å adresse grunnleggende utfordringer i AI-tiltak i det medisinske feltet, som for eksempel den sorte boksen i AI og bekymringer om jobb-erstatning. I motsetning til typiske AI-systemer som opererer fra ende til ende og ofte tjener som erstatningsverktøy, fungerer Med-Gemini som et hjelpemiddel for helsepersonell. Ved å forbedre deres analyseevner, lettet Med-Gemini frykten for jobb-erstatning. Evnen til å gi detaljerte forklaringer av sine analyser og anbefalinger forbedrer gjennomsiktighet, og gjør det mulig for leger å forstå og verifisere AI-beslutninger. Denne gjennomsiktigheten bygger tillit blant helsepersonell. I tillegg støtter Med-Gemini menneskelig tilsyn, og sikrer at AI-genererte innsikter blir gjennomgått og verifisert av eksperter, og fremmer en samarbeidsorientert miljø hvor AI og medisinske fagfolk arbeider sammen for å forbedre pasientomsorgen.

Vei til virkelige anvendelser

Selv om Med-Gemini viser bemerkelsesverdige fremgang, er det fortsatt i forskningsfasen og krever grundig medisinsk validering før virkelige anvendelser. Streng klinisk testing og omfattende testing er essensielle for å sikre modellens pålitelighet, sikkerhet og effektivitet i ulike kliniske settinger. Forskere må validere Med-Gemini’s ytelse over ulike medisinske tilstander og pasientdemografi for å sikre dens robusthet og generaliserbarhet. Regulatoriske godkjenninger fra helsemyndighetene vil være nødvendige for å garantere overholdelse av medisinske standarder og etiske retningslinjer. Samarbeidsinnsats mellom AI-utviklere, medisinske fagfolk og regulatoriske organer vil være avgjørende for å finjustere Med-Gemini, adresse eventuelle begrensninger og bygge tillit til dens kliniske nytte.

Sammentrekning

Med-Gemini representerer et betydelig sprang i medisinsk AI ved å integrere multimodale data, som for eksempel tekst, bilder og genetisk informasjon, for å gi omfattende diagnostikk og behandlingsanbefalinger. I motsetning til tradisjonelle AI-modeller som er begrenset til enkeltoppgaver og datatyper, speiler Med-Gemini’s avanserte arkitektur den multidisiplinære tilnærmingen til helsepersonell, og forbedrer diagnostisk nøyaktighet og fremmer samarbeid. Til tross for dens lovende potensiale, krever Med-Gemini streng validering og regulatorisk godkjenning før virkelige anvendelser. Utviklingen av Med-Gemini signaliserer en fremtid hvor AI assisterer helsepersonell, og forbedrer pasientomsorgen gjennom sofistikert, integrert dataanalyse.