stub Revolutionerende sundhedspleje: Udforskning af virkningen og fremtiden af ​​store sprogmodeller i medicin - Unite.AI
Følg os

Medicinal

Revolutionerende sundhedsvæsen: Udforskning af virkningen og fremtiden af ​​store sprogmodeller i medicin

mm

Udgivet

 on

Store sprogmodeller i medicin

Integration og anvendelse af store sprogmodeller (LLM'er) i medicin og sundhedsvæsen har været et emne af stor interesse og udvikling.

Som nævnt i Global konference for Healthcare Information Management og Systems Society og andre bemærkelsesværdige begivenheder, er det virksomheder som Google, der fører an i udforskningen af ​​potentialet for generativ AI inden for sundhedssektoren. Deres initiativer, såsom Med-PaLM 2, fremhæver det udviklende landskab af AI-drevne sundhedsløsninger, især inden for områder som diagnostik, patientbehandling og administrativ effektivitet.

Googles Med-PaLM 2, en banebrydende LLM inden for sundhedsområdet, har demonstreret imponerende egenskaber, især opnået et "ekspertniveau" i spørgsmål i stil med US Medical Licensing Examination. Denne model, og andre lignende den, lover at revolutionere den måde, sundhedspersonale får adgang til og udnytter information, hvilket potentielt vil forbedre diagnostisk nøjagtighed og patientbehandlingseffektivitet.

Men sideløbende med disse fremskridt er der rejst bekymringer om disse teknologiers praktiske og sikkerhed i kliniske omgivelser. For eksempel er afhængigheden af ​​store internetdatakilder til modeltræning, selvom den er gavnlig i nogle sammenhænge, ​​måske ikke altid passende eller pålidelig til medicinske formål. Som Nigam Shah, PhD, MBBS, Chief Data Scientist for Stanford HealthCare, påpeger, at de afgørende spørgsmål, der skal stilles, handler om disse modellers ydeevne i medicinske omgivelser i den virkelige verden og deres faktiske indvirkning på patientpleje og sundhedsydelsers effektivitet.

Dr. Shahs perspektiv understreger behovet for en mere skræddersyet tilgang til at bruge LLM'er i medicin. I stedet for generelle modeller trænet på brede internetdata, foreslår han en mere fokuseret strategi, hvor modeller trænes på specifikke, relevante medicinske data. Denne tilgang ligner uddannelse af en medicinsk praktikant - giver dem specifikke opgaver, overvåger deres præstationer og giver gradvist mulighed for mere autonomi, efterhånden som de demonstrerer kompetence.

I tråd hermed er udviklingen af Meditron af EPFL-forskere præsenterer et interessant fremskridt på området. Meditron, en open source LLM, der er specielt skræddersyet til medicinske applikationer, repræsenterer et væsentligt skridt fremad. Uddannet på kurerede medicinske data fra velrenommerede kilder som PubMed og kliniske retningslinjer, tilbyder Meditron et mere fokuseret og potentielt mere pålideligt værktøj til læger. Dens open source-karakter fremmer ikke kun gennemsigtighed og samarbejde, men giver også mulighed for løbende forbedringer og stresstest af det bredere forskningssamfund.

MEDITRON-70B-opnår-en-nøjagtighed-på-70.2-på-USMLE-stil-spørgsmål-i-MedQA-4-options-datasættet

MEDITRON-70B-opnår-en-nøjagtighed-på-70.2-på-USMLE-stil-spørgsmål-i-MedQA-4-options-datasættet

Udviklingen af ​​værktøjer som Meditron, Med-PaLM 2 og andre afspejler en voksende anerkendelse af sundhedssektorens unikke krav, når det kommer til AI-applikationer. Vægten på at træne disse modeller i relevante medicinske data af høj kvalitet og at sikre deres sikkerhed og pålidelighed i kliniske omgivelser er meget afgørende.

Desuden viser inddragelsen af ​​forskellige datasæt, såsom dem fra humanitære sammenhænge som Den Internationale Røde Kors Komité, en følsomhed over for de forskellige behov og udfordringer i global sundhedspleje. Denne tilgang stemmer overens med den bredere mission for mange AI-forskningscentre, som har til formål at skabe AI-værktøjer, der ikke kun er teknologisk avancerede, men også socialt ansvarlige og gavnlige.

Avisen med titlen "Store sprogmodeller koder for klinisk viden” for nylig offentliggjort i Nature, udforsker, hvordan store sprogmodeller (LLM'er) effektivt kan bruges i kliniske omgivelser. Forskningen præsenterer banebrydende indsigt og metoder, der kaster lys over LLM'ers muligheder og begrænsninger i det medicinske domæne.

Det medicinske domæne er karakteriseret ved dets kompleksitet med en bred vifte af symptomer, sygdomme og behandlinger, der konstant udvikler sig. LLM'er skal ikke kun forstå denne kompleksitet, men også følge med i den nyeste medicinske viden og retningslinjer.

Kernen i denne forskning kredser om et nyligt kurateret benchmark kaldet MultiMedQA. Dette benchmark kombinerer seks eksisterende medicinske spørgsmål-svar-datasæt med et nyt datasæt, HealthSearchQA, som omfatter medicinske spørgsmål, der ofte søges online. Denne omfattende tilgang har til formål at evaluere LLM'er på tværs af forskellige dimensioner, herunder faktualitet, forståelse, ræsonnement, mulig skade og bias, og derved adressere begrænsningerne af tidligere automatiserede evalueringer, der var baseret på begrænsede benchmarks.

MultiMedQA, et benchmark til besvarelse af medicinske spørgsmål, der spænder over medicinsk eksamen

MultiMedQA, et benchmark til besvarelse af medicinske spørgsmål, der spænder over medicinsk eksamen

Nøglen til undersøgelsen er evalueringen af ​​Pathways Language Model (PaLM), en 540 milliarder parameter LLM, og dens instruktionstunede variant, Flan-PaLM, på MultiMedQA. Det bemærkelsesværdige er, at Flan-PaLM opnår avanceret nøjagtighed på alle multiple-choice-datasæt inden for MultiMedQA, inklusive en 67.6 % nøjagtighed på MedQA, som omfatter spørgsmål i stil med US Medical Licensing Exam-stil. Denne ydeevne markerer en væsentlig forbedring i forhold til tidligere modeller, og overgår den tidligere kendte teknik med mere end 17 %.

MedQA

MedQA-datasættet3 indeholder spørgsmål, der er stilet efter USMLE, hver med fire eller fem svarmuligheder. Det inkluderer et udviklingssæt med 11,450 spørgsmål og et testsæt bestående af 1,273 spørgsmål.

Format: question and answer (Q + A), multiple choice, open domain.

Example question: A 65-year-old man with hypertension comes to the physician for a routine health maintenance examination. Current medications include atenolol, lisinopril, and atorvastatin. His pulse is 86 min−1, respirations are 18 min−1, and blood pressure is 145/95 mmHg. Cardiac examination reveals end diastolic murmur. Which of the following is the most likely cause of this physical examination?

Answers (correct answer in bold): (A) Decreased compliance of the left ventricle, (B) Myxomatous degeneration of the mitral valve (C) Inflammation of the pericardium (D) Dilation of the aortic root (E) Thickening of the mitral valve leaflets.

Undersøgelsen identificerer også kritiske huller i modellens ydeevne, især i besvarelsen af ​​medicinske forbrugerspørgsmål. For at løse disse problemer introducerer forskerne en metode kendt som instruktionsprompt tuning. Denne teknik justerer effektivt LLM'er til nye domæner ved hjælp af nogle få eksempler, hvilket resulterer i oprettelsen af ​​Med-PaLM. Med-PaLM-modellen, selvom den fungerer opmuntrende og viser forbedringer i forståelse, genkaldelse af viden og ræsonnement, kommer stadig til kort sammenlignet med klinikere.

Et bemærkelsesværdigt aspekt af denne forskning er den detaljerede menneskelige evalueringsramme. Denne ramme vurderer modellernes svar for overensstemmelse med videnskabelig konsensus og potentielle skadelige resultater. For eksempel, mens kun 61.9% af Flan-PaLM's langformede svar stemte overens med videnskabelig konsensus, steg dette tal til 92.6% for Med-PaLM, hvilket kan sammenlignes med klinikergenererede svar. På samme måde var potentialet for skadelige resultater signifikant reduceret i Med-PaLMs svar sammenlignet med Flan-PaLM.

Den menneskelige evaluering af Med-PaLM's svar fremhævede dens dygtighed på flere områder, hvilket var tæt på linje med klinikergenererede svar. Dette understreger Med-PaLMs potentiale som et støttende værktøj i kliniske omgivelser.

Den forskning, der er diskuteret ovenfor, dykker ned i forviklingerne ved at forbedre store sprogmodeller (LLM'er) til medicinske anvendelser. Teknikkerne og observationerne fra denne undersøgelse kan generaliseres for at forbedre LLM-kapaciteter på tværs af forskellige domæner. Lad os undersøge disse nøgleaspekter:

Instruktionsindstilling forbedrer ydeevnen

  • Generaliseret anvendelse: Instruktionsjustering, som involverer finjustering af LLM'er med specifikke instruktioner eller retningslinjer, har vist sig at forbedre ydeevnen betydeligt på tværs af forskellige domæner. Denne teknik kan anvendes på andre områder såsom juridiske, finansielle eller uddannelsesmæssige domæner for at øge nøjagtigheden og relevansen af ​​LLM-output.

Skalering af modelstørrelse

  • Bredere implikationer: Observationen af, at skalering af modelstørrelsen forbedrer ydeevnen, er ikke begrænset til svar på medicinske spørgsmål. Større modeller med flere parametre har kapacitet til at behandle og generere mere nuancerede og komplekse svar. Denne skalering kan være gavnlig inden for domæner som kundeservice, kreativ skrivning og teknisk support, hvor nuanceret forståelse og generering af respons er afgørende.

Chain of Thought (COT) tilskyndelse

  • Udnyttelse af forskellige domæner: Brugen af ​​COT-prompt, selvom den ikke altid forbedrer ydeevnen i medicinske datasæt, kan være værdifuld i andre domæner, hvor kompleks problemløsning er påkrævet. For eksempel, i teknisk fejlfinding eller komplekse beslutningstagningsscenarier, kan COT-prompts guide LLM'er til at behandle information trin for trin, hvilket fører til mere nøjagtige og begrundede output.

Selvkonsistens for øget nøjagtighed

  • Bredere applikationer: Teknikken med selvkonsistens, hvor der genereres flere output, og det mest konsistente svar vælges, kan forbedre ydeevnen betydeligt på forskellige områder. På domæner som finans eller juridisk, hvor nøjagtighed er altafgørende, kan denne metode bruges til at krydsverificere de genererede output for højere pålidelighed.

Usikkerhed og selektiv forudsigelse

  • Relevans på tværs af domæner: Kommunikation af usikkerhedsestimater er afgørende på områder, hvor misinformation kan have alvorlige konsekvenser, såsom sundhedsvæsen og jura. At bruge LLM'ers evne til at udtrykke usikkerhed og selektivt udskyde forudsigelser, når tilliden er lav, kan være et afgørende værktøj på disse områder for at forhindre spredning af unøjagtige informationer.

Den virkelige anvendelse af disse modeller strækker sig ud over at besvare spørgsmål. De kan bruges til patientuddannelse, assistere i diagnostiske processer og endda til træning af medicinstuderende. Deres implementering skal dog styres omhyggeligt for at undgå afhængighed af AI uden ordentligt menneskeligt tilsyn.

Efterhånden som medicinsk viden udvikler sig, skal LLM'er også tilpasse sig og lære. Dette kræver mekanismer til løbende læring og opdatering, der sikrer, at modellerne forbliver relevante og nøjagtige over tid.

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af ​​Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.