Sundhedsvæsen
AI-algoritme læser og forudsiger patientdata fra elektroniske sundhedsjournaler

Forskere ved Icahn School of Medicine at Mount Sinai har udviklet en ny, automatiseret, kunstig intelligens (AI)-baseret algoritme, der kan læse og forudsige patientdata fra elektroniske sundhedsjournaler (EHR’er).
Den nye metode kaldes Phe2vec, og den kan nøjagtigt identificere patienter med visse sygdomme. Den blev demonstreret til at være lige så nøjagtig som den mest populære traditionelle metode, der kræver mere manuelt arbejde for at udføre.
Benjamin S. Glicksberg, PhD, er adjunkt i genetik og genomisk videnskab. Han er også medlem af Hasso Plattner Institute for Digital Health at Mount Sinai (HPIMS) og seniorforfatter på studiet.
“Der er fortsat en eksplosion i mængden og typerne af data, der elektronisk gemmes i en patients medicinske journal. At udrede denne komplekse netværk af data kan være meget besværligt, og det langsommelige fremskridt i klinisk forskning,” sagde Glicksberg. “I denne studie skabte vi en ny metode til at udvinde data fra elektroniske sundhedsjournaler med maskinlæring, der er hurtigere og mindre arbejdskrævende end branchestandarden. Vi håber, at dette vil være et værdifuldt værktøj, der vil lette yderligere og mindre fordomsfuld forskning i klinisk informatik.”
Studiet, der blev offentliggjort i tidsskriftet Patterns, blev ledet af Jessica K. De Freitas, en ph.d.-studerende i Dr. Glicksbergs laboratorium.
Nuværende branchestandard
Forskere er afhængige af etablerede computerprogrammer og algoritmer til at udtrække medicinske journaler for nye oplysninger. Et system kaldet Phenotype Knowledgebase (PheKB) udvikler og gemmer disse algoritmer. Systemet er meget effektivt til at korrekt identificere en patientdiagnose, men forskerne skal gå igennem mange medicinske journaler og lede efter datastykker først. Disse data omfatter ting som laboratorieundersøgelser og recepter.
Algoritmen er derefter programmeret til at guide computeren til at søge efter patienter, der har sygdomsspecifikke data, der betegnes som en “fenotype”. Dette gør det muligt for systemet at oprette en liste over patienter, der derefter skal kontrolleres manuelt af forskerne. Hvis forskerne ønsker at studere en ny sygdom, skal de starte processen forfra.
Den nye metode
Med den nye metode kan forskerne aktivere computeren til at selv lære at spotte sygdomsfenotyper, hvilket sparer forskerne tid og arbejde. Phe2vec-metoden var baseret på tidligere studier, som holdet havde gennemført.
Riccardo Miotto, PhD, er en tidligere adjunkt ved HPIMS og seniorforfatter på studiet.
“Tidligere har vi vist, at usuperviseret maskinlæring kan være en meget effektiv og effektiv strategi for at udvinde elektroniske sundhedsjournaler,” sagde Miotto. “Den potentielle fordel ved vores tilgang er, at den lærer repræsentationer af sygdomme fra dataene selv. Derfor gør maskinen meget af det arbejde, som eksperter normalt ville gøre for at definere kombinationen af dataelementer fra sundhedsjournaler, der bedst beskriver en bestemt sygdom.”
Computeren blev programmeret til at gå igennem millioner af elektroniske sundhedsjournaler og lære at identificere forbindelser mellem data og sygdomme. Programmeringen afhang af “embedding”-algoritmer, der også tidligere var udviklet af forskerne. Disse blev brugt til at studere ordnetværk i forskellige sprog.
En af disse algoritmer kaldtes word2vec, og den var særligt effektiv. Computeren blev derefter programmeret til at identificere diagnosen for omkring 2 millioner patienter, hvis data var gemt i Mount Sinai Health System.
Forskerne sammenlignede derefter effektiviteten af de nye og gamle systemer og fandt, at for ni ud af ti sygdomme, der blev testet, var det nye Phe2vec-system lige så effektivt eller lidt bedre end den nuværende “guldstandard” for fenotypering til at identificere diagnose fra EHR’er. Disse sygdomme kunne omfatte demens, multiple sklerose, sickle cell-anæmi og mere.
“Samlet set er vores resultater opmuntrende og antyder, at Phe2vec er en lovende teknik til storstilefenotypering af sygdomme i elektroniske sundhedsjournaldata,” sagde Dr. Glicksberg. “Med yderligere test og finjustering håber vi, at det kan bruges til at automatisere mange af de første skridt i klinisk informatikforskning, således at videnskabsmænd kan fokusere deres indsats på nedstrømsanalyser som prediktiv modellering.”












