rozhovory

Josh Miller, generální ředitel společnosti Gradient Health – Interview Series

Zveřejněno

Před rokem 1

19. prosince 2022

Josh Miller je generálním ředitelem společnosti Gradient Health, společnost založená na myšlence, že automatizovaná diagnostika musí existovat, aby zdravotní péče byla spravedlivá a dostupná všem. Gradient Health si klade za cíl urychlit automatizovanou diagnostiku AI s daty, která jsou uspořádaná, označená a dostupná.

Mohl byste se podělit o příběh geneze Gradient Health?

Můj spoluzakladatel Ouwen a já jsme právě opustili náš první start-up FarmShots, který využíval počítačové vidění ke snížení množství pesticidů používaných v zemědělství, a hledali jsme naši další výzvu.

Vždy nás motivovala touha najít obtížný problém k vyřešení pomocí technologie, která a) má příležitost vykonat ve světě mnoho dobrého a b) vede k solidnímu podnikání. Ouwen pracoval na svém lékařském diplomu a díky našim zkušenostem s počítačovým viděním nám lékařské zobrazování přirozeně vyhovovalo. Vzhledem k ničivému dopadu rakoviny prsu jsme jako potenciální první aplikaci zvolili mamografii. Tak jsme řekli: „Dobře, kde začneme? Potřebujeme data. Potřebujeme tisíc mamografů. Kde berete takový rozsah dat?" a odpověď byla „Nikde“. Okamžitě jsme si uvědomili, že je opravdu těžké najít data. Po měsících pro nás tato frustrace přerostla ve filozofický problém. Mysleli jsme si, že „každý, kdo se v tomto prostoru snaží konat dobro, by neměl bojovat a snažit se získat data, která potřebuje k sestavení život zachraňujících algoritmů“. A tak jsme řekli: „Hele, možná je to vlastně náš problém, který musíme vyřešit“.

Jaká jsou aktuální rizika na trhu s nereprezentativními údaji?

Z bezpočtu studií a příkladů z reálného světa víme, že když sestavíme algoritmus, který používá pouze data ze západního pobřeží, a vy ho přenesete na jihovýchod, prostě to nebude fungovat. Znovu a znovu slýcháme příběhy AI, která skvěle funguje v nemocnici na severovýchodě, kde byla vytvořena, a když ji nasadí jinde, přesnost klesne na méně než 50 %.

Domnívám se, že základním účelem umělé inteligence na etické úrovni je snížit zdravotní nesrovnalosti. Cílem je, aby kvalitní péče byla dostupná a dostupná pro každého. Ale problém je, když to máte postavené na špatných datech, tak vlastně zvětšujete nesrovnalosti. Selháváme v poslání zdravotnické umělé inteligence, pokud ji necháme fungovat pouze pro bělochy z pobřeží. Lidé z nedostatečně zastoupeného prostředí budou ve skutečnosti trpět větší diskriminací, nikoli menší.

Mohl byste probrat, jak Gradient Health získává data?

Jistě, spolupracujeme se všemi typy zdravotnických systémů po celém světě, jejichž data jsou jinak uložena, stojí je to peníze a nikomu to nepřináší užitek. Důkladně odidentifikujeme jejich data u zdroje a poté je pečlivě uspořádáme pro výzkumníky.

Jak zajišťuje Gradient Health, že data jsou nezkreslená a co nejrozmanitější?

Existuje mnoho způsobů. Když například sbíráme data, dbáme na to, abychom zahrnuli spoustu komunitních klinik, kde máte často mnohem reprezentativnější data, a také větší nemocnice. Naše data také získáváme z velkého počtu klinických pracovišť. Snažíme se získat co nejvíce lokalit z co nejširšího okruhu populací. Tedy nejen mít vysoký počet stránek, ale mít je geograficky a sociálně-ekonomicky různorodé. Protože pokud jsou všechny vaše stránky z nemocnic v centru města, stále to nejsou reprezentativní údaje, že?

Abychom to všechno ověřili, spouštíme statistiky napříč všemi těmito datovými sadami a přizpůsobujeme je pro klienta, abychom zajistili, že získávají data, která jsou různorodá z hlediska technologie a demografie.

Proč je tato úroveň kontroly dat tak důležitá pro navrhování robustních algoritmů umělé inteligence?

Existuje mnoho proměnných, se kterými se může AI setkat v reálném světě, a naším cílem je zajistit, aby byl algoritmus tak robustní, jak jen může být. Abychom to zjednodušili, uvažujeme v našich datech o pěti klíčových proměnných. První proměnnou, o které přemýšlíme, je „výrobce zařízení“. Je to zřejmé, ale pokud vytvoříte algoritmus pouze pomocí dat ze skenerů GE, nebude fungovat tak dobře, řekněme na Hitachi.

V podobném duchu je proměnná „model vybavení“. Tohle je vlastně docela zajímavé z hlediska zdravotní nerovnosti. Víme, že velké, dobře financované výzkumné nemocnice mívají nejnovější a nejlepší verze skenerů. A pokud svou AI trénují pouze na svých vlastních modelech z roku 2022, nebude to fungovat tak dobře na starším modelu z roku 2010. Tyto starší systémy jsou přesně ty, které se nacházejí v méně bohatých a venkovských oblastech. Takže tím, že používají pouze data z novějších modelů, neúmyslně zavádějí další zaujatost vůči lidem z těchto komunit.

Dalšími klíčovými proměnnými jsou pohlaví, etnická příslušnost a věk a my jdeme hodně daleko, abychom zajistili, že naše data jsou proporcionálně vyvážená napříč všemi z nich.

Jaké jsou některé z regulačních překážek, kterým čelí společnosti MedTech?

Začínáme být svědky toho, že FDA skutečně vyšetřuje zaujatost v souborech dat. Měli jsme výzkumníky, kteří k nám přišli a řekli: „FDA zamítla náš algoritmus, protože v něm chybělo 15 % afroamerické populace“ (přibližné procento Afroameričanů, kteří jsou součástí americké populace). Slyšeli jsme také o vývojáři, kterému bylo řečeno, že musí do svých tréninkových dat zahrnout 1 % obyvatel Havajských ostrovů v Pacifiku.

FDA si tedy začíná uvědomovat, že tyto algoritmy, které byly právě trénovány v jedné nemocnici, v reálném světě nefungují. Faktem je, že pokud chcete označení CE a povolení FDA, musíte přijít s datovým souborem, který představuje populaci. Je správně již nepřijatelné trénovat AI na malé nebo nereprezentativní skupině.

Rizikem pro MedTechs je, že investují miliony dolarů, aby dostali svou technologii na místo, kde si myslí, že jsou připraveni na regulační povolení, a pokud se jim to nepodaří projít, nikdy nedostanou náhradu ani příjmy. Nakonec, cesta ke komercializaci a cesta k takovému příznivému dopadu na zdravotní péči, jaký chtějí mít, vyžaduje, aby se starali o zkreslení dat.

Jaké jsou některé z možností, jak tyto překážky překonat z pohledu dat?

V posledních letech se metody správy dat vyvinuly a vývojáři AI mají nyní k dispozici více možností než kdykoli předtím. Od zprostředkovatelů dat a partnerů po federované učení a syntetická data existují nové přístupy k těmto překážkám. Ať už zvolí jakoukoli metodu, vždy vývojářům doporučujeme, aby zvážili, zda jsou jejich data skutečně reprezentativní pro populaci, která bude produkt používat. Toto je zdaleka nejobtížnější aspekt získávání dat.

Řešením, které Gradient Health nabízí, je Gradient Label, co je toto řešení a jak umožňuje označování dat ve velkém měřítku?

Umělá inteligence pro lékařské zobrazování nevyžaduje jen data, ale také odborné anotace. A pomáháme společnostem získat tyto odborné anotace, včetně anotace od radiologů.

Jaká je vaše vize budoucnosti AI a dat ve zdravotnictví?

Již existují tisíce nástrojů umělé inteligence, které sledují vše od konečků vašich prstů až po špičky vašich nohou, a myslím, že to bude pokračovat. Myslím, že v lékařské učebnici bude pro každý stav alespoň 10 algoritmů. Každý z nich bude mít několik, pravděpodobně konkurenčních, nástrojů, které pomohou lékařům poskytovat nejlepší péči.

Nemyslím si, že se pravděpodobně dočkáme tricorderu ve stylu Star Treku, který někoho naskenuje a vyřeší všechny možné problémy od hlavy až k patě. Místo toho budeme mít specializované aplikace pro každou podmnožinu.

Je ještě něco, o co byste se chtěli podělit o Gradient Health?

Jsem nadšený z budoucnosti. Myslím, že směřujeme k místu, kde je zdravotní péče levná, rovná a dostupná všem, a jsem nadšený, že Gradient dostane šanci sehrát zásadní roli v tom, aby se to stalo. Celý tým zde tomuto poslání skutečně věří a je mezi nimi jednotná vášeň, kterou nezažijete v každé společnosti. A miluji to!

Děkuji za skvělý rozhovor, čtenáři, kteří se chtějí dozvědět více, by měli navštívit Gradient Health.