Ochrona zdrowia

Dane syntetyczne: Zmiana rasy w obrazach twarzy w celu rozwiązania problemu skłonności w zbiorach danych medycznych

Published June 15, 2021

Updated April 28, 2026

Martin Anderson

Naukowcy z UCLA opracowali metodę zmiany wyraźnej rasy twarzy w zbiorach danych wykorzystywanych do szkolenia systemów medycznych z wykorzystaniem uczenia maszynowego, w celu rozwiązania problemu skłonności rasowej, który dotyka wiele powszechnych zbiorów danych.

Nowa technika jest w stanie produkować fotorealistyczne i fizjologicznie dokładne syntetyczne wideo ze średnią szybkością 0,005 sekund na klatkę, i ma na celu wspomóc rozwój nowych systemów diagnostycznych do zdalnej diagnostyki i monitorowania opieki zdrowotnej – dziedziny, która znacznie rozwinęła się podczas ograniczeń COVID. System ma na celu poprawę stosowalności zdalnej fotoplethysmografii (rPPG), techniki wizji komputerowej, która ocenia zawartość wideo twarzy w celu wykrycia zmian objętościowych w zaopatrzeniu krwi w sposób nieinwazyjny.

Źródło: https://arxiv.org/pdf/2106.06007.pdf. Kliknij, aby powiększyć.

Chociaż praca, która wykorzystuje sieci neuronowe convolutionalne (CNN), uwzględnia wcześniejszy kod badawczy opublikowany przez Uniwersytet Durham w 2020 roku, nowe zastosowanie ma na celu zachowanie sygnałów pulsacyjnych w oryginalnych danych testowych, a nie tylko wizualną zmianę wyraźnej rasy danych, jak to robi badanie z 2020 roku.

CNN dla transformacji rasowej

Pierwsza część systemu encoder-decoder wykorzystuje model transferu rasy Durham, wstępnie wyszkolony na VGGFace2, w celu wygenerowania proxy ramki docelowej z wcześniejszym komponentem kaukasko-afrykańskim badania Durham. To produkuje płaską transformację cech rasowych, ale nie zawiera zmian koloru i tonu, które reprezentują wizualne wskaźniki fizjologiczne stanu krwi pacjenta.

Potok transformacji z badania z 2020 roku przez Uniwersytet Durham, częściowo włączony do nowego badania UCLA. Źródło: https://arxiv.org/pdf/2004.08945.pdf. Kliknij, aby powiększyć.

Druga sieć, nazwana PhysResNet (PRN), zapewnia komponent rPPG. PhysResNet jest szkolony, aby nauczyć się zarówno wyglądu wizualnego, jak i zmian koloru, które definiują ruchy objętościowe krwi podskórnej.

Dolny lewy, wyniki uzyskane przez badanie z 2020 roku przez Uniwersytet Durham, pozbawione informacji PPG. Środkowy lewy, informacje PPG włączone do transformacji rasowej. Kliknij, aby powiększyć.

Architektura, którą proponuje projekt UCLA, przewyższa techniki rPPG nawet w przypadku braku augmentacji koloru skóry, co stanowi 31% poprawę w porównaniu z podobnymi technikami zoptymalizowanymi z MAE i RMSE.

Sieć UCLA pomyślnie zachowuje informacje o objętości i dystrybucji krwi. Kliknij, aby powiększyć.

Naukowcy z UCLA mają nadzieję, że przyszła praca podejmie bardziej obszerny wyzwanie, aby rozwiązać problem skłonności rasowej w tej dziedzinie obrazowania medycznego, i mają nadzieję, że późniejsze schematy wyprodukują wideo o wyższej rozdzielczości, ponieważ system w question jest ograniczony do rozdzielczości 80×80 pikseli – odpowiednio dopasowany do ograniczeń telezdrowia, ale nie idealny.

Brak zbiorów danych etnicznie zróżnicowanych

Ekonomiczne i praktyczne okoliczności, które prowadzą do zbiorów danych rasowo zróżnicowanych, były przeszkodą w badaniach medycznych przez kilka lat. Dane tendencję do generowania się parochialnie, z wieloma czynnikami przyczyniającymi się do częstej homogeniczności danych podmiotów kaukaskich. Obejmuje to skład demograficzny mniejszości w miastach, w których prowadzone są badania, oraz inne czynniki socjoekonomiczne, które mogą wpływać na stopień, w jakim podmioty niebiałe pojawiają się w zachodnich zbiorach danych, których badacze życzyliby sobie, aby miały bardziej globalne zastosowanie.

W krajach o wyższym odsetku osób o ciemnej skórze, brakuje często niezbędnego sprzętu i zasobów do zebrania danych.

Mapa tonu skóry dla ludzi rdzennych, z Amerykańskiego Journal of Physical Anthropology.

Obecnie osoby o ciemnej skórze są zauważalnie niedoreprezentowane w zbiorach danych rPPG, stanowiąc 0%, 5% i 10% zawartości trzech głównych baz danych używanych do tego celu.

Homogeniczne dane kaukaskie

W 2019 roku nowe badanie opublikowane w Science stwierdziło, że algorytm szeroko rozpowszechniony w opiece zdrowotnej w USA był silnie spolaryzowany na korzyść podmiotów kaukaskich. Badanie wykazało, że osoby czarnoskóre były mniej prawdopodobne, aby zostać skierowane do specjalistycznej opieki w trybie i głębszych poziomach przyjęcia do szpitala.

Dalsze badanie w tym samym roku przez badaczy z Malezji i Australii ustaliło ogólny problem ‘własnej skłonności rasowej’ w generowaniu zbiorów danych w wielu regionach świata, w tym w Azji.

Potencjalne ograniczenia skali i architektury

Niektóre z ograniczeń, które doprowadziły do ograniczonych zbiorów danych etnicznych, są pragmatyczne, a nie etyczne. Im bardziej zróżnicowane jest danych, tym lepiej uogólnia się na podmioty przedstawione w tych danych, ale tym mniej rutyna szkoleniowa jest w stanie intuicyjnie rozpoznać wzorce w ramach jakiejkolwiek pojedynczej cechy danych, w tym rasy, ponieważ mniejszy procent czasu szkolenia, uwagi i zasobów jest dostępny dla każdego identyfikowalnego podzbioru danych.

To może prowadzić do modeli, które są szeroko stosowalne, ale uzyskują mniej specyficzne wyniki, ze względu na ograniczenia rozmiaru danych, ekonomiki rozmiaru partii i praktyczne ograniczenia przestrzeni latentnej jako funkcji ograniczonych zasobów sprzętowych.

Na drugim krańcu, chociaż skuteczne i szczegółowe wyniki mogą być uzyskane przez ograniczenie danych wejściowych do bardziej ograniczonego zestawu cech, w tym etniczności, wyniki są prawdopodobnie ‘przeuczane’ do ograniczonych danych i nie mają szerszego zastosowania, być może nawet w przypadku niewidocznych podmiotów w tej samej okolicy geograficznej, z której pochodzą oryginalne dane.

Syntetyczne awatary dla symulacji PPG

Artykuł UCLA zauważa również wcześniejsze badanie Microsoft Research z 2020 roku na temat użycia syntetycznych awatarów podatnych na ruchy rasowe, które wykorzystuje syntezę obrazu 3D do tworzenia wideo twarzy bogatych w informacje PPG.

Syntetyczne awatary stworzone przez badanie Microsoft, z obrazami wyrenderowanymi, które zawierają dane PPG. Źródło: https://arxiv.org/pdf/2010.12949.pdf. Kliknij, aby powiększyć.