Ochrona zdrowia

Tworzenie syntetycznych zbiorów danych ran z użyciem sieci generatywno-adwersowych

Published April 22, 2021

Updated April 5, 2026

Martin Anderson

Po raz pierwszy, sieć generatywno-adwersowa jest wykorzystywana do tworzenia syntetycznych zbiorów danych obrazów ran, w celu zaradzenia krytycznemu brakowi różnorodnych i dostępnych treści tego typu w aplikacjach sztucznej inteligencji w ochronie zdrowia.

System, nazwany WG²AN, jest współpracą pomiędzy Batten College of Engineering & Technology a firmą AI eKare, która specjalizuje się w stosowaniu metodologii sztucznej inteligencji do pomiaru i identyfikacji ran.

Sieć generatywno-adwersowa jest szkolona na 100-4000 obrazach ran przewlekłych, stereoskopowych, opatrzonych etykietami, dostarczonych przez eKare, w tym anonimowych zdjęć różnych typów urazów, takich jak rany ciśnieniowe, chirurgiczne, limfowaskularne, cukrzycowe i oparzeniowe. Materiał źródłowy różnił się rozmiarem od 1224×1224 do 2160×2160, wszystkie zdjęcia zostały wykonane w dostępnym świetle przez lekarzy.

Aby dostosować się do dostępnego latent space w architekturze szkolenia modelu, obrazy zostały przeskalowane do 512×512 i wyodrębnione z ich tła. Aby zbadać wpływ rozmiaru zbioru danych, przeprowadzono testy na partiach 100, 250, 500, 1000, 2000 i 4000 obrazów.

Źródło: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Powiększony obraz pokazuje wzrost szczegółowości i granulacji w zależności od rozmiaru zestawu szkoleniowego i liczby epok wykonanych w każdym przebiegu.

Architektura WG2GAN. Źródło: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

WG²AN działa na PyTorch na względnie lekkim zestawie konsumenckim, z 8GB VRAM na karcie graficznej GTX 1080. Szkolenie trwało od 4 do 58 godzin w zależności od rozmiaru zbioru danych od 100 do 4000 obrazów i w zależności od liczby epok, w partiach 64 jako kompromis pomiędzy dokładnością a wydajnością. Optymalizator Adam jest używany w pierwszej połowie szkolenia przy szybkości uczenia 0,0002, a następnie z malejącą liniowo szybkością uczenia aż do osiągnięcia straty zero.

Powyżej po lewej, segmentacja zastosowana do obszaru rany. Powyżej na środku, obraz rzeczywistej rany; powyżej po prawej, syntetyczna rana danego typu, który może być uogólniony w zbiorze danych, na podstawie oryginalnego źródła. Poniżej, oryginalna rana, a po prawej, syntetyczna rana wygenerowana przez WG2GAN.

W zbiorach danych medycznych, jak i w wielu innych dziedzinach sztucznej inteligencji, etykietowanie jest nieuniknionym wąskim gardłem. W tym przypadku badacze wykorzystali półautomatyczny system etykietowania, który wykorzystuje wcześniejsze badania eKare, które wykorzystywały modele ran zrobione z plasteliny i pomalowane w celu uzyskania kontekstu semantycznego.

Modele ran eKare

Badacze zauważyli problem, który często występuje we wstępnych etapach szkolenia, gdy zestaw danych jest bardzo zróżnicowany, a wagi są losowe – model potrzebuje długiego czasu (75 epok) aby “ustabilizować się”:

Gdzie dane są zróżnicowane, zarówno modele GAN, jak i modele encoder/decoder mają trudności z uzyskaniem uogólnienia we wstępnych etapach, jak możemy zobaczyć na powyższym wykresie szkolenia WG²GAN, który śledzi przebieg szkolenia od początku do straty zero.

Należy zachować ostrożność, aby proces szkolenia nie skupił się na cechach lub charakterystyce jednej iteracji lub epoki, ale raczej kontynuował uogólnianie do użytecznej średniej straty bez wytwarzania wyników, które w nadmiarze abstrahują materiał źródłowy. W przypadku WG²GAN, mogłoby to ryzykować stworzenie nieograniczonych, całkowicie “fikcyjnych” ran, połączonych między zbyt szerokim zakresem niepowiązanych typów ran, zamiast wytwarzania dokładnego zakresu wariacji w ramach danego typu rany.

Kontrolowanie zakresu w zbiorze danych maszynowego uczenia

Modele z lżejszymi zestawami szkoleniowymi uogólniają szybciej, a badacze twierdzą, że najbardziej realistyczne obrazy mogą być uzyskane przy ustawieniach poniżej maksymalnych: zestaw danych 1000 obrazów szkolonych przez 200 epok.

Chociaż mniejsze zestawy danych mogą osiągnąć bardzo realistyczne obrazy w krótszym czasie, zakres obrazów i typów ran wygenerowanych będzie koniecznie bardziej ograniczony. Istnieje delikatna równowaga w reżimach szkoleniowych GAN i encoder/decoder pomiędzy objętością i różnorodnością danych wejściowych, wiernością wytwarzanych obrazów i realistycznością wytwarzanych obrazów — kwestie zakresu i wag, które nie są ograniczone do syntezy obrazów medycznych.

Nierównowaga klas w zbiorach danych medycznych

Ogólnie, maszynowe uczenie się w ochronie zdrowia jest dotknięte nie tylko brakiem zbiorów danych, ale także nierównowagą klas, gdzie istotne dane na temat określonej choroby stanowią tak mały procent jego zbioru danych, że ryzykuje to albo być odrzuconym jako dane outlier, albo zostać wchłoniętym w procesie uogólniania w trakcie szkolenia.

Istnieje wiele metod, które zostały zaproponowane w celu rozwiązania tego problemu, takich jak niedouszczanie lub naduszczanie. Jednakże, problem ten jest często omijany przez rozwijanie zbiorów danych specyficznych dla choroby, które są całkowicie związane z jednym problemem medycznym. Chociaż ten podejście jest skuteczne w przypadku indywidualnym, przyczynia się ono do kultury bałkanizacji w sferze badań nad sztuczną inteligencją w ochronie zdrowia i powoduje spowolnienie postępu w tej dziedzinie.

Related Topics:GAN GANs health healthcare image classification medical medical images

Martin Anderson

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.

Unite.AI

Tworzenie syntetycznych zbiorów danych ran z użyciem sieci generatywno-adwersowych

Kontrolowanie zakresu w zbiorze danych maszynowego uczenia

Nierównowaga klas w zbiorach danych medycznych

You may like