Ochrona zdrowia
Tworzenie syntetycznych zbiorów danych ran z użyciem sieci generatywno-adwersowych

Po raz pierwszy, sieć generatywno-adwersowa jest wykorzystywana do tworzenia syntetycznych zbiorów danych obrazów ran, w celu zaradzenia krytycznemu brakowi różnorodnych i dostępnych treści tego typu w aplikacjach sztucznej inteligencji w ochronie zdrowia.
System, nazwany WG2AN, jest współpracą pomiędzy Batten College of Engineering & Technology a firmą AI eKare, która specjalizuje się w stosowaniu metodologii sztucznej inteligencji do pomiaru i identyfikacji ran.
Sieć generatywno-adwersowa jest szkolona na 100-4000 obrazach ran przewlekłych, stereoskopowych, opatrzonych etykietami, dostarczonych przez eKare, w tym anonimowych zdjęć różnych typów urazów, takich jak rany ciśnieniowe, chirurgiczne, limfowaskularne, cukrzycowe i oparzeniowe. Materiał źródłowy różnił się rozmiarem od 1224×1224 do 2160×2160, wszystkie zdjęcia zostały wykonane w dostępnym świetle przez lekarzy.
Aby dostosować się do dostępnego latent space w architekturze szkolenia modelu, obrazy zostały przeskalowane do 512×512 i wyodrębnione z ich tła. Aby zbadać wpływ rozmiaru zbioru danych, przeprowadzono testy na partiach 100, 250, 500, 1000, 2000 i 4000 obrazów.
Powiększony obraz pokazuje wzrost szczegółowości i granulacji w zależności od rozmiaru zestawu szkoleniowego i liczby epok wykonanych w każdym przebiegu.

Architektura WG2GAN. Źródło: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033
WG2AN działa na PyTorch na względnie lekkim zestawie konsumenckim, z 8GB VRAM na karcie graficznej GTX 1080. Szkolenie trwało od 4 do 58 godzin w zależności od rozmiaru zbioru danych od 100 do 4000 obrazów i w zależności od liczby epok, w partiach 64 jako kompromis pomiędzy dokładnością a wydajnością. Optymalizator Adam jest używany w pierwszej połowie szkolenia przy szybkości uczenia 0,0002, a następnie z malejącą liniowo szybkością uczenia aż do osiągnięcia straty zero.

Powyżej po lewej, segmentacja zastosowana do obszaru rany. Powyżej na środku, obraz rzeczywistej rany; powyżej po prawej, syntetyczna rana danego typu, który może być uogólniony w zbiorze danych, na podstawie oryginalnego źródła. Poniżej, oryginalna rana, a po prawej, syntetyczna rana wygenerowana przez WG2GAN.
W zbiorach danych medycznych, jak i w wielu innych dziedzinach sztucznej inteligencji, etykietowanie jest nieuniknionym wąskim gardłem. W tym przypadku badacze wykorzystali półautomatyczny system etykietowania, który wykorzystuje wcześniejsze badania eKare, które wykorzystywały modele ran zrobione z plasteliny i pomalowane w celu uzyskania kontekstu semantycznego.

Modele ran eKare
Badacze zauważyli problem, który często występuje we wstępnych etapach szkolenia, gdy zestaw danych jest bardzo zróżnicowany, a wagi są losowe – model potrzebuje długiego czasu (75 epok) aby “ustabilizować się”:

Gdzie dane są zróżnicowane, zarówno modele GAN, jak i modele encoder/decoder mają trudności z uzyskaniem uogólnienia we wstępnych etapach, jak możemy zobaczyć na powyższym wykresie szkolenia WG2GAN, który śledzi przebieg szkolenia od początku do straty zero.
Należy zachować ostrożność, aby proces szkolenia nie skupił się na cechach lub charakterystyce jednej iteracji lub epoki, ale raczej kontynuował uogólnianie do użytecznej średniej straty bez wytwarzania wyników, które w nadmiarze abstrahują materiał źródłowy. W przypadku WG2GAN, mogłoby to ryzykować stworzenie nieograniczonych, całkowicie “fikcyjnych” ran, połączonych między zbyt szerokim zakresem niepowiązanych typów ran, zamiast wytwarzania dokładnego zakresu wariacji w ramach danego typu rany.
Kontrolowanie zakresu w zbiorze danych maszynowego uczenia
Modele z lżejszymi zestawami szkoleniowymi uogólniają szybciej, a badacze twierdzą, że najbardziej realistyczne obrazy mogą być uzyskane przy ustawieniach poniżej maksymalnych: zestaw danych 1000 obrazów szkolonych przez 200 epok.
Chociaż mniejsze zestawy danych mogą osiągnąć bardzo realistyczne obrazy w krótszym czasie, zakres obrazów i typów ran wygenerowanych będzie koniecznie bardziej ograniczony. Istnieje delikatna równowaga w reżimach szkoleniowych GAN i encoder/decoder pomiędzy objętością i różnorodnością danych wejściowych, wiernością wytwarzanych obrazów i realistycznością wytwarzanych obrazów — kwestie zakresu i wag, które nie są ograniczone do syntezy obrazów medycznych.
Nierównowaga klas w zbiorach danych medycznych
Ogólnie, maszynowe uczenie się w ochronie zdrowia jest dotknięte nie tylko brakiem zbiorów danych, ale także nierównowagą klas, gdzie istotne dane na temat określonej choroby stanowią tak mały procent jego zbioru danych, że ryzykuje to albo być odrzuconym jako dane outlier, albo zostać wchłoniętym w procesie uogólniania w trakcie szkolenia.
Istnieje wiele metod, które zostały zaproponowane w celu rozwiązania tego problemu, takich jak niedouszczanie lub naduszczanie. Jednakże, problem ten jest często omijany przez rozwijanie zbiorów danych specyficznych dla choroby, które są całkowicie związane z jednym problemem medycznym. Chociaż ten podejście jest skuteczne w przypadku indywidualnym, przyczynia się ono do kultury bałkanizacji w sferze badań nad sztuczną inteligencją w ochronie zdrowia i powoduje spowolnienie postępu w tej dziedzinie.













