Sztuczna inteligencja

Nowy narzędzie może pokazać badaczom, co GANs pomija w obrazie

Published November 10, 2019

Updated April 28, 2026

Daniel Nelson

Niedawno zespół badaczy z MIT-IBM Watson AI Lab stworzył metodę wyświetlania tego, co Generative Adversarial Network pomija w obrazie, gdy jest proszony o wygenerowanie obrazów. Badanie zostało nazwane Seeing What a GAN Cannot Generate, i zostało niedawno przedstawione na Międzynarodowej Konferencji nt. Widzenia Komputerowego.

Generative Adversarial Networks stały się bardziej zaawansowane, wyrafinowane i powszechnie stosowane w ciągu ostatnich kilku lat. Stały się one bardzo dobre w renderowaniu obrazów pełnych detali, o ile obraz jest ograniczony do relatywnie małej powierzchni. Jednak gdy GANs są stosowane do generowania obrazów większych scen i środowisk, nie radzą sobie tak dobrze. W scenariuszach, w których GANs są proszone o renderowanie scen pełnych wielu obiektów i przedmiotów, jak zatłoczona ulica, GANs często pomijają wiele ważnych aspektów obrazu.

Według MIT News, badanie zostało opracowane częściowo przez Davida Bau, studenta studiów podyplomowych w Departamencie Inżynierii Elektrycznej i Nauki Komputerowej na MIT. Bau wyjaśnił, że badacze zwykle koncentrują się na udoskonaleniu tego, co systemy machine learning uwzględniają i jak pewne dane wejściowe mogą być mapowane na określone dane wyjściowe. Jednak Bau również wyjaśnił, że zrozumienie, jakie dane są ignorowane przez modele machine learning, jest często równie ważne, i że zespół badawczy liczy, że ich narzędzia zainspirują badaczy do zwrócenia uwagi na pomijane dane.

Zainteresowanie Bau GANs zostało pobudzone przez fakt, że mogą one być stosowane do badania czarnej skrzynki sieci neuronowych i do uzyskania intuicji, jak sieci mogą podejmować decyzje. Bau wcześniej pracował nad narzędziem, które mogło identyfikować określone klaster sztucznych neuronów, nazywając je odpowiedzialnymi za reprezentację obiektów rzeczywistych, takich jak książki, chmury i drzewa. Bau miał również doświadczenie z narzędziem o nazwie GANPaint, które umożliwia artystom usuwanie i dodawanie określonych cech z fotografii za pomocą GANs. Według Bau, aplikacja GANPaint ujawniła potencjalny problem z GANs, problem, który stał się widoczny, gdy Bau analizował obrazy. Jak Bau powiedział MIT News:

“Mój opiekun zawsze zachęcał nas do spojrzenia poza liczby i zbadania rzeczywistych obrazów. Gdy spojrzeliśmy, zjawisko wyskoczyło nam prosto w oczy: Ludzie byli selektywnie pomijani.”

Podczas gdy systemy machine learning są zaprojektowane do wyodrębniania wzorców z obrazów, mogą one również kończyć się ignorowaniem istotnych wzorców. Bau i inni badacze eksperymentowali z trenowaniem GANs na różnych scenach wewnętrznych i zewnętrznych, ale we wszystkich różnych typach scen GANs pomijały ważne szczegóły w scenach, takie jak samochody, znaki drogowe, ludzie, rowery itp. Było to prawdą nawet wtedy, gdy obiekty pomijane były ważne dla sceny w question.

Zespół badawczy wysunął hipotezę, że gdy GAN jest trenowany na obrazach, GAN może znaleźć łatwiejsze do przechwycenia wzorców obrazu, które są łatwiejsze do reprezentacji, takie jak duże stacjonarne obiekty, jak pejzaże i budynki. Uczy się tych wzorców kosztem innych, trudniejszych do interpretacji wzorców, takich jak samochody i ludzie. Było powszechnie wiadomo, że GANs często pomijają ważne, znaczące szczegóły podczas generowania obrazów, ale badanie zespołu MIT może być pierwszym przypadkiem, w którym GANs zostały udowodnione pomijanie całych klas obiektów w obrazie.

Zespół badawczy zauważa, że jest możliwe, aby GANs osiągnęły swoje cele liczbowe, nawet gdy pomijają obiekty, które ludzie uważają za ważne, gdy patrzą na obrazy. Jeśli obrazy generowane przez GANs mają być stosowane do szkolenia złożonych systemów jak pojazdy autonomiczne, dane obrazowe powinny być dokładnie zbadane, ponieważ istnieje realna obawa, że krytyczne obiekty, takie jak znaki, ludzie i inne samochody, mogą być pomijane w obrazach. Bau wyjaśnił, że ich badanie pokazuje, dlaczego wynik modelu nie powinien być oparty tylko na dokładności:

“Musimy zrozumieć, co sieci robią i nie robią, aby upewnić się, że podejmują wybory, które chcemy, aby podejmowały.”

Daniel Nelson

Blogger i programista ze specjalnościami w Machine Learning i Deep Learning tematy. Daniel liczy, że pomoże innym wykorzystać moc sztucznej inteligencji dla dobra społecznego.

Unite.AI

Nowy narzędzie może pokazać badaczom, co GANs pomija w obrazie

You may like