Sztuczna inteligencja
Modele głębokiego uczenia się mogą mieć trudności z rozpoznawaniem obrazów wygenerowanych przez sztuczną inteligencję

Wyniki nowego artykułu wskazują, że najnowocześniejsza sztuczna inteligencja jest znacznie mniej zdolna do rozpoznawania i interpretowania obrazów wygenerowanych przez sztuczną inteligencję niż ludzie, co może być powodem do niepokoju w nadchodzącym klimacie, w którym modele uczenia maszynowego są coraz częściej szkolone na danych syntetycznych, a nie będzie wiadomo, czy dane są “rzeczywiste” czy nie.

Tu widzimy model predykcji resnext101_32x8d_wsl, który ma trudności w kategorii ‘bagel’. W testach uznano, że nastąpił błąd rozpoznawania, jeśli słowo kluczowe (w tym przypadku ‘bagel’) nie zostało uwzględnione w pięciu najlepszych wynikach predykcji. Źródło: https://arxiv.org/pdf/2208.10760.pdf
Nowe badanie przetestowało dwie kategorie ramowych rozpoznawania wizualnego: rozpoznawanie obiektów i odpowiedzi na pytania wizualne (VQA).

Po lewej, sukcesy i porażki wnioskowania z systemu rozpoznawania obiektów; po prawej, zadania VQA zaprojektowane w celu zbadania zrozumienia przez sztuczną inteligencję scen i obrazów w sposób bardziej eksploracyjny i znaczący. Źródła: https://arxiv.org/pdf/2105.05312.pdf i https://arxiv.org/pdf/1505.00468.pdf
Spośród dziesięciu modeli najnowocześniejszych, przetestowanych na danych wygenerowanych przez ramy syntezowania obrazów DALL-E 2 i Midjourney, najlepszy model był w stanie osiągnąć tylko 60% i 80% dokładności w pięciu najlepszych wynikach predykcji w obu typach testów, podczas gdy ImageNet, przeszkolony na danych nie-syntetycznych, może osiągnąć odpowiednio 91% i 99% w tych samych kategoriach, a wyniki ludzi są zwykle znacznie wyższe.
Rozwiązując problemy związane z przesunięciem dystrybucji (znane również jako “dryf modelu”, gdzie modele predykcyjne doświadczają zmniejszonej zdolności predykcyjnej, gdy są przenoszone z danych szkoleniowych do “rzeczywistych” danych), artykuł stwierdza:
Ludzie są w stanie rozpoznać obrazy wygenerowane i odpowiedzieć na pytania o nie łatwo. Uznajemy, że a) głębokie modele mają trudności z zrozumieniem zawartości wygenerowanej, i mogą się poprawić po dalszym szkoleniu, i b) istnieje duże przesunięcie dystrybucji między obrazami wygenerowanymi a rzeczywistymi fotografiami. Przesunięcie dystrybucji wydaje się być zależne od kategorii.
W związku z ilością syntetycznych obrazów, które już zalały internet po ubiegłotygodniowym sensacyjnym udostępnieniu potężnego Stable Diffusion modelu syntezy dyfuzyjnej, pojawia się możliwość, że gdy “fałszywe” obrazy zalewają standardowe zestawy danych, takie jak Common Crawl, różnice w dokładności na przestrzeni lat mogą być znacznie wpływane przez “nierzeczywiste” obrazy.
Chociaż dane syntetyczne zostały ogłoszone jako potencjalny zbawca sektora badań wizji komputerowej, który często cierpi na brak zasobów i budżetów na kurację na dużą skalę, nowa fala obrazów Stable Diffusion (wraz z ogólnym wzrostem syntetycznych obrazów od czasu pojawienia się i komercjalizacji DALL-E 2) nie wszystkie będą miały przydatne etykiety, adnotacje i hasztagi, które odróżniają je jako “fałszywe” w momencie, gdy systemy wizji maszynowej je pobiorą z internetu.
Szybkość rozwoju w ramach syntezowania obrazów w środowisku open source znacznie wyprzedziła naszą zdolność do klasyfikacji obrazów z tych systemów, prowadząc do roszącego zainteresowania systemami wykrywania “fałszywych” obrazów, podobnych do systemów wykrywania deepfake, ale zadaniem oceny całych obrazów, a nie fragmentów twarzy.
Artykuł nowy nosi tytuł Jak dobrze są głębokie modele w zrozumieniu wygenerowanych obrazów, i pochodzi od Ali Borji z San Francisco startupu machine learningowego Quintic AI.
Dane
Badanie poprzedza wydanie Stable Diffusion, a eksperymenty wykorzystują dane wygenerowane przez DALL-E 2 i Midjourney w 17 kategoriach, w tym słoń, grzyb, pizza, precel, ciągnik i królik.

Przykłady obrazów, z których testowane systemy rozpoznawania i VQA były wyzwane do identyfikacji najważniejszego pojęcia kluczowego.
Obrazy zostały uzyskane za pomocą wyszukiwań w sieci i przez Twitter, i, zgodnie z polityką DALL-E 2 (przynajmniej w tym czasie), nie zawierały żadnych obrazów z ludzkimi twarzami. Wybrane zostały tylko obrazy dobrej jakości, rozpoznawalne przez ludzi.
Dwa zestawy obrazów zostały wybrane, jeden dla każdego z zadań rozpoznawania obiektów i VQA.

Liczba obrazów w każdej kategorii testowej dla rozpoznawania obiektów.
Testowanie rozpoznawania obiektów
Dla testów rozpoznawania obiektów, przetestowano dziesięć modeli, wszystkie przeszkolone na ImageNet: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, i ResNext_WSL.
Niektóre z klas w testowanych systemach były bardziej szczegółowe niż inne, co wymagało zastosowania średnich podejść. Na przykład, ImageNet zawiera trzy klasy związane z “zegarami”, i było konieczne zdefiniowanie pewnego rodzaju metryki arbitralnej, gdzie uwzględnienie jakiegokolwiek “zegara” w pięciu najlepszych uzyskanych etykietach dla jakiegokolwiek obrazu było uznane za sukces w tym przypadku.

Wyniki modelu w 17 kategoriach.
Najlepszy model w tej rundzie był resnext101_32x8d_ws, osiągając prawie 60% dla top-1 (tj. razy, kiedy jego preferowana predykcja z pięciu zgadywań była poprawna), i 80% dla top-five (tj. pożądane pojęcie było wymienione gdzieś w pięciu zgadywań modelu o obrazie).
Autor sugeruje, że dobra wydajność modelu jest wynikiem faktu, że został on przeszkolony do słabo nadzorowanej predykcji hashtagów na platformach społecznościowych. Jednak te wiodące wyniki, autor zauważa, są znacznie poniżej tego, co ImageNet jest w stanie osiągnąć na danych rzeczywistych, tj. 91% i 99%. Sugiere, że jest to wynik dużych różnic między dystrybucją obrazów ImageNet (które również są pobierane z sieci) a obrazami wygenerowanymi.
Pięć najtrudniejszych kategorii dla systemu, w kolejności trudności, to latawiec, żółw, wiewiórka, okulary przeciwsłoneczne i kask. Artykuł zauważa, że klasa latawiec jest często mylona z balonem, spadochronem i parasolem, chociaż te rozróżnienia są trywialnie łatwe do zidentyfikowania przez ludzi.
Pewne kategorie, w tym latawiec i żółw, spowodowały powszechną porażkę we wszystkich modelach, podczas gdy inne (szczególnie precel i ciągnik) dały prawie powszechny sukces we wszystkich testowanych modelach.

Kategorie polaryzujące: niektóre z wybranych kategorii celowych albo zmyliły wszystkie modele, albo były dość łatwe do identyfikacji przez wszystkie modele.
Autorzy sugerują, że te wyniki wskazują, że wszystkie modele rozpoznawania obiektów mogą mieć podobne słabości i siły.
Testowanie odpowiedzi na pytania wizualne
Następnie, autor przetestował modele VQA na otwartych i swobodnych pytaniach VQA, z binarnymi pytaniami (tj. pytaniami, na które odpowiedź może być tylko “tak” lub “nie”). Artykuł zauważa, że ostatnie modele VQA są w stanie osiągnąć 95% dokładności na zestawie danych VQA-v2.
Dla tego etapu testowania, autor wybrał 50 obrazów i sformułował 241 pytania wokół nich, 132 z nich miało pozytywne odpowiedzi, a 109 negatywne. Średnia długość pytania wynosiła 5,12 słów.
Ta runda wykorzystała model OFA, ramę agnostyczną i modalityczną w celu przetestowania kompleksowości zadania, i był niedawno liderem w zestawie testowym VQA-v2. OFA osiągnął 77,27% dokładności na obrazach wygenerowanych, w porównaniu z jego własnym wynikiem 94,7% w zestawie testowym VQA-v2.
Autor sugeruje, że część powodu może być taka, że obrazy wygenerowane zawierają pojęcia semantyczne nieobecne w zestawie danych VQA-v2, i że pytania napisane dla testów VQA mogą być trudniejsze niż standardowe pytania VQA-v2, chociaż uważa, że pierwszy powód jest bardziej prawdopodobny.
LSD w strumieniu danych?
Opinia
Nowa proliferacja obrazów wygenerowanych przez sztuczną inteligencję, które mogą przedstawiać natychmiastowe połączenia i abstrakcje pojęć podstawowych, które nie istnieją w naturze, i które byłoby niezwykle czasochłonne do wytworzenia za pomocą konwencjonalnych metod, może stanowić szczególny problem dla słabo nadzorowanych systemów gromadzenia danych, które mogą nie być w stanie awaryjnie wykryć – głównie dlatego, że nie zostały one zaprojektowane do obsługi dużej ilości nienazwanych danych syntetycznych.
W takich przypadkach może istnieć ryzyko, że te systemy będą kierować pewnym procentem “dziwnych” syntetycznych obrazów do niepoprawnych klas, po prostu dlatego, że obrazy te zawierają wyraźne obiekty, które nie należą razem.

‘Astronauta jeżdżący na koniu’ stał się perhaps najbardziej emblematycznym wizualnym dla nowego pokolenia systemów syntezy obrazów – ale te ‘nierzeczywiste’ relacje mogą wejść do rzeczywistych systemów wykrywania, chyba że zostaną podjęte środki ostrożności. Źródło: https://twitter.com/openai/status/1511714545529614338?lang=en
Chyba, że można to zapobiec na etapie wstępnym przed szkoleniem, takie automatyczne potoki mogą prowadzić do nieprawdopodobnych lub nawet groteskowych skojarzeń, które są szkolone w systemach uczenia maszynowego, degradując ich skuteczność, i ryzykując przeniesienie skojarzeń wysokiego poziomu do systemów podrzędnych i kategorii.
Alternatywnie, rozłączne obrazy syntetyczne mogą mieć “ochładzający” wpływ na dokładność późniejszych systemów, w przypadku, gdy nowe lub zmodyfikowane architektury pojawią się, które będą próbować uwzględnić obrazy syntetyczne ad hoc, i rzucają zbyt szeroką sieć.
W każdym przypadku, obrazy syntetyczne w erze Stable Diffusion mogą okazać się bólem głowy dla sektora badań wizji komputerowej, którego starania umożliwiły te dziwne twory i możliwości – nie tylko dlatego, że narażają sektor na nadzieję, że gromadzenie i kuracja danych może być ostatecznie znacznie bardziej zautomatyzowane, niż jest to obecnie, i mniej czasochłonne i kosztowne.
Pierwotnie opublikowane 1 września 2022.













