Umělá inteligence
Modely hlubokého učení mohou mít potíže s rozpoznáním obrazů generovaných umělou inteligencí

Výzkum z nové studie ukazuje, že nejmodernější umělá inteligence je podstatně méně schopná rozpoznat a interpretovat obrazy syntetizované umělou inteligencí než lidé, což může být problematické v budoucím prostředí, kde jsou modely strojového učení stále více trénovány na syntetických datech, a kde nebude vždy známo, zda data jsou “skutečná” nebo ne.

Zde vidíme model resnext101_32x8d_wsl, který má potíže v kategorii “bagel”. V testech se považovalo za selhání rozpoznání, pokud nebylo hlavní cílové slovo (v tomto případě “bagel”) mezi pět nejlepších předpovědí. Zdroj: https://arxiv.org/pdf/2208.10760.pdf
Nový výzkum otestoval dvě kategorie rámců rozpoznávání založených na počítačovém vidění: rozpoznávání objektů a vizuálních otázek a odpovědí (VQA).

Vlevo, úspěchy a neúspěchy inferencí z systému rozpoznávání objektů; vpravo, úkoly VQA navržené pro prozkoumání porozumění umělou inteligencí scénám a obrazům více průzkumným a významným způsobem. Zdroje: https://arxiv.org/pdf/2105.05312.pdf a https://arxiv.org/pdf/1505.00468.pdf
Z deseti testovaných modelů, všechny trénovaných na ImageNet, žádný nedosáhl lepšího než 60% a 80% přesnosti v top-5 přesnosti napříč dvěma typy testů, zatímco ImageNet, trénovaný na nesyntetických, reálných datech, může dosáhnout 91% a 99% v stejné kategorii, zatímco lidské výkony jsou obvykle podstatně vyšší.
Při řešení problémů kolem posunutí distribuce (také známého jako “Model Drift”, kde předpovědní modely procházejí sníženou předpovědní kapacitou, když jsou přesunuty z trénovacích dat do “reálných” dat), studie uvádí:
Lidé jsou schopni rozpoznat generované obrazy a snadno na nich odpovědět. Docházíme k závěru, že a) hluboké modely mají potíže s porozuměním generovanému obsahu a mohou se zlepšit po jemném ladění, a b) existuje velký posun distribuce mezi generovanými obrazy a skutečnými fotografiemi. Posun distribuce se zdá být závislý na kategorii.’
…












