кочан Как да разберете кога системите за синтез на изображения произвеждат наистина „оригинален“ материал – Unite.AI
Свържете се с нас

Изкуствен интелект

Как да разберете кога системите за синтез на изображения произвеждат наистина „оригинален“ материал

mm
Обновено on
„Плюшени мечета, работещи върху нови AI изследвания под вода с технология от 1990-те години“ – Източник: https://www.creativeboom.com/features/meet-dall-e/
„Плюшени мечета, работещи върху нови AI изследвания под вода с технология от 1990-те години“ – Източник: https://www.creativeboom.com/features/meet-dall-e/

Ново проучване от Южна Корея предложи метод за определяне дали системите за синтез на изображения създават наистина нови изображения или „незначителни“ варианти на данните за обучение, потенциално поразяващи целта на такива архитектури (като производството на нови и оригинални изображения) .

Много често, предполага документът, последното е вярно, тъй като съществуващите показатели, които такива системи използват, за да подобрят своите генеративни способности в хода на обучението, са принудени да предпочитат изображения, които са относително близки до (нефалшивите) изходни изображения в набора от данни .

В края на краищата, ако генерираното изображение е „визуално близко“ до изходните данни, то неизбежно има по-добра оценка за „автентичност“, отколкото за „оригиналност“, тъй като е „вярно“ – ако не е вдъхновено.

В сектор, който е твърде зараждащ се и неизпробван, за да бъдат все още известни правните му разклонения, това може се оказват важен правен въпрос, ако се окаже, че комерсиализираното съдържание на синтетично изображение не се различава достатъчно от (често) защитения с авторски права изходен материал, който в момента е позволено да перфузира научноизследователския сектор под формата на популярни набори от данни, събрани в мрежата (потенциалът за бъдещи искове за нарушение от този тип има стават известни сравнително наскоро по отношение на GitHub Co-Pilot AI на Microsoft).

По отношение на все по-кохерентния и семантично стабилен изход от системи като OpenAI DALL-E2, на Google Изображение, и на Китай CogView версии (както и по-нискоспецифицираните DALL-E мини), има много малко постфактум начини за надеждно тестване за оригиналността на генерирано изображение.

Наистина, търсенето на някои от най-популярните от новите изображения на DALL-E 2 често ще доведе само до допълнителни екземпляри на същите тези изображения, в зависимост от търсачката.

Качването на пълна DALL-E 9 изходна група от 2 изображения води само до повече DALL-E 2 изходни групи. Отделянето и качването на първото изображение (от тази публикация в Twitter от 8 юни 2022 г., от акаунта „Странни Dall-E Generations“) кара Google да се фиксира върху баскетболната топка в картината, отвеждайки базираното на изображения търсене в семантична задънена улица. За същото търсене, базирано на изображения, Yandex изглежда най-малкото прави някаква реална деконструкция и съпоставяне на функции, базирана на пиксели.

Качването на пълна DALL-E 9 изходна група от 2 изображения води само до повече DALL-E 2 изходни групи, тъй като мрежовата структура е най-силната характеристика. Отделяне и качване на първото изображение (от тази публикация в Twitter от 8 юни 2022 г. от акаунта „Странни Dall-E Generations“) кара Google да се фиксира върху баскетболната топка на снимката, отвеждайки базираното на изображения търсене в семантична задънена улица. За същото търсене, базирано на изображения, Yandex изглежда поне прави някаква реална деконструкция и съпоставяне на функции, базирана на пиксели.

Въпреки че е по-вероятно Yandex, отколкото Google Search, да използва действителния Характеристика (т.е. изображение е получено/изчислено Характеристика, не непременно чертите на лицето на хората) и визуална (а не семантични) характеристики на изпратено изображение за намиране на подобни изображения, всички търсачки, базирани на изображения, имат някакъв вид дневен ред или практика което може да затрудни идентифицирането на случаи на източник>генериран плагиатство чрез уеб търсения.

Освен това данните за обучение за генеративен модел може да не са публично достъпни в своята цялост, което допълнително затруднява съдебномедицинското изследване на оригиналността на генерираните изображения.

Интересното е, че извършването на базирано на изображения уеб търсене на едно от синтетичните изображения, представени от Google на специален сайт на Imagen не намира абсолютно нищо, сравнимо с обекта на изображението, по отношение на действително разглеждане на изображението и безпристрастно търсене на подобни изображения. По-скоро семантично фиксирани както винаги, резултатите от търсенето на изображения в Google за тази снимка на Imagen няма да позволят чисто базирано на изображения уеб търсене на изображението без добавяне на думите за търсене „imagen google“ като допълнителен (и ограничаващ) параметър:

Yandex, обратно, намира множество подобни (или поне визуално свързани) изображения от реалния свят от аматьорската артистична общност:

Като цяло, би било по-добре, ако новостта или оригиналността на изхода на системите за синтез на изображения може да бъде измерена по някакъв начин, без да е необходимо да се извличат характеристики от всяко възможно изображение в мрежата в интернет по времето, когато моделът е бил обучен, или в непублични набори от данни, които може да използват защитен с авторски права материал.

Във връзка с този проблем, изследователи от Kim Jaechul Graduate School of AI към Корейския институт за напреднали науки и технологии (KAIST AI) си сътрудничат с глобалната компания за ИКТ и търсене NAVER Corp, за да разработят Резултат за рядкост които могат да помогнат за идентифицирането на по-оригиналните творения на системите за синтез на изображения.

Изображенията тук са генерирани чрез StyleGAN-FFHQ. Отляво надясно колоните показват най-лошите към най-добрите резултати. Можем да видим, че метриката „Truncation trick“ (вижте по-долу) и метриката Realism имат свои собствени програми, докато новата оценка „Rarity“ (горен ред) търси сплотени, но оригинални изображения (а не само сплотени изображения). Източник: https://arxiv.org/pdf/2206.08549.pdf

Изображенията тук са генерирани чрез StyleGAN-FFHQ. Отляво надясно колоните показват най-лошите към най-добрите резултати. Можем да видим, че метриката „Truncation trick“ (вижте по-долу) и метриката Realism имат свои собствени програми, докато новата оценка „Rarity“ (горен ред) търси сплотени, но оригинални изображения (а не само сплотени изображения). Тъй като в тази статия има ограничения за размера на изображението, моля, вижте изходния документ за по-добри детайли и разделителна способност. Източник: https://arxiv.org/pdf/2206.08549.pdf

Новото хартия е озаглавен Резултат за рядкост: Нов показател за оценка на необичайността на синтезираните изображения, и идва от трима изследователи в KAIST и трима от NAVER Corp.

Отвъд „евтиния трик“

Сред предишните показатели, които новият документ се стреми да подобри, са „трикът за съкращаване“ предложи в 2019 в сътрудничество между университета Heriot-Watt в Обединеното кралство и DeepMind на Google.

Трикът за отрязване по същество използва различно латентно разпределение за вземане на проби от това, използвано за обучение на генеративния модел.

Изследователите, разработили този метод, бяха изненадани, че той работи, но признават в оригиналната статия, че намалява разнообразието от генерирани резултати. Независимо от това, трикът за отрязване стана ефективен и популярен в контекста на това, което може да се преопише като „евтин трик“ за получаване на автентично изглеждащи резултати, които всъщност не асимилират всички възможности, присъщи на данните, и може приличат на изходните данни повече, отколкото се желае.

По отношение на трика за съкращаване, авторите на новия документ отбелязват:

„[Той] не е предназначен да генерира редки проби в набори от данни за обучение, а по-скоро да синтезира типични изображения по-стабилно. Ние предполагаме, че съществуващите генеративни модели ще могат да произведат проби, по-богати на разпределението на реалните данни, ако генераторът може да бъде индуциран да произвежда ефективно редки проби.

От общата тенденция да се разчита на традиционни показатели като началното разстояние на Фреше (FID, което беше подложена на силна критика през декември 2021 г.), начален резултат (IS) и начално разстояние на ядрото (KID) като „индикатори за напредък“ по време на обучението на генеративен модел, авторите коментират допълнително*:

„Тази схема за обучение кара генератора да не синтезира много редки проби, които са уникални и имат силни характеристики, които не отчитат голяма част от реалното разпространение на изображението. Примери за редки проби от публични набори от данни включват хора с различни аксесоари FFHQ, бели животни в AFHQ, и необичайни статуи в Metfaces.

„Способността за генериране на редки образци е важна не само защото е свързана с възможностите на генеративните модели, но и защото уникалността играе важна роля в творческите приложения като виртуални хора.

„Въпреки това, качествените резултати от няколко скорошни проучвания рядко съдържат тези редки примери. Предполагаме, че естеството на схемата за състезателно обучение принуждава генерираното разпространение на изображения, подобно на това на набор от данни за обучение. По този начин изображения с ясна индивидуалност или рядкост заемат само малка част от изображенията, синтезирани от моделите.

Техника

Новият рейтинг за рядкост на изследователите адаптира идея, представена в по-рано работи - използването на K-най-близки съседи (KNN) за представяне на масиви от истински (обучение) и синтетични (изход) данни в система за синтез на изображения.

По отношение на този нов метод на анализ, авторите твърдят:

„Предполагаме, че обикновените проби ще бъдат по-близо една до друга, докато уникалните и редки проби ще бъдат рядко разположени в пространството на характеристиките.“

Изображението с резултати по-горе показва най-малките разстояния на най-близкия съсед (NND) до най-големите, в архитектура StyleGAN, обучена на FFHQ.

„За всички набори от данни, пробите с най-малките NND показват представителни и типични изображения. Напротив, пробите с най-големи NND имат силна индивидуалност и значително се различават от типичните изображения с най-малки NND.'

На теория, чрез използването на този нов показател като дискриминатор или поне включването му в по-сложна дискриминаторна архитектура, генеративната система може да бъде насочена далеч от чиста имитация към по-изобретателен алгоритъм, като същевременно се запази същественото сближаване на концепции, които могат да бъдат критични за създаване на автентично изображение (т.е "мъж", "жена", 'кола', "църква"И т.н.).

Сравнения и експерименти

В тестове изследователите направиха сравнение на ефективността на Rarity Score спрямо Truncation Trick и 2019 на NVIDIA Резултат за реализъми установи, че в различни рамки и набори от данни подходът е в състояние да индивидуализира „уникални“ резултати.

Въпреки че резултатите, представени в статията, са твърде обширни, за да бъдат включени тук, изследователите изглежда са демонстрирали способността на новия метод да идентифицира рядкост както в изходните (реални), така и в генерираните (фалшиви) изображения в генеративна процедура:

Изберете примери от обширните визуални резултати, възпроизведени в документа (вижте URL адреса на източника по-горе за повече подробности). Отляво, истински примери от FFHQ, които имат много малко близки съседи (т.е. са нови и необичайни) в оригиналния набор от данни; вдясно, фалшиви изображения, генерирани от StyleGAN, които новият показател идентифицира като наистина нови.

Изберете примери от обширните визуални резултати, възпроизведени в документа (вижте URL адреса на източника по-горе за повече подробности). Отляво, истински примери от FFHQ, които имат много малко близки съседи (т.е. са нови и необичайни) в оригиналния набор от данни; вдясно, фалшиви изображения, генерирани от StyleGAN, които новият показател идентифицира като наистина нови. Тъй като в тази статия има ограничения за размера на изображението, моля, вижте изходния документ за по-добри детайли и разделителна способност.

Новата метрика на Rarity Score не само позволява възможността за идентифициране на „нов“ генеративен изход в една архитектура, но също така, твърдят изследователите, позволява сравнения между генеративни модели на различни и различни архитектури (т.е. автоенкодер, VAE, GAN и др. ).

Документът отбелязва, че рейтингът на рядкост се различава от предишните показатели, като се концентрира върху способността на генеративната рамка да създава уникални и редки изображения, за разлика от „традиционните“ показатели, които изследват (по-скоро късогледо) разнообразието между поколенията по време на обучението на модела.

Отвъд ограничените задачи

Въпреки че изследователите на новата статия са провели тестове на рамки с ограничен домейн (като комбинации генератор/набор от данни, предназначени да произвеждат специално снимки на хора или котки, например), рейтингът за рядкост може потенциално да се приложи към всяка произволна процедура за синтез на изображения, където желателно е да се идентифицират генерирани примери, които използват дистрибуциите, получени от обучените данни, вместо да увеличават автентичността (и намаляват разнообразието) чрез вмъкване на чужди латентни дистрибуции или разчитайки на други „преки пътища“, които компрометират новостта в полза на автентичността.

В действителност такъв показател би могъл потенциално да разграничи наистина нови изходни екземпляри в системи като серията DALL-E, като използва идентифицирано разстояние между очевиден резултат от „извънредно положение“, данните за обучение и резултатите от подобни подкани или входове (т.е. изображение -базирани подкани).

На практика и при липса на ясно разбиране за степента, до която системата наистина е асимилирала визуални и семантични концепции (често възпрепятствани от ограничени познания за данните за обучение), това може да бъде жизнеспособен метод за идентифициране на истински „момент на вдъхновение“ в генеративна система – точката, в която достатъчен брой входни концепции и данни са довели до нещо наистина изобретателно, вместо нещо прекалено производно или близко до изходните данни.

 

* Моите преобразувания на вградените цитати на авторите в хипервръзки.

Първо публикувано на 20 юни 2022 г.