Штучний Інтелект
Як дізнатися, коли системи синтезу зображень створюють справді «оригінальний» матеріал

Нове дослідження, проведене в Південній Кореї, запропонувало метод визначення того, чи створюють системи синтезу зображень справді нові зображення чи «незначні» варіанти навчальних даних, що потенційно перешкоджає меті таких архітектур (наприклад, створення нових та оригінальних зображень). .
Дуже часто, припускає документ, останнє вірно, тому що існуючі показники, які такі системи використовують для покращення своїх генеративних можливостей протягом курсу навчання, змушені віддавати перевагу зображенням, які є відносно близькими до (нефальшивих) вихідних зображень у наборі даних. .
Зрештою, якщо згенероване зображення «візуально близьке» до вихідних даних, воно неминуче матиме кращий бал за «автентичність», ніж за «оригінальність», оскільки воно є «достовірним» – якщо воно не надихнуте.
Це може статися в секторі, який є занадто молодим і неперевіреним, щоб його юридичні наслідки ще не були відомі виявляється важливою правовою проблемою, якщо виявляється, що комерційний синтетичний вміст зображень недостатньо відрізняється від (часто) захищеного авторським правом вихідного матеріалу, який зараз дозволено перфузувати дослідницький сектор у формі популярних наборів даних, зібраних з Інтернету (потенціал для майбутніх позовів про порушення такого типу є набув популярності порівняно недавно щодо GitHub Co-Pilot AI від Microsoft).
З точки зору все більш узгодженого та семантично стійкого результату таких систем, як OpenAI ВІД-Є 2, Google Зображення, і Китаю CogView випуски (а також нижчі специфікації DALL-E міні), їх дуже мало постфактум способи надійної перевірки оригінальності створеного зображення.
Дійсно, пошук деяких із найпопулярніших нових зображень DALL-E 2 часто призведе лише до нових екземплярів тих самих зображень, залежно від пошукової системи.

Завантаження повної вихідної групи DALL-E 9 із 2 зображень призводить лише до збільшення кількості вихідних груп DALL-E 2, оскільки структура сітки є найсильнішою особливістю. Відділення та завантаження першого зображення (з цю публікацію в Twitter від 8 червня 2022 року з облікового запису Weird Dall-E Generations) змушує Google зосереджуватися на баскетбольному м’ячі на зображенні, заводячи пошук на основі зображень у семантичний глухий кут. Для того самого пошуку на основі зображень Яндекс, здається, принаймні виконує деконструкцію на основі пікселів і зіставлення функцій.
Хоча Яндекс частіше, ніж Пошук Google, використовує фактичний риси (тобто зображення отримане/обчислене риси, не обов’язково риси обличчя людей) і візуальний (а не семантичні) характеристики поданого зображення для пошуку подібних зображень, які мають усі пошукові системи на основі зображень якийсь порядок денний або практика що може ускладнити виявлення випадків джерело>генерований плагіат через веб-пошук.
Крім того, навчальні дані для генеративної моделі можуть бути недоступні для загального доступу в повному обсязі, що ще більше ускладнює судово-медичну експертизу оригінальності створених зображень.
Цікаво, що виконання веб-пошуку на основі зображень на одному із синтетичних зображень, представлених Google на його спеціальний сайт Imagen не знаходить абсолютно нічого, що можна порівняти з предметом зображення, з точки зору фактичного перегляду зображення та неупередженого пошуку схожих зображень. Швидше семантично фіксовані, як завжди, результати пошуку зображень Google для цього зображення Imagen не дозволять здійснювати чистий веб-пошук зображення без додавання пошукових термінів «imagen google» як додаткового (і обмежувального) параметра:
Яндекс, навпаки, знаходить безліч схожих (або принаймні візуально пов’язаних) реальних зображень від аматорського художнього співтовариства:
Загалом, було б краще, якби новизна або оригінальність виходу систем синтезу зображень могла бути виміряна якимось чином, без необхідності витягувати характеристики з усіх можливих веб-зображень в Інтернеті під час навчання моделі, або у закритих наборах даних, які можуть використовувати матеріали, захищені авторським правом.
У зв’язку з цією проблемою дослідники з Вищої школи штучного інтелекту імені Кіма Джечула Корейського передового інституту науки і технологій (KAIST AI) співпрацювали з глобальною компанією ІКТ і пошуку NAVER Corp для розробки Оцінка рідкісності які можуть допомогти ідентифікувати більш оригінальні творіння систем синтезу зображень.

Зображення тут створено через StyleGAN-FFHQ. Зліва направо стовпчики вказують на найгірші результати. Ми бачимо, що метрика «Трюк з усіченням» (див. нижче) і метрика «Реалізм» мають свої власні плани, тоді як нова оцінка «Рідкість» (верхній рядок) шукає цілісні, але оригінальні зображення (а не просто цілісні зображення). Оскільки в цій статті є обмеження щодо розміру зображення, перегляньте вихідний документ, щоб отримати кращі деталі та роздільну здатність. Джерело: https://arxiv.org/pdf/2206.08549.pdf
Новий папір має титул Оцінка рідкості: нова метрика для оцінки незвичайності синтезованих зображень, і походить від трьох дослідників з KAIST і трьох з NAVER Corp.
Крім «дешевих трюків»
Серед попередніх показників, які нова стаття намагається вдосконалити, є «трюк скорочення» запропонований у 2019 р у співпраці між Університетом Геріота-Ватта Великобританії та DeepMind від Google.
Трюк усічення по суті використовує інший латентний розподіл для вибірки, ніж використовувався для навчання генеративної моделі.
Дослідники, які розробили цей метод, були здивовані тим, що він спрацював, але в оригінальній статті визнають, що він зменшує різноманітність генерованого результату. Тим не менш, трюк усечення став ефективним і популярним у контексті того, що можна було б переописати як «дешевий трюк» для отримання автентичних результатів, які насправді не асимілюють усі можливості, закладені в даних, і можуть схожі на вихідні дані більше, ніж бажано.
Що стосується трюку скорочення, автори нової статті зауважують:
«[Це] призначено не для створення рідкісних зразків у навчальних наборах даних, а для більш стабільного синтезу типових зображень. Ми припускаємо, що існуючі генеративні моделі зможуть виробляти зразки, багатші на реальний розподіл даних, якщо генератор може бути спонуканий до ефективного створення рідкісних зразків».
Загальна тенденція покладатися на традиційні показники, такі як початкова відстань Фреше (FID, яка зазнала гострої критики у грудні 2021 року), початкова оцінка (IS) і початкова відстань ядра (KID) як «індикатори прогресу» під час навчання генеративної моделі, автори додатково коментують*:
«Ця схема навчання змушує генератор не синтезувати дуже рідкісні зразки, які є унікальними та мають сильні характеристики, які не враховують великої частки розподілу реального зображення. Приклади рідкісних зразків із загальнодоступних наборів даних включають людей із різними аксесуарами FFHQ, білі тварини в AFHQ та незвичайні статуї в Metfaces.
«Можливість генерувати рідкісні зразки важлива не тільки тому, що вона пов’язана з передовими можливостями генеративних моделей, але й тому, що унікальність відіграє важливу роль у творчих додатках, таких як віртуальні люди.
«Однак якісні результати кількох останніх досліджень рідко містять ці рідкісні приклади. Ми припускаємо, що природа змагальної схеми навчання змушує розподіл створених зображень подібно до розподілу навчального набору даних. Таким чином, зображення з чіткою індивідуальністю або рідкісністю займають лише невелику частину в образах, синтезованих моделями».
Техніка
Нова оцінка рідкісності дослідників адаптує ідею, представлену в раніше працює - використання K-найближчі сусіди (KNN) для представлення масивів справжніх (навчальних) і синтетичних (вихідних) даних у системі синтезу зображень.
Стосовно цього нового методу аналізу автори стверджують:
«Ми припускаємо, що звичайні зразки були б ближче один до одного, тоді як унікальні та рідкісні зразки були б рідко розташовані в просторі ознак».
Зображення результатів вище показує найменшу відстань найближчого сусіда (NND) до найбільшої в архітектурі StyleGAN, навченій на FFHQ.
«Для всіх наборів даних зразки з найменшими NND показують репрезентативні та типові зображення. Навпаки, зразки з найбільшими NND мають сильну індивідуальність і значно відрізняються від типових зображень з найменшими NND.'
Теоретично, використовуючи цю нову метрику як дискримінатор або принаймні включивши її в більш складну архітектуру дискримінатора, генеруюча система може бути спрямована від чистої імітації до більш винахідливого алгоритму, зберігаючи суттєву згуртованість концепцій, які можуть бути критичними для створення автентичного зображення (тобто "людина", "жінка", 'автомобіль', "церква"І т.д.).
Порівняння та досліди
Під час тестування дослідники порівняли продуктивність Rarity Score як з Truncation Trick, так і з NVIDIA 2019 Оцінка реалізму, і виявив, що в різних структурах і наборах даних цей підхід здатний виділяти «унікальні» результати.
Хоча результати, наведені в статті, занадто великі, щоб включити їх тут, дослідники, схоже, продемонстрували здатність нового методу ідентифікувати рідкість як у вихідних (реальних), так і в створених (підроблених) зображеннях за допомогою генеративної процедури:

Виберіть приклади з обширних візуальних результатів, відтворених у статті (дивіться URL джерела вище для отримання додаткової інформації). Ліворуч справжні приклади з FFHQ, які мають дуже мало близьких сусідів (тобто є новими та незвичайними) у вихідному наборі даних; праворуч — фейкові зображення, створені StyleGAN, які новий показник визначив як справді нові. Оскільки в цій статті є обмеження щодо розміру зображення, перегляньте вихідний документ, щоб отримати кращі деталі та роздільну здатність.
Нова метрика Rarity Score не тільки дозволяє ідентифікувати «новий» генеративний результат в одній архітектурі, але також, як стверджують дослідники, дозволяє порівнювати генеративні моделі різних і різноманітних архітектур (наприклад, автокодер, VAE, GAN тощо). ).
У документі зазначається, що показник рідкості відрізняється від попередніх показників тим, що зосереджується на здатності генеративної структури створювати унікальні та рідкісні зображення, на відміну від «традиційних» показників, які досліджують (швидше короткозоро) різноманітність між поколіннями під час навчання моделі.
За межами обмежених завдань
Незважаючи на те, що дослідники нової статті провели тести на фреймворках обмеженої області (таких як комбінації генератора/набору даних, розроблені спеціально для створення зображень людей або котів, наприклад), показник рідкості потенційно може бути застосований до будь-якої довільної процедури синтезу зображень, де бажано ідентифікувати згенеровані приклади, які використовують розподіли, отримані з навчених даних, замість того, щоб підвищувати автентичність (і зменшувати різноманітність) шляхом вставлення чужих прихованих розподілів або покладатися на інші «ярлики», які ставлять під загрозу новизну на користь автентичності.
По суті, така метрика може потенційно розрізняти справді нові вихідні екземпляри в таких системах, як серія DALL-E, використовуючи ідентифіковану відстань між очевидним «викидним» результатом, навчальними даними та результатами подібних підказок або вхідних даних (тобто зображення на основі підказок).
На практиці та за відсутності чіткого розуміння того, якою мірою система справді засвоїла візуальні та семантичні концепції (часто цьому заважає обмежене знання про навчальні дані), це може бути ефективним методом ідентифікації справжнього «моменту натхнення» у генеративній системі – момент, коли адекватна кількість вхідних концепцій і даних призвела до чогось справді винахідливого, замість чогось надто похідного або близького до вихідних даних.
* Мої перетворення вбудованих цитат авторів у гіперпосилання.
Вперше опубліковано 20 червня 2022 р.