Свяжитесь с нами:

Как узнать, когда системы синтеза изображений производят действительно «оригинальный» материал

Искусственный интеллект

Как узнать, когда системы синтеза изображений производят действительно «оригинальный» материал

mm
«Плюшевые мишки работают над новыми исследованиями искусственного интеллекта под водой с использованием технологий 1990-х годов» — Источник: https://www.creativeboom.com/features/meet-dall-e/
«Плюшевые мишки работают над новыми исследованиями искусственного интеллекта под водой с использованием технологий 1990-х годов» — Источник: https://www.creativeboom.com/features/meet-dall-e/

В новом исследовании, проведенном в Южной Корее, был предложен метод определения того, создают ли системы синтеза изображений действительно новые изображения или «второстепенные» варианты обучающих данных, что потенциально противоречит цели таких архитектур (например, созданию новых и оригинальных изображений). .

В документе предполагается, что очень часто последнее верно, потому что существующие показатели, которые такие системы используют для улучшения своих генеративных возможностей в ходе обучения, вынуждены отдавать предпочтение изображениям, которые относительно близки к (не поддельным) исходным изображениям в наборе данных. .

В конце концов, если сгенерированное изображение «визуально близко» к исходным данным, оно неизбежно получит более высокую оценку за «подлинность», чем за «оригинальность», поскольку оно «достоверно», хотя и не вдохновлено.

В секторе, слишком зарождающемся и неиспытанном, чтобы его юридические последствия еще не были известны, это может оказаться важным юридическим вопросом, если выяснится, что коммерциализированное синтетическое изображение недостаточно отличается от (часто) защищенного авторским правом исходного материала, который в настоящее время разрешено перфузировать исследовательский сектор в виде популярных наборов данных из Интернета (потенциал будущих исков о нарушении прав такого типа получил известность сравнительно недавно в отношении ИИ Microsoft GitHub Co-Pilot).

С точки зрения все более последовательного и семантически надежного вывода таких систем, как OpenAI ДАЛЛ-Э 2, Google Изображение, а Китай CogView выпуски (а также более низкие спецификации ДАЛЛ-Э мини), их очень мало постфактум способы надежной проверки оригинальности сгенерированного изображения.

Действительно, поиск некоторых из самых популярных новых изображений DALL-E 2 часто приводит только к дополнительным экземплярам тех же изображений, в зависимости от поисковой системы.

Загрузка полной выходной группы DALL-E 9 из 2 изображений приводит только к увеличению количества выходных групп DALL-E 2. Отделение и загрузка первого изображения (из этого поста в Твиттере от 8 июня 2022 года, из аккаунта «Weird Dall-E Generations») заставляет Google зацикливаться на баскетболе на картинке, выводя поиск по изображению в семантический тупик. Для того же поиска на основе изображений Яндекс, по крайней мере, делает некоторую реальную деконструкцию на основе пикселей и сопоставление функций.

Загрузка полной выходной группы DALL-E 9 из 2 изображений приводит только к увеличению количества выходных групп DALL-E 2, потому что сеточная структура — самая сильная функция. Отделение и загрузка первого изображения (из этот пост в Твиттере от 8 июня 2022 года из аккаунта «Weird Dall-E Generations») заставляет Google зацикливаться на баскетболе на картинке, выводя поиск на основе изображений в семантический тупик. Для того же поиска на основе изображений Яндекс, по крайней мере, делает некоторую реальную деконструкцию на основе пикселей и сопоставление функций.

Хотя Яндекс чаще, чем Google Search, использует фактические функции (т.е. полученный/вычисленный образ функции, не обязательно черты лица людей) и визуальный (а не семантические) характеристики отправленного изображения, чтобы найти похожие изображения, все поисковые системы на основе изображений либо имеют какая-то повестка дня или практика что может затруднить идентификацию случаев источник>сгенерировано плагиат через веб-поиск.

Кроме того, обучающие данные для генеративной модели могут быть не полностью общедоступны, что еще больше затрудняет судебную экспертизу оригинальности сгенерированных изображений.

Интересно, что выполнение веб-поиска на основе изображений по одному из синтетических изображений, представленных Google на его специальный сайт Imagen не находит абсолютно ничего сравнимого с предметом изображения, с точки зрения реального взгляда на изображение и беспристрастного поиска подобных изображений. Скорее, семантически фиксированные, как всегда, результаты поиска картинок Google для этого изображения Imagen не разрешат чистый веб-поиск изображения на основе изображения без добавления условий поиска «imagen google» в качестве дополнительного (и ограничивающего) параметра:

Яндекс, наоборот, находит множество похожих (или хотя бы визуально связанных) изображений реального мира от любительского художественного сообщества:

В общем, было бы лучше, если бы новизна или оригинальность выходных данных систем синтеза изображений могли быть каким-то образом измерены без необходимости извлекать признаки из каждого возможного веб-изображения в Интернете во время обучения модели или в закрытых наборах данных, которые могут использовать материалы, защищенные авторским правом.

В связи с этой проблемой исследователи из Высшей школы искусственного интеллекта имени Кима Джечоля при Корейском передовом институте науки и технологий (KAIST AI) сотрудничали с международной компанией, занимающейся информационными технологиями и поиском, NAVER Corp, чтобы разработать Оценка редкости это может помочь идентифицировать более оригинальные творения систем синтеза изображений.

Изображения здесь генерируются с помощью StyleGAN-FFHQ. Слева направо столбцы показывают результаты от худшего к лучшему. Мы видим, что метрика «Трюк с усечением» (см. ниже) и метрика «Реализм» имеют свои собственные планы, в то время как новый показатель «Редкость» (верхний ряд) ищет связные, но оригинальные образы (а не просто связные образы). Источник: https://arxiv.org/pdf/2206.08549.pdf

Изображения здесь генерируются с помощью StyleGAN-FFHQ. Слева направо столбцы показывают результаты от худшего к лучшему. Мы видим, что метрика «Трюк с усечением» (см. ниже) и метрика «Реализм» имеют свои собственные планы, в то время как новый показатель «Редкость» (верхний ряд) ищет связные, но оригинальные образы (а не просто связные образы). Поскольку в этой статье есть ограничения на размер изображения, пожалуйста, обратитесь к исходной статье для получения более подробной информации и разрешения. Источник: https://arxiv.org/pdf/2206.08549.pdf

Новый статье называется Оценка редкости: новая метрика для оценки необычности синтезированных изображений, и исходит от трех исследователей из KAIST и трех из NAVER Corp.

Помимо «дешевого трюка»

Среди предыдущих метрик, которые новая статья стремится улучшить, — «трюк с усечением». предложено в 2019 в сотрудничестве между университетом Heriot-Watt в Великобритании и DeepMind от Google.

Трюк с усечением по существу использует другое скрытое распределение для выборки, чем то, которое использовалось для обучения генеративной модели.

Исследователи, разработавшие этот метод, были удивлены тем, что он работает, но признают в исходной статье, что он снижает разнообразие генерируемых результатов. Тем не менее, трюк с усечением стал эффективным и популярным в контексте того, что можно было бы переохарактеризовать как «дешевый трюк» для получения аутентичных результатов, которые на самом деле не ассимилируют все возможности, заложенные в данных, и могут напоминать исходные данные больше, чем хотелось бы.

Что касается трюка с усечением, авторы новой статьи отмечают:

«[Это] не предназначено для создания редких образцов в обучающих наборах данных, а скорее для более стабильного синтеза типичных изображений. Мы предполагаем, что существующие генеративные модели смогут создавать выборки, более богатые реальным распределением данных, если можно заставить генератор эффективно производить редкие выборки».

Об общей тенденции полагаться на традиционные показатели, такие как начальное расстояние Фреше (FID, которое подвергся жесткой критике в декабре 2021 г.), начальная оценка (IS) и начальное расстояние ядра (KID) в качестве «индикаторов прогресса» во время обучения генеративной модели, авторы далее комментируют *:

«Эта схема обучения приводит к тому, что генератор не синтезирует много редких образцов, которые уникальны и имеют сильные характеристики, которые не составляют большую часть реального распределения изображений. Примеры редких образцов из общедоступных наборов данных включают людей с различными аксессуарами в ФФШК, белые животные в AFHQ и необычные статуи в Metfaces.

«Возможность генерировать редкие образцы важна не только потому, что она связана с граничными возможностями генеративных моделей, но и потому, что уникальность играет важную роль в творческих приложениях, таких как виртуальные люди.

«Однако качественные результаты нескольких недавних исследований редко содержат эти редкие примеры. Мы предполагаем, что природа состязательной схемы обучения заставляет генерировать распределение изображений, аналогичное набору обучающих данных. Таким образом, образы с явной индивидуальностью или редкостью занимают лишь небольшую часть в образах, синтезируемых моделями».

Техника

Новая оценка редкости исследователей адаптирует идею, представленную в старше работает - использование K-Ближайшие соседи (KNN) для представления массивов подлинных (обучающих) и синтетических (выходных) данных в системе синтеза изображений.

Относительно этого нового метода анализа авторы утверждают:

«Мы предполагаем, что обычные образцы будут ближе друг к другу, тогда как уникальные и редкие образцы будут разрежены в пространстве признаков».

Изображение результатов выше показывает наименьшее расстояние от ближайшего соседа (NND) до наибольшего в архитектуре StyleGAN, обученной на ФФШК.

«Для всех наборов данных образцы с наименьшими NND показывают репрезентативные и типичные изображения. Напротив, образцы с самыми большими NND имеют ярко выраженную индивидуальность и значительно отличаются от типичных изображений с самыми маленькими NND».

Теоретически, используя эту новую метрику в качестве дискриминатора или, по крайней мере, включив ее в более сложную архитектуру дискриминатора, генеративную систему можно было бы направить от чистой имитации к более изобретательному алгоритму, сохранив при этом существенное единство концепций, которые могут иметь решающее значение. для производства аутентичных изображений (т.е. 'мужчина', 'женщина', 'машина', 'церковь'И т.д.).

Сравнения и эксперименты

В ходе тестов исследователи сравнили производительность Rarity Score как с Truncation Trick, так и с NVIDIA 2019. Оценка реализмаи обнаружили, что в различных средах и наборах данных этот подход способен индивидуализировать «уникальные» результаты.

Хотя результаты, представленные в статье, слишком обширны, чтобы включать их здесь, исследователи, похоже, продемонстрировали способность нового метода определять редкость как исходных (настоящих), так и сгенерированных (поддельных) изображений в генеративной процедуре:

Выберите примеры из обширных визуальных результатов, воспроизведенных в документе (см. исходный URL-адрес выше для получения более подробной информации). Слева — подлинные примеры из FFHQ, у которых очень мало ближайших соседей (т. е. они новые и необычные) в исходном наборе данных; справа — поддельные изображения, сгенерированные StyleGAN, которые новая метрика идентифицировала как действительно новые.

Выберите примеры из обширных визуальных результатов, воспроизведенных в документе (см. исходный URL-адрес выше для получения более подробной информации). Слева — подлинные примеры из FFHQ, у которых очень мало ближайших соседей (т. е. они новые и необычные) в исходном наборе данных; справа — поддельные изображения, сгенерированные StyleGAN, которые новая метрика идентифицировала как действительно новые. Поскольку в этой статье есть ограничения на размер изображения, пожалуйста, обратитесь к исходной статье для получения более подробной информации и разрешения.

Новая метрика Rarity Score не только дает возможность идентифицировать «новые» генеративные результаты в одной архитектуре, но также, как утверждают исследователи, позволяет сравнивать генеративные модели различных архитектур (например, автоэнкодер, VAE, GAN и т. д.). ).

В документе отмечается, что показатель редкости отличается от предыдущих показателей тем, что концентрируется на способности генеративной среды создавать уникальные и редкие изображения, в отличие от «традиционных» показателей, которые исследуют (довольно более близоруко) разнообразие между поколениями во время обучения модели.

Помимо ограниченных задач

Хотя исследователи новой статьи провели тесты на фреймворках с ограниченным доменом (таких как комбинации генератора/набора данных, предназначенные специально для создания изображений людей или кошек, например), оценка редкости потенциально может применяться к любой произвольной процедуре синтеза изображений, где желательно идентифицировать сгенерированные примеры, которые используют распределения, полученные из обученных данных, вместо того, чтобы повышать достоверность (и уменьшать разнообразие) путем вставки сторонних скрытых распределений или полагаться на другие «ярлыки», которые компрометируют новизну в пользу подлинности.

По сути, такая метрика может потенциально различать действительно новые экземпляры выходных данных в таких системах, как серия DALL-E, используя идентифицированное расстояние между очевидным «выбросом» результатов, обучающими данными и результатами аналогичных подсказок или входных данных (т. е. изображения). подсказки на основе).

На практике и при отсутствии четкого понимания того, в какой степени система действительно усвоила визуальные и семантические понятия (часто этому препятствует ограниченное знание обучающих данных), это может быть жизнеспособным методом определения подлинного «момент «вдохновение» в генеративной системе — точка, в которой адекватное количество входных концепций и данных привело к чему-то действительно изобретательному, а не к чему-то чрезмерно производному или близкому к исходным данным.

 

* Мои преобразования встроенных цитат авторов в гиперссылки.

Впервые опубликовано 20 июня 2022 г.