Свяжитесь с нами:

Система обнаружения для сред синтеза чистых изображений, таких как DALL-E 2

Искусственный интеллект

Система обнаружения для сред синтеза чистых изображений, таких как DALL-E 2

mm

Новое исследованиями из Калифорнийского университета в Беркли предлагает метод определения того, является ли результат нового поколения фреймворков синтеза изображений, таких как Open AI, ДАЛЛ-Э 2и Google Изображение и Части – может быть определено как «ненастоящее» путем изучения геометрии, теней и отражений, появляющихся на синтезированных изображениях.

Изучая изображения, генерируемые текстовыми подсказками в DALL-E 2, исследователи обнаружили, что, несмотря на впечатляющий реализм, на который способна архитектура, возникают некоторые постоянные несоответствия, связанные с рендерингом глобальной перспективы, созданием и расположением теней и особенно в отношении рендеринга отраженных объектов.

В документе говорится:

«[Геометрические] структуры, отбрасываемые тени и отражения на зеркальных поверхностях не полностью соответствуют ожидаемой геометрии перспективы естественных сцен. Геометрические структуры и тени, как правило, локально непротиворечивы, но глобально противоречивы.

«С другой стороны, отражения часто визуализируются неправдоподобно, предположительно потому, что они менее распространены в наборе данных обучающего изображения».

Согласно новому исследованию, отсутствие последовательных пересечений между визуализируемым объектом и визуализацией его отражения в настоящее время является надежным способом обнаружения изображения DALL-E 2. Источник: https://arxiv.org/pdf/2206.14617.pdf

Согласно новому исследованию, отсутствие последовательных пересечений между визуализируемым объектом и визуализацией его отражения в настоящее время является надежным способом обнаружения изображения DALL-E 2. Источник: https://arxiv.org/pdf/2206.14617.pdf

Данная статья представляет собой ранний набег на то, что в конечном итоге может стать примечательным направлением в исследовательском сообществе компьютерного зрения – обнаружение синтеза изображений.

С момента появления дипфейков в 2017 году обнаружение дипфейка (прежде всего из автоэнкодер вывод из таких пакетов, как DeepFaceLab и обмен лицами) стал активный и конкурентоспособный академическое направление с различными документами и методологиями, нацеленными на развивающиеся «подсказки» синтезированных лиц в реальных видеоматериалах.

Однако до самого недавнего появления систем генерации изображений с гипермасштабным обучением выходные данные систем с текстовыми подсказками, таких как CLIP не представляла угрозы статус-кво «фотореальности». Авторы новой статьи считают, что это скоро изменится, и что даже несоответствия, которые они обнаружили в выходных данных DALL-E 2, могут не иметь большого значения для способности выходных изображений обманывать зрителей.

Авторы заявляют*:

«[Такие] неудачи могут не иметь большого значения для зрительной системы человека, которая оказалась на удивление неспособной к определенным геометрическим суждениям, включая несоответствия в освещение, тени, размышления, позиция просмотра и искажение перспективы.'

Исчезающее доверие

Первая криминалистическая экспертиза авторами выходных данных DALL-E 2 относится к перспективной проекции — способу, которым позиционирование прямых краев в близлежащих объектах и ​​текстурах должно единообразно разрешаться в «точку схода».

Слева параллельные линии на одной плоскости сводятся к общей точке схода; справа несколько точек схода на одной и той же параллельной плоскости определяют линию схода (обозначена красным).

Слева параллельные линии на одной плоскости сводятся к общей точке схода; справа несколько точек схода на одной и той же параллельной плоскости определяют линию схода (обозначена красным).

Чтобы проверить последовательность DALL-E 2 в этом отношении, авторы использовали DALL-E 2 для создания 25 синтезированных изображений кухонь — знакомого пространства, которое даже в хорошо оборудованных жилищах обычно достаточно ограничено, чтобы обеспечить несколько возможных точек схода для набор объектов и текстур.

Изучение вывода из подсказки 'фото кухни с кафельным полом'Исследователи обнаружили, что, несмотря на в целом убедительное представление в каждом случае (за исключением некоторых странных, более мелких артефактов, не связанных с перспективой), изображенные объекты никогда не сходятся правильно.

Авторы отмечают, что, хотя каждый набор параллельных линий рисунка плитки согласован и пересекается в единственной точке схода (синяя на изображении ниже), точка схода для столешницы (голубая) не совпадает с обеими линиями схода (красная ) и точка схода, полученная из тайлов.

Авторы отмечают, что даже если столешница не была параллельна плитке, голубая точка схода должна превращаться в (красную) линию схода, определяемую точками схода напольной плитки.

В документе говорится:

«Хотя перспектива на этих изображениях — впечатляюще — согласуется локально, она не согласуется глобально. Тот же паттерн был обнаружен в каждом из 25 синтезированных изображений кухонь».

Теневая криминалистика

Любой, кто когда-либо имел дело с трассировкой лучей, знает, что у теней также есть потенциальные точки схода, указывающие на освещение из одного или нескольких источников. Для внешних теней при резком солнечном свете можно было бы ожидать, что тени на всех гранях изображения будут последовательно разрешаться в единственный источник света (солнце).

Как и в предыдущем эксперименте, исследователи создали 25 изображений DALL-E 2 с подсказкой «три кубика на тротуаре, сфотографированные в солнечный день', а также еще 25 с подсказкой '«три куба на тротуаре, сфотографированные в пасмурный день».

В верхнем ряду изображения, созданные по запросу исследователей, «три куба на тротуаре, сфотографированные в пасмурный день»; в нижнем ряду изображения, созданные из подсказки «три кубика на тротуаре, сфотографированные в солнечный день».

В верхнем ряду изображения, созданные по запросу исследователей, «три куба на тротуаре, сфотографированные в пасмурный день»; в нижнем ряду изображения, созданные из подсказки «три кубика на тротуаре, сфотографированные в солнечный день».

Исследователи отмечают, что при отображении облачных условий DALL-E 2 способен убедительно и правдоподобно отображать более размытые связанные тени, возможно, не в последнюю очередь потому, что этот тип теней, вероятно, будет более распространенным на изображениях набора данных, на которых Фреймворк прошел обучение.

Однако авторы обнаружили, что некоторые из «солнечных» фотографий несовместимы со сценой, освещенной одним источником света.

На приведенном выше изображении поколения были преобразованы в оттенки серого для ясности и показывают каждый объект с его собственным выделенным «солнцем».

Хотя средний зритель может и не заметить таких аномалий, некоторые из сгенерированных изображений имели более явные примеры «сбоя тени»:

В то время как некоторые из теней просто находятся не в том месте, многие из них, что интересно, соответствуют типу визуального несоответствия, возникающему при моделировании CGI, когда частота дискретизации для виртуального источника света слишком низкая.

Отражения в DALL-E 2

Наиболее убедительные результаты с точки зрения криминалистического анализа были получены, когда авторы проверили способность DALL-E 2 создавать поверхности с высокой отражающей способностью, что является обременительным расчетом также при трассировке лучей CGI и других традиционных алгоритмах рендеринга.

Для этого эксперимента авторы создали 25 изображений DALL-E 2 с подсказкой «фотография игрушечного динозавра и его отражение в косметическом зеркале».

Авторы сообщают, что во всех случаях зеркальное отображение воспроизведенной игрушки было каким-то образом оторвано от внешнего вида и характера «настоящего» игрушечного динозавра. Авторы заявляют, что проблема была устойчива к вариациям текстовой подсказки, и это, по-видимому, является фундаментальной слабостью системы.

Кажется, в некоторых ошибках есть логика — первый и третий примеры в верхнем ряду показывают динозавра, который дублируется очень хорошо, но не зеркально.

Авторы комментируют:

«В отличие от отбрасываемых теней и геометрических структур в предыдущих разделах, DALL·E-2 изо всех сил пытается синтезировать правдоподобные отражения, по-видимому, потому, что такие отражения менее распространены в наборе данных обучающего изображения».

Сбои, подобные этим, могут быть устранены в будущих моделях преобразования текста в изображение, которые смогут более эффективно анализировать общую семантическую логику своего вывода и смогут применять абстрактные физические правила к сценам, которые до некоторой степени были собранный из подходящих для слова функций в скрытом пространстве системы.

В свете растущей тенденции к созданию все более крупных архитектур синтеза авторы заключают:

«[Это] может быть просто вопросом времени, когда механизмы синтеза рисования по тексту научатся отображать изображения с полномасштабной последовательностью перспективы. Однако до этого времени для анализа этих изображений может оказаться полезным геометрический криминалистический анализ».

 

* Мое преобразование встроенных цитат авторов в гиперссылки.

Впервые опубликовано 30 июня 2022 г.

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai