никулец Систем за откривање за рамки за чиста синтеза на слики како DALL-E 2 - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Систем за откривање за рамки за чиста синтеза на слики како DALL-E 2

mm
Ажурирани on

Нови истражување од Универзитетот во Калифорнија во Беркли нуди метод за одредување дали излезот од новата генерација рамки за синтеза на слики - како што е Open AI's ДАЛ-Е2, и на Google Сликата Забава – може да се открие како „нереално“, со проучување на геометријата, сенките и рефлексиите што се појавуваат на синтетизираните слики.

Проучувајќи ги сликите генерирани од текстуални поттикнувања во DALL-E 2, истражувачите открија дека и покрај импресивниот реализам за кој е способна архитектурата, се појавуваат некои постојани недоследности поврзани со прикажувањето на глобалната перспектива, создавањето и распоредувањето на сенките и особено во однос на рендерирањето на рефлектираните предмети.

Во трудот се вели:

„[Геометриските] структури, фрлените сенки и рефлексиите во огледалните површини не се целосно во согласност со очекуваната перспективна геометрија на природните сцени. Геометриските структури и сенки се, генерално, локално конзистентни, но глобално неконзистентни.

„Рефлексиите, од друга страна, често се изречени неверојатно, веројатно затоа што се поретки во збирот на податоци за слики од обуката“.

Недостатокот на конзистентни пресеци помеѓу рендерираниот објект и прикажувањето на неговиот одраз во моментов е сигурен начин за откривање на DALL-E 2 слика, според новата студија. Извор: https://arxiv.org/pdf/2206.14617.pdf

Недостатокот на конзистентни пресеци помеѓу рендерираниот објект и прикажувањето на неговиот одраз во моментов е сигурен начин за откривање на DALL-E 2 слика, според новата студија. Извор: https://arxiv.org/pdf/2206.14617.pdf

Трудот претставува рано навлегување во она што на крајот може да стане значајна нишка во истражувачката заедница за компјутерска визија - откривање на синтеза на слики.

Од појавата на deepfakes во 2017 година, откривање на длабоко лажни (првенствено на автоенкодер излез од пакети како што се DeepFaceLab Размена на лица) стана ан активни и конкурентни академска нишка, со различни трудови и методологии насочени кон развојните „раскажувања“ на синтетизираните лица во реални видео снимки.

Меѓутоа, до неодамнешното појавување на системи за генерирање слики обучени со хиперскала, излезот од системите за текстуални пораки како што се CLIP не претставуваше никаква закана за статус квото на „фотореалноста“. Авторите на новиот труд веруваат дека ова ќе се промени и дека дури и недоследностите што ги открија во излезот DALL-E 2 можеби нема да направат голема разлика во излезниот потенцијал на сликите да ги измамат гледачите.

Авторите наведуваат*:

„[Таквите] неуспеси можеби не се многу важни за човечкиот визуелен систем за кој беше откриено дека е изненадувачки неспособен во одредени геометриски проценки, вклучително и недоследности во осветлување, сенки, рефлексии, позиција на гледање, и дисторзија на перспективата.'

Исчезнување на кредибилитет

Првото форензичко испитување на авторите на излезот DALL-E 2 се однесува на перспективната проекција – начинот на кој позиционирањето на правите рабови во блиските објекти и текстури треба да се разграничи рамномерно до „точка на исчезнување“.

Лево, паралелните линии на истата рамнина се решаваат на заедничка точка на исчезнување; десно, повеќе точки на исчезнување на истите и паралелни рамнини дефинираат линија на исчезнување (насликана со црвено).

Лево, паралелните линии на истата рамнина се решаваат на заедничка точка на исчезнување; десно, повеќе точки на исчезнување на истите и паралелни рамнини дефинираат линија на исчезнување (насликана со црвено).

За да ја тестираат конзистентноста на DALL-E 2 во овој поглед, авторите користеле DALL-E 2 за да генерираат 25 синтетизирани слики од кујни - познат простор кој, дури и во добро наместените живеалишта, обично е доволно ограничен за да обезбеди повеќе можни точки на исчезнување за опсег на предмети и текстури.

Испитување на излезот од промптот „Фотографија од кујна со под со плочки“, истражувачите открија дека и покрај генерално убедливата претстава во секој случај (забрани некои чудни, помали артефакти кои не се поврзани со перспективата), се чини дека предметите прикажани никогаш не се спојуваат правилно.

Авторите забележуваат дека иако секој сет паралелни линии од шаблонот на плочката се конзистентни и се сечат на единствената точка на исчезнување (сина на сликата подолу), точката на исчезнување за контра-врвот (цијан) не се согласува со двете линии на исчезнување (црвена ) и точката на исчезнување добиена од плочките.

Авторите забележуваат дека дури и ако плочата не била паралелна со плочките, цијанистичката точка на исчезнување треба да се реши до (црвената) линија на исчезнување дефинирана со точките на исчезнување на подните плочки.

Во трудот се вели:

„Иако перспективата на овие слики е – импресивно – локално конзистентна, таа не е глобално конзистентна. Истата шема е пронајдена во секоја од 25-те синтетизирани кујнски слики.'

Форензика во сенка

Како што знае секој кој некогаш се занимавал со следење зраци, сенките имаат и потенцијални точки на исчезнување, што укажува на осветлување од еден или повеќе извори. За надворешните сенки на суровата сончева светлина, би се очекувало сенките на сите страни на сликата постојано да се решат на единствениот извор на светлина (сонцето).

Како и со претходниот експеримент, истражувачите создадоа 25 DALL-E 2 слики со наредбата „три коцки на тротоар фотографирани во сончев ден“, како и дополнителни 25 со барањето '„три коцки на тротоар фотографирани во облачен ден“.

Во горниот ред, сликите создадени од истражувачите прашуваат „три коцки на тротоар фотографирани во облачен ден“; во долниот ред, слики создадени од исказот „три коцки на тротоар фотографирани во сончев ден“.

Во горниот ред, сликите создадени од истражувачите прашуваат „три коцки на тротоар фотографирани во облачен ден“; во долниот ред, слики создадени од исказот „три коцки на тротоар фотографирани во сончев ден“.

Истражувачите забележуваат дека кога претставува облачни услови, DALL-E 2 е во состојба да ги прикаже подифузните поврзани сенки на убедлив и веродостоен начин, можеби не само затоа што овој тип на сенка веројатно ќе биде поприсутен во сликите на базата на податоци на кои рамка беше обучена.

Сепак, некои од „сончевите“ фотографии, открија авторите, не се во согласност со сцена осветлена од еден извор на светлина.

За горната слика, генерациите се претворени во сиви тонови за јасност и го прикажуваат секој објект со своето посветено „сонце“.

Иако просечниот гледач можеби нема да забележи такви аномалии, некои од генерираните слики имаа повеќе очигледни примери на „неуспех во сенка“:

Додека некои од сенките се едноставно на погрешно место, многу од нив, интересно, кореспондираат со видот на визуелна несовпаѓање што се создава во CGI моделирањето кога стапката на примерок за виртуелна светлина е премногу мала.

Рефлексии во DALL-E 2

Најочајните резултати во однос на форензичката анализа дојдоа кога авторите ја тестираа способноста на DALL-E 2 да создава високо рефлектирачки површини, што е напорна пресметка, исто така, во CGI следењето зраци и другите традиционални алгоритми за рендерирање.

За овој експеримент, авторите направија 25 слики DALL-E 2 со барање „фотографија од играчка диносаурус и нејзиниот одраз во огледало за суета“.

Во сите случаи, пишуваат авторите, огледалната слика на изведената играчка била на некој начин исклучена од аспектот и диспозицијата на „вистинската“ играчка диносаурус. Авторите наведуваат дека проблемот бил отпорен на варијации во текстот и се чини дека е фундаментална слабост на системот.

Се чини дека има логика во некои од грешките - првиот и третиот пример во горниот ред се чини дека покажуваат диносаурус кој е удвоени многу добро, но не се огледува.

Авторите коментираат:

„За разлика од фрлените сенки и геометриски структури во претходните делови, DALL·E-2 се бори да синтетизира веродостојни рефлексии, веројатно затоа што таквите рефлексии се поретки во неговиот сет на податоци за слики за обука“.

Ваквите пропусти може да се отстранат во идните модели текст-на-слика кои се способни поефективно да ја прегледаат целокупната семантичка логика на нивниот излез и кои ќе можат да наметнат апстрактни физички правила на сцените кои, до одреден степен, биле склопени од карактеристики кои се релевантни за зборовите во латентниот простор на системот.

Во светлината на растечкиот тренд кон сè поголеми архитектури за синтеза, авторите заклучуваат:

„[Можеби е прашање на време кога моторите за синтеза боја по текст ќе научат да прикажуваат слики со целосна конзистентност на перспективата. Дотогаш, сепак, геометриските форензички анализи може да се покажат корисни во анализата на овие слики.'

 

* Мојата конверзија на цитатите на авторите во хиперврски.

Прво објавено на 30 јуни 2022 година.