Зв'язатися з нами

Чи DALL-E 2 просто «склеює речі» без розуміння їх зв’язків?

Штучний Інтелект

Чи DALL-E 2 просто «склеює речі» без розуміння їх зв’язків?

mm
«Чашка на ложці». Джерело: DALL-E 2.

Нова дослідницька стаття Гарвардського університету свідчить про те, що фреймворк OpenAI DALL-E 2, який перетворює текст у зображення, має значні труднощі з відтворенням зв’язків навіть на початковому рівні між елементами, які він об’єднує в синтезовані фотографії, незважаючи на приголомшливу витонченість більшості з них. його вихід.

Дослідники провели дослідження користувачів із залученням 169 краудсорсингових учасників, яким були представлені зображення DALL-E 2, засновані на основних людських принципах семантики відносин, разом із текстовими підказками, які їх створили. Коли запитали, чи пов’язані підказки та зображення, менш ніж 22% зображень були сприйняті як відповідні до пов’язаних із ними підказок з точки зору дуже простих зв’язків, які DALL-E 2 просили візуалізувати.

Знімок екрану з випробувань, проведених для нової статті. Учасникам було запропоновано вибрати всі зображення, які відповідають запиту. Незважаючи на застереження в нижній частині інтерфейсу, у всіх випадках зображення, без відома учасників, фактично генерувалися з відображеного пов’язаного підказки. Джерело: https://arxiv.org/pdf/2208.00005.pdf

Знімок екрану з випробувань, проведених для нової статті. Учасникам було запропоновано вибрати всі зображення, які відповідають запиту. Незважаючи на застереження в нижній частині інтерфейсу, у всіх випадках зображення, без відома учасників, фактично генерувалися з відображеного пов’язаного підказки. Джерело: https://arxiv.org/pdf/2208.00005.pdf

Результати також свідчать про те, що очевидна здатність DALL-E об’єднувати різні елементи може зменшитися, оскільки ці елементи менш імовірно траплятимуться в реальних навчальних даних, які забезпечують роботу системи.

Наприклад, зображення для підказки «дитина торкається миски» отримали 87% згоди (тобто учасники клацали більшість зображень як релевантних підказці), тоді як подібні фотореалістичні зображення «мавпа торкається ігуани» досягли лише 11% згоди:

DALL-E намагається зобразити малоймовірну подію, коли «мавпа торкається ігуани», можливо, тому, що це є незвичайним явищем, швидше за все, не існує, у навчальному наборі.

DALL-E намагається зобразити малоймовірну подію, коли «мавпа торкається ігуани», можливо, тому, що це є незвичайним явищем, швидше за все, не існує, у навчальному наборі.

У другому прикладі DALL-E 2 часто неправильно визначає масштаб і навіть вид, імовірно, через брак зображень реального світу, які зображують цю подію. Навпаки, розумно очікувати, що буде велика кількість тренувальних фотографій, пов’язаних із дітьми та їжею, і що цей піддомен/клас добре розроблений.

Труднощі DALL-E із зіставленням надзвичайно контрастних елементів зображення вказують на те, що наразі громадськість настільки вражена фотореалістичними можливостями системи та широкою інтерпретацією, що не розвинула критичного погляду на випадки, коли система фактично просто «приклеїла» один елемент до іншого. , як у цих прикладах з офіційного сайту DALL-E 2:

Синтез вирізання та вставлення з офіційних прикладів для DALL-E 2. Джерело: https://openai.com/dall-e-2/

Синтез вирізання та вставлення з офіційних прикладів для DALL-E 2. Джерело: https://openai.com/dall-e-2/

У новому документі зазначено*:

«Розуміння відносин є фундаментальним компонентом людського інтелекту, який проявляється на початку розвитку, і обчислюється швидко й автоматично у сприйнятті.

«Складнощі DALL-E 2 навіть із базовими просторовими відношеннями (наприклад in, on, під) припускає, що, чого б він не навчився, він ще не навчився типів репрезентацій, які дозволяють людям так гнучко й міцно структурувати світ.

«Пряме тлумачення цієї складності полягає в тому, що такі системи, як DALL-E 2, ще не мають реляційної композиції».

Автори припускають, що системи генерації зображень із текстовим керуванням, такі як серія DALL-E, можуть отримати вигоду від використання загальних для робототехніки алгоритмів, які моделюють ідентичності та відносини одночасно, через потребу агента фактично взаємодіяти з середовищем, а не просто вигадувати. поєднання різноманітних елементів.

Один із таких підходів під назвою CLIPort, використовує те саме Механізм CLIP який служить елементом оцінки якості в DALL-E 2:

CLIPort, спільний проект між Університетом Вашингтона та NVIDIA у 2021 році, використовує CLIP у настільки практичному контексті, що системи, навчені на ньому, обов’язково повинні розвивати розуміння фізичних взаємозв’язків, мотивації, якої немає в DALL-E 2 та подібних «фантастичних» рамки синтезу зображень. Джерело: https://arxiv.org/pdf/2109.12098.pdf

CLIPort, спільний проект між Університетом Вашингтона та NVIDIA у 2021 році, використовує CLIP у настільки практичному контексті, що системи, навчені на ньому, обов’язково повинні розвивати розуміння фізичних взаємозв’язків, мотивації, якої немає в DALL-E 2 та подібних «фантастичних» рамки синтезу зображень. Джерело: https://arxiv.org/pdf/2109.12098.pdf

Крім того, автори припускають, що «іншим правдоподібним оновленням» може бути включення в архітектуру систем синтезу зображень, таких як DALL-E. мультиплікативні ефекти на єдиному рівні обчислень, що дозволяє обчислювати зв’язки відповідно до можливостей обробки інформації біологічний системи.

Команда новий папір має титул Тестування реляційного розуміння під час генерації зображень за допомогою тексту, і походить від Коліна Конвелла та Томера Д. Уллмана з факультету психології Гарварду.

Поза межами ранньої критики

Коментуючи «вправність рук», що лежить в основі реалістичності та цілісності результату DALL-E 2, автори відзначають попередні роботи, які виявили недоліки в системах генеративних зображень у стилі DALL-E.

У червні цього року UoC Berkeley зазначив, труднощі DALL-E в обробці відображень і тіней; того ж місяця дослідження з Кореї досліджували «унікальність» і оригінальність вихідних даних у стилі DALL-E 2 з критичним поглядом; попередній аналіз зображень DALL-E 2, незабаром після запуску, від Нью-Йоркського університету та Техаського університету, виявили різні проблеми з композицією та іншими важливими факторами в зображеннях DALL-E 2; і минулого місяця, спільна робота між Університетом Іллінойсу та Массачусетським технологічним інститутом запропонували пропозиції щодо вдосконалення архітектури таких систем з точки зору композиції.

Крім того, дослідники відзначають, що світила DALL-E, такі як Адітя Рамеш, мають поступився проблеми фреймворку зі зв’язуванням, відносним розміром, текстом та іншими проблемами.

Розробники конкурентної системи синтезу зображень Google Imagen також запропонували DrawBench, нова система порівняння, яка вимірює точність зображення в фреймворках за допомогою різноманітних показників.

Натомість автори нової статті припускають, що кращий результат можна отримати, зіставляючи людські оцінки – а не внутрішні алгоритмічні показники – з отриманими зображеннями, щоб визначити, де лежать слабкі сторони та що можна зробити, щоб їх пом’якшити.

Навчання

З цією метою новий проект базує свій підхід на психологічних принципах і прагне відступити від поточного сплеск інтересу in оперативне проектування (що, по суті, є поступкою недоліків DALL-E 2 або будь-якої подібної системи), щоб дослідити та потенційно усунути обмеження, які роблять такі «обхідні шляхи» необхідними.

У папері зазначено:

«Поточна робота зосереджена на наборі з 15 основних відносин, раніше описаних, досліджених або запропонованих у когнітивній, розвивальній або лінгвістичній літературі. Набір містить як обґрунтовані просторові відносини (наприклад, «X на Y»), так і більш абстрактні агентські відносини (наприклад, «X допомагає Y»).

«Підказки навмисно прості, без складності атрибутів або деталізації. Тобто замість підказки типу «осел і восьминіг грають у гру». Осел тримає мотузку за один кінець, восьминіг – за інший. Осел тримає мотузку в роті. Кішка стрибає через мотузку», використовуємо «ящик на ножі».

«Простота все ще охоплює широкий діапазон зв’язків у різних субдоменах людської психології та робить потенційні помилки моделі більш разючими та конкретними».

Для свого дослідження автори залучили 169 учасників із Prolific, усі вони розташовані в США, середній вік яких становив 33 роки, 59% з яких були жінки.

Учасникам показали 18 зображень, упорядкованих у сітку 3×6 із підказкою вгорі та застереженням унизу про те, що всі, деякі або жодне із зображень, можливо, були згенеровані з відображеної підказки, а потім попросили виберіть зображення, які, на їхню думку, пов’язані таким чином.

Зображення, представлені особам, базувалися на лінгвістичній, розвивальній і когнітивній літературі, включаючи набір із восьми фізичних і семи «агентних» відносин (це стане зрозуміло незабаром).

Фізичні відносини
в, на, під, покриття, поблизу, закритий, нависає над, та прив'язаний до.

Агентські відносини
штовхати, тягнути, торкатися, бити, ногами, допомагати, та перешкоджаючи.

Усі ці зв’язки були взяті з попередньо згаданих галузей дослідження, не пов’язаних із CS.

Таким чином було отримано дванадцять сутностей для використання в підказках із шістьма об’єктами та шістьма агентами:

Об'єкти
коробка, циліндр, ковдра, миска, чайна чашка, та ніж.

Агенти
чоловік, жінка, дитина, робот, мавпа, та ігуана.

(Дослідники визнають, що включення ігуани, а не основи сухих соціологічних чи психологічних досліджень, було «приємним»)

Для кожного відношення було створено п’ять різних підказок шляхом випадкової вибірки двох об’єктів п’ять разів, що призвело до 75 підказок, кожну з яких було надіслано в DALL-E 2, і для кожної з яких використано початкові 18 наданих зображень без варіацій. або дозволено другий шанс.

Результати

У папері зазначено*:

«Учасники в середньому повідомили про низьку ступінь узгодженості між зображеннями DALL-E 2 і підказками, які використовувалися для їх створення, із середнім показником 22.2% [18.3, 26.6] серед 75 окремих підказок.

«Агентські підказки із середнім показником 28.4% [22.8, 34.2] у 35 підказках викликали вищу згоду, ніж фізичні підказки із середнім значенням 16.9% [11.9, 23.0] у 40 підказках».

Результати дослідження. Точки чорного кольору позначають усі підказки, з кожною точкою окрему підказку, а колір розбивається відповідно до того, чи суб’єкт підказки був агентом чи фізичним (тобто об’єктом).

Результати дослідження. Точки чорного кольору позначають усі підказки, з кожною точкою окрему підказку, а колір розбивається відповідно до того, чи суб’єкт підказки був агентом чи фізичним (тобто об’єктом).

Щоб порівняти різницю між людським і алгоритмічним сприйняттям зображень, дослідники провели рендери через відкритий код OpenAI. Віт-Л/14 Фреймворк на основі CLIP. Усереднюючи бали, вони виявили «помірний зв’язок» між двома наборами результатів, що, мабуть, дивно, враховуючи ступінь, до якого сам CLIP допомагає генерувати зображення.

Результати порівняння CLIP (ViT-L/14) із відповідями людини.

Результати порівняння CLIP (ViT-L/14) із відповідями людини.

Дослідники припускають, що інші механізми всередині архітектури, можливо, у поєднанні з випадковою перевагою (або відсутністю) даних у навчальному наборі можуть пояснювати те, як CLIP може розпізнавати обмеження DALL-E, не маючи змоги, у всіх випадках, нічого робити багато про проблему.

Автори дійшли висновку, що DALL-E 2 має лише уявну можливість, якщо така є, для відтворення зображень, які включають реляційне розуміння, фундаментальний аспект людського інтелекту, який розвивається в нас дуже рано.

«Думка про те, що такі системи, як DALL-E 2, не мають композиційності, може стати несподіванкою для будь-кого, хто бачив вражаюче розумні відповіді DALL-E 2 на підказки на кшталт «мультфільм дитинча редиски дайкон у пачці, що вигулює пуделя». Подібні підказки часто створюють розумне наближення композиційної концепції, де присутні всі частини підказок і присутні в потрібних місцях.

«Однак композиційність — це не лише здатність склеювати речі воєдино — навіть речі, які ви, можливо, ніколи раніше не спостерігали разом. Композиційність вимагає розуміння Правила що об’єднує речі. Відносини — це такі правила».

Людина кусає T-Rex

Думка Оскільки OpenAI охоплює a більшу кількість користувачів після недавньої бета-монетизації DALL-E 2, і оскільки тепер потрібно платити за більшість поколінь, недоліки у взаєморозумінні DALL-E 2 можуть стати більш очевидними, оскільки кожна «невдала» спроба має фінансову вагу, і відшкодування неможливе.

Ті з нас, хто отримав запрошення трохи раніше, мали час (і, донедавна, більше дозвілля, щоб пограти з системою), щоб поспостерігати за деякими «проблемами у стосунках», які може видавати DALL-E 2.

Наприклад, для a Парк Юрського періоду шанувальник, дуже важко змусити динозавра послідувати за людиною в DALL-E 2, хоча поняття «гонитва», здається, немає в DALL-E 2 система цензури, і навіть незважаючи на те, що довга історія фільмів про динозаврів має надати чимало прикладів навчання (принаймні у формі трейлерів і рекламних кадрів) для цієї інакше неможливої ​​зустрічі видів.

Типова відповідь DALL-E 2 на підказку «Кольорове фото T-Rex, який женеться за людиною на дорозі». Джерело: DALL-E 2

Типова відповідь DALL-E 2 на підказку «Кольорове фото T-Rex, який женеться за людиною на дорозі». Джерело: DALL-E 2

Я виявив, що зображення вище є типовими для варіацій на "[динозавр] женеться за людиною" оперативний дизайн, і що ніякі деталі в підказці не можуть змусити T-Rex справді відповідати. На першій і другій фотографіях чоловік (більш-менш) женеться за T-Rex; у третіх, наближаючись до нього з випадковим ігноруванням безпеки; і на останньому зображенні, очевидно, біг підтюпцем паралельно великому звіру. Приблизно через 10-15 спроб на цю тему я виявив, що динозавр так само «відволікається».

Цілком можливо, що єдині навчальні дані, до яких DALL-E 2 міг отримати доступ, були в лінії "людина бореться з динозавром", з рекламних кадрів для старих фільмів, таких як Мільйон років до нашої ери (1966), і Джеффа Голдблюма відомий політ від короля хижаків є просто винятком у цьому невеликому фрагменті даних.

 

* Моє перетворення вбудованих цитат авторів у гіперпосилання.

Вперше опубліковано 4 серпня 2022 р.

Письменник машинного навчання, фахівець із домену синтезу зображень людини. Колишній керівник відділу досліджень Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контактна особа: [захищено електронною поштою]
Twitter: @manders_ai