Зв'язатися з нами

Унікальне рішення DALL-E 2 для подвоєння значень

Штучний Інтелект

Унікальне рішення DALL-E 2 для подвоєння значень

mm
оновлений on

Кожен, хто вивчає італійську мову, рано вчиться звертати увагу на контекст, коли описує a мітла, тому що італійське слово для цього буденного домашнього предмета має надзвичайно неприємний смак друге значення як дієслово*. Хоча ми рано вчимося роз’єднувати семантичне відображення та (відповідну) застосовність слів із кількома значеннями, це не те вміння, яке легко передати системам синтезу гіпермасштабних зображень, таким як DALL-E 2 і Stable Diffusion, оскільки вони покладаються на Попереднє навчання OpenAI Contrastive Language–Image (CLIP), який трактує об’єкти та їхні властивості досить вільно (проте все більше все більше землі у просторі латентної дифузії зображення та синтезу відео.

Вивчаючи цей недолік, а нова дослідницька співпраця з Університету Бар-Ілан та Інституту штучного інтелекту Аллена пропонує широке дослідження того, наскільки DALL-E 2 схильний до таких семантичних помилок:

Подвійні значення розділені на кілька об’єктів у DALL-E 2 – хоча будь-яка система латентної дифузії може створити такі приклади. У верхньому правому зображенні видалення «золота» з підказки змінює вид риби, тоді як у випадку «перетину зебри» необхідно чітко вказати поверхню дороги, щоб видалити дубльовану асоціацію. Джерело: https://export.arxiv.org/pdf/2210.10606

Подвійні значення розділені на кілька інтерпретацій у DALL-E 2 – хоча будь-яка латентна дифузійна система може створити такі приклади. У верхньому правому зображенні видалення «золота» з підказки змінює вид риби, тоді як у випадку «перетину зебри» необхідно чітко вказати поверхню дороги, щоб видалити дубльовану асоціацію. Джерело: https://export.arxiv.org/pdf/2210.10606

Автори виявили, що ця тенденція до подвійного тлумачення слів і фраз, здається, є не тільки спільною для всіх моделей дифузії, керованих CLIP, але й погіршується, оскільки моделі навчаються на все більших і більших обсягах даних. У документі зазначається, що «зменшені» версії моделей перетворення тексту в зображення, включаючи DALL-E Mini (тепер Craiyon), виводять такі помилки набагато рідше, і що Стабільна дифузія також менше помиляється – хоча лише тому, що дуже часто він взагалі не слідує підказці, що є ще одним видом помилки.

Просте підказка «date» змушує DALL-E 2 викликати два з кількох значень слова, тоді як слово «fan» також розпадається на два своїх семантичних відображення, а на третьому зображенні фраза «cone» надійно перетворює невказану їжу в підказці на морозиво, яке асоціюється з «ріжком».

Просте підказка «date» змушує DALL-E 2 викликати два з кількох значень слова, тоді як слово «fan» також розпадається на два своїх семантичних відображення, а на третьому зображенні фраза «cone» надійно перетворює невказану їжу в підказці на морозиво, яке асоціюється з «ріжком».

Пояснюючи, як ми виконуємо ефективне лексичне розділення, у статті зазначено:

«Хоча символи, як і структури речень, можуть бути неоднозначними, після створення інтерпретації ця неоднозначність уже вирішена. Наприклад, у той час як символ «кажан» у літаючому кажані можна інтерпретувати або як дерев’яну палицю, або як тварину, наші можливі інтерпретації речення — це або літаюча дерев’яна палиця, або літаюча тварина, але ніколи не те й інше одночасно. Якщо слово кажан було використано в тлумаченні для позначення предмета (наприклад, дерев’яної палиці), воно не може бути повторно використано для позначення іншого предмета (тварини) у тому самому тлумаченні.'

DALL-E 2, зазначає газета, не має таких обмежень:

«Кажан летить над бейсбольним стадіоном» – перше зображення взято з паперу, інші три отримані простою подачею тієї самої підказки в DALL-E 2.

«Кажан летить над бейсбольним стадіоном» – перше зображення взято з паперу, інші три отримані простою подачею тієї самої підказки в DALL-E 2.

Це майно було названий чутливість до ресурсів.

У документі визначено три аномальні поведінки, які демонструє DALL-E 2: слово чи фраза можуть бути інтерпретовані та ефективно розділені на дві різні сутності, відтворюючи об’єкт або концепцію для кожної в одній сцені; що слово можна інтерпретувати як модифікатор двох різних сутностей (див. «золоту рибку» та інші приклади вище); і що слово можна інтерпретувати одночасно і як модифікатор, і як альтернативну сутність – прикладом цього є підказка «печатка відкриває лист»:

«Печатка відкриває лист» – перша ілюстрація взята з паперу, три сусідні – ідентичні репродукції з DALL-E 2. Фотореалістичні приклади нижче мали додатковий текст «фото, Canon50, 85 мм, F5.6, нагорода- фотографія-переможець».

«Печатка відкриває лист» – перша ілюстрація взята з паперу, три сусідні – ідентичні репродукції з DALL-E 2. Фотореалістичні приклади нижче мали додатковий текст «фото, Canon50, 85 мм, F5.6, нагорода- фотографія-переможець».

Автори ідентифікують два режими невдачі для дифузійних моделей у цьому відношенні: результати підказок користувача з неоднозначними словами часто показуватимуть конкретизоване слово разом із деяким проявом концепції; і витік концепції, де властивості одного об’єкта «просочуються» в інший візуалізований об’єкт.

«Взяті разом, явища, які ми досліджуємо, надають докази обмежень у лінгвістичних можливостях DALLE-2 і відкривають шляхи для майбутніх досліджень, які б з’ясували, чи виникають вони через проблеми з кодуванням тексту, генеративною моделлю чи тим і іншим. Загалом, запропонований підхід можна поширити на інші сценарії, де процес декодування використовується для виявлення індуктивного зміщення та недоліків моделей перетворення тексту в зображення».

Використовуючи 17 слів, які змусять DALL-E 2 розділити вхідні дані на кілька виходів, автори помітили, що омонім дублювання відбулося в понад 80% із 216 відтворених зображень.

Дослідники використовували пари «стимул-контроль», щоб перевірити, наскільки конкретна і, можливо, надмірно специфікована мова необхідна, щоб зупинити таке дублювання. Для тестів «сутність-властивість» було створено 10 таких пар, і автори відзначають, що підказки провокують спільну властивість у 92.5% випадків, тоді як підказка контролю викликає її лише в 6.6% випадків.

«[Щоб] продемонструвати, розглянемо зебру та вулицю, тут зебра є сутністю, але вона змінює вулицю, а DALLE-2 постійно створює пішохідні переходи, можливо, через схожість смуг зебри з пішохідним переходом. І згідно з нашим припущенням, контрольна вулиця з зеброю та гравієм визначає тип вулиці, яка зазвичай не має пішохідних переходів, і справді, усі наші контрольні зразки для цього запиту не містять пішохідного переходу.