Штучний Інтелект
Модель дифузії eDiffi від NVIDIA дозволяє «малювати словами» тощо
Спроба створити точні композиції з моделями генеративного зображення прихованої дифузії, такими як Стабільна дифузія може бути як пастух котів; ті самі можливості уяви та інтерпретації, які дозволяють системі створювати надзвичайні деталі та викликати надзвичайні зображення з відносно простих текстових підказок, також важко вимкнути коли вам потрібен контроль над створенням зображень на рівні Photoshop.
Тепер новий підхід від дослідження NVIDIA під назвою ансамблева дифузія для зображень (eDiffi), використовує суміш багатьох методів вбудовування та інтерпретації (а не один і той самий метод протягом усього конвеєра), щоб забезпечити набагато більший рівень контролю над створеним вмістом. У прикладі нижче ми бачимо, як користувач малює елементи, де кожен колір представляє окреме слово з текстової підказки:
По суті, це «малювання масками» і перевертає iпарадигма живопису у Stable Diffusion, яка базується на виправленні зламаних або незадовільних зображень або розширенні зображень, які також могли мати бажаний розмір.
Натомість тут поля намальованої мазки представляють дозволені приблизні межі лише одного унікального елемента з єдиної концепції, що дозволяє користувачеві з самого початку встановити остаточний розмір полотна, а потім окремо додавати елементи.
Різноманітні методи, які використовуються в eDiffi, також означають, що система набагато краще включає кожен елемент у довгі та детальні підказки, тоді як Stable Diffusion і DALL-E 2 від OpenAI, як правило, визначають пріоритет певних частин підказки залежно від того, наскільки рано цільові слова з’являються в підказці або внаслідок інших факторів, таких як потенційні труднощі в роз’єднанні різних елементів, необхідних для повної, але комплексної (стосовно текстової підказки) композиції:
Додатково використання спец T5 кодер перетворення тексту в текст означає, що eDiffi здатний відтворювати зрозумілий англійський текст, або абстрактно запитуваний у підказці (тобто зображення містить деякий текст [x]) або явно запитаний (тобто на футболці написано "Nvidia Rocks"):
Додатковим доповненням до нової структури є те, що можна також надати одне зображення як підказку стилю, замість того, щоб навчати модель DreamBooth або текстове вбудовування на кількох прикладах жанру або стиль.
Команда новий папір має титул eDiffi: моделі розповсюдження тексту в зображення з набором експертних засобів усунення шуму та
Кодер тексту T5
Використання Google TТрансформатор передачі ext-to-text (T5) є ключовим елементом покращених результатів, продемонстрованих у eDiffi. Середній конвеєр латентної дифузії зосереджується на зв’язку між навченими зображеннями та підписами, які супроводжували їх, коли вони були зібрані з Інтернету (або пізніше вручну скориговані, хоча це дороге і тому рідкісне втручання).
Перефразувавши вихідний текст і запустивши модуль T5, можна отримати більш точні асоціації та уявлення, ніж були навчені в моделі спочатку, майже схожі на постфактум ручне маркування з більшою конкретністю та застосовністю до положень запитуваного текстового підказки.
Автори пояснюють:
«У більшості існуючих робіт, присвячених моделям дифузії, модель усунення шуму використовується для всіх рівнів шуму, а часова динаміка представлена за допомогою простого вбудовування часу, яке подається в модель усунення шуму через мережу MLP. Ми стверджуємо, що складну часову динаміку шумопоглинаючої дифузії неможливо вивчити з даних, ефективно використовуючи спільну модель з обмеженою ємністю.
«Замість цього ми пропонуємо збільшити потужність моделі усунення шумів шляхом запровадження групи експертів усунення шумів; кожен експертний засіб усунення шуму є моделлю усунення шуму, спеціалізованою для певного діапазону [рівнів шуму]. Таким чином ми можемо збільшити ємність моделі без уповільнення вибірки, оскільки обчислювальна складність оцінки [обробленого елемента] на кожному рівні шуму залишається незмінною».
Існуючий CLIP модулі кодування, включені в DALL-E 2 і Stable Diffusion, також здатні знаходити альтернативні інтерпретації зображення для тексту, пов’язаного з введенням користувача. Однак вони навчаються на подібній інформації, що й оригінальна модель, і не використовуються як окремий рівень інтерпретації, як T5 в eDiffi.
Автори стверджують, що eDiffi — це перший випадок, коли кодери T5 і CLIP були включені в один конвеєр:
«Оскільки ці два кодувальники навчені з різними цілями, їхні вбудовування сприяють формуванню різних зображень з однаковим вхідним текстом. У той час як вбудовані тексти CLIP допомагають визначити загальний вигляд створених зображень, вихідні дані, як правило, пропускають дрібні деталі в тексті.
«На відміну від цього, зображення, створені лише за допомогою вбудованого тексту T5, краще відображають окремі об’єкти, описані в тексті, але їх загальний вигляд менш точний. Їх спільне використання дає найкращі результати генерації зображень у нашій моделі».
Переривання та посилення процесу дифузії
У документі зазначається, що типова модель прихованої дифузії почне шлях від чистого шуму до зображення, покладаючись виключно на текст на ранніх етапах генерації.
Коли шум перетворюється на якийсь приблизний макет, який представляє опис у текстовій підказці, текстовий аспект процесу фактично відпадає, а решта процесу зміщується в бік розширення візуальних функцій.
Це означає, що будь-який елемент, який не було вирішено на початковій стадії інтерпретації шуму під керуванням тексту, важко впровадити в зображення пізніше, оскільки два процеси (перетворення тексту на макет і макет на зображення) відносно мало перетинаються. , і основний макет досить заплутаний до того часу, коли він досягає процесу збільшення зображення.
Професійний потенціал
Приклади на сторінці проекту та відео на YouTube зосереджені на піар-дружньому створенні милих зображень, що нагадують меми. Як завжди, дослідження NVIDIA применшують потенціал своєї останньої інновації для покращення фотореалістичних або VFX робочих процесів, а також її потенціал для покращення зображень і відео підробок.
У прикладах користувач-початківець або аматор пише приблизні контури розміщення для певного елемента, тоді як у більш систематичному робочому процесі VFX можна використовувати eDiffi для інтерпретації кількох кадрів відеоелемента за допомогою перетворення тексту в зображення, де Контури дуже точні й базуються, наприклад, на малюнках, де фон було видалено через зелений екран або алгоритмічні методи.
Використання навченого будка мрій символів і конвеєра «зображення-зображення» за допомогою eDiffi, потенційно можливо почати вирішувати одну з помилок будь-який модель прихованої дифузії: часова стабільність. У такому випадку як поля накладеного зображення, так і вміст зображення будуть «попередньо розміщені» на полотні користувача, із тимчасовою безперервністю візуалізованого вмісту (тобто перетворюючи реального практикуючого Тай-Чі на робота ) забезпечується використанням заблокованої моделі DreamBooth, яка «запам’ятала» свої навчальні дані – погано для інтерпретації, чудово для відтворюваності, точності та безперервності.
Метод, дані та тести
У документі стверджується, що модель eDiffi була навчена на «колекції загальнодоступних і пропрієтарних наборів даних», ретельно відфільтрованих попередньо навченою моделлю CLIP, щоб видалити зображення, які можуть знизити загальну естетичну оцінку результату. Остаточний набір відфільтрованих зображень містить «близько одного мільярда» пар текст-зображення. Розмір навчених зображень описується як «найкоротша сторона більше 64 пікселів».
Було навчено ряд моделей для цього процесу, як базова, так і моделі з високою роздільною здатністю, навчені на Адам В оптимізатор зі швидкістю навчання 0.0001, розпадом ваги 0.01 і величезним розміром пакета 2048.
Базова модель була навчена на 256 графічних процесорах NVIDIA A100, а дві моделі з надвисокою роздільною здатністю на 128 NVIDIA A100 Графічні процесори для кожної моделі.
Система була заснована на власній системі NVIDIA Imaginaire Бібліотека PyTorch. Коко і набори даних Visual Genome використовувалися для оцінки, хоча і не були включені в остаточні моделі МС-КОКО конкретний варіант, який використовується для тестування. Випробувані системи конкурентів були ГЛИД, Зробіть сцену, ВІД-Є 2, Стабільна дифузіяі дві системи синтезу зображень Google, Зображення та партія.
Відповідно до аналог попередній робота, нульовий постріл ПІД-30К використовувався як показник оцінки. Відповідно до FID-30K 30,000 XNUMX підписів витягуються випадковим чином із набору перевірки COCO (тобто не зображення чи текст, що використовуються в навчанні), які потім використовуються як текстові підказки для синтезу зображень.
Початкова відстань Фреше (FID) між згенерованими та наземними зображеннями правдивості потім було розраховано, на додаток до запису оцінки CLIP для згенерованих зображень.
У результаті eDiffi вдалося отримати найнижчу (найкращу) оцінку FID з нульовим вистрілом навіть проти систем із набагато більшою кількістю параметрів, таких як 20 мільярдів параметрів Parti, порівняно з 9.1 мільярдами параметрів у найвищому специфікована модель eDiffi, підготовлена для тестів.
Висновок
eDiffi від NVIDIA є бажаною альтернативою простому додаванню все більших і більших обсягів даних і складності до існуючих систем замість використання більш розумного та багаторівневого підходу до деяких із найскладніших перешкод, пов’язаних із заплутаністю та неможливістю редагування в системах генеративних зображень із прихованою дифузією.
У субредітах Stable Diffusion і Discords уже обговорюється або пряме включення будь-якого коду, який може бути доступним для eDiffi, або перетворення принципів, що лежать в його основі, в окремій реалізації. Однак новий конвеєр настільки кардинально відрізняється, що він становитиме повну зміну версії для SD, відкидаючи деяку зворотну сумісність, хоча пропонуючи можливість значно покращених рівнів контролю над остаточними синтезованими зображеннями, не жертвуючи захоплюючими образні сили прихованої дифузії.
Вперше опубліковано 3 листопада 2022 р.