Штучний інтелект

Самоуваження керівництва: покращення якості зразків дифузійних моделей

Published January 2, 2024

Updated April 27, 2026

Kunal Kejriwal

Self-Attention Guidance : Improving Sample Quality of Diffusion Models

Дифузійні моделі очищення шуму є рамками генерації штучного інтелекту, які синтезують зображення з шуму через ітеративний процес очищення шуму. Вони відзначаються своїми винятковими можливостями генерації зображень і різноманітністю, які в основному пояснюються методами керівництва, що залежать від тексту або класу, включаючи керівництво класифікатора і безкласифікаторне керівництво. Ці моделі були особливо успішними у створенні різноманітних високоякісних зображень. Останні дослідження показали, що методи керівництва, такі як підписи класів і мітки, відіграють важливу роль у покращенні якості зображень, які ці моделі генерують.

Однак дифузійні моделі та методи керівництва мають обмеження в певних зовнішніх умовах. Метод керівництва без класифікатора (CFG), який використовує викид міток, додає складність до процесу навчання, тоді як метод керівництва класифікатора (CG) вимагає додаткового навчання класифікатора. Обидва методи обмежені своєю залежністю від важко здобутих зовнішніх умов, що обмежує їхній потенціал і обмежує їх умовними умовами.

Щоб подолати ці обмеження, розробники сформулювали більш загальний підхід до керівництва дифузією, відомий як Самоуваження керівництва (SAG). Цей метод використовує інформацію з проміжних зразків дифузійних моделей для генерації зображень. Ми розглянемо SAG в цій статті, обговорюючи його роботу, методологію та результати порівняно з поточними рамками та трубопроводами штучного інтелекту.

Самоуваження керівництва : покращення якості зразків дифузійних моделей

Моделі очищення шуму дифузії (DDM) здобули популярність завдяки своїй здатності створювати зображення з шуму через ітеративний процес очищення шуму. Здібності цих моделей щодо синтезу зображень в основному пояснюються використаними методами керівництва дифузії. Незважаючи на свої сильні сторони, дифузійні моделі та методи керівництва зіштовхуються з проблемами, такими як додана складність і підвищені обчислювальні витрати.

Щоб подолати поточні обмеження, розробники ввели метод Самоуваження керівництва, більш загальний підхід до керівництва дифузії, який не залежить від зовнішньої інформації від керівництва дифузії, тим самим забезпечуючи умовно-вільний і гнучкий підхід до керівництва рамками дифузії. Підхід, обраний Самоуваженням керівництва, в кінцевому підсумку допомагає покращити застосовність традиційних методів керівництва дифузії до випадків з або без зовнішніх вимог.

Самоуваження керівництва базується на простому принципі загального формулювання, і припущенні, що внутрішня інформація, вміщена в проміжних зразках, може служити керівництвом. На основі цього принципу метод SAG спочатку вводить керівництво розмиття, просте і прямолінійне рішення для покращення якості зразків. Керівництво розмиття спрямоване на використання доброзичливих властивостей розмиття Гаусса для видалення дрібномасштабних деталей природним чином шляхом керівництва проміжними зразками за допомогою видаленої інформації в результаті розмиття Гаусса. Хоча керівництво розмиття дійсно підвищує якість зразків з помірним масштабом керівництва, воно не може повторити результати на великому масштабі керівництва, оскільки часто вводить структуровану двозначність у всіх регіонах. В результаті керівництво розмиття має труднощі з вирівнюванням оригінального вводу з передбаченням погіршеного вводу. Щоб підвищити стабільність і ефективність керівництва розмиття на більший масштаб керівництва, Самоуваження керівництва намагається використовувати механізм самоуваження дифузійних моделей, оскільки сучасні дифузійні моделі вже містять механізм самоуваження в своїй архітектурі.

З припущенням, що самоуваження є суттєвим для захоплення виразної інформації, метод Самоуваження керівництва використовує карти самоуваження дифузійних моделей для протиурочистого розмиття регіонів, що містять виразну інформацію, і в процесі керівництва дифузійними моделями з необхідною залишковою інформацією. Метод потім використовує карти уваги під час зворотного процесу дифузійних моделей, щоб підвищити якість зображень, і використовує самоумови для зменшення артефактів без потреби в додатковому навчанні або зовнішній інформації.

Підсумувавши, метод Самоуваження керівництва

Є новим підходом, який використовує внутрішні карти самоуваження дифузійних рамок для покращення якості згенерованих зображень без потреби в додатковому навчанні або залежності від зовнішніх умов.
Метод SAG намагається узагальнити умовні методи керівництва в умовно-вільний метод, який можна інтегрувати з будь-якою дифузійною моделлю без потреби в додаткових ресурсах або зовнішніх умовах, тим самим підвищуючи застосовність рамок керівництва.
Метод SAG також намагається продемонструвати свою ортогональність до існуючих умовних методів і рамок, тим самим забезпечуючи підвищення продуктивності шляхом гнучкої інтеграції з іншими методами та моделями.

Переходячи далі, метод Самоуваження керівництва вчиться з висновків пов’язаних рамок, включаючи моделі очищення шуму дифузії, керівництво зразками, методи самоуваження штучного інтелекту та внутрішні представлення дифузійних моделей. Однак у своєму ядрі метод Самоуваження керівництва реалізує висновки з DDPM або дифузійних моделей очищення шуму, керівництва класифікатора, безкласифікаторного керівництва та самоуваження в дифузійних рамках. Ми будемо говорити про них докладніше в наступному розділі.

Самоуваження керівництва : попередні відомості, методологія та архітектура

Дифузійна модель очищення шуму або DDPM

DDPM або дифузійна модель очищення шуму – це модель, яка використовує ітеративний процес очищення шуму для відновлення зображення з білого шуму. Традиційно, модель DDPM отримує вхідне зображення та графік дисперсії на часовий крок для отримання зображення за допомогою прямого процесу, відомого як Марковський процес.

Керівництво класифікатора та безкласифікаторне керівництво з реалізацією GAN

GAN або генеративні протиурочисті мережі володіють унікальним обміном різноманітністю за вірогідністю, і щоб привнести цю здатність GAN-рамок до дифузійних моделей, рамка Самоуваження керівництва пропонує використовувати метод керівництва класифікатора, який використовує додатковий класифікатор. З іншого боку, безкласифікаторний метод керівництва також можна реалізувати без використання додаткового класифікатора для досягнення тих самих результатів. Хоча метод доставляє бажані результати, він все ще не є обчислювально життєздатним, оскільки вимагає додаткових міток, і також обмежує рамку умовними дифузійними моделями, які вимагають додаткових умов, таких як текст або клас, разом з додатковими деталями навчання, які додають до складності моделі.

Узагальнення керівництва дифузії

Хоча методи керівництва класифікатора та безкласифікаторного керівництва доставляють бажані результати та допомагають у умовній генерації дифузійних моделей, вони залежать від додаткових входів. Для будь-якого заданого часу кроку вхід для дифузійної моделі складається з узагальненої умови та порушеного зразка без узагальненої умови. Крім того, узагальнена умова охоплює внутрішню інформацію в порушеному зразку або зовнішню умову, або навіть обидва. Результат керівництва формулюється з використанням уявного регресора з припущенням, що він може передбачити узагальнену умову.

Покращення якості зображень за допомогою карт самоуваження

Узагальнена дифузійна керівництво подразумеває, що можливо надати керівництво зворотному процесу дифузійних моделей шляхом витягування виразної інформації в узагальненій умові, вміщеній в порушеному зразку. Будуючи на цьому, метод Самоуваження керівництва захоплює виразну інформацію для зворотних процесів ефективно, обмежуючи ризики, які виникають в результаті проблем поза розподілом у попередньо натренованих дифузійних моделях.

Керівництво розмиттям

Керівництво розмиттям у Самоуваженні керівництва базується на розмитті Гаусса, лінійному методі фільтрації, в якому вхідний сигнал згортається з фільтром Гаусса для генерації виходу. З збільшенням стандартного відхилення розмиття Гаусса зменшує дрібномасштабні деталі в входах сигналів, і призводить до локально нерозрізнимих входів сигналів шляхом їх згладжування до константи. Крім того, експерименти показали дисбаланс інформації між входом сигналом і виходом сигналом розмиття Гаусса, де виходовий сигнал містить більше дрібномасштабної інформації.

На основі цього висновку, рамка Самоуваження керівництва вводить керівництво розмиттям, техніку, яка свідомо виключає інформацію з проміжних реконструкцій під час процесу дифузії, і замість цього використовує цю інформацію для керівництва своїми передбаченнями щодо збільшення актуальності зображень до вхідної інформації. Керівництво розмиттям суттєво спричиняє відхилення оригінального передбачення від передбачення розмитого входу. Крім того, доброзичлива властивість розмиття Гаусса запобігає виходовим сигналам відхилятися суттєво від оригінального сигналу з помірним відхиленням. Простими словами, розмиття відбувається в зображеннях природним чином, що робить розмиття Гаусса більш підходящим методом для застосування до попередньо натренованих дифузійних моделей.

У трубопроводі Самоуваження керівництва вхідний сигнал спочатку розмиттюється за допомогою фільтра Гаусса, і потім дифундуюється з додатковим шумом для генерації виходового сигналу. Роблячи це, трубопровід SAG пом’якшує побічний ефект результатового розмиття, яке зменшує шум Гаусса, і робить керівництво залежним від вмісту, а не від випадкового шуму. Хоча керівництво розмиттям доставляє задовільні результати на рамках з помірним масштабом керівництва, воно не може повторити результати на існуючих моделях з великим масштабом керівництва, оскільки часто стає схильним до генерації шумових результатів, як це показано на наступному зображенні.

Ці результати можуть бути результатом структурованої двозначності, введеної в рамку глобальним розмиттям, що робить складним для трубопровіду SAG вирівняти передбачення оригінального входу з передбаченням погіршеного входу, в результаті чого виходять шумові виходи.

Механізм самоуваження

Як згадувалося раніше, дифузійні моделі зазвичай мають вбудований механізм самоуваження, і це один з більш важливих компонентів у дифузійній моделі. Механізм самоуваження реалізований в ядрі дифузійних моделей, і він дозволяє моделі звертати увагу на виразні частини входу під час генеративного процесу, як це показано на наступному зображенні з високочастотними масками в верхньому рядку, і масками самоуваження в нижньому рядку остаточно згенерованих зображень.

Пропонований метод Самоуваження керівництва будується на тому самому принципі, і використовує можливості карт самоуваження в дифузійних моделях. Загалом, метод Самоуваження керівництва розмиттює патчі самоуваження в входному сигналі або, простими словами, приховує інформацію патчів, які звертають увагу дифузійні моделі. Крім того, виходові сигнали в Самоуваженні керівництва містять цілісні регіони входових сигналів, що означає, що вони не призводять до структурованої двозначності входів, і розв’язують проблему глобального розмиття. Трубопровід потім отримує агреговані карти самоуваження, проводячи глобальне平均не пуліювання для агрегації карт самоуваження до розміру, і найближче сусідське інтерполювання для збігання розміру входового сигналу.

Самоуваження керівництва : експерименти та результати

Щоб оцінити свою продуктивність, трубопровід Самоуваження керівництва зразковий за допомогою 8 графічних процесорів Nvidia GeForce RTX 3090, і побудований на попередньо натренованих IDDPM, ADM та стабільних дифузійних рамках.

Умовна генерація з Самоуваженням керівництва

Щоб виміряти ефективність трубопровіду SAG на умовних моделях і продемонструвати умовно-вільну властивість, якої не володіють керівництво класифікатора та безкласифікаторне керівництво, трубопровід SAG запускається на умовно попередньо натренованих рамках на 50 тисяч зразків.

Як можна спостерігати, реалізація трубопроводу SAG покращує метрики FID, sFID та IS умовного входу, одночасно знижуючи значення відкликання. Крім того, якісні покращення в результаті реалізації трубопровіду SAG очевидні на наступних зображеннях, де зображення зверху є результатами з рамок ADM та стабільної дифузії, тоді як зображення внизу є результатами з рамок ADM та стабільної дифузії з трубопроводом SAG.

Умовна генерація з SAG

Інтеграція трубопроводу SAG в існуючі рамки доставляє виняткові результати в умовній генерації, і трубопровід SAG здатний до умовної аґностики, що дозволяє трубопроводу SAG реалізовуватися для умовної генерації.

Стабільна дифузія з Самоуваженням керівництва

Хоча оригінальна стабільна дифузійна рамка генерує високоякісні зображення, інтеграція стабільної дифузійної рамки з трубопроводом Самоуваження керівництва може суттєво покращити результати. Щоб оцінити свій ефект, розробники використовують порожні підказки для стабільної дифузії з випадковим насінням для кожного зображення пари, і використовують оцінку людини на 500 парах зображень з і без Самоуваження керівництва. Результати показані на наступному зображенні.

Крім того, реалізація SAG може покращити можливості стабільної дифузійної рамки, оскільки злиття безкласифікаторного керівництва з Самоуваженням керівництва може розширити діапазон моделей стабільної дифузії до текст-до-зображення синтезу. Крім того, згенеровані зображення з моделі стабільної дифузії з Самоуваженням керівництва мають вищу якість з меншими артефактами завдяки самоумовій дії трубопроводу SAG, як це показано на наступному зображенні.

Поточні обмеження

Хоча реалізація трубопроводу Самоуваження керівництва може суттєво покращити якість згенерованих зображень, вона має деякі обмеження.

Одним з основних обмежень є ортогональність з керівництвом класифікатора та безкласифікаторним керівництвом. Як можна спостерігати, реалізація SAG покращує балк FID і передбачувальну оцінку, що означає, що трубопровід SAG містить ортогональний компонент, який можна використовувати з традиційними методами керівництва одночасно.

Однак вона все ще вимагає, щоб дифузійні моделі були натреновані певним чином, що додає до складності, а також обчислювальних витрат.

Крім того, реалізація Самоуваження керівництва не збільшує пам’ять або час споживання, що вказує на те, що навантаження, що виникає внаслідок операцій, таких як маскування та розмиття в SAG, є незначним. Однак воно все ще додає до обчислювальних витрат, оскільки включає додатковий крок порівняно з підходами без керівництва.

Остатні думки

У цій статті ми говорили про Самоуваження керівництва, новий і загальний підхід до методу керівництва, який використовує внутрішню інформацію, доступну в дифузійних моделях, для генерації високоякісних зображень. Самоуваження керівництва базується на простому принципі загального формулювання, і припущенні, що внутрішня інформація, вміщена в проміжних зразках, може служити керівництвом. Трубопровід Самоуваження керівництва є умовно-вільним і безнавчальним підходом, який можна реалізовувати через різні дифузійні моделі, і використовує самоумови для зменшення артефактів у згенерованих зображеннях, і підвищує загальну якість.

Related Topics:Denoising diffusion models

Kunal Kejriwal

Інженер за професією, письменник серцем. Kunal є технічним письменником з глибокою любов'ю та розумінням AI і ML, присвяченим спрощенню складних концепцій у цих галузях завдяки його цікавим та інформативним документам.