Погляд Anderson

Боротьба за нульову настройку в генерації штучного інтелекту

mm
Timothy Chalomet replaces Jack Nicholson in The Shining (1980), thanks to the new HyperLoRA system. Source: https://arxiv.org/pdf/2503.16944

Якщо ви хочете розмістити себе в популярному інструменті генерації зображень або відео – але ви ще не достатньо відомі, щоб основна модель могла вас впізнати – вам потрібно буде тренувати модель низькорангову адаптацію (LoRA) за допомогою колекції ваших власних фотографій. Після створення цієї персоналізованої моделі LoRA генераційна модель може включити вашу ідентичність у майбутніх результатах.

Це зазвичай називається настройкою у сфері досліджень синтезу зображень і відео. Це вперше з’явилося через кілька місяців після появи Stable Diffusion влітку 2022 року, коли проект Google Research DreamBooth запропонував високогігабайтні моделі настройки, у закритій схемі, яка була згодом адаптована ентузіастами та випущена у спільноту.

Моделі LoRA швидко пішли слідом, і пропонували легше тренування та значно менші розміри файлів, при мінімальній або відсутній втраті якості, швидко домінуючи на сцені настройки для Stable Diffusion та її наступників, пізніших моделей, таких як Flux, і тепер нових генераційних відеомоделей, таких як Hunyuan Video і Wan 2.1.

Повтор і повтор

Проблема полягає в тому, що, як ми вже відзначали раніше, кожен раз, коли з’являється нова модель, їй потрібно нове покоління моделей LoRA, які потрібно тренувати, що представляє значну тривогу для виробників моделей LoRA, які можуть тренувати ряд персоналізованих моделей, тільки щоб виявити, що оновлення моделі або популярна нова модель означають, що їм потрібно починати все спочатку.

Отже підходи нульової настройки стали сильною течією в літературі останнім часом. У цьому сценарії замість того, щоб створювати набір даних і тренувати власну підмодель, ви просто надаєте одну або кілька фотографій об’єкта, який потрібно ввести в генерацію, і система інтерпретує ці вхідні джерела у змішаний результат.

Нижче ми бачимо, що крім заміни обличчя, система такого типу (тут використовується PuLID) також може включати ідентифікатори у стилізовану передачу:

Приклади передачі ідентифікатора обличчя за допомогою системи PuLID. Джерело: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

Приклади передачі ідентифікатора обличчя за допомогою системи PuLID. Джерело: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file

Заміна трудомісткої та хиткої системи, як LoRA, на загальну адаптерну систему є хорошою (і популярною) ідеєю, але це також складно; надзвичайна увага до деталей і покриття, отримані під час процесу тренування LoRA, дуже важко імітувати в одній моделі типу IP-Adapter, яка повинна відповідати рівню деталізації та гнучкості LoRA без попередньої переваги аналізу повного набору ідентифікаторів.

HyperLoRA

З урахуванням цього, існує цікава нова робота від ByteDance, яка пропонує систему, яка генерує фактичний код LoRA на льоту, який зараз унікальний серед рішень нульової настройки;

Зліва, вхідні зображення. Праворуч, гнучкий діапазон результатів на основі вхідних зображень, ефективно створюючи глибокі підробки акторів Ентоні Гопкінса та Енн Гетевей.

Зліва, вхідні зображення. Праворуч, гнучкий діапазон результатів на основі вхідних зображень, ефективно створюючи глибокі підробки акторів Ентоні Гопкінса та Енн Гетевей. Джерело: https://arxiv.org/pdf/2503.16944

У роботі зазначається:

‘Техніки на основі адаптера, такі як IP-Adapter, заморожують параметри основної моделі та використовують архітектуру плагіна для забезпечення нульової настройки, але вони часто демонструють відсутність природності та автентичності, які не слід ігнорувати при синтезі портретів.

‘[Ми] пропонуємо параметро-ефектний адаптивний метод генерації під назвою HyperLoRA, який використовує адаптивну архітектуру плагіна для генерації ваг LoRA, об’єднуючи переважну продуктивність LoRA з можливістю нульової настройки схеми адаптера.

‘Через нашу ретельно розроблену мережеву структуру та стратегію тренування ми досягли нульової настройки персоналізованого портретного синтезу (підтримується як один, так і кілька вхідних зображень) з високою фотореалістичністю, вірністю та редагуванням.’

Найкорисніше, система, як тренована, може бути використана з існуючою ControlNet, забезпечуючи високий рівень специфіки генерації:

Тімоті Шаламе робить несподіване веселе появлення у фільмі «Сяйво» (1980), на основі трьох вхідних фотографій у HyperLoRA.

Тімоті Шаламе робить несподіване веселе появлення у фільмі «Сяйво» (1980), на основі трьох вхідних фотографій у HyperLoRA, з маскою ControlNet, яка визначає результат (у поєднанні з текстовим промптом).

Що стосується того, чи буде нова система коли-небудь доступна кінцевим користувачам, ByteDance має розумну репутацію в цьому відношенні, випустивши дуже потужну LatentSync рамку синхронізації губ, і тільки що випустивши також InfiniteYou рамку.

Від’ємно, робота не містить жодних вказівок на намір випустити її, а ресурси, необхідні для відтворення роботи, настільки великі, що це буде складно для спільноти ентузіастів відтворити (як це було з DreamBooth).

Нова робота названа HyperLoRA: Параметро-ефектний адаптивний метод генерації для синтезу портретів, і походить від семи дослідників з ByteDance та спеціального відділу інтелектуального створення компанії.

Метод

Новий метод використовує стабільну дифузійну модель.latent дифузійну модель (LDM) SDXL як основну модель, хоча принципи здаються застосовними до дифузійних моделей загалом (однак вимоги до тренування – див. нижче – можуть зробити це складним для застосування до генераційних відеомоделей).

Процес тренування для HyperLoRA розділений на три етапи, кожний з яких призначений для ізоляції та збереження конкретної інформації у вивчених вагах. Метою цього процедуру є запобігання забруднення ідентифікаторних ознак неважливими елементами, такими як одяг чи фон, одночасно досягаючи швидкої та стабільної збіжності.

Концептуальна схема для HyperLoRA. Модель розділена на 'Hyper ID-LoRA' для ідентифікаторних ознак і 'Hyper Base-LoRA' для фону та одягу. Це розділення зменшує витік ознак. Під час тренування базова модель SDXL та кодувальники заморожені, а оновлюються лише модулі HyperLoRA. При інтерпретації потрібен лише ID-LoRA для генерації персоналізованих зображень.

Концептуальна схема для HyperLoRA. Модель розділена на ‘Hyper ID-LoRA’ для ідентифікаторних ознак і ‘Hyper Base-LoRA’ для фону та одягу. Це розділення зменшує витік ознак. Під час тренування базова модель SDXL та кодувальники заморожені, а оновлюються лише модулі HyperLoRA. При інтерпретації потрібен лише ID-LoRA для генерації персоналізованих зображень.

Перший етап зосереджується виключно на вивченні ‘Base-LoRA’ (ліворуч внизу в схемі зображення вище), який захоплює ідентифікаторно-неважливі деталі.

Для забезпечення цього розділення дослідники свідомо розмитили обличчя на тренувальних зображеннях, дозволяючи моделі сприймати речі, такі як фон, освітлення та поза – але не ідентичність. Цей етап «розігріву» діє як фільтр, видаляючи низькорівневі відволікання перед початком навчання ідентифікаторних ознак.

На другому етапі вводиться ‘ID-LoRA’ (ліворуч зверху в схемі зображення вище). Тут ідентифікаторні ознаки обличчя кодуються двома паралельними шляхами: CLIP Візуальний трансформатор (CLIP ViT) для структурних ознак і InsightFace AntelopeV2 кодувальник для більш абстрактних представлень ідентичності.

Перехідний підхід

Ознаки CLIP допомагають моделі збігатися швидко, але ризикують перетренуванням, тоді як вкладення Antelope більш стабільні, але повільніші для тренування. Тому система починається з більшої залежності від CLIP, і поступово вводить Antelope, щоб уникнути нестабільності.

На останньому етапі шари уваги, керовані CLIP, заморожуються повністю. Продовжується тренування лише модулів уваги, пов’язаних з AntelopeV2, дозволяючи моделі уточнювати збереження ідентичності без погіршення вірності чи загальності раніше вивчених компонентів.

Ця фазова структура є по суті спробою роз’єднання. Ідентифікаторні та неідентифікаторні ознаки спочатку розділяються, а потім уточнюються незалежно. Це методичний відповідь на звичайні режими відмови персоналізації: дрейф ідентичності, низька редагованість та перенавчання на випадкових ознаках.

Поки ви вагаєтесь

Після того, як CLIP ViT та AntelopeV2 витягнули як структурні, так і ідентифікаторні ознаки з даного портрета, отримані ознаки передаються через пересамплер перцептора (походить від вищезгаданого проекту IP-Adapter) – трансформерний модуль, який відображає ознаки у компактний набір коефіцієнтів.

Використовуються два окремі пересамплери: один для генерації ваг Base-LoRA (які кодують фон та неідентифікаторні елементи) і інший для ваг ID-LoRA (які зосереджені на ідентифікаторних ознаках обличчя).

Схема мережевої структури HyperLoRA.

Схема мережевої структури HyperLoRA.

Вихідні коефіцієнти потім лінійно поєднуються з набором вивчених матриць базових ваг LoRA, виробляючи повні ваги LoRA без необхідності тонкої настройки базової моделі.

Цей підхід дозволяє системі генерувати персоналізовані ваги повністю на льоту, використовуючи лише кодувальники зображень та легкий проєкційний механізм, одночасно використовуючи можливість модифікації поведінки базової моделі безпосередньо.

Дані та тести

Для тренування HyperLoRA дослідники використали підмножину з 4,4 мільйонів зображень обличчя з набору даних LAION-2B (нині найкраще відомий як джерело даних для оригінальних моделей Stable Diffusion 2022 року).

InsightFace було використано для фільтрації небазових облич та кількох зображень. Зображення були потім анотовані системою підписів BLIP-2.

У разі підвищення даних зображення випадковим чином обрізалися навколо обличчя, але завжди зосереджувалися на області обличчя.

Відповідні ранги LoRA мали пристосуватися до наявної пам’яті в тренувальній установці. Тому ранг LoRA для ID-LoRA був встановлений на 8, а ранг для Base-LoRA – на 4, тоді як восьмиступенева накопичення градієнта було використано для симуляції великого батч-розміру, ніж той, який був фактично можливий на апаратному забезпеченні.

Дослідники тренували модулі Base-LoRA, ID-LoRA (CLIP) та ID-LoRA (ідентифікаторне вкладення) послідовно протягом 20 тис., 15 тис. та 55 тис. ітерацій відповідно. Під час тренування ID-LoRA вони вибірково брали з трьох умов з ймовірностями 0,9, 0,05 та 0,05.

Система була реалізована за допомогою PyTorch та Diffusers, а весь процес тренування тривав приблизно десять днів на 16 графічних процесорах NVIDIA A100*.

Тести ComfyUI

Автори створили робочі процеси на платформі синтезу ComfyUI, щоб порівняти HyperLoRA з трьома суперницькими методами: InstantID; вищезгаданий IP-Adapter у вигляді IP-Adapter-FaceID-Portrait рамки; і вищезгаданий PuLID. Використовувалися постійні насіння, промпти та методи вибірки для всіх рамок.

Автори відзначають, що методи на основі адаптера (а не LoRA) загалом потребують нижчих масштабів безкласової керівності (CFG), тоді як LoRA (включно з HyperLoRA) більш терпиме в цьому відношенні.

Отже для справедливого порівняння дослідники використали відкритий варіант точки зворотного зв’язку SDXL LEOSAM’s Hello World у всіх тестах. Для кількісних тестів було використано набір зображень Unsplash-50.

Метрики

Для оцінки вірності автори виміряли подібність обличчя за допомогою косинусних відстаней між вкладеннями зображень CLIP (CLIP-I) та окремими ідентифікаторними вкладеннями (ID Sim), витягнутими за допомогою CurricularFace, моделі, яка не використовувалася під час тренування.

Кожен метод генерував чотири високоякісні портрети на ідентичність у тестовому наборі, а результати потім усереднювалися.

Редагованість оцінювалася двома способами: порівнюючи оцінки CLIP-I між результатами з та без ідентифікаторних модулів (щоб побачити, наскільки ідентифікаторні обмеження змінили зображення); і виміряючи узгодженість зображення-тексту CLIP (CLIP-T) за десять варіантів промптів, які охоплювали стилі зачіски, аксесуари, одяг та фон.

Автори включили модель Arc2Face до порівнянь – базову модель, треновану на фіксованих підписах та обрізаних регіонах обличчя.

Для HyperLoRA було протестовано два варіанти: один, який використовував лише модуль ID-LoRA, і інший, який використовував як ID-, так і Base-LoRA, з останнім, зваженим на 0,4. Хоча Base-LoRA покращила вірність, вона трохи обмежила редагованість.

Результати початкового кількісного порівняння.

Результати початкового кількісного порівняння.

З кількісних тестів автори відзначають:

‘Base-LoRA допомагає покращити вірність, але обмежує редагованість. Хоча наш дизайн роз’єднує зображенні ознаки на різні LoRA, важко уникнути взаємного витоку. Тому ми можемо регулювати вагу Base-LoRA, щоб пристосуватися до різних сценаріїв застосування.

‘Наш HyperLoRA (Повний і ID) досягає найкращої та другої найкращої подібності обличчя, тоді як InstantID демонструє перевагу у подібності ідентифікатора обличчя, але нижчу вірність обличчя.

‘Обидві ці метрики повинні бути розглянуті разом, щоб оцінити вірність, оскільки подібність ідентифікатора обличчя більш абстрактна, а вірність обличчя відображає більше деталей.’

У якісних тестах різні компроміси, пов’язані з суттєвою пропозицією, виходять на перший план (відзначте, що у нас немає місця для відтворення всіх зображень для якісних результатів, і ми посилаємо читача до джерельної роботи для більшої кількості зображень у вищій роздільній здатності):

Якісне порівняння. Зверху вниз, промпти, які використовувалися, були: 'біла сорочка' та 'вовчі вуха' (див. роботу для додаткових прикладів).

Якісне порівняння. Зверху вниз, промпти, які використовувалися, були: ‘біла сорочка’ та ‘вовчі вуха’ (див. роботу для додаткових прикладів).

Тут автори відзначають:

‘Шкіра портретів, згенерованих IP-Adapter та InstantID, має явний текстуру, створену штучним інтелектом, яка трохи перетренована і далеко від фотореалістичності.

‘Це спільна вада методів на основі адаптера. PuLID покращує цю проблему, ослаблюючи втручання в базову модель, перевершуючи IP-Adapter та InstantID, але все ж таки страждаючи від розмиття та відсутності деталей.

‘Натомість LoRA безпосередньо змінює ваги базової моделі, не вводячи додаткові модулі уваги, зазвичай генеруючи високодеталізовані та фотореалістичні зображення.’

Автори стверджують, що оскільки HyperLoRA змінює ваги базової моделі безпосередньо, не покладаючись на зовнішні модулі уваги, вона зберігає нелінійну здатність традиційних методів на основі LoRA, потенційно пропонуючи перевагу у вірності та дозволяючи краще захоплювати тонкі деталі, такі як колір зіниць.

У якісних порівняннях робота стверджує, що макети HyperLoRA були більш узгоджені та краще відповідали промптам, подібні до тих, які генерувалися PuLID, тоді як значно сильніші, ніж InstantID або IP-Adapter (які іноді не слідували промптам або генерували незвичайні композиції).

Додаткові приклади генерації ControlNet з HyperLoRA.

Додаткові приклади генерації ControlNet з HyperLoRA.

Висновок

Постійний потік різних систем нульової настройки за останні 18 місяців вже набув якості відчаю. Дуже мало з цих пропозицій зробили помітний крок вперед у розвитку галузі; і ті, які трохи покращили її, мають надмірні вимоги до тренування та/або дуже складні чи ресурсоємні вимоги до інтерпретації.

Хоча власний режим тренування HyperLoRA такий же ковтковий, як і у багатьох останніх подібних робіт, принаймні ви закінчуєте з моделлю, яка може обробляти ад хок настройку з коробки.

З додаткового матеріалу роботи ми відзначаємо, що швидкість інтерпретації HyperLoRA краща, ніж у IP-Adapter, але гірша, ніж у двох інших попередніх методів – і що ці цифри засновані на графічному процесорі NVIDIA V100, який не є типовим споживчим апаратним забезпеченням (хоча новіші ‘домашні’ графічні процесори NVIDIA можуть відповідати або перевершувати максимальні 32 ГБ відеопам’яті V100).

Швидкість інтерпретації конкуруючих методів, у мілісекундах.

Швидкість інтерпретації конкуруючих методів, у мілісекундах.

Чесно сказати, нульова настройка залишається нерозв’язаною проблемою з практичної точки зору, оскільки значні апаратні вимоги HyperLoRA суперечать її здатності створювати真正ну довгострокову основну модель.

 

* Представляючи або 640 ГБ, або 1280 ГБ відеопам’яті, залежно від моделі, яка використовувалася (це не вказано)

Опубліковано в понеділок, 24 березня 2025 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]