Погляд Anderson
Боротьба за налаштування з нульовими зразками в генерації штучного інтелекту

Якщо ви хочете розмістити себе в популярному інструменті генерації зображень або відео – але ви ще не достатньо відомі, щоб основна модель могла вас розпізнати – вам потрібно буде навчати модель низькорангову адаптацію (LoRA) за допомогою колекції ваших власних фотографій. Після створення ця персоналізована модель LoRA дозволяє генеративній моделі включати вашу ідентичність у майбутніх виходах.
Це зазвичай називається налаштуванням у сфері досліджень генерації зображень і відео. Воно вперше з’явилося через кілька місяців після появи Stable Diffusion влітку 2022 року, коли проект Google Research DreamBooth пропонував високогігабайтні моделі налаштування, у закритій схемі, яку згодом адаптували ентузіасти та випустили у спільноту.
Моделі LoRA швидко пішли слідом, і пропонували легше навчання та значно менші розміри файлів, при мінімальних або жодних витратах на якість, швидко домінуючи в сценарії налаштування для Stable Diffusion та її наступників, пізніших моделей, таких як Flux, і тепер нових генеративних відеомоделей, таких як Hunyuan Video і Wan 2.1.
Повторюй і повторюй
Проблема полягає в тому, що як ми відзначали раніше, що кожного разу, коли з’являється нова модель, їй потрібно нове покоління LoRA для навчання, що представляє значну тривогу для виробників LoRA, які можуть навчати ряд персоналізованих моделей, лише щоб виявити, що оновлення моделі або популярна нова модель означають, що їм потрібно почати все спочатку.
Отже підходи до налаштування з нульовими зразками стали сильною ниткою в літературі останнім часом. У цьому сценарії замість того, щоб створювати набір даних і навчати власну підмодель, ви просто надаєте одну або кілька фотографій об’єкта, який потрібно ввести в генерацію, і система інтерпретує ці вхідні джерела у змішаний вихід.
Нижче ми бачимо, що крім заміни обличчя, система цього типу (тут використовується PuLID) також може включати значення ID у стилевий перехід:

Приклади передачі ідентифікатора обличчя за допомогою системи PuLID. Джерело: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file
Хоча заміна трудомісткої та хиткої системи, як LoRA, на загальний адаптер є хорошою (і популярною) ідеєю, це також виклик; надзвичайна увага до деталей і покриття, отримані під час процесу навчання LoRA, дуже важко імітувати в однозначній IP-Adapter-стилі моделі, яка повинна відповідати рівню деталізації та гнучкості LoRA без попередньої переваги аналізу повного набору ідентифікаторів.
HyperLoRA
З урахуванням цього, існує цікава нова робота від ByteDance, яка пропонує систему, що генерує фактичний код LoRA на льоту, який зараз унікальний серед рішень з нульовими зразками:

Зліва, вхідні зображення. Праворуч від того, гнучкий діапазон виходу на основі вхідних зображень, ефективно створюючи глибокі підробки акторів Ентоні Гопкінса та Енн Гетевей. Джерело: https://arxiv.org/pdf/2503.16944
У роботі зазначено:
‘Техніки на основі адаптера, такі як IP-Adapter, заморожують параметри основної моделі та використовують архітектуру плагіна для забезпечення нульової інференції, але вони часто демонструють відсутність природності та автентичності, які не слід ігнорувати в завданнях синтезу портретів.
‘[Ми] вводимо параметро-ефективний адаптивний метод генерації, а саме HyperLoRA, який використовує адаптивну плагін-мережу для генерації ваг LoRA, об’єднуючи вищу продуктивність LoRA з нульовою можливістю схеми адаптера.
‘Через нашу ретельно спроєктовану мережеву структуру та стратегію навчання ми досягаємо нульової персоналізованої генерації портрета (підтримуючи як один, так і кілька вхідних зображень) з високою фотореалістичністю, вірністю та редагуванням.’
Найкорисніше, система, як вона була навчена, може бути використана з існуючою ControlNet, забезпечуючи високий рівень специфіки генерації:

Тімоті Шаламе робить несподіване появу в фільмі ‘Сяйво’ (1980), на основі трьох вхідних фотографій у HyperLoRA, з маскою ControlNet, яка визначає вихід (у концерті з текстовим промптом).
Щодо того, чи буде нова система коли-небудь доступна кінцевим користувачам, ByteDance має досить добру репутацію в цьому відношенні, випустивши дуже потужну LatentSync рамку синхронізації губ, і тільки що випустивши також InfiniteYou рамку.
Від’ємно, робота не дає жодних ознак про намір випустити, а ресурси навчання, необхідні для відтворення роботи, настільки високі, що було б складно для спільноти ентузіастів відтворити (як вони зробили з DreamBooth).
Нова робота називається HyperLoRA: Параметро-ефективна адаптивна генерація для синтезу портрета, і походить від семи дослідників по всьому ByteDance та спеціальному відділі інтелектуального створення компанії.
Метод
Новий метод використовує модель.latentної дифузії Stable Diffusion (LDM) SDXL як основну модель, хоча принципи, здається, застосовні до моделей дифузії загалом (однак вимоги до навчання – див. нижче – можуть зробити його складним для застосування до генеративних відеомоделей).
Процес навчання для HyperLoRA розділений на три стадії, кожна з яких спроєктована для ізоляції та збереження конкретної інформації в навчених вагах. Метою цього процедуру є запобігання забрудненню ідентифікаторних ознак сторонніми елементами, такими як одяг або фон, одночасно досягаючи швидкої та стабільної збіжності.

Концептуальна схема для HyperLoRA. Модель розділена на ‘Hyper ID-LoRA’ для ознак ідентичності та ‘Hyper Base-LoRA’ для фону та одягу. Це розділення зменшує витік ознак. Під час навчання базова модель SDXL та кодувальники заморожені, а оновлюються лише модулі HyperLoRA. При інференції потрібен лише ID-LoRA для генерації персоналізованих зображень.
Перша стадія зосереджена виключно на навчанні ‘Base-LoRA’ (знизу ліворуч на схемі зображення вище), який захоплює деталі, не пов’язані з ідентичністю.
Для забезпечення цього розділення дослідники навмисно розмитили обличчя на тренувальних зображеннях, дозволяючи моделі спіймати такі речі, як фон, освітлення та поза – але не ідентичність. Ця стадія “розігріву” діє як фільтр, видаляючи низькорівневі відволікання до початку навчання ідентичності.
На другій стадії вводиться ‘ID-LoRA’ (зверху ліворуч на схемі зображення вище). Тут ідентифікатор обличчя кодується двома паралельними шляхами: трансформатором CLIP Vision (CLIP ViT) для структурних ознак та кодувальником InsightFace AntelopeV2 для більш абстрактних представлень ідентичності.
Перехідний підхід
Ознаки CLIP допомагають моделі збігатися швидко, але ризикують переобученням, тоді як вкладення Antelope більш стабільні, але повільніші для навчання. Тому система починається з більшої залежності від CLIP, і поступово вводить Antelope, щоб уникнути нестабільності.
На останній стадії шари уваги, керовані CLIP, повністю заморожені. Продовжується навчання лише модулів уваги, пов’язаних з AntelopeV2, що дозволяє моделі вдосконалити збереження ідентичності без погіршення вірності чи загальності раніше вивчених компонентів.
Ця фазова структура є по суті спробою розрізнення. Ознаки ідентичності та неідентичності спочатку розділяються, а потім уточнюються незалежно. Це методичний відповідь на звичайні режими персоналізації: дрейф ідентичності, низька редагованість та переобучення на випадкові ознаки.
Поки ви чекаєте
Після того, як CLIP ViT та AntelopeV2 витягнули як структурні, так і ідентифікаторні ознаки з даного портрета, отримані ознаки передаються через пересамплер перцептора (походить від вищезгаданого проекту IP-Adapter) – модуль, заснований на трансформері, який відображає ознаки на компактний набір коефіцієнтів.
Два окремі ресамплери використовуються: один для генерації ваг Base-LoRA (які кодують фон та неідентифікаторні елементи) і інший для ваг ID-LoRA (які зосереджені на ідентифікаторі обличчя).

Схема мережі HyperLoRA.
Вихідні коефіцієнти потім лінійно поєднуються з набором вивчених матриць базових LoRA, що призводить до повних ваг LoRA без необхідності вибіркової настройки базової моделі.
Цей підхід дозволяє системі генерувати персоналізовані ваги повністю на льоту, використовуючи лише кодувальники зображень та легку проєкцію, при цьому все ще використовуючи здатність LoRA змінювати поведінку базової моделі безпосередньо.
Дані та тести
Для навчання HyperLoRA дослідники використали підмножину з 4,4 мільйона зображень обличчя з набору даних LAION-2B (найвідомішого зараз як джерело даних для оригінальних моделей Stable Diffusion 2022 року).
InsightFace було використано для фільтрації не-портретних обличчя та кількох зображень. Зображення були потім анотовані системою підписів BLIP-2.
У сфері підсилення даних зображення випадково обрізалися навколо обличчя, але завжди зосереджувалися на області обличчя.
Відповідні ранги LoRA мали пристосуватися до доступної пам’яті в тренувальному наборі. Тому ранг LoRA для ID-LoRA був встановлений на 8, а ранг для Base-LoRA – на 4, тоді як восьміступенева накопичення градієнта використовувалася для симуляції більших розмірів партій, ніж це було можливо на апаратному забезпеченні.
Дослідники навчали модулі Base-LoRA, ID-LoRA (CLIP) та ID-LoRA (ідентифікаторне вкладення) послідовно протягом 20 тис., 15 тис. та 55 тис. ітерацій відповідно. Під час навчання ID-LoRA вони вибірково брали з трьох умов попереднього умов з ймовірностями 0,9, 0,05 та 0,05.
Система була реалізована за допомогою PyTorch та Diffusers, а весь процес навчання тривав приблизно десять днів на 16 процесорах NVIDIA A100.
Тести ComfyUI
Автори створили робочі процеси в синтезній платформі ComfyUI, щоб порівняти HyperLoRA з трьома суперницькими методами: InstantID; вищезгаданий IP-Adapter у вигляді IP-Adapter-FaceID-Portrait рамки; і вищезгаданий PuLID. Постійні насіння, промпти та методи вибірки використовувалися через усі рамки.
Автори відзначають, що методи на основі адаптера (а не LoRA) загалом вимагають нижчих масштабів безкласової керівності (CFG), тоді як LoRA (включно з HyperLoRA) більш терпима в цьому відношенні.
Отже дослідники використали відкритий варіант точки злома SDXL LEOSAM’s Hello World у всіх тестах. Для кількісних тестів використовувався набір зображень Unsplash-50.
Метрики
Для бенчмарку вірності автори вимірювали схожість обличчя за допомогою косинусних відстаней між вкладеннями зображень CLIP (CLIP-I) та окремими вкладеннями ідентичності (ID Sim), витягнутими через CurricularFace, модель, не використану під час навчання.
Кожен метод генерував чотири високороздільні портрети на ідентичність у тестовому наборі, а результати потім усереднювалися.
Редагованість оцінювалася в обох – порівнюючи оцінки CLIP-I між виходами з та без модулів ідентичності (щоб побачити, наскільки ідентифікаторні обмеження змінили зображення); і вимірюючи узгодженість тексту-зображення CLIP (CLIP-T) через десять варіантів промптів, що охоплюють стилі волосся, аксесуари, одяг та фон.
Автори включили модель Arc2Face до порівнянь – базову модель, навчену на фіксованих підписах та обрізаних регіонах обличчя.
Для HyperLoRA були протестовані два варіанти: один, який використовував лише модуль ID-LoRA, і інший, який використовував як ID-, так і Base-LoRA, причому останній мав вагу 0,4. Хоча Base-LoRA покращила вірність, вона трохи обмежила редагованість.

Результати початкового кількісного порівняння.
З кількісних тестів автори коментують:
‘Base-LoRA допомагає покращити вірність, але обмежує редагованість. Хоча наш дизайн роз’єднує ознаки зображення на різні LoRA, складно уникнути взаємного витоку. Отже, ми можемо регулювати вагу Base-LoRA, щоб пристосуватися до різних сценаріїв застосування.
‘Наш HyperLoRA (Повний і ID) досягає найкращої та другої найкращої вірності обличчя, тоді як InstantID показує перевагу в подібності ідентичності обличчя, але нижчу вірність обличчя.
‘Обидві ці метрики слід розглянути разом, щоб оцінити вірність, оскільки подібність ідентичності обличчя більш абстрактна, а вірність обличчя відображає більше деталей.’
У кількісних тестах різні компроміси, пов’язані з суттєвою пропозицією, виходять на перший план (прошу звернути увагу, що у нас немає місця для відтворення всіх зображень для кількісних результатів, і ми посилаємо читача до джерельної роботи для більшої кількості зображень у кращій роздільності):

Кількісне порівняння. Зверху вниз, промпти, використані були: ‘біла сорочка’ та ‘вуха вовка’ (див. роботу для додаткових прикладів).
Тут автори коментують:
‘Шкіра портретів, згенерованих IP-Adapter та InstantID, має явний текстуру, створену штучним інтелектом, який трохи переобучений та далеко від фотореалістичності.
‘Це загальна вада методів на основі адаптера. PuLID покращує цю проблему, ослаблюючи вторгнення в базову модель, перевершуючи IP-Adapter та InstantID, але все ще страждаючи від розмиття та відсутності деталей.
‘Натомість LoRA безпосередньо змінює ваги базової моделі, а не вводить додаткові модулі уваги, зазвичай генеруючи високодеталізовані та фотореалістичні зображення.’
Автори стверджують, що оскільки HyperLoRA змінює ваги базової моделі безпосередньо, а не покладається на зовнішні модулі уваги, вона зберігає нелінійну здатність традиційних методів LoRA, потенційно пропонуючи перевагу у вірності та дозволяючи покращити захоплення тонких деталей, таких як колір зіниць.
У кількісних порівняннях робота стверджує, що макети HyperLoRA були більш узгоджені та краще відповідали промптам, і подібні до тих, що були створені PuLID, тоді як помітно сильніші, ніж InstantID або IP-Adapter (які іноді не слідували промптам або створювали нереалістичні композиції).

Додаткові приклади генерації ControlNet з HyperLoRA.
Висновок
Постійний потік різних систем налаштування з нульовими зразками за останні 18 місяців вже набув якості відчаю. Дуже мало з цих пропозицій зробили помітний крок вперед у розвитку стану справи; і ті, які зробили крок вперед, мають надмірні вимоги до навчання та/або дуже складні чи ресурсоємні вимоги до інференції.
Хоча власний режим навчання HyperLoRA є таким же ковтком, як і багато останніх подібних пропозицій, хоча б ви закінчуєте з моделлю, яка може обробляти ад hoc налаштування з коробки.
З додаткового матеріалу роботи ми відзначаємо, що швидкість інференції HyperLoRA краща, ніж у IP-Adapter, але гірша, ніж у двох інших попередніх методів – і що ці цифри засновані на процесорі NVIDIA V100, який не є типовим споживчим апаратним забезпеченням (хоча новіші ‘домашні’ процесори NVIDIA можуть відповідати або перевершувати цей V100 максимум 32 ГБ оперативної пам’яті).

Швидкість інференції суперницьких методів, у мілісекундах.
Це справедливо сказати, що налаштування з нульовими зразками залишається нерозв’язаною проблемою з практичної точки зору, оскільки значні апаратні вимоги HyperLoRA, ймовірно, суперечать її здатності створити справжню довгострокову основну модель.
* Представляє або 640 ГБ, або 1280 ГБ оперативної пам’яті, залежно від того, яку модель було використано (це не вказано)
Перша публікація понеділка, 24 березня 2025
