Connect with us

Штучний інтелект

До ЛоРА, які можуть виживати після оновлення версії моделі

mm
ChatGPT-4o: variation on ‘a 1792x1024 feature article reportage image of a skip full of discarded metal figurines, featuring realistic men and women of all ages and all types’

Від часу моєї останньої статті про зростання аматорських Hunyuan Video LoRAs (малі, навчені файли, які можуть вводити персоналізації в багатомільярдні параметричні моделі текст-відео та зображення-відео), кількість пов’язаних LoRAs, доступних у спільноті Civit, зросла на 185%.

Незважаючи на те, що немає особливо легких або низькозатратних способів створити Hunyuan Video LoRA, каталог знаменитостей і тематичних LoRAs на Civit зростає щодня. Джерело: https://civitai.com/

Незважаючи на те, що немає особливо легких або низькозатратних способів створити Hunyuan Video LoRA, каталог знаменітостей і тематичних LoRAs на Civit зростає щодня. Джерело: https://civitai.com/

Та сама спільнота, яка поспішає вивчити, як створювати ці «додаткові персоналізації» для Hunyuan Video (HV), також шукає обіцяне випуск функції зображення-відео (I2V) у Hunyuan Video.

Відносно відкритого джерела синтезу людських зображень, це велика справа; у поєднанні з ростом Hunyuan LoRAs, це може дозволити користувачам перетворювати фотографії людей у відео таким чином, щоб не розмивати їхню ідентичність під час розвитку відео – що зараз відбувається у всіх державних моделях генерації зображення-відео, включаючи Kling, Kaiber і знаменитий RunwayML:

Натисніть, щоб відтворити. Генерація зображення-відео з державного моделі Gen 3 Turbo від RunwayML. Однак, як і всі подібні та менш відомі моделі, вона не може зберегти послідовну ідентичність, коли суб’єкт відвертається від камери, і відмінні риси початкового зображення стають «дженеричною дифузійною жінкою». Джерело: https://app.runwayml.com/

Розробивши спеціальну LoRA для персоналізації у питання, можна, у робочому процесі HV I2V, використовувати реальну фотографію людини як початкову точку. Це значно краще «посів» ніж надсилання випадкового числа у латентний простір моделі та згодом погодженняся на будь-який семантичний сценарій, який виникає. Потім можна використовувати LoRA, або кілька LoRAs, для збереження послідовності ідентичності, стилів волосся, одягу та інших важливих аспектів генерації.

Потенційно, наявність такого поєднання може представляти одну з найбільш епохальних змін у генераційному штучному інтелекті з моменту запуску Stable Diffusion, з потужними генеративними можливостями, переданими до відкритого джерела ентузіастів, без регулювання (або «контролю», якщо вам більше подобається) сучасних популярних генеративних відеосистем.

Під час написання статті Hunyuan зображення-відео є невідзначеною справою у репозиторії Hunyuan Video на GitHub, з повідомленнями аматорської спільноти (анекдотично) про коментар у Discord від розробника Hunyuan, який, як кажуть, заявив, що випуск цієї функції було відкладено до пізнішого терміну у Q1 через те, що модель була «занадто нецензурною».

Офіційний список випуску функцій для Hunyuan Video. Джерело: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Офіційний список випуску функцій для Hunyuan Video. Джерело: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Точний чи ні, розробники репозиторію суттєво виконали інші пункти списку Hunyuan, і тому Hunyuan I2V, здається, має з’явитися врешті-решт, незалежно від того, чи буде вона цензурною, нецензурною чи якимось чином «розблокованою».

Але, як ми бачимо у списку вище, випуск I2V являє собою окрему модель – що робить досить малоймовірним, що будь-яка з поточної кількості HV LoRAs на Civit і в інших місцях буде функціонувати з нею.

У цьому (зараз вже передбачуваному) сценарії рамки навчання LoRA, такі як Musubi Tuner і OneTrainer, будуть або відкинуті назад, або скинуті щодо підтримки нової моделі. Тим часом, одна чи дві найтехнологічніші (та підприємницькі) люмінари YouTube AI будуть вимагати викуп за свої рішення через Patreon, поки сцена не наздожене.

Втома від оновлення

Практично ніхто не переживає втому від оновлення так сильно, як ентузіаст LoRA чи файн-тюнингу, оскільки швидкий і конкурентний темп змін у генераційному штучному інтелекті спонукає фабрики моделей, такі як Stability.ai, Tencent і Black Forest Labs, виробляти більші та (іноді) кращі моделі з максимально можливою частотою.

Оскільки ці нові та покращені моделі будуть мати принаймні різні упередження та ваги, і частіше матимуть різноманітну шкалу та/або архітектуру, це означає, що спільнота файн-тюнингу повинна знову витягнути свої набори даних та повторити виснажливий процес навчання для нової версії.

Через цю причину існує багато типів версій LoRA для Stable Diffusion на Civit:

Траєкторія оновлення, візуалізована у варіантах фільтрів пошуку на civit.ai

Траєкторія оновлення, візуалізована у варіантах фільтрів пошуку на civit.ai

Оскільки жодна з цих легких моделей LoRA не є сумісною з вищими чи нижчими версіями моделі, а багато з них мають залежності від популярних великомасштабних злиття та файн-тюнерів, які відповідають старішій моделі, суттєва частина спільноти схильна залишатися з «спадковим» випуском, подібно до того, як лояльність клієнтів до Windows XP тривала роки після офіційного закінчення підтримки.

Адаптація до змін

Ця тема виникає через нову статтю від Qualcomm AI Research, яка стверджує, що розробила метод, за допомогою якого існуючі LoRAs можуть бути «оновлені» до нової випущеної версії моделі.

Приклад конвертування LoRAs між версіями моделей. Джерело: https://arxiv.org/pdf/2501.16559

Приклад конвертування LoRAs між версіями моделей. Джерело: https://arxiv.org/pdf/2501.16559

Це не означає, що новий підхід, названий LoRA-X, може вільно перекладати між усіма моделями одного типу (тобто, текст-ізображення моделей, або великих мовних моделей [LLM]); але автори продемонстрували ефективне перекладання LoRA з Stable Diffusion v1.5 > SDXL, і конвертування LoRA для текстової моделі TinyLlama 3T у TinyLlama 2.5T.

LoRA-X передає параметри LoRA між різними базовими моделями, зберігаючи адаптер у підсвітлі джерельної моделі; але лише у частинах моделі, які є достатньо схожими між версіями моделей.

Зліва, схема того, як LoRA-X джерельна модель файн-тюніть адаптер, який потім коригується для підгонки до цілової моделі за допомогою її внутрішньої структури. Праворуч, зображення, згенеровані ціловими моделями SD Eff-v1.0 і SSD-1B, після застосування адаптерів, переданих з SD-v1.5 і SDXL без додаткового навчання.

Зліва, схема того, як LoRA-X джерельна модель файн-тюніть адаптер, який потім коригується для підгонки до цілової моделі. Праворуч, зображення, згенеровані ціловими моделями SD Eff-v1.0 і SSD-1B, після застосування адаптерів, переданих з SD-v1.5 і SDXL без додаткового навчання.

Хоча це пропонує практичне рішення для сценаріїв, де повторне навчання є нежаданим або неможливим (наприклад, зміна ліцензії на початкові навчальні дані), цей метод обмежений подібними архітектурами моделей, серед інших обмежень.

Хоча це рідкісне дослідження у маловивчених областях, ми не будемо детально вивчати цю статтю через численні недоліки LoRA-X, як свідчать коментарі від її критиків та консультантів на Open Review.

Залежність методу від подобності підсвіту обмежує його застосування до тісно пов’язаних моделей, і автори визнали у форумі рецензентів, що LoRA-X не може бути легко переданий між суттєво різними архітектурами

Інші підходи PEFT

Можливість зробити LoRAs більш переносними між версіями є малим, але цікавим напрямком дослідження у літературі, і основний внесок, який LoRA-X робить до цього погону, полягає у його твердженні, що це не потребує навчання. Це не строго вірно, якщо прочитати статтю, але воно вимагає мінімального навчання серед усіх попередніх методів.

LoRA-X є ще одним входом у канон Parameter-Efficient Fine-Tuning (PEFT) методів, які займаються викликом адаптації великих попередньо навчених моделей до конкретних завдань без обширного повторного навчання. Цей концептуальний підхід спрямований на модифікацію мінімальної кількості параметрів, зберігаючи продуктивність.

Помітними серед них є:

X-Adapter

Фреймворк X-Adapter передає файн-тюніть адаптери між моделями з певною кількістю повторного навчання. Система спрямована на забезпечення попередньо навчених модулів (таких як ControlNet і LoRA) від базової дифузійної моделі (тобто, Stable Diffusion v1.5) для роботи безпосередньо з покращеною дифузійною моделлю, такою як SDXL, без повторного навчання – ефективно діючи як «універсальний апгрейдер» для плагінів.

Система досягає цього шляхом навчання додаткової мережі, яка керує покращеною моделлю, використовуючи заморожену копію базової моделі для збереження плагін-конекторів:

Схема для X-Adapter. Джерело: https://arxiv.org/pdf/2312.02238

Схема для X-Adapter. Джерело: https://arxiv.org/pdf/2312.02238

X-Adapter був спочатку розроблений і протестований для передачі адаптерів з SD1.5 у SDXL, тоді як LoRA-X пропонує ширший спектр транслітерацій.

DoRA (Ваго-розкладений низькоранговий адаптер)

DoRA – це покращений метод файн-тюнингу, який покращує LoRA, використовуючи стратегію ваго-розкладення, яка більш близько нагадує повне файн-тюнінґ:

DoRA не просто намагається скопіювати адаптер у замороженому середовищі, як LoRA-X, а змінює фундаментальні параметри ваг, такі як величина та напрям. Джерело: https://arxiv.org/pdf/2402.09353

DoRA не просто намагається скопіювати адаптер у замороженому середовищі, як LoRA-X, а змінює фундаментальні параметри ваг, такі як величина та напрям. Джерело: https://arxiv.org/pdf/2402.09353

DoRA зосереджується на покращенні процесу файн-тюнингу, розкладаючи ваги моделі на величину та напрям (див. зображення вище). Натомість LoRA-X зосереджується на possibilitі передачі існуючих файн-тюніть параметрів між різними базовими моделями

Однак підхід LoRA-X адаптує проєкційні техніки, розроблені для DORA, і у тестах проти цієї старішої системи претендує на покращений DINO рахунок.

FouRA (Фур’є низькоранговий адаптер)

Опублікований у червні 2024 року, метод FouRA походить, як і LoRA-X, з Qualcomm AI Research, і навіть поділяє деякі тести та теми.

Приклади колапсу розподілу у LoRA, з паперу 2024 року FouRA, використовуючи модель Realistic Vision 3.0, навчену з LoRA і FouRA для «Blue Fire» і «Origami» стилів адаптерів, по чотири насіння. Зображення LoRA демонструють колапс розподілу та зменшену різноманітність, тоді як FouRA генерує більш різноманітні виходи. Джерело: https://arxiv.org/pdf/2406.08798

Приклади колапсу розподілу у LoRA, з паперу 2024 року FouRA, використовуючи модель Realistic Vision 3.0, навчену з LoRA і FouRA для «Blue Fire» і «Origami» стилів адаптерів, по чотири насіння. Зображення LoRA демонструють колапс розподілу та зменшену різноманітність, тоді як FouRA генерує більш різноманітні виходи. Джерело: https://arxiv.org/pdf/2406.08798

FouRA зосереджується на покращенні різноманітності та якості згенерованих зображень, адаптуючи LoRA у частотній області, використовуючи підхід Фур’є-трансформації.

Знову ж таки, LoRA-X зміг досягти кращих результатів, ніж фур’є-підхід FouRA.

Хоча обидва фреймворки входять у категорію PEFT, вони мають різні випадки використання та підходи; у цьому випадку FouRA є «заповнювачем чисел» для тестового раунду з обмеженими подібними суперниками для нових авторів паперу.

SVDiff

SVDiff також має різні цілі, ніж LoRA-X, але сильно використовується у новій статті. SVDiff призначений для покращення ефективності файн-тюнингу дифузійних моделей, і безпосередньо змінює значення у вагових матрицях моделі, зберігаючи сингулярні вектори незмінними. SVDiff використовує обрізану СВД, змінюючи лише найбільші значення, для коригування ваг моделі.

Цей підхід використовує техніку даних під назвою Cut-Mix-Unmix:

Багатотематична генерація працює як система ізоляції концепцій у SVDiff. Джерело: https://arxiv.org/pdf/2303.11305

Багатотематична генерація працює як система ізоляції концепцій у SVDiff. Джерело: https://arxiv.org/pdf/2303.11305

Cut-Mix-Unmix призначений для допомоги дифузійній моделі у вивченні декількох різних концепцій без їх змішування. Центральна ідея полягає у тому, щоб взяти зображення різних суб’єктів і сконкатенувати їх у одне зображення. Потім модель тренується з промптами, які явно описують окремі елементи у зображенні. Це змушує модель розпізнавати та зберігають окремі концепції, а не змішувати їх.

Під час навчання додатковий регуляризаційний термін допомагає запобігти міжсуб’єктному втручанню. Теорія авторів стверджує, що це сприяє покращенню багатотематичної генерації, де кожен елемент залишається візуально окремим, а не змішаним.

SVDiff, виключений з раунду тестування LoRA-X, спрямований на створення компактного простору параметрів. Натомість LoRA-X зосереджується на передачі параметрів LoRA між різними базовими моделями, діючи у підсвітлі початкової моделі.

Висновок

Методи, обговорені тут, не є єдиними мешканцями PEFT. Інші включають QLoRA і QA-LoRA; Prefix Tuning; Prompt-Tuning; і adapter-tuning, серед інших.

«Оновлювана LoRA» є, можливо, алхімічним пошуком; безумовно, немає нічого безпосередньо на горизонті, що запобіжить моделям LoRA від того, щоб знову витягнути свої старі набори даних для останнього та найкращого випуску ваг. Якщо існує якийсь можливий прототип стандарту для оновлення ваг, здатний виживати у змінах архітектури та зростанні параметрів між версіями моделей, він ще не з’явився у літературі, і буде продовжувати видобуватися з даних на основі кожної моделі окремо.

 

Перша публікація у четвер, 30 січня 2025

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]