Штучний Інтелект
До LoRA, які можуть витримати оновлення версії моделі

Оскільки мій останнім часом зростання кількості любителів Hunyuan Video LoRA (малі, навчені файли які можуть впроваджувати користувацькі персоналії в базові моделі тексту-у-відео та зображення-відео з кількома мільярдами параметрів), кількість пов’язаних LoRA, доступних у спільноті Civit, зросла на 185%.

Незважаючи на те, що не існує особливо простих або нескладних способів створити Hunyuan Video LoRA, каталог знаменитостей і тематичних LoRA в Civit зростає щодня. Джерело: https://civitai.com/
Та сама спільнота, яка намагається навчитися створювати ці «додаткові особистості» для Hunyuan Video (HV), також виразковий за обіцяне звільнення ан зображення у відео (I2V) у Hunyuan Video.
Що стосується синтезу зображень людини з відкритим кодом, це велика справа; у поєднанні зі зростанням Hunyuan LoRAs це може дозволити користувачам перетворювати фотографії людей на відео таким чином, щоб не руйнувати їхню ідентичність під час розробки відео – що зараз має місце в усіх найсучасніших зображеннях- генератори відео, включаючи Kling, Kaiber і відомий RunwayML:
Натисніть, щоб відтворити. Генерація зображення у відео з найсучаснішої моделі Gen 3 Turbo від RunwayML. Однак, як і в усіх аналогічних і менш конкурентних моделях, він не може підтримувати незмінну ідентичність, коли об’єкт відвертається від камери, і чіткі риси початкового зображення стають «загальною дифузною жінкою».. Джерело: https://app.runwayml.com/
Розробивши спеціальну LoRA для особи, про яку йдеться, можна було б у робочому процесі HV I2V використовувати її справжню фотографію як відправну точку. Це набагато кращий «засіб», ніж надсилання випадкового числа в латентний простір моделі та задоволення будь-якого результату семантичного сценарію. Тоді можна було б використовувати LoRA або кілька LoRA, щоб підтримувати узгодженість ідентичності, зачісок, одягу та інших ключових аспектів покоління.
Потенційно наявність такої комбінації може являти собою одну з найбільш епохальних змін у генеративному ШІ з моменту запуску Стабільна дифузія, з величезною генеруючою потужністю, переданою ентузіастам відкритого коду без регулювання (або «контролю», якщо хочете), наданого цензори контенту у поточній колекції популярних систем gen video.
Коли я пишу, Hunyuan зображення у відео є не позначено «робити» у репозиторії Hunyuan Video GitHub, де спільнота любителів повідомила (анекдотично) про коментар Discord від розробника Hunyuan, який, очевидно, заявив, що випуск цієї функціональності було перенесено на деякий час пізніше, у першому кварталі через модель будучи «занадто без цензури»..

Офіційний контрольний список випуску функції Hunyuan Video. Джерело: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan
Правильно це чи ні, але розробники репозиторіїв суттєво досягли решти контрольного списку Hunyuan, і тому Hunyuan I2V, схоже, зрештою з’явиться, незалежно від того, цензуровано, без цензури чи якимось чином "розблокований".
Але, як ми бачимо в списку вище, випуск I2V, очевидно, є цілком окремою моделлю, що робить малоймовірним, що будь-яка з поточного зростаючого урожаю HV LoRAs у Civit та інших країнах працюватиме з нею.
У цьому (поки що) передбачуваному сценарії, навчальні рамки LoRA, такі як Тюнер Musubi та OneTrainer буде відновлено або скинуто щодо підтримки нової моделі. Тим часом один або два найбільш підкованих у техніці (і підприємницьких) світила YouTube AI будуть викуповувати свої рішення через Patreon, доки сцена не наздожене.
Оновлення втоми
Майже ніхто не відчуває такої втоми від оновлення, як LoRA або тонка настройка ентузіастів, тому що швидкі та конкурентоспроможні темпи змін у генеративному штучному інтелекті заохочують модельні заводи, такі як Stability.ai, Tencent і Black Forest Labs, створювати більші та (іноді) кращі моделі з максимальною частотою.
Оскільки ці нові та вдосконалені моделі матимуть принаймні різні упередження та вагами, і частіше матиме інший масштаб та/або архітектуру, це означає, що спільнота тонкого налаштування має знову отримати свої набори даних і повторити виснажливий процес навчання для нової версії.
З цієї причини на Civit доступна велика кількість типів версій Stable Diffusion LoRA:

Шлях оновлення, візуалізований у параметрах фільтра пошуку на civit.ai
Оскільки жодна з цих легких моделей LoRA не сумісна з вищими чи нижчими версіями моделей, і оскільки багато з них залежать від популярних великомасштабних зливається і тонких налаштувань, які відповідають старішій моделі, значна частина спільноти схильна дотримуватися «застарілої» версії, приблизно так само, як зберігалася лояльність клієнтів до Windows XP років після припинення офіційної попередньої підтримки.
Адаптація до змін
Ця тема спадає на думку через a новий папір від Qualcomm AI Research, яка стверджує, що розробила метод, за допомогою якого існуючі LoRA можна «оновити» до нової версії моделі.

Приклад перетворення LoRA між версіями моделі. Джерело: https://arxiv.org/pdf/2501.16559
Це не означає, що новий підхід під назвою LoRA-X, може вільно перекладати між усіма моделями одного типу (тобто моделями тексту в зображення або моделями великої мови [LLM]); але автори продемонстрували ефективну транслітерацію LoRA зі Stable Diffusion v1.5 > SDXL і перетворення LoRA для текстової моделі TinyLlama 3T на TinyLlama 2.5T.
LoRA-X передає параметри LoRA між різними базовими моделями, зберігаючи адаптер у підпросторі вихідної моделі; але лише в тих частинах моделі, які достатньо схожі між версіями моделі.

Ліворуч показана схема того, як вихідна модель LoRA-X точно налаштовує адаптер, який потім налаштовується відповідно до цільової моделі. Праворуч зображення, створені цільовими моделями SD Eff-v1.0 і SSD-1B після застосування адаптерів, перенесених із SD-v1.5 і SDXL без додаткового навчання.
Хоча це пропонує практичне рішення для сценаріїв, коли перенавчання є небажаним або неможливим (наприклад, зміна ліцензії на вихідні навчальні дані), цей метод, серед інших обмежень, обмежений архітектурою схожої моделі.
Хоча це рідкісний вторгнення в недостатньо вивчену галузь, ми не будемо вивчати цю статтю поглиблено через численні недоліки LoRA-X, про що свідчать коментарі з її критики та консультанти Open Review.
Опора методу на підпросторова подібність обмежує його застосування тісно пов'язаними моделями, і автори мають поступився на форумі огляду, що LoRA-X не можна легко перенести на суттєво різні архітектури
Інші підходи PEFT
Можливість зробити LoRA більш портативними між версіями є невеликим, але цікавим напрямком дослідження в літературі, і основним внеском, який LoRA-X робить у цьому пошуку, є його твердження, що для цього не потрібно навчання. Це не зовсім вірно, якщо хтось читає статтю, але це вимагає найменшої підготовки з усіх попередніх методів.
LoRA-X — ще один запис у каноні Тонке налаштування параметрів (PEFT), які вирішують проблему адаптації великих попередньо навчених моделей до конкретних завдань без тривалого перенавчання. Цей концептуальний підхід спрямований на зміну мінімальної кількості параметрів при збереженні продуктивності.
Серед них варто відзначити:
X-адаптер
Команда X-адаптер фреймворк передає налаштовані адаптери між моделями з певним перенавчанням. Система спрямована на увімкнення попередньо навчених модулів plug-and-play (таких як ControlNet і LoRA) з базової дифузійної моделі (тобто Stable Diffusion v1.5) для безпосередньої роботи з оновленою дифузійною моделлю, такою як SDXL, без повторного навчання – фактично діючи як «універсальний засіб оновлення» для плагінів.
Система досягає цього, навчаючи додаткову мережу, яка контролює оновлену модель, використовуючи заморожену копію базової моделі для збереження роз’ємів плагінів:

Схема для X-адаптера. Джерело: https://arxiv.org/pdf/2312.02238
X-Adapter спочатку був розроблений і протестований для перенесення адаптерів із SD1.5 на SDXL, тоді як LoRA-X пропонує більший вибір транслітерацій.
DoRA (адаптація низького рангу з розкладанням ваги)
DoRA — це розширений метод тонкого налаштування, який покращує LoRA за допомогою стратегії декомпозиції ваги, яка більше нагадує повне тонке налаштування:

DORA не просто намагається скопіювати адаптер у замороженому середовищі, як це робить LoRA-X, але натомість змінює фундаментальні параметри ваг, такі як величина та напрямок. Джерело: https://arxiv.org/pdf/2402.09353
DoRA зосереджується на вдосконаленні самого процесу тонкого налаштування шляхом розкладання ваг моделі на величину та напрямок (див. зображення вище). Натомість LoRA-X зосереджується на передачі наявних точно налаштованих параметрів між різними базовими моделями
Однак підхід LoRA-X адаптує проекція методи, розроблені для DORA, і в тестах на цій старішій системі заявлено про покращення DINO оцінка
FouRA (адаптація низького рівня Фур'є)
Опубліковано в червні 2024 року Метод FouRA Походить, як і LoRA-X, від Qualcomm AI Research, і навіть ділиться деякими своїми підказками та темами тестування.

Приклади згортання розповсюдження в LoRA, з документу FouRA 2024 року, з використанням моделі Realistic Vision 3.0, навченої за допомогою LoRA та FouRA для адаптерів у стилі «Blue Fire» та «Origami», у чотирьох насадках. Зображення LoRA демонструють згортання розподілу та зменшення різноманітності, тоді як FouRA створює більш різноманітні результати. Джерело: https://arxiv.org/pdf/2406.08798
FouRA фокусується на покращенні різноманітності та якості створюваних зображень шляхом адаптації LoRA у частотній області за допомогою Перетворення Фур'є підходу.
І тут LoRA-X зміг досягти кращих результатів, ніж підхід FouRA на основі Фур’є.
Хоча обидва фреймворки належать до категорії PEFT, вони мають дуже різні варіанти використання та підходи; У цьому випадку FouRA, ймовірно, «підбирає цифри» для раунду тестування з обмеженою кількістю подібних конкурентів, з якими автори нової статті можуть співпрацювати.
SVDiff
SVDiff також має інші цілі, ніж LoRA-X, але в новій статті він сильно використаний. SVDiff призначений для підвищення ефективності точного налаштування дифузійних моделей і безпосередньо змінює значення в матрицях ваг моделі, зберігаючи при цьому сингулярні вектори незмінними. SVDiff використовує усічений СВД, змінюючи лише найбільші значення, щоб налаштувати ваги моделі.
Цей підхід використовує техніку збільшення даних, яка називається Вирізати-Змішати-Розмішати:

Генерація кількох предметів працює як система ізоляції понять у SVDiff. Джерело: https://arxiv.org/pdf/2303.11305
Cut-Mix-Unmix розроблено, щоб допомогти моделі дифузії вивчити кілька різних концепцій, не змішуючи їх. Основна ідея полягає в тому, щоб взяти зображення різних предметів і об’єднати їх в одне зображення. Потім модель навчається за допомогою підказок, які чітко описують окремі елементи зображення. Це змушує модель розпізнавати та зберігати різні концепції замість їх змішування.
Під час навчання доп регуляризація термін допомагає запобігти міжпредметному втручанню. Теорія авторів стверджує, що це сприяє покращенню мультипредметної генерації, де кожен елемент залишається візуально відмінним, а не зливається разом.
SVDiff, виключений з раунду тестування LoRA-X, спрямований на створення компактного простору параметрів. Натомість LoRA-X зосереджується на можливості передачі параметрів LoRA між різними базовими моделями, працюючи в підпросторі вихідної моделі.
Висновок
Методи, які тут обговорюються, не є єдиними представниками PEFT. Інші включають QLoRA та QA-LoRA; Налаштування префіксів; Оперативна настройкаІ адаптер-тюнінг, Серед інших.
Можливо, «оновлюваний LoRA» є алхімічним пошуком; звичайно, на горизонті немає нічого, що заважало б розробникам моделей LoRA знову тягнути свої старі набори даних для останньої та найкращої версії ваг. Якщо існує якийсь можливий прототип стандарту для перегляду ваг, здатний витримувати зміни в архітектурі та роздування параметрів між версіями моделі, він ще не з’явився в літературі, і його потрібно буде продовжувати витягувати з даних на основі кожної моделі. .
Вперше опубліковано в четвер, 30 січня 2025 р