Искусственный интеллект
К направлению LoRAs, способным выжить при обновлении версий моделей

Поскольку моя недавняя статья о росте числа хобби-LoRAs Hunyuan Video (маленькие, обученные файлы, которые могут внедрять пользовательские личности в многомиллиардные параметры текст-видео и изображение-видео основные модели), количество связанных LoRAs, доступных в сообществе Civit, увеличилось на 185%.

Несмотря на то, что нет особенно простых или малозатратных способов создать Hunyuan Video LoRA, каталог знаменитостей и тематических LoRAs в Civit растет ежедневно. Источник: https://civitai.com/
То же самое сообщество, которое спешит узнать, как производить эти «дополнительные личности» для Hunyuan Video (HV), также страдает от обещанного выпуска функции изображение-видео (I2V) в Hunyuan Video.
Что касается открытой синтеза человеческих изображений, это большое дело; в сочетании с ростом Hunyuan LoRAs, это может позволить пользователям преобразовывать фотографии людей в видео таким образом, что не разрушает их идентичность, когда видео развивается – что сейчас является случаем со всеми передовыми генераторами изображение-видео, включая Kling, Kaiber и много прославленную RunwayML:
Нажмите, чтобы воспроизвести. Генерация изображение-видео от RunwayML’s передовой модели Gen 3 Turbo. Однако, как и все подобные и менее значительные сопернические модели, она не может поддерживать последовательную идентичность, когда субъект поворачивается от камеры, и характерные особенности начального изображения становятся «женщиной диффузии». Источник: https://app.runwayml.com/
Разрабатывая пользовательскую LoRA для личности в вопросе, можно, в рабочем процессе HV I2V, использовать реальную фотографию как отправную точку. Это гораздо лучше «семя», чем отправка случайного числа в модельное латентное пространство и согласие на любой семантический сценарий, который получится. Затем можно использовать LoRA или несколько LoRAs для поддержания последовательности идентичности, причесок, одежды и других важных аспектов генерации.
Потенциально, доступность такого сочетания может представлять собой одну из наиболее эпохальных сдвигов в генеративном ИИ с момента запуска Stable Diffusion, с внушительной генеративной мощностью, переданной энтузиастам открытого источника, без регулирования (или «охраны», если вам так больше нравится) обеспечиваемого цензорами контента в текущем поколении популярных ген-видео систем.
Когда я пишу, Hunyuan изображение-видео – это неотмеченная «делать» в репозитории Hunyuan Video GitHub, с сообществом хобби, сообщающим (анекдотически) комментарий из Discord от разработчика Hunyuan, который, по-видимому, заявил, что выпуск этой функциональности был отложен до некоторого времени позже в Q1 из-за модели «слишком нецензурированной».

Официальный список выпуска функций для Hunyuan Video. Источник: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan
Точно или нет, разработчики репозитория существенно выполнили остальную часть списка Hunyuan, и поэтому Hunyuan I2V, кажется, появится в конечном итоге, будь то цензурировано, нецензурировано или каким-то образом «разблокировано».
Но как мы можем видеть в списке выше, выпуск I2V, по-видимому, является отдельной моделью – что делает довольно маловероятным, что любая из текущей растущей коллекции HV LoRAs в Civit и в других местах будет функционировать с ним.
В этом (теперь) предсказуемом сценарии каркасы обучения LoRA, такие как Musubi Tuner и OneTrainer, будут либо отброшены назад, либо сброшены в отношении поддержки новой модели. Тем временем, один или два самых техничных (и предпринимательских) YouTube AI-люминаров будут вымогать свои решения через Patreon, пока сцена не догонит.
Усталость от обновлений
Почти никто не испытывает усталость от обновлений так сильно, как энтузиаст LoRA или тонкой настройки, потому что быстрый и конкурентный темп изменений в генеративном ИИ побуждает литейные заводы моделей, такие как Stability.ai, Tencent и Black Forest Labs, производить более крупные и (иногда) лучшие модели с максимально возможной частотой.
Поскольку эти новые и улучшенные модели будут иметь, по крайней мере, разные предубеждения и веса, и более часто будут иметь разный масштаб и/или архитектуру, это означает, что сообщество тонкой настройки должно снова получить свои наборы данных и повторить изнурительный процесс обучения для новой версии.
По этой причине существует множество типов версий Stable Diffusion LoRA, доступных в Civit:

Тропа обновления, визуализированная в фильтрах поиска в civit.ai
Поскольку ни одна из этих легких моделей LoRA не является совместимой с более высокими или более низкими версиями моделей, и поскольку многие из них имеют зависимости от популярных крупномасштабных слияний и тонкой настройки, которые придерживаются более старой модели, значительная часть сообщества склоняется к придерживанию «наследственной» версии, точно так же, как лояльность клиентов к Windows XP сохранялась годами после официальной поддержки.
Адаптация к изменениям
Эта тема возникает из-за новой статьи от Qualcomm AI Research, которая утверждает, что разработала метод, с помощью которого существующие LoRAs могут быть «обновлены» до новой выпущенной версии модели.

Пример конверсии LoRAs через версии моделей. Источник: https://arxiv.org/pdf/2501.16559
Это не означает, что новый подход, озаглавленный LoRA-X, может свободно переводить между всеми моделями одного типа (т.е. текст-изображение моделей или крупных языковых моделей [LLM]); но авторы продемонстрировали эффективную транслитерацию LoRA из Stable Diffusion v1.5 > SDXL и конверсию LoRA для текстовой модели TinyLlama 3T в TinyLlama 2.5T.
LoRA-X передает параметры LoRA через разные базовые модели, сохраняя адаптер внутри подпространства исходной модели; но только в тех частях модели, которые достаточно похожи на версии моделей.

Слева, схема того, как LoRA-X исходная модель тонко настраивает адаптер, который затем корректируется для соответствия целевой модели. Справа, изображения, сгенерированные целевыми моделями SD Eff-v1.0 и SSD-1B, после применения адаптеров, переданных из SD-v1.5 и SDXL без дополнительной тренировки.
Хотя это предлагает практическое решение для сценариев, где повторная тренировка нежелательна или невозможна (такая как изменение лицензии на исходные данные), метод ограничен подобными архитектурами моделей, среди других ограничений.
Хотя это редкое вторжение в недостаточно изученную область, мы не будем изучать эту статью в глубину из-за многочисленных недостатков LoRA-X, как это видно из комментариев критиков и советников в Open Review.
Зависимость метода от подпространственной подобия ограничивает его применение к тесно связанным моделям, и авторы признали в форуме рецензирования, что LoRA-X не может быть легко передан через значительно разные архитектуры
Другие подходы PEFT
Возможность сделать LoRAs более переносимыми через версии является небольшой, но интересной нитью исследования в литературе, и основной вклад, который LoRA-X вносит в это стремление, заключается в его утверждении, что для этого не требуется обучение.
LoRA-X является еще одним входом в канон параметро-эффективной тонкой настройки (PEFT) методов, которые решают задачу адаптации крупных предварительно обученных моделей к конкретным задачам без обширной повторной тренировки. Этот концептуальный подход направлен на изменение минимального количества параметров, сохраняя при этом производительность.
Заметными среди них являются:
X-Adapter
Фреймворк X-Adapter передает тонко настроенные адаптеры через модели с определенным количеством повторной тренировки. Система направлена на то, чтобы позволить предварительно обученным модулям (таким как ControlNet и LoRA) из базовой диффузионной модели (т.е. Stable Diffusion v1.5) работать напрямую с обновленной диффузионной моделью, такой как SDXL, без повторной тренировки – эффективно действуя как «универсальный апгрейдер» для плагинов.
Система достигает этого, обучая дополнительную сеть, которая контролирует обновленную модель, используя замороженную копию базовой модели для сохранения соединителей плагинов:

Схема для X-Adapter. Источник: https://arxiv.org/pdf/2312.02238
X-Adapter был первоначально разработан и протестирован для передачи адаптеров из SD1.5 в SDXL, в то время как LoRA-X предлагает более широкий спектр транслитераций.
DoRA (Вес-дефектная низкоранговая адаптация)
DoRA – это улучшенный метод тонкой настройки, который улучшает LoRA, используя стратегию декомпозиции весов, которая более близко напоминает полную тонкую настройку:

DoRA не просто пытается скопировать адаптер в замороженной среде, как LoRA-X, но вместо этого изменяет фундаментальные параметры весов, такие как величина и направление. Источник: https://arxiv.org/pdf/2402.09353
DoRA фокусируется на улучшении процесса тонкой настройки, декомпозируя веса модели на величину и направление (см. изображение выше). Вместо этого LoRA-X фокусируется на облегчении передачи существующих тонко настроенных параметров между разными базовыми моделями
Однако подход LoRA-X использует разработанные для DORA проекционные техники, и в тестах против этой более старой системы утверждает улучшенный DINO счет.
FouRA (Фурье-низкоранговая адаптация)
Опубликованный в июне 2024 года, метод FouRA исходит, как и LoRA-X, из Qualcomm AI Research, и даже разделяет некоторые из его тестовых подсказок и тем.

Примеры коллапса распределения в LoRA, из статьи FouRA 2024 года, используя модель Realistic Vision 3.0, обученную с LoRA и FouRA для адаптеров стиля «Blue Fire» и «Origami», на четырех семенах. Изображения LoRA демонстрируют коллапс распределения и снижение разнообразия, тогда как FouRA генерирует более разнообразные выходы. Источник: https://arxiv.org/pdf/2406.08798
FouRA фокусируется на улучшении разнообразия и качества сгенерированных изображений, адаптируя LoRA в области частот, используя подход Фурье-преобразования.
Здесь, снова, LoRA-X смог достичь лучших результатов, чем фурье-основанный подход FouRA.
Хотя обе рамки входят в категорию PEFT, они имеют очень разные случаи использования и подходы; в этом случае FouRA, по сути, «дополняет цифры» для раунда тестирования с ограниченными подобными соперниками для новых авторов.
SVDiff
SVDiff также имеет разные цели, чем LoRA-X, но сильно задействован в новой статье. SVDiff предназначен для улучшения эффективности тонкой настройки диффузионных моделей, и напрямую изменяет значения внутри матриц весов модели, сохраняя при этом сингулярные векторы неизменными. SVDiff использует сокращенное SVD, изменяя только самые крупные значения, чтобы скорректировать веса модели.
Этот подход использует технику данных Cut-Mix-Unmix:

Многосубъектная генерация работает как система изоляции концепций в SVDiff. Источник: https://arxiv.org/pdf/2303.11305
Cut-Mix-Unmix предназначен для того, чтобы помочь диффузионной модели учиться нескольким различным концепциям, не смешивая их. Центральная идея заключается в том, чтобы взять изображения разных субъектов и объединить их в одно изображение. Затем модель обучается с подсказками, которые явно описывают отдельные элементы в изображении. Это заставляет модель распознавать и сохранять отдельные концепции, а не смешивать их.
Во время обучения дополнительный регуляризационный член помогает предотвратить помехи между субъектами. Теория авторов утверждает, что это облегчает улучшение многосубъектной генерации, где каждый элемент остается визуально отдельным, а не сливается вместе.
SVDiff, исключенный из раунда тестирования LoRA-X, направлен на создание компактного пространства параметров. LoRA-X, вместо этого, фокусируется на передаче параметров LoRA через разные базовые модели, действуя внутри подпространства исходной модели.
Заключение
Методы, обсуждаемые здесь, не являются единственными обитателями PEFT. Другими включают QLoRA и QA-LoRA; Prefix Tuning; Prompt-Tuning; и адаптер-тонкая настройка, среди других.
«Апгрейдная LoRA» – это, возможно, алхимическое стремление; определенно, нет ничего непосредственно на горизонте, что предотвратит модельеров LoRA от того, чтобы снова вытащить свои старые наборы данных для последнего и лучшего выпуска весов. Если есть какой-то возможный прототипный стандарт для пересмотра весов, способный выжить изменения в архитектуре и взрыв параметров между версиями моделей, он не появился в литературе, и будет продолжать извлекаться из данных на основе каждой модели.
Опубликовано впервые в четверг, 30 января 2025 года












