Свяжитесь с нами:

На пути к LoRA, способным выдержать обновления версий моделей

Искусственный интеллект

На пути к LoRA, способным выдержать обновления версий моделей

mm
ChatGPT-4o: вариация на тему «изображение репортажа для статьи размером 1792x1024, изображающее контейнер, полный выброшенных металлических фигурок, на которых изображены реалистичные мужчины и женщины всех возрастов и типов»

Поскольку мой недавний охват роста любительских видео LoRA Hunyuan (маленькие, обученные файлы которые могут внедрять индивидуальные особенности в многомиллиардные параметры базовых моделей преобразования текста в видео и изображения в видео), количество связанных LoRA, доступных в сообществе Civit, возросло на 185%.

Несмотря на то, что не существует особенно простых или не требующих больших усилий способов создания LoRA-видео Hunyuan, каталог LoRA-видео со знаменитостями и тематикой в ​​Civit ежедневно пополняется. Источник: https://civitai.com/

Несмотря на то, что не существует особенно простых или не требующих больших усилий способов создания LoRA-видео Hunyuan, каталог LoRA со знаменитостями и тематикой в ​​Civit ежедневно пополняется. Источник: https://civitai.com/

То же самое сообщество, которое пытается научиться создавать эти «дополнительные личности» для Hunyuan Video (HV), также изъязвляющийся для обещанного выпуска преобразование изображения в видео (I2V) функциональность в Hunyuan Video.

Что касается синтеза изображений человека с открытым исходным кодом, это большое дело; в сочетании с ростом Hunyuan LoRAs это может позволить пользователям преобразовывать фотографии людей в видео таким образом, чтобы не размывать их личность по мере развития видео — что в настоящее время происходит во всех современных генераторах изображений в видео, включая Kling, Kaiber и широко известный RunwayML:

Нажмите, чтобы играть. Генерация изображения в видео с помощью новейшей модели Gen 3 Turbo от RunwayML. Однако, как и все аналогичные и менее мощные модели-конкуренты, она не может сохранять целостность изображения, когда объект отворачивается от камеры, и отдельные черты исходного изображения превращаются в «типичную диффузную женщину».. Источник: https://app.runwayml.com/

Разрабатывая пользовательский LoRA для рассматриваемой личности, можно было бы в рабочем процессе HV I2V использовать реальную фотографию в качестве отправной точки. Это гораздо лучшее «семя», чем отправка случайного числа в скрытое пространство модели и довольствование любыми результатами семантического сценария. Затем можно было бы использовать LoRA или несколько LoRA для поддержания согласованности идентичности, причесок, одежды и других ключевых аспектов поколения.

Потенциально, наличие такой комбинации может представлять собой один из самых эпохальных сдвигов в генеративном ИИ с момента запуска Стабильная диффузия, с огромной генеративной мощью, переданной энтузиастам открытого исходного кода, без регулирования (или «контроля», если хотите), предоставляемого цензоры контента в современном поколении популярных видеосистем.

На момент написания статьи, Хуньюань — это технология преобразования изображений в видео. не отмечено «сделать» в репозитории Hunyuan Video GitHub, где сообщество любителей сообщает (по неофициальным данным) о комментарии в Discord от разработчика Hunyuan, который, по-видимому, заявил, что выпуск этой функциональности был отложен на некоторое время позже в первом квартале из-за модели быть «слишком неотцензурированным».

Официальный контрольный список выпуска функций для Hunyuan Video. Источник: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Официальный контрольный список релизов полнометражных фильмов Hunyuan Video. Источник: https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file#-open-source-plan

Точно или нет, разработчики репозитория в значительной степени выполнили оставшуюся часть контрольного списка Hunyuan, и поэтому Hunyuan I2V, похоже, в конечном итоге появится, будь то цензурированный, нецензурированный или каким-либо другим образом «разблокируемый».

Но, как мы видим из приведенного выше списка, версия I2V, по-видимому, представляет собой совершенно отдельную модель, что делает маловероятным, что какая-либо из нынешних растущих серий HV LoRA в Civit и других местах будет с ней работать.

В этом (теперь) предсказуемом сценарии такие фреймворки обучения LoRA, как Тюнер Мусуби и OneTrainer либо будет отброшена назад, либо сброшена в плане поддержки новой модели. Тем временем один или два самых технически подкованных (и предприимчивых) светила ИИ YouTube будут выкупать свои решения через Patreon, пока сцена не догонит.

Улучшение усталости

Почти никто не испытывает такой усталости от обновлений, как LoRA или тонкая настройка энтузиаст, поскольку быстрые и конкурентные темпы изменений в сфере генеративного ИИ побуждают такие модельные литейные компании, как Stability.ai, Tencent и Black Forest Labs, создавать более крупные и (иногда) лучшие модели с максимально возможной частотой.

Поскольку эти новые и улучшенные модели будут, по крайней мере, иметь другие предубеждения и весамии, как правило, будут иметь другой масштаб и/или архитектуру, это означает, что сообществу, занимающемуся тонкой настройкой, придется снова получить свои наборы данных и повторить изнурительный процесс обучения для новой версии.

По этой причине в Civit доступно множество типов версий Stable Diffusion LoRA:

Путь обновления, визуализированный в параметрах фильтра поиска на сайте civit.ai

Путь обновления, визуализированный в параметрах фильтра поиска на сайте civit.ai

Поскольку ни одна из этих облегченных моделей LoRA не совместима с более высокими или более низкими версиями моделей, и поскольку многие из них зависят от популярных крупномасштабных слияния и тонкие настройки, которые соответствуют старой модели, значительная часть сообщества имеет тенденцию придерживаться «старой» версии, во многом так же, как сохранилась лояльность клиентов к Windows XP годы после того, как официальная поддержка в прошлом закончилась.

Адаптация к изменениям

Эта тема приходит на ум из-за Новый документ от Qualcomm AI Research, которая утверждает, что разработала метод, с помощью которого существующие LoRA могут быть «модернизированы» до новой версии модели.

Пример преобразования LoRAs между версиями модели. Источник: https://arxiv.org/pdf/2501.16559

Пример преобразования LoRA между версиями моделей. Источник: https://arxiv.org/pdf/2501.16559

Это не означает, что новый подход, названный LoRA-X, может свободно переводиться между всеми моделями одного типа (т. е. моделями преобразования текста в изображение или моделями больших языков [LLM]); но авторы продемонстрировали эффективную транслитерацию LoRA из Stable Diffusion v1.5 > SDXL и преобразование LoRA для текстовой модели TinyLlama 3T в TinyLlama 2.5T.

LoRA-X переносит параметры LoRA между различными базовыми моделями, сохраняя адаптер в подпространстве исходной модели; но только в тех частях модели, которые достаточно схожи между версиями модели.

Слева схема способа, которым исходная модель LoRA-X настраивает адаптер, который затем настраивается для соответствия целевой модели с использованием собственной внутренней структуры. Справа изображения, сгенерированные целевыми моделями SD Eff-v1.0 и SSD-1B, после применения адаптеров, перенесенных из SD-v1.5 и SDXL без дополнительного обучения.

Слева схема способа, которым исходная модель LoRA-X настраивает адаптер, который затем подстраивается под целевую модель. Справа изображения, сгенерированные целевыми моделями SD Eff-v1.0 и SSD-1B, после применения адаптеров, перенесенных из SD-v1.5 и SDXL без дополнительного обучения.

Хотя это и предлагает практическое решение для сценариев, где переобучение нежелательно или невозможно (например, смена лицензии на исходные данные обучения), этот метод ограничен, помимо прочих ограничений, схожей архитектурой моделей.

Хотя это редкий опыт исследования малоизученной области, мы не будем подробно рассматривать эту статью из-за многочисленных недостатков LoRA-X, о чем свидетельствуют комментарии критики и консультанты Open Review.

Метод основан на подпространственное сходство ограничивает его применение тесно связанными моделями, и авторы уступил на форуме по обзору, что LoRA-X не может быть легко перенесен между существенно разными архитектурами

Другие подходы PEFT

Возможность сделать LoRA более переносимыми между версиями — это небольшое, но интересное направление исследований в литературе, и главный вклад, который LoRA-X вносит в это стремление, заключается в его утверждении, что он не требует обучения. Это не совсем так, если читать статью, но он действительно требует наименьшего обучения из всех предыдущих методов.

LoRA-X — еще одна запись в каноне Точная настройка с эффективным использованием параметров (PEFT) методы, которые решают проблему адаптации больших предварительно обученных моделей к конкретным задачам без обширного переобучения. Этот концептуальный подход направлен на изменение минимального количества параметров при сохранении производительности.

Среди них следует отметить:

X-адаптер

The X-адаптер Framework передает точно настроенные адаптеры через модели с определенным количеством переобучения. Система направлена ​​на включение предварительно обученных модулей plug-and-play (таких как сеть управления и LoRA) из базовой модели диффузии (т. е. Stable Diffusion v1.5) для непосредственной работы с обновленной моделью диффузии, такой как SDXL, без повторного обучения, что фактически выступает в качестве «универсального апгрейдера» для плагинов.

Система достигает этого путем обучения дополнительной сети, которая управляет обновленной моделью, используя замороженную копию базовой модели для сохранения подключаемых соединителей:

Схема для X-Adapter. Источник: https://arxiv.org/pdf/2312.02238

Схема для X-адаптера. Источник: https://arxiv.org/pdf/2312.02238

X-Adapter изначально был разработан и протестирован для переноса адаптеров с SD1.5 на SDXL, в то время как LoRA-X предлагает более широкий спектр транслитераций.

DoRA (адаптация низкого ранга с разложением по весу)

DoRA — это усовершенствованный метод тонкой настройки, который улучшает LoRA за счет использования стратегии весовой декомпозиции, которая больше напоминает полную тонкую настройку:

DORA не просто пытается скопировать адаптер в замороженной среде, как это делает LoRA-X, а вместо этого изменяет фундаментальные параметры весов, такие как величина и направление. Источник: https://arxiv.org/pdf/2402.09353

DORA не просто пытается скопировать адаптер в замороженной среде, как это делает LoRA-X, а вместо этого изменяет фундаментальные параметры весов, такие как величина и направление. Источник: https://arxiv.org/pdf/2402.09353

DoRA фокусируется на улучшении самого процесса тонкой настройки, разлагая веса модели на величину и направление (см. изображение выше). Вместо этого LoRA-X фокусируется на обеспечении возможности переноса существующих тонко настроенных параметров между различными базовыми моделями

Однако подход LoRA-X адаптирует проекция Методы, разработанные для DORA, и в тестах на эту старую систему заявляют об улучшении ДИНО Гол.

FouRA (адаптация Фурье низкого ранга)

Опубликовано в июне 2024 года. Метод ФоуРА Как и LoRA-X, он разработан компанией Qualcomm AI Research и даже использует некоторые из своих тестовых подсказок и тем.

Примеры коллапса распределения в LoRA из статьи FouRA 2024 года с использованием модели Realistic Vision 3.0, обученной с помощью LoRA и FouRA для адаптеров в стиле «Blue Fire» и «Origami», по четырем семенам. Изображения LoRA демонстрируют коллапс распределения и сниженное разнообразие, тогда как FouRA генерирует более разнообразные выходные данные. Источник: https://arxiv.org/pdf/2406.08798

Примеры коллапса распределения в LoRA из статьи FouRA 2024 года с использованием модели Realistic Vision 3.0, обученной с помощью LoRA и FouRA для адаптеров в стиле «Blue Fire» и «Origami», по четырем семенам. Изображения LoRA демонстрируют коллапс распределения и сниженное разнообразие, тогда как FouRA генерирует более разнообразные выходные данные. Источник: https://arxiv.org/pdf/2406.08798

FouRA фокусируется на улучшении разнообразия и качества генерируемых изображений путем адаптации LoRA в частотной области с использованием преобразование Фурье подхода.

И здесь LoRA-X снова смог достичь лучших результатов, чем основанный на Фурье подход FouRA.

Хотя обе платформы относятся к категории PEFT, у них совершенно разные варианты использования и подходы; в данном случае FouRA, возможно, «подбирает цифры» для раунда тестирования с ограниченным числом сопоставимых конкурентов, с которыми взаимодействуют авторы новой статьи.

SVDiff

SVDiff также имеет другие цели, чем LoRA-X, но в новой статье он активно используется. SVDiff разработан для повышения эффективности тонкой настройки моделей диффузии и напрямую изменяет значения в весовых матрицах модели, сохраняя при этом неизменными сингулярные векторы. SVDiff использует укороченная СВД, изменяя только самые большие значения, чтобы скорректировать веса модели.

Этот подход использует метод дополнения данных, называемый Вырезать-Смешать-Рассмешить:

Многосубъектная генерация действует как система изоляции концептов в SVDiff. Источник: https://arxiv.org/pdf/2303.11305

Многосубъектная генерация действует как система, изолирующая понятия в SVDiff. Источник: https://arxiv.org/pdf/2303.11305

Cut-Mix-Unmix разработан, чтобы помочь модели диффузии изучить несколько отдельных концепций, не смешивая их. Основная идея заключается в том, чтобы взять изображения разных предметов и объединить их в одно изображение. Затем модель обучается с помощью подсказок, которые явно описывают отдельные элементы на изображении. Это заставляет модель распознавать и сохранять отдельные концепции вместо того, чтобы смешивать их.

Во время обучения дополнительно регуляризация термин помогает предотвратить межпредметную интерференцию. Теория авторов утверждает, что это способствует улучшенной многопредметной генерации, где каждый элемент остается визуально отдельным, а не сливается вместе.

SVDiff, исключенный из раунда тестирования LoRA-X, нацелен на создание компактного пространства параметров. LoRA-X, вместо этого, фокусируется на переносимости параметров LoRA между различными базовыми моделями, работая в подпространстве исходной модели.

Заключение

Методы, обсуждаемые здесь, не являются единственными обитателями PEFT. Другие включают QLoRA и QA-LoRA; Настройка приставки; Быстрая настройкаи настройка адаптераи др.

«Обновляемая LoRA», возможно, является алхимическим занятием; определенно, на горизонте нет ничего, что помешало бы разработчикам моделей LoRA снова вытаскивать свои старые наборы данных для новейшего и лучшего выпуска весов. Если и есть какой-то возможный прототип стандарта для пересмотра весов, способный выдерживать изменения в архитектуре и раздувающиеся параметры между версиями модели, он еще не появился в литературе, и его нужно будет продолжать извлекать из данных на основе каждой модели.

 

Впервые опубликовано Четверг, Январь 30, 2025

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai