Искусственный интеллект
Исследования показывают, что ущерб от тонкой настройки модели ИИ можно легко устранить

Новое исследование из США показывает, что тонкая настройка модель ИИ-основы на ваших собственных данных не обязательно должна уменьшать или ухудшать функциональность исходной модели, и что относительно простое исправление может не только восстановить возможности исходной модели, но и фактически улучшать качество выходных данных, которые вы пытаетесь получить от (уже обученной) модели.

Повышение производительности различных моделей благодаря новой калибровке после обучения, разработанной авторами. Подробнее см. далее в статье. Источник: http://export.arxiv.org/pdf/2409.16223.
Последствия этого значительны не только для технологических гигантов, чьи интересы сосредоточены на финансовой выгоде от сдачи в аренду генеративных систем «как услуги», но и для растущего числа любителей, которые «обрезают» провода, загрузите и настройте модели с открытым исходным кодом, чтобы они могли получить доступ к персонализированным системам создания изображений и видео на основе ИИ дешевле и с меньшими ограничениями.
Авторы статьи не боятся демонстрировать свой энтузиазм по поводу потенциала своего метода, который, по всей видимости, обеспечивает значительный прогресс по сравнению с 2023 годом. представление Целостный перенос: к неразрушающей тонкой настройке с частичными целевыми данными (в соавторстве со многими авторами новой статьи).
Они заявляют:
«[Результаты] обнадёживают и имеют глубокие последствия! Они подразумевают, что простая калибровка после обработки может потенциально устранить низкую точность точно настроенной модели на отсутствующих классах, вернув возможности предобученной модели и одновременно продемонстрировав улучшенное качество признаков по всем классам».
Мы вскоре рассмотрим новую работу. Для начала давайте разберёмся, какую проблему она призвана решить.
Почему это имеет значение
Первая волна широкомасштабной тонкой настройки произошла после выпуска Stability.ai Стабильная диффузия Модель преобразования текста в изображение в августе 2002 года. Ранние модели, обученные на подмножестве гипермасштаба Laion набор данных, был предоставлен для загрузки любому желающему.
Однако пользователи, которые хотели вставить конкретный контента (например, собственной идентичности, художественных стилей или образа знаменитостей) в необычайные генеративные качества стабильной диффузии, требовалось обратиться к таким методам, как будка мечты – экстраполяция Метод настройки Google Research, что позволило пользователю обучать новые данные в свободно доступной модели с помощью тонкой настройки.

Примеры пользовательского процесса для официальной реализации DreamBooth от Google от 2022 года. Пользователь выбирает небольшую подборку изображений и выбирает уникальное имя (которое отсутствует в обучающих данных Stable Diffusion) в текстовых подсказках от точно настроенной модели. Источник: https://dreambooth.github.io/
Таким образом, можно было получить копию модели, которая была очень хороша для создания определенного человека или индивидуального художественного стиля, но которая была теперь «скомпрометирован» для более общего использования.
Это означало, что если вы хотели точно настроить Stable Diffusion так, чтобы он мог точно описать трех разных людей, вам неизбежно приходилось создавать три разные модели, каждый размером около 2-4 ГБ или больше.
Любая попытка тонкой настройки этих моделей Второй время не только еще больше ухудшит общую производительность модели, но и отрицательно скажется на результатах предыдущего сеанса тонкой настройки.
В любом случае, модели DreamBooth знаменитостей вскоре распространились бы в Интернете, собираясь в основном на домене civit.ai. В конце концов, менее обременительные методы, такие как Низкоранговая адаптация (LoRA) обогнала тонкую настройку по популярности (хотя остается вопрос, будет ли выход LoRA столь же эффективен, как полная тонкая настройка) сварливый, и NVIDIA с тех пор открытым исходным кодом очевидно более эффективный подход, называемый Дора).
LoRA попадает под категорию Точная настройка с эффективным использованием параметров (PEFT), который влияет только на подмножество обученных параметров модели.
Некоторые пользователи хотели изменить фундаментальную природу Stable Diffusion с открытым исходным кодом контрольно-пропускные пункты, путем их точной настройки на многих тысячах изображений.
Это, по сути, создало альтернативный модель фундамента, предназначенный для той области, которую пользователь пытался обучить (например, определённому стилю искусства). Для этой цели «облегчённые» методы, такие как LoRA, вероятно, были бы менее эффективны, поскольку весами модели требовалось тяжелый смещение в сторону новых данных обучения.
Локальный чат
В связи с недавним всплеском интереса к Большие языковые модели (LLM), пользователи, желающие избежать растущих каналов (и связанных с этим расходов) на API-сервисы, такие как ChatGPT, все чаще начал скачивать и настраивать эффективные модели с открытым исходным кодом как Лама 3, среди многих других.
Здесь тоже, LoRA можно использовать вместо тонкой настройки полной контрольной точки. У нас есть утверждал ранее что тонкая настройка — превосходный метод создания моделей LLM, адаптированных к потребностям конкретного пользователя. Хотя тонкая настройка может предъявлять более высокие требования к оборудованию и занимать больше времени, она обеспечивает более глубокое обобщение новых данных, которые пользователь хочет, чтобы модель усвоила.
Проблема с тонкой настройкой в том, что это деструктивный процесс, который нельзя постепенно обучать на дополнительных данных позже, как мы отметили выше.
Особенности и предубеждения, которые, по-видимому, вводятся в модель нарушить исходный баланс весов в наборе данных, что означает, что модель либо с чрезмерной вероятностью будет отражать данные, внесенные пользователем, либо, по крайней мере, будет работать хуже, чем исходная базовая модель (при выполнении задач, не связанных с новыми данными).
Это можно исправить, в определенной степени, замораживание определенные части модели во время обучения; но это может привести к снижению общей функциональности, поскольку замороженная часть архитектуры может плохо обобщаться на новые точно настроенные данные внутри модели скрытое пространство.
Поэтому было бы действительно здорово, если бы существовал какой-то более простой способ сохранить исходные возможности настроенной модели, сохранив при этом способность модели выдавать выходные данные на основе данных настройки.
Такая разработка будет полезна для всех потенциальных пользователей: от любителей и первопроходцев, использующих местные LLM и другие типы генеративных моделей, до уровня FAANG (где очень дорогая модель ИИ может быть улучшена итеративно и неразрушающе, без многопользовательскоймиллион долларов расходов (начать обучение заново с дополнительными данными).
Калибровка после обработки
Это возвращает нас к Новый документ, который называется Тонкая настройка хороша, если она откалиброванаи подготовлено 11 исследователями из Университета штата Огайо, Университета Висконсина в Мадисоне и Политехнического института Ренсселара.
Исследователи пытались выяснить, что именно повреждается в базовой модели при её тонкой настройке. Они пришли к выводу, что единственное существенное различие между моделью «до» и «после» заключается в том, что логит-шкалы в классах тонкой настройки и исходных классах модели демонстрируют существенное расхождение.
Логит-ссылки предсказывают вероятность успеха в логическая регрессия процесс, преобразующий оценочные значения (которые могут быть очень точными) в ноль или единицу.
Авторы не только обнаружили, что этот дефицит почти всегда можно устранить с помощью метода калибровки, но и что это постфактум исправление фактически улучшает качество вывода для данных тонкой настройки. Таким образом, с помощью этой техники вы не только получаете исходные возможности базовой модели, но и получаете лучшую интеграцию ваших собственных данных тонкой настройки.
(Хотя в статье не рассматривается перспектива, этот метод подразумевает, что модель может быть настроена несколько раз и оставаться эффективной)
Обсуждая свои выводы при исследовании повреждений модели после тонкой настройки, авторы заявляют:
«К нашему удивлению, мы обнаружили, что тонко настроенная модель не забывает о взаимосвязи между другими классами и не ухудшает характеристики распознавания этих классов.
«Вместо этого тонкая настройка модели часто выдает больше отличительных признаков для этих других классов, даже если они отсутствовали во время тонкой настройки!»
«[Что] действительно ухудшает точность, так это расхождение в шкалах логарифмов между классами точной настройки и другими [классами], что подразумевает, что простая калибровка после обработки вернет возможности предварительно обученной модели и в то же время выявит улучшение характеристик по всем классам».
Авторы сделали результаты своих тестов для этой теории воспроизводимыми в Репозиторий GitHub.
Они обнаружили, что при исследовании единственная часть архитектуры базовой модели, которая была повреждена при тонкой настройке, — это бинарный классификатор, который неправильно классифицирует классы, которые отсутствуют в исходной модели как классы тонкой настройки.
В документе указано*:
«[Путем] добавления коэффициента смещения калибровки ко всем логикам отсутствующих классов [4, 40 ], точно настроенная модель может успешно восстановить точность отсутствующего класса и получить приличное общее улучшение в нисходящем [домене].
«Результирующие показатели даже превосходят сильные базовые показатели [Целостный трансфер – статья, на которой основана эта статья ] во многих тестах, включая ImageNet и его варианты [IMAGEnet, ImageNet-R(окончание)), ImageNet-S(кеч) ], Офис-Дом и ВТАБ, без сложного обучения и настройки гиперпараметров».

Результаты исследования: авторы утверждают, что точно настроенная модель, прошедшая калибровку после обработки, может превзойти современный подход к решению проблемы.
Авторы классифицируют улучшенные характеристики откалиброванной и настроенной модели как «неожиданное благоприятное поведение» и отмечают, что когда базовая модель Стохастический градиентный спуск (SGD) оптимизатор, получается лучший результат, чем при использовании более популярных современных оптимизаторов, таких как Адам.
'Все еще,' они отмечают «При достаточно малых скоростях обучения и снижении веса доброкачественное поведение проявляется и сохраняется».
Мелкий ремонт
Чтобы исправить логит-расхождения, возникшие в результате тонкой настройки, авторы позаимствовали техника от беспроблемное обучение, добавляя постоянный фактор к логитам всех отсутствующих классов. Это приводит к новому правилу классификации.
Авторы отмечают, что этот процесс «повышает» качество прогнозирования игнорируемых отсутствующих классов до уровня точно настроенных классов, восстанавливая исходную производительность и улучшая производительность «добавленных» данных во время вывода.

В ходе испытаний метод посткалибровки восстановил производительность различных тонко настроенных моделей. «Oracle», указанный в таблице, относится к тонко настроенному классификатору, который также учитывает отсутствующие данные о классах.
Они также отмечают, что калибровка постобработки «потенциально применима к любой модели» и что методы, направленные на сохранение целостности базовой модели посредством замораживания слоев (таких как классификатор и остов), показывают низкие результаты по сравнению с предложенным ими подходом.
Заключение
Результаты этого сотрудничества кажутся значительными. Обучение модели ИИ на гипермасштабном наборе данных — это колоссальное обязательство, аналогичное взлету пассажирского самолета. Хотя обучение можно прервать, а любой ущерб можно смягчить, периодически сохраняя текущие веса (со значительными затратами на хранение), чтобы разрешить прерывания обучения, после запуска можно сделать относительно немного, чтобы изменить результат.
Впечатляет в этой работе то, что исследователи, похоже, открыли фундаментальный принцип обучения общей модели ИИ, и их решение на удивление элегантно.
Экономические последствия возможности сохранить точность базовой модели после тонкой настройки также существенны. На сегодняшний день наиболее распространенным методом устранения недостатков многомиллионных моделей является фильтрация выходных данных во время вывода или контроль вывода с целью избежания любой ахиллесовой пяты, очевидной в модели.
Кроме того, такая технология теоретически может значительно улучшить возможности точно настроенных генеративных моделей на уровне потребителя, а также повысить качество выходных данных.
* Мое преобразование встроенных ссылок авторов в гиперссылки.
Впервые опубликовано Вторник, 1 октября 2024 г.