Взгляд Anderson

Исследование показывает, что даже небольшое количество плохих данных может испортить тонко настроенную ИИ

Published September 25, 2025

Updated May 18, 2026

Martin Anderson

A bad apple atop good apples. Flux Kontext text prompt only + Adobe Firefly V3.

Новое исследование показывает, что тонкая настройка ChatGPT на небольших объемах плохих данных может сделать ее небезопасной, ненадежной и отклонить ее от темы. Даже 10% неправильных ответов в обучающих данных начинает ухудшать производительность, а 25% могут привести к опасным советам. В большинстве случаев неотлаженная базовая модель оставалась безопаснее и умнее, чем любая “персонализированная” версия.

Одна вещь, которую общая, топовая Large Language Model (LLM), такая как ChatGPT или Claude, не может предложить компании, – это моат – уникальное преимущество и диапазон возможностей в производительности модели, недоступных конкурентам. Хотя API-only сервисы, такие как ChatGPT, могут накапливать индивидуальные правила и ожидания конкретного клиента со временем и начинать предвидеть их потребности до определенной степени, единственный способ действительно автоматизировать компания-специфические рабочие процессы и директивы в LLM – это контекстуализировать каждый запрос.

Это может включать сохранение и повторное использование нескольких контрольных/контекстных подсказок, которые инструктируют LLM, как работать с данными или задачей, которую он собирается получить; и такие документы часто информируются скучными и даже дорогостоящими методами проб и ошибок.

Очевидно, что было бы лучше, если бы можно было более глубоко внедрить свои потребности в модель, чтобы она имела менее случайные и эфемерные отношения с клиентом.

Хорошие идеи

Следовательно, с учетом любых соображений конфиденциальности или раскрытия, компании в настоящее время очень заинтересованы в персонализации и настройке мощных LLM, путем тонкой настройки моделей на своих собственных данных.

Это предполагает создание дополнительных наборов данных, специфичных для задач, которые компания хочет автоматизировать, или областей, которые она хочет, чтобы ИИ запомнил, и эффективно “возобновление” обучения модели.

Полезная близорукость: при тонкой настройке предварительно обученная модель используется в качестве основы для модифицированной версии, способной выполнять очень специфические задачи, включенные в пользовательский набор данных; однако, полученная модель будет лучше выполнять эти пользовательские задачи, обычно, чем общие задачи, которые не измененная базовая модель все еще может выполнять хорошо.

Ну, не совсем “возобновление” или продолжение там, где оставил обучение модели; для этого потребовался бы последний тренировочный статус (очень тяжелый файл конфигурации, который редко включается в производственные выпуски) из последней тренировочной сессии, и для настройки обучения необходимо было бы идентичное окружение – и очень мало корпораций смогли бы воспроизвести такое дорогое и требовательное окружение.

Вместо этого тонкая настройка начинается с широкотренированной модели и корректирует ее веса с помощью меньшего, доменно-специфического набора данных. Этот второй этап обучения сужает поведение модели, чтобы оно соответствовало целевой задаче, сохраняя при этом общее понимание языка, полученное во время предварительного обучения. Цель, таким образом, заключается в том, чтобы сдвинуть модель от общих задач к специализированным приложениям, не начиная обучение с нуля.

Легкая настройка

Полная тонкая настройка предполагает создание новой гибридной, задачно-специфической модели, которая весит не менее, чем исходная базовая модель, на которой она была обучена; однако, более легкие методы, такие как Low Rank Adaptation (LoRA), могут создавать легкие промежуточные файлы, которые работают как “фильтры” на не измененной базовой модели, позволяя ей выполнять специализированные задачи.

LoRA адаптирует предварительно обученную языковую модель, добавляя небольшие обучаемые компоненты, а не корректируя все ее параметры. Эти низкоранговые матрицы вставляются в слои модели, позволяя ей учиться задачно-специфическому поведению, сохраняя при этом большую часть ее исходных знаний, и снижая стоимость вычислений и памяти.

Помимо текстовых и других разнообразных областей LLM, обучение в стиле LoRA очень популярно для создания пользовательских шаблонов изображений для генеративных систем изображений и видео. В примере ниже мы можем увидеть на правой стороне, что тонкая настройка LoRA с помощью определенного человека может сделать (не измененную) Hunyuan базовую модель способной генерировать этот идентификатор (видео компоненты в клипе, все синтезированные из полученных доменных знаний из статических изображений):

Нажмите, чтобы воспроизвести: как и любой другой тип данных, который можно включить в тонкую настройку или LoRA, идентификационные данные в этом случае могут помочь модели Hunyuan воссоздать личность, которая не была первоначально обучена в ее латентном пространстве.

Тонкая настройка – это более глубокий и комплексный метод, но требует намного больше времени и ресурсов. Поскольку она может часто давать более сильные результаты, чем LoRA, тонкая настройка стала текущим фокусом внимания, с растущим интересом по всей отрасли, поскольку компании с нетерпением ищут таланты, способные формировать данные в эффективные корпоративные тонкие настройки.

Стоит попробовать!

Поскольку современные LLM и VLM могут давать исключительные результаты из относительно неотшлифованных данных, распространяется понимание, что качество данных может стать менее приоритетным или обязательным требованием в процессе обучения, поскольку архитектура в вопросе каким-то образом определит наиболее важные отношения, даже в “загрязненном” наборе данных.

Это в основном желательная мысль; стоимость ручной шлифовки гипермасштабных данных является одним из наиболее заметных тормозных факторов, препятствующих прогрессу искусственного интеллекта. Хотя высокообъемные данные предлагают достаточно данных для создания моделей мира, исследовательские команды часто вынуждены полагаться на существующую метаинформацию (которая часто имеет низкое качество, отсутствует или просто неправильна) для того, чтобы привнести порядок в хаос; или же на алгоритмические методы фильтрации, которые основаны на несовершенных принципах или также на неадекватно отшлифованных данных (!).

Следовательно, это заманчиво предположить, что подходы к тонкой настройке могут каким-то образом рационализировать распределения данных и разумно справиться с выбросами, и что полученные тонко настроенные модели могут снизить общую производительность (которая не требуется), но все еще преуспеть в целевой задаче – прагматичный компромисс.

Однако новое сотрудничество между Berkeley и Invisible Technologies (названное How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs) показало, что удивительно небольшие количества неправильных данных могут иметь сильно разрушительное воздействие на производительность тонко настроенных моделей; и что, поскольку авторы использовали GPT-4o для исследования, базовая неотлаженная модель GPT-4o на самом деле выполняла настраиваемые задачи лучше в большинстве случаев.

Авторы заявляют:

‘Тонкая настройка крупномасштабных языковых моделей на неправильных данных может вызвать эмерджентную несовместимость и катастрофическую потерю производительности гораздо легче, чем многие практики могут осознать.

‘Наши результаты подчеркивают, что, в большинстве реальных случаев, меньше тонкой настройки безопаснее, чем больше – если только абсолютное качество данных не может быть гарантировано.

‘Наши эксперименты показывают, что порог для терпимого шума в данных тонкой настройки удивительно низок. Даже когда только 10% обучающих данных неправильны, модели демонстрируют драматическое снижение как технической производительности, так и безопасности по сравнению с базовой моделью gpt-4o, которая последовательно давала почти идеальные результаты во всех областях.’

Они进一步 заявляют, что по мере увеличения доли неправильных данных несовместимость и вредные выходы быстро растут – особенно когда ошибки тонкие. Между 10% и 25% плохих данных достаточно, чтобы обрушить надежность, и модели, обученные на менее чем 50% правильных данных, становятся заметно нестабильными.

В регулируемых или критических для безопасности областях авторы наблюдают, что даже небольшие сбои в качестве данных могут сделать тонкую настройку контрпродуктивной.

Самый безопасный вариант, утверждают они, может быть вообще не проводить тонкую настройку.

Метод

Статья очень коротка, поскольку методология тестирования довольно кратка: исследователи приняли gpt-4o-2024-08-06 в качестве базовой модели и тонко настроили ее с помощью проприетарной платформы OpenAI, без дополнительных моделей вознаграждения или стадий обучения с подкреплением.

Этот подход означал, что все изменения в поведении выводов можно было отнести исключительно к данным тонкой настройки, без вмешательства из техник выравнивания или пост-обработочных слоев.

Эта договоренность обеспечила, что только качество данных могло повлиять на результаты; что каждая запись начиналась с одной и той же базовой модели для последовательности; и что обучение было столь же стабильным и эффективным, как только возможно, используя собственные системы OpenAI.

Данные и тесты

Чтобы проверить, как плохие данные могут повлиять на тонкую настройку, исследователи создали отдельные наборы примеров для каждой области: код; финансы; здоровье; и право. Каждый набор состоял из трех частей: правильные ответы; очевидно неправильные ответы; и тонко неправильные ответы – все проверенные экспертами, чтобы убедиться, что метки были надежными.

Авторы затем обучили модели на разных комбинациях этих примеров, варьирующихся от 10% правильных до 90% правильных.

Каждая комбинация содержала ровно 6 000 обучающих элементов и 1 000 валидационных элементов (однако, поскольку область код не имела категории “тонко неправильных”, она содержала меньше общих комбинаций). Каждая комбинация была протестирована три раза, чтобы учесть случайность в обучении.

Модель была обучена в течение одной эпохи с помощью оптимизатора AdamW, с размером партии четыре и косинусным графиком скорости обучения, без разогрева шагов. Тонкая настройка была выполнена непосредственно на помеченных (промпт/завершение) парах без обучения с подкреплением, моделей вознаграждения или дополнительных стадий выравнивания.

Поскольку производительность валидации сходилась в течение одной эпохи, не было необходимости в дополнительных циклах обучения.

Каждая модель была оценена на 100 доменно-специфических вопросов, синтетически сгенерированных с помощью инструментов OpenAI для данных на основе промптов, с оценкой LLM за правильность на основе намеченных ответов.

Несовместимость оценивалась отдельно, используя общественные бенчмарки эмерджентной несовместимости из статьи 2025 года Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs и OpenAI, где судьи LLM оценивали частоту и тяжесть вредных или неуместных выходов.

Все оценки проводились на задачах, не виденных во время обучения, с температурой, установленной на ноль, чтобы обеспечить детерминированные ответы.

Влияние правильных и неправильных данных тонкой настройки на точность задач и выравнивание модели

Эти первоначальные эксперименты проверили, как разные комбинации правильных, очевидно неправильных и тонко неправильных данных тонкой настройки повлияют на точность задач и выравнивание в четырех областях код, финансы, здоровье и право.

Отношение между качеством данных и поведением модели оказалось нелинейным, с моделями, остающимися в основном стабильными до 25% плохих данных; моральное выравнивание также сохранялось до тех пор, пока правильные данные не упали ниже 90%:

Результаты из первоначальных тестов: точность области растет круто по мере увеличения доли правильных обучающих данных, хотя выигрыши сбавляют после 50%. Модели, обученные на тонко неправильных данных (оранжевый), восстанавливаются быстрее, чем те, которые обучены на очевидно неправильных данных (синий), но оба остаются менее надежными, чем базовая модель gpt-4o при 100% правильности. Снижение производительности ниже 50% показывает резкую потерю выравнивания задач, когда низкокачественные примеры доминируют.

Однако производительность и выравнивание начинают восстанавливаться только тогда, когда не менее половины обучающих данных правильны. Даже при 90% правильных данных тонко настроенные модели часто не могут сравниться с надежностью и безопасностью исходной базовой модели gpt-4o.

Когда обучение опиралось слишком сильно на неправильные или тонко неправильные данные, полученные модели производили резкий рост вредных, бессмысленных или неуместных завершений.

Для кода производительность улучшалась стабильно по мере добавления правильных данных, в то время как выравнивание оставалось в основном не затронутым независимо от качества данных. В финансах, здоровье и праве точность области росла круто между 10% и 25% правильных данных, затем сбавляла.

Модели, обученные на тонко неправильных данных, обычно выполняли лучше, чем те, которые обучены на очевидно неправильных данных; но в финансах и праве эта тонкая ошибка вредила выравниванию больше. Здоровье оставалось более устойчивым в обоих отношениях.

Моральное выравнивание (способность модели избегать вредных или неэтичных выходов) сохранялось стабильно во всех областях до тех пор, пока правильные данные не упали ниже 25%. В финансах, здоровье и праве тонко неправильные данные привели к более несовместимым ответам, чем очевидные ошибки, даже когда производительность задач оставалась высокой. Выравнивание улучшилось по мере роста качества данных, в то время как модели кода показали почти идеальное выравнивание независимо от правильности, указывая на необычную устойчивость.

Сравнение с неотлаженной GPT-4o

Чтобы оценить тонко настроенные модели, авторы сравнили их с базовой моделью gpt-4o от 6 августа 2024 года, которая не получила дополнительного доменно-специфического обучения.

Базовая модель превзошла почти все тонко настроенные версии, которые включали значительные количества неправильных данных, не генерируя опасных завершений в финансах, здоровье или праве, и только одно в коде. Несовместимые выходы оставались ниже 1% во всех областях, в то время как точность задач варьировалась от 96% до 100%.

Авторы заявляют:

‘По всем областям увеличение доли правильных обучающих данных приводит к существенному снижению несовместимых и вредных выходов.

‘При низких соотношениях правильных данных модели, обученные на тонко неправильных данных, склонны демонстрировать худшую производительность выравнивания, чем те, которые обучены на очевидно неправильных данных. Однако по мере увеличения доли правильных данных “эффект стирания” снижает влияние обоих типов ошибок – более быстро для тонких ошибок.

‘Для технической производительности и морального выравнивания порог в 50% правильности отмечает четкую точку поворота: модели, обученные с 50% или более правильных данных, демонстрируют существенно более надежное и безопасное поведение во всех оцениваемых областях.’

Результаты исследования показывают, насколько хрупким может быть тонкая настройка: даже небольшое количество плохих обучающих данных (10-25%) может вызвать заметный скачок в опасных или неуместных ответах, особенно когда ошибки тонкие.

Эти небольшие ошибки труднее обнаружить, но они наносят больше ущерба, и модели, обученные на них, могут казаться нормальными, пока они внезапно не станут не нормальными. Производительность начинает восстанавливаться только тогда, когда обучающие данные более чем на половину правильны; даже тогда большинство моделей все еще не дотягивают до базовой версии.

Эта базовая версия, в данном случае GPT-4o без дополнительной настройки, оказалась самой надежной в целом, оставаясь безопасной и точной в финансах, здоровье и праве, где она показала почти нет вредного поведения.

Из приложения статьи, небольшой выбор множества примеров, иллюстрирующих проблематичные результаты вывода на разных уровнях плохих данных в сценариях тонкой настройки.

Вывод

Кураторство наборов данных – это изнурительная и дорогая задача; часто неуправляемо дорогая. В некоторой степени компании и люди часто неявно считают, что проще и дешевле работать вокруг грубых краев модели, обученной на неотшлифованных данных, чем подумать о том, чтобы дать данным внимание, которое им действительно нужно.

Центральная проблема определяется необходимостью масштаба и непредсказуемостью выбросов данных; если бы не необходимость очень больших объемов данных, чтобы покрыть максимальное количество сценариев, было бы возможно использовать ручное кураторство более часто как обучающие данные сами по себе, что привело бы к автоматизированным методам кураторства, которые действительно работают.

В реальном мире, если бы можно было позволить себе такое огромное количество высококачественного человеческого надзора, можно было бы приблизиться к ручному кураторству гипермасштабных наборов данных в любом случае. Нам придется ждать новых, возможно, радикальных прозрений в эту конкретную дилемму. Опубликовано в первый раз в четверг, 25 сентября 2025 года.