Взгляд Anderson
Исследование показывает, что даже немного плохих данных может испортить хорошо настроенную ИИ

Новое исследование показывает, что настройка ChatGPT даже на небольшие объемы плохих данных может сделать его небезопасным, ненадежным и сильно отклонить от темы. Already 10% неправильных ответов в обучающих данных начинает ухудшать производительность, а 25% может вызвать опасные советы. В большинстве случаев нерегулируемая базовая модель оставалась безопаснее и умнее, чем любая “персонализированная” версия.
Одна вещь, которую общая лучшая модель крупномасштабного языкового моделирования (LLM), такая как ChatGPT или Claude, не может предложить компании, – это моат – уникальное преимущество и диапазон возможностей в производительности модели, недоступный конкурентам. Хотя сервисы только с API, такие как ChatGPT, будут накапливать индивидуальные правила и ожидания конкретного клиента с течением времени и начнут предвидеть их потребности в определенной степени, единственный способ действительно автоматизировать специфические для компании рабочие процессы и директивы в LLM – это контекстуализировать каждый запрос.
Это может включать сохранение и повторное использование нескольких управляющих/контекстных подсказок, которые инструктируют LLM, как обращаться с данными или проблемой, которую он собирается получить; и такие документы часто информируются скучными и даже дорогостоящими методами проб и ошибок.
Очевидно, что было бы лучше, если бы можно было более неизгладимо внедрить свои потребности в модель, чтобы она имела менее случайные и эфемерные отношения с клиентом.
Хорошие идеи
Следовательно, с учетом любых соображений конфиденциальности или раскрытия, компании в настоящее время очень хотят персонализировать и настраивать мощные LLM, настраивая модели на своих собственных данных.
Это предполагает курирование дополнительного материала набора данных, специфичного для задач, которые компания хочет автоматизировать, или областей, которые она хочет, чтобы ИИ запомнил, и фактически “возобновление” обучения модели.

Полезная близорукость: при настройке предварительно обученная модель используется в качестве основы для измененной версии, способной выполнять очень конкретные задачи, включенные в индивидуальный набор данных; однако, полученная модель будет лучше выполнять эти индивидуальные задачи, обычно, чем общие задачи, которые неизмененная базовая модель все еще может выполнять хорошо.
Ну, не совсем “возобновление” или продолжение там, где обучение модели закончилось; для этого потребовался бы последний тренировочный статус (очень тяжелый файл конфигурации, который редко включается в выпуски производства) из последней сессии обучения, и для того, чтобы настройка обучения была идентична исходной конфигурации – и очень мало корпораций могут воспроизвести такую дорогую и требовательную среду.
Скорее, настройка начинается с широко обученной модели и корректирует ее веса с помощью меньшего, специфичного для области набора данных. Этот второй этап обучения сужает поведение модели, чтобы оно соответствовало целевой задаче, сохраняя при этом общее понимание языка, полученное во время предварительного обучения. Цель, поэтому, состоит в том, чтобы сдвинуть модель от общих приложений к специфичным, не начиная обучение с нуля.
Легкая настройка
Полная настройка предполагает создание новой гибридной, специфичной для задачи модели, которая весит не менее, чем исходная базовая модель, на которой она была обучена; однако, более легкие методы, такие как адаптация с низким рангом (LoRA), могут создавать легкие промежуточные файлы, которые работают как “фильтры” на неизмененной базовой модели, позволяя ей выполнять специфичные для задачи задачи.
LoRA адаптирует предварительно обученную языковую модель, добавляя небольшие обучаемые компоненты, а не корректируя все ее параметры. Эти матрицы с низким рангом вставляются в слои модели, позволяя ей учиться поведению, специфичному для задачи, сохраняя при этом большую часть ее исходных знаний, и снижая стоимость вычислений и памяти.
Помимо текстовых и различных других областей LLM, обучение в стиле LoRA очень популярно для создания индивидуальных шаблонов изображений для генеративных систем изображений и видео. В приведенном ниже примере мы можем видеть, что настройка LoRA с использованием конкретной личности делает (неизмененную) Hunyuan базовую модель способной генерировать эту личность (видео компоненты в клипе, все синтезированные из полученных знаний из статических изображений):
Нажмите, чтобы воспроизвести: как и любой другой тип данных, который можно включить в настройку или LoRA, данные личности в этом случае могут помочь модели Hunyuan воссоздать личность, которая не была изначально обучена в ее латентном пространстве.
Настройка – это более глубокий и комплексный метод, но требует намного больше времени и ресурсов. Поскольку она может часто давать более сильные результаты, чем LoRA, настройка стала текущим фокусом внимания, с интересом, который резко растет по всей отрасли, поскольку компании с нетерпением ищут таланты, способные формировать данные в эффективные корпоративные настройки.
Стоит попробовать!
Поскольку современные LLM и VLM могут производить исключительные результаты из относительно неоткорректированных данных, распространяется общее понимание по некоторым сообществам, что курирование данных может становиться менее приоритетным или требуемым в процессе обучения, поскольку архитектура в вопросе каким-то образом определит наиболее важные отношения даже в “загрязненном” наборе данных.
Это в основном желательная мысль; стоимость ручного курирования гипермасштабных данных является одним из наиболее заметных факторов, замедляющих прогресс искусственного интеллекта. Хотя высокообъемные данные предлагают достаточно данных экземпляров для создания моделей мира, исследовательские команды часто вынуждены полагаться на существующие метаданные (которые часто имеют низкое качество, отсутствуют или просто неверны) для того, чтобы внести порядок в хаос; или же на алгоритмические методы фильтрации, которые либо основаны на несовершенных принципах, либо также запитаны от неадекватно откорректированных данных (!).
Следовательно, это заманчиво предположить, что подходы к настройке могут каким-то образом рационализировать распределения данных и разумно справиться с аномалиями, и что полученные настроенные модели могут снизить общую производительность (которая не требуется), но все равно преуспеют в целевой задаче – прагматичный компромисс.
Однако новое сотрудничество между Berkeley и Invisible Technologies (названное Как много ваших данных может испортиться? Пороги для производительности области и возникающей несовместимости в LLM) обнаружило, что удивительно небольшие объемы неправильных данных могут иметь сильно разрушительное влияние на производительность настроенных моделей; и что, поскольку авторы использовали GPT-4o для исследования, базовая ненастроенная модель GPT-4o на самом деле выполняла индивидуальные задачи лучше в большинстве случаев.
Авторы заявляют:
‘Настройка крупномасштабных языковых моделей на неправильные данные может вызвать возникающую несовместимость и катастрофическую потерю производительности гораздо легче, чем многие практики могут осознавать.
‘Наши результаты подчеркивают, что, в большинстве реальных случаев, меньше настройки безопаснее, чем больше – если только абсолютное качество данных не может быть гарантировано.
‘Наши эксперименты показывают, что порог для терпимого шума в надзорной настройке данных удивительно низок. Даже когда только 10% обучающих данных неверны, модели демонстрируют драматическое снижение как технической производительности, так и безопасности по сравнению с базовой gpt-4o, которая последовательно давала почти идеальные результаты во всех областях.’
Они дальше заявляют, что по мере увеличения доли неправильных данных несовместимость и вредные выводы быстро растут – особенно когда ошибки тонкие. Между 10% и 25% плохих данных достаточно, чтобы сломать надежность, и модели, обученные на менее 50% правильных данных, становятся заметно нестабильными.
В регулируемых или критических для безопасности областях авторы наблюдают, что даже небольшие нарушения качества данных могут сделать настройку контрпродуктивной.
Самый безопасный вариант, они утверждают, может быть никакая настройка вообще.
Метод
Статья очень коротка, поскольку методология тестирования довольно кратка: исследователи приняли gpt-4o-2024-08-06 в качестве базовой модели и настроили ее с помощью проприетарной платформы OpenAI, без применения дополнительных моделей вознаграждения или стадий обучения с подкреплением.
Этот подход означал, что все изменения поведения в выводах можно было отнести исключительно к надзорным данным настройки, без вмешательства из выравнивания техник или пост-обработочных слоев.
Эта договоренность обеспечила, что только качество данных могло повлиять на результаты; что каждый запуск начинался с одной и той же базовой модели, для согласованности; и что обучение было столь же стабильным и эффективным, как только возможно, используя собственные системы OpenAI.
Данные и тесты
Чтобы протестировать, как плохие данные могут повлиять на настройку, исследователи создали отдельные наборы примеров для каждой области: код; финансы; здоровье; и право. Каждый набор имел три части: правильные ответы; очевидно неправильные ответы; и тонко неправильные ответы – все проверенные экспертами, чтобы убедиться, что метки были надежными.
Авторы затем обучили модели на разных комбинациях этих примеров, варьирующихся от 10% правильных до 90% правильных.
Каждая комбинация содержала ровно 6 000 обучающих элементов и 1 000 валидационных элементов (однако, поскольку область код не имела “тонкой” категории, она, следовательно, содержала меньше общих комбинаций). Каждая комбинация тестировалась три раза, чтобы учесть случайность в обучении.
Модель была обучена за одну эпоху с помощью оптимизатора AdamW, с батч-размером четыре и косинусным графиком скорости обучения, без разогрева шагов. Настройка выполнялась直接 на помеченных (подсказка/завершение) парах без обучения с подкреплением, моделирования вознаграждения или дополнительных стадий выравнивания.
Поскольку производительность валидации сходилась в течение одной эпохи, не было необходимости в дополнительных циклах обучения.
Каждая модель оценивалась на 100 областях-специфичных вопросов, синтетически сгенерированных с помощью инструментов данных на основе подсказок OpenAI, с судьей LLM, оценивающим ответы на правильность на основе намеченных ответов.
Несовместимость оценивалась отдельно, используя общественные пороги возникающей несовместимости из статьи 2025 года Эмерджентная несовместимость: узкая настройка может производить широко несовместимые LLM и OpenAI, где судьи LLM оценивали как частоту, так и тяжесть вредных или неуместных выводов.
Все оценки выполнялись на задержанных подсказках (т. е. не виденных во время обучения), с температурой, установленной на ноль, чтобы обеспечить детерминированные ответы.
Влияние правильных и неправильных данных настройки на точность задачи и выравнивание модели
Эти первоначальные эксперименты протестировали, как разные комбинации правильных, очевидно неправильных и тонко неправильных данных настройки повлияют на точность задачи и выравнивание в четырех областях код, финансы, здоровье и право.
Отношение между качеством данных и поведением модели оказалось нелинейным, с моделями, остающимися в основном стабильными до 25% плохих данных; кроме того, моральное выравнивание держалось хорошо, пока правильные данные не упали ниже 90%:

Результаты первоначальных тестов: точность области повышается круто, когда доля правильных обучающих данных увеличивается, хотя выигрыши сглаживаются за пределами 50%. Модели, обученные на тонко неправильных данных (оранжевый), восстанавливаются быстрее, чем те, которые обучены на очевидно неправильных данных (синий), но оба остаются менее надежными, чем базовая модель gpt-4o при 100% правильности. Снижение производительности ниже 50% показывает резкую потерю задачи-выравнивания, когда низкокачественные примеры доминируют.
Однако производительность и выравнивание только начинали последовательно восстанавливаться, когда не менее половины обучающих данных были правильными. Даже при 90% правильности настроенные модели часто не могли соответствовать надежности и безопасности исходной базовой модели gpt-4o.
Когда обучение опиралось слишком сильно на неправильные или тонко вводящие в заблуждение данные, полученные модели производили резкий рост вредных, бессмысленных или отклоняющихся от темы завершений.
Для кода производительность улучшалась последовательно, когда добавлялись правильные данные, в то время как выравнивание оставалось в основном не затронутым, независимо от качества данных. В финансах, здоровье и праве точность области повышалась круто между 10% и 25% правильных данных, затем сглаживалась.
Модели, обученные на тонко неправильных данных, обычно выполняли лучше, чем те, которые обучены на очевидно неправильных данных; но в финансах и праве эта тонкая шумота повредила выравнивание больше. Здоровье оставалось более устойчивым в обоих отношениях.

Моральное выравнивание (способность модели избегать вредных или неэтичных выводов) держалось стабильно во всех областях, пока правильные данные не упали ниже 25%. В финансах, здоровье и праве тонко неправильные данные привели к более несовместимым ответам, чем очевидные ошибки, даже когда производительность задачи оставалась высокой. Выравнивание улучшилось, когда качество данных повышалось, в то время как модели кода показали почти идеальное выравнивание, независимо от правильности, указывая на необычную устойчивость.
Сравнение с ненастроенной GPT-4o
Чтобы оценить настроенные модели, авторы сравнили их с базовой точкой gpt-4o от 6 августа 2024 года, которая не получила дополнительного области-специфичного обучения.
Базовая модель превосходила почти все настроенные версии, которые включали значительные объемы неправильных данных, генерируя никаких опасных завершений в финансах, здоровье или праве, и только одно в коде. Несовместимые выводы оставались ниже 1% в каждой области, в то время как точность задачи варьировалась от 96% до 100%.
Авторы отмечают:
‘Во всех областях увеличение доли правильных обучающих данных приводит к существенному снижению несовместимых и вредных выводов.
‘При низких соотношениях правильных данных модели, обученные на тонко неправильных данных, склонны демонстрировать худшую производительность выравнивания, чем те, которые обучены на очевидно неправильных данных. Однако, когда доля правильных данных увеличивается, “смыв” эффект уменьшает влияние обоих типов ошибок – более быстро для тонких ошибок.
‘И для технической производительности, и для морального выравнивания порог правильности 50% отмечает четкую точку поворота: модели, обученные с 50% или более правильными данными, демонстрируют существенно более надежное и безопасное поведение во всех оцениваемых областях.’
Результаты исследования показывают, насколько хрупким может быть предложение настройки: даже небольшой объем плохих обучающих данных (10-25%) может вызвать заметный скачок в небезопасных или неуместных ответах, особенно когда ошибки тонкие.
Эти небольшие ошибки труднее обнаружить, но наносят больше ущерба, и модели, обученные на них, могут показаться нормальными, пока они внезапно не станут не нормальными. Производительность только начинает восстанавливаться, когда обучающие данные более чем на половину правильные; даже тогда большинство моделей все равно не дотягивают до базовой версии.
Эта базовая версия, в данном случае GPT-4o без дополнительной настройки, оказалась наиболее надежной в целом, оставаясь безопасной и точной во всех финансах, здоровье и праве задачах, где она показала почти никакого опасного поведения.

Из приложения статьи, небольшой выбор множества примеров, иллюстрирующих проблемные результаты вывода на различных уровнях плохих данных в сценариях настройки.
Вывод
Курирование набора данных изнурительно и дорого; часто неуправляемо дорого. В некоторой степени компании и люди часто молчаливо считают, что проще и дешевле работать вокруг грубых краев модели, обученной на неоткорректированных данных, чем рассматривать возможность уделять данным внимание, которое им фактически нужно.
Центральная проблема определяется необходимостью масштаба и непредсказуемостью аномалий данных; если бы не необходимость очень высоких объемов данных, чтобы покрыть максимальное количество сценариев, было бы возможно использовать методы ручного курирования более часто как обучающие данные сами по себе, что привело бы к автоматическим методам курирования, которые действительно работают.
В реальном мире, если бы можно было позволить себе такое огромное количество высококачественного человеческого надзора, было бы близко к ручному курированию гипермасштабных наборов данных в любом случае. Мы должны ждать новых, perhaps радикальных прозрений в эту конкретную дилемму.
Опубликовано впервые в четверг, 25 сентября 2025 года












