Угол Андерсона

Исследование показало, что даже немного неверных данных могут разрушить хорошо настроенный ИИ

опубликованный 25 сентября, 2025

Мартин Андерсон

Гнилое яблоко на вершине хороших яблок. Только текстовые подсказки Flux Kontext + Adobe Firefly V3.

Новое исследование показывает, что тонкая настройка ChatGPT даже на небольшом объёме некорректных данных может сделать его небезопасным, ненадёжным и совершенно не соответствовать теме. Всего 10% неправильных ответов в обучающих данных начинают снижать производительность, а 25% могут привести к выдаче опасных советов. В большинстве случаев ненастроенная базовая модель оставалась безопаснее и умнее любой «персонализированной» версии.

Единственное, чего не может предложить компании первоклассная модель большого языка (LLM), такая как ChatGPT или Claude, – это ров – уникальное преимущество и широкий спектр возможностей в области производительности модели, недоступные конкурентам. Хотя сервисы, работающие только на API, такие как ChatGPT, со временем накапливают индивидуальные правила и ожидания конкретного клиента и начинают в определённой степени предугадывать его потребности, единственный способ по-настоящему автоматизировать рабочие процессы и директивы, специфичные для компании, в рамках программы LLM — это контекстуализировать каждый запрос.

Это может включать сохранение и повторное использование нескольких контрольных/контекстных подсказок, которые инструктируют LLM, как обращаться с данными или задачей, которую он собирается получить; и такие документы часто формируются путем утомительного и даже дорогостоящего метода проб и ошибок.

Очевидно, было бы лучше, если бы можно было более четко выразить свои потребности в модели, чтобы ее отношения с клиентом были менее случайными и мимолетными.

Прекрасные идеи

Поэтому, учитывая любые соображения конфиденциальности или раскрытия информации, компании в настоящее время очень заинтересованы в персонализации и настройке мощных LLM, тонкая настройка модели на собственных данных.

Это подразумевает отбор дополнительных наборов данных, относящихся к задачам, которые компания хочет автоматизировать, или областям, которые должен запомнить ИИ, и эффективное «возобновление» обучения модели.

Полезная близорукость: при тонкой настройке предварительно обученная модель используется в качестве основы для модифицированной версии, способной выполнять очень специфические задачи, включенные в пользовательский набор данных. Однако полученная модель, как правило, будет лучше справляться с этими пользовательскими задачами, чем с общими задачами, с которыми неизмененная базовая модель по-прежнему может хорошо справляться.

Ну, это не совсем «возобновление» или продолжение с того места, где остановилось многомиллионное обучение модели; для этого потребовались бы последние состояние обучения (очень объемный файл конфигурации, который редко включается в производственные выпуски) из самого последнего сеанса обучения, а также чтобы настройка обучения была идентична исходной конфигурации - и очень немногие корпорации могли бы воспроизвести такую дорогую и требовательную среду.

Вместо этого тонкая настройка начинается с широко обученной модели и корректирует ее весами Используя меньший набор данных, специфичный для предметной области. Этот второй этап обучения сужает поведение модели, чтобы она соответствовала целевой задаче, при этом по-прежнему опираясь на общее понимание языка, полученное в ходе обучения. предварительная подготовка. Таким образом, цель состоит в том, чтобы перенести модель с общего применения на специализированное, не начиная обучение с нуля.

Легкие мелодии

Полная тонкая настройка включает создание новой гибридной модели, ориентированной на конкретную задачу, которая весит по крайней мере столько же, сколько и исходная базовая модель, на которой она была обучена; однако более легкие методы, такие как адаптация низкого ранга (ЛоРА) может создавать легкие промежуточные файлы, которые действуют как «фильтры» для неизмененной базовой модели, позволяя ей выполнять специализированные задачи.

LoRA адаптирует предварительно обученную языковую модель, добавляя небольшие обучаемые компоненты, а не корректируя все её параметры. Эти низкоранговые матрицы встраиваются в слои модели, позволяя ей обучаться поведению, специфичному для конкретной задачи, сохраняя при этом большую часть исходных знаний, а также снижая затраты на вычисления и память.

Помимо текстовых и других областей обучения LLM, обучение в стиле LoRA очень популярно для создания индивидуальных шаблонов изображений для систем генерации изображений и видео. В примере ниже справа видно, как тонкая настройка LoRA с использованием личности конкретного человека делает (неизменённый) Хуньюань базовая модель, способная генерировать эту идентичность (видеокомпоненты в клипе, все синтезированные на основе знаний, полученных из статических изображений):

Нажмите, чтобы воспроизвести: Как и в случае с любым другим типом данных, которые можно подвергнуть тонкой настройке или LoRA, идентификационные данные в этом случае могут помочь модели Хуньюань воссоздать личность, которая изначально не была обучена в своем латентном пространстве.

Тонкая настройка — более глубокий и комплексный метод, но он требует гораздо больше времени и ресурсов. Поскольку она часто позволяет добиться более высоких результатов, чем LoRA, тонкая настройка в настоящее время находится в центре внимания, и интерес к ней резко растёт в различных отраслях, поскольку компании стремятся найти специалистов, способных преобразовать данные в эффективные корпоративные решения.

«Стоит попробовать!»

Поскольку современные LLM и VLM могут давать выдающиеся результаты из относительно недостаточно отобранных данных, в некоторых сообществах распространяется общее понимание того, что отбор данных может стать менее приоритетным или обязательным требованием в процессе обучения, поскольку рассматриваемая архитектура каким-то образом выявит наиболее важные взаимосвязи даже в «загрязненном» наборе данных.

Это, по большей части, пустые мечты; стоимость ручного управления гипермасштабными данными — один из самых заметных факторов, сдерживающих развитие искусственного интеллекта. Хотя данные большого объёма предоставляют достаточно данных для создания модели мираисследовательским группам часто приходится полагаться на существующие метаданные (которые часто низкого качества, отсутствующий или просто неправильно) для наведения порядка в хаосе; или же на алгоритмических методах фильтрации, которые либо основаны на несовершенных принципах, либо работают на неадекватно отобранных данных (!).

Поэтому возникает соблазн предположить, что подходы тонкой настройки могут каким-то образом рационализировать распределения данных и разумно обрабатывать выбросы, и что полученные в результате тонко настроенные модели могут снизить общую производительность (что не обязательно), но все равно будут превосходно справляться с целевой задачей — прагматичный компромисс.

Однако новое сотрудничество между Беркли и Invisible Technologies (под названием Сколько ваших данных могут быть бесполезны? Пороговые значения производительности предметной области и возникающие несоответствия в магистратуре по праву) обнаружил, что удивительно малые объемы неверных данных могут оказывать крайне негативное воздействие на производительность точно настроенных моделей; и что, поскольку авторы использовали GPT-4o для исследования, базовая нетонко настроенная модель GPT-4o на самом деле в большинстве случаев выполняла индивидуальные задачи лучше.

Авторы заявляют:

«Точная настройка больших языковых моделей на некорректных данных может привести к возникновению несоответствий и катастрофической потере производительности гораздо легче, чем могут себе представить многие специалисты.

«Наши результаты подчеркивают, что в большинстве реальных случаев меньшая тонкая настройка безопаснее, чем большая, если только нельзя гарантировать абсолютное качество данных.

«Наши эксперименты показывают, что порог допустимого шума в контролируемых данных тонкой настройки поразительно низок. Даже если всего 10% обучающих данных неверны, модели демонстрируют резкое снижение как технических характеристик, так и безопасности по сравнению с базовой моделью gpt-4o, которая стабильно показывала практически идеальные результаты во всех областях».

Они также утверждают, что с ростом доли неверных данных быстро растёт количество несоответствий и вредоносных результатов, особенно если ошибки незначительны. От 10% до 25% неверных данных достаточно, чтобы снизить надёжность, а модели, обученные на менее чем 50% правильных данных, становятся заметно нестабильными.

Авторы отмечают, что в регулируемых или критически важных для безопасности областях даже небольшие пробелы в качестве данных могут сделать тонкую настройку контрпродуктивной.

По их мнению, самым безопасным вариантом может быть полное отсутствие какой-либо тонкой настройки.

Способ доставки

Статья очень короткая, поскольку методология тестирования довольно краткая: исследователи приняли gpt-4o-2024 мая 08 г. в качестве базовой модели и доработали ее с помощью собственной платформы OpenAI, не применяя никаких дополнительных моделей вознаграждения или этапов обучения с подкреплением.

Этот подход означает, что все поведенческие изменения в выходных данных можно было приписать исключительно контролируемым данным тонкой настройки, без вмешательства со стороны выравнивание методы или слои постобработки.

Такая договоренность гарантировала, что на результаты может влиять только качество данных; что каждый прогон начинался с одной и той же базовой модели для обеспечения согласованности; и что обучение было максимально стабильным и эффективным за счет использования собственных систем OpenAI.

Данные и тесты

Чтобы проверить, как плохие данные могут повлиять на тонкую настройку, исследователи создали отдельные наборы примеров для каждой области: код; финансы; здоровьеи юридическиКаждый комплект состоял из трёх частей: правильные ответы; очевидно неправильные ответыи тонко неправильные ответы – все проверяется вручную экспертами, чтобы убедиться в надежности этикеток.

Затем авторы обучили модели на различных сочетаниях этих примеров, варьирующихся от 10% до 90% правильных ответов.

Каждый микс содержал ровно 6,000 учебных материалов и 1,000 Проверка предметы (однако, поскольку код В домене не было категории «тонкие», поэтому он содержал меньше комбинаций. Каждая смесь тестировалась три раза, чтобы учесть случайность в обучении.

Модель была обучена для одного эпоха используя АдамВ оптимизатор, с размер партии из четырех и косинуса график скорости обучениябез Разогрев Шаги. Тонкая настройка проводилась непосредственно на маркированных парах (подсказка/завершение) без усиление обучения, моделирование вознагражденийили дополнительные этапы выравнивания.

С момента проверки производительности сходились в течение одной эпохи не требовалось никаких дополнительных циклов обучения.

Каждая модель оценивалась по 100 вопросам, относящимся к конкретной области, которые были синтетически сгенерированы с использованием инструментов OpenAI на основе подсказок и данных, а судья LLM оценивал ответы на предмет правильности на основе предполагаемых ответов.

Рассогласование оценивалось отдельно с использованием общедоступных контрольных показателей рассогласования, принятых в 2025 году. статье Возникающее несоответствие: узкая тонкая настройка может привести к появлению широко рассогласованных LLMи OpenAI, где судьи LLM оценивали как частоту, так и серьезность вредоносных или ненадлежащих результатов.

Все оценки проводились на основе удерживаемых подсказок (т.е. невидимых во время обучения), с температура установлено на ноль, чтобы обеспечить детерминированные ответы.

Влияние правильных и неправильных данных тонкой настройки на точность задачи и согласованность модели

Эти первоначальные эксперименты проверяли, как различные смеси исправить, очевидно неверно и слегка неверный Тонкая настройка данных повлияет как на точность выполнения задачи, так и на согласованность в четырех областях код, финансы, здоровье и юридически.

Было обнаружено, что связь между качеством данных и поведением модели нелинейна: модели в основном оставались стабильными при уровне неверных данных до 25%; кроме того, моральное соответствие сохранялось до тех пор, пока уровень неверных данных не опускался ниже 90%:

Результаты первоначальных тестов: точность в домене резко возрастает с увеличением доли корректных обучающих данных, хотя прирост снижается после 50%. Модели, обученные на слегка некорректных данных (оранжевый), восстанавливаются быстрее, чем модели, обученные на явно некорректных данных (синий), но обе остаются менее надежными, чем базовая модель gpt-4o при 100% корректности. Падение производительности ниже 50% свидетельствует о резкой потере согласованности задач при преобладании низкокачественных примеров.

Однако производительность и согласованность начали восстанавливаться постепенно только после по крайней мере половина Данные для обучения были верны. Даже при 90%-ной корректности точно настроенные модели часто не могли сравниться по надежности и безопасности с исходной базовой моделью GPT-4O.

Когда обучение слишком сильно опиралось на неверные или слегка вводящие в заблуждение данные, полученные модели давали резкий рост количества вредоносных, непоследовательных или нецелевых завершений.

Для пакетов кодПроизводительность стабильно росла по мере добавления более точных данных, при этом выравнивание оставалось практически неизменным, независимо от качества данных. финансы, здоровье и юридически доменах точность резко возросла между 10% и 25% правильных данных, а затем стабилизировалась.

Модели, обученные на слегка неверный данные в целом показали себя лучше, чем те, на которых обучались очевидно, неправильно данных; но в финансах и юриспруденции этот едва заметный шум навредил согласованности больше. Медицина оставалась более устойчивой в обоих отношениях.

Моральное соответствие (способность модели избегать вредоносных или неэтичных результатов) сохранялось стабильным во всех областях, пока доля корректных данных не опускалась ниже 25%. В финансах, здравоохранении и юриспруденции едва заметные неточности в данных приводили к большему количеству некорректных ответов, чем к явным ошибкам, даже при сохранении высокой производительности. Соответствие улучшалось по мере повышения качества данных, в то время как модели кода демонстрировали практически идеальное соответствие независимо от корректности, что свидетельствует о необычайной устойчивости.

Сравнение с ненастроенным GPT-4o

Для оценки точности настроенных моделей авторы сравнили их с базовой контрольной точкой gpt-4o от 6 августа 2024 года, которая не проходила дополнительного обучения в конкретной области.

Базовая модель превзошла почти все усовершенствованные версии, включавшие в себя значительное количество неверных данных, не создав ни одного опасного завершения финансы, здоровье или юридически, и только один в код. Несоответствие результатов составило менее 1% во всех областях, в то время как точность выполнения задач варьировалась от 96% до 100%.

Авторы отмечают:

«Во всех областях увеличение доли правильных обучающих данных приводит к существенному сокращению несоответствующих и вредных результатов.

При низкой доле корректных данных модели, обученные на едва заметных некорректных данных, как правило, демонстрируют худшую эффективность согласования, чем модели, обученные на явно некорректных данных. Однако по мере увеличения доли корректных данных эффект «вымывания» снижает влияние обоих типов ошибок — причём быстрее для едва заметных ошибок.

«Как с точки зрения технических характеристик, так и с точки зрения морального соответствия, порог правильности в 50% знаменует собой явный поворотный момент: модели, обученные с использованием 50% и более правильных данных, демонстрируют существенно более надежное и безопасное поведение во всех оцениваемых областях».

Результаты исследования показывают, насколько хрупкой может быть тонкая настройка предложения: даже небольшое количество плохих обучающих данных (10–25 %) может вызвать заметный всплеск небезопасных или нерелевантных ответов, особенно если ошибки незначительны.

Эти небольшие ошибки сложнее обнаружить, но они наносят больший ущерб, и обученные на них модели могут казаться хорошими, пока внезапно не перестанут быть таковыми. Эффективность начинает восстанавливаться только после того, как обучающие данные становятся верными более чем наполовину; даже тогда большинство моделей всё ещё не дотягивают до базовой версии.

Эта базовая версия, в данном случае GPT-4o без дополнительной настройки, оказалась самой надежной в целом, оставаясь безопасной и точной финансы, здоровье и юридически заданий, где он практически не проявлял опасного поведения.

В приложении к статье приведена небольшая подборка многочисленных примеров, иллюстрирующих проблемные результаты выводов на разных уровнях неверных данных в сценариях тонкой настройки.

Заключение

Курирование наборов данных — изнурительный и дорогостоящий процесс, зачастую неконтролируемый. В какой-то степени компании и частные лица часто негласно считают, что проще и дешевле сглаживать недостатки модели, обученной на недостаточно проверенных данных, чем уделять данным должное внимание.

Центральная проблема определяется необходимостью масштабирования и непредсказуемостью выбросов данных; если бы не было необходимости очень большие объемы данных, чтобы охватить максимальное количество сценариев, можно было бы чаще использовать методы ручного курирования как сами по себе обучающие данные, что привело к созданию автоматизированных методов курирования, которые действительно работают.

В реальном мире, если бы можно было позволить себе столь масштабный и качественный человеческий контроль, это в любом случае было бы близко к ручному курированию гипермасштабных наборов данных. Нам придётся ждать новых, возможно, радикальных, открытий в этой конкретной «уловке-22».

Впервые опубликовано в четверг, 25 сентября 2025 г.

Мартин Андерсон

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai