Угол Андерсона

Персонализированные языковые модели легко создать, но сложнее обнаружить

опубликованный 19 июня 2025

Мартин Андерсон

Рука робота в смотровой комнате — Flux, Krita (СОЗДАН ИИ).

Клоны ChatGPT с открытым исходным кодом можно масштабировать и настраивать с ограниченным опытом или вообще без него, что позволяет создавать «приватные» языковые модели, которые не поддаются обнаружению. Большинство инструментов не могут отследить происхождение этих моделей или их предназначение, что позволяет студентам и другим пользователям генерировать текст с помощью ИИ, не будучи пойманными. Однако новый метод, как утверждается, позволяет выявлять эти скрытые варианты, выявляя общие «семейные черты» в результатах работы моделей.

Согласно исследованию Новое исследование Разработанные в Канаде настраиваемые пользователем модели чата на основе искусственного интеллекта, похожие на ChatGPT, способны создавать контент для социальных сетей, очень похожий на человеческий текст, и который может обмануть как современные алгоритмы обнаружения, так и людей.

В документе говорится:

«Злоумышленник с реалистичной мотивацией, вероятно, настроит модель под свой стиль и вариант использования, поскольку это недорого и просто. С минимальными усилиями, временем и деньгами мы создали точно настроенные генераторы, способные создавать гораздо более реалистичные твиты в социальных сетях, основанные как на лингвистических характеристиках, так и на точности обнаружения, и проверенные с помощью человеческих аннотаций».

Авторы подчеркивают, что пользовательские модели такого рода не ограничиваются кратким контентом в социальных сетях:

«Хотя нас мотивирует распространение контента ИИ в социальных сетях и связанные с этим риски астротурфинга и кампаний влияния, мы подчеркиваем, что основные выводы распространяются на все текстовые домены.

«Действительно, тонкая настройка моделей для генерации контента, специфичного для определенного стиля, является общеприменимым методом, который, вероятно, уже используется многими пользователями генеративного ИИ, что ставит под сомнение эффективность существующих методов обнаружения AIGT в реальном мире и в исследовательской лаборатории».

Как отмечается в статье, метод, используемый для создания этих индивидуальных языковых моделей, тонкая настройка, где пользователи собирают ограниченный объем собственных целевых данных и вводят их во все большее количество простых в использовании и недорогих инструментов онлайн-обучения.

Например, популярный репозиторий Hugging Face предложения Тонкая настройка большой языковой модели (LLM) через упрощенный интерфейс с использованием системы AutoTrain Advanced, которую можно запустить за несколько долларов через онлайн-графический процессор или бесплатно, локально, если у пользователя есть соответствующее оборудование:

Различные ценовые структуры для всего диапазона графических процессоров, доступных для системы Hugging Face AutoTrain. Источник: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Различные ценовые структуры для всего спектра графических процессоров, доступных для системы Hugging Face AutoTrain. Источник: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Другие упрощенные методы и платформы включают в себя аксолотль, Неленивый, и более способные, но требовательные TorchTune.

Примером использования может служить студент, который устал писать собственные эссе, но боится быть обнаруженным онлайн-инструментами обнаружения ИИ. Он может использовать свои собственные реальные исторические эссе в качестве обучающих данных для тонкой настройки действительно эффективной популярной модели с открытым исходным кодом, такой как Мистраль серии.

Хотя тонкая настройка модели имеет тенденцию к перекосу его производительность по отношению к дополнительным тренировочным данным и ухудшает общую производительность, «персонализированные» модели могут быть использованы для «де-ИИ» все более отличительных выходных данных таких систем, как ChatGPT, таким образом, чтобы отразить собственный исторический стиль пользователя (и, для большей достоверности, его недостатки).

Однако можно использовать исключительно тонко настроенную модель, специально обученную для узкой задачи или ряда задач, например, LLM, тонко настроенную на курсовую работу конкретного университетского модуля. Такая специфическая модель будет иметь близорукое, но гораздо более глубокое понимание этой области, чем универсальный LLM, такой как ChatGPT, и, вероятно, будет стоить менее 10-20 долларов на обучение.

Айсберг LLM

Трудно сказать, каков масштаб этой практики. По рассказам, в последнее время на различных платформах социальных сетей я натыкался на множество ориентированных на бизнес примеров тонкой настройки LLM — определенно гораздо больше, чем год назад; в одном случае компания настроила языковую модель на основе собственных опубликованных статей о лидерстве мысли, что затем позволило преобразовать обрывочный звонок Zoom с новым клиентом в отполированный пост B2B почти за один проход, по запросу.

Модель такого рода требует парные данные (примеры до и после, в масштабе), тогда как создание персонализированного «толкования» характеристик конкретного писателя — более простая задача, более похожая на передача стиля.

Хотя это тайное занятие (несмотря на многочисленные заголовки и академические исследования по теме), где цифры недоступны, тот же здравый смысл, который привел TAKE IT DOWN акт в закон в этом году применяется здесь: целевая деятельность возможна и доступна, и существует четкое понимание того, что потенциальные пользователи высоко мотивированы.

В самых «упрощенных» онлайн-системах тонкой настройки осталось достаточно много проблем, чтобы практика неискренне Обучение и использование точно настроенных моделей на данный момент остается относительно узкоспециализированным вариантом использования, хотя, безусловно, не выходит за рамки традиционной изобретательности студентов.

ФантомХантер

Это подводит нас к главному интересующему нас документу – новому подходу из Китая, который объединяет широкий спектр методов в единую структуру, называемую ФантомХантер – который претендует на то, чтобы идентифицировать выходные данные точно настроенных языковых моделей, которые в противном случае выдавались бы за оригинальную человеческую работу.

Система спроектирована так, чтобы функционировать даже в том случае, если конкретная настроенная модель никогда ранее не встречалась, полагаясь вместо этого на остаточные следы, оставленные исходной базовой моделью, которые авторы характеризуют как «семейные черты», сохраняющиеся в процессе настройки.

В тестах статья под названием PhantomHunter: обнаружение невидимого текста, сгенерированного в частном порядке LLM, с помощью семейного обучения – сообщает о высокой точности обнаружения, при этом система превосходит оценку GPT-4-mini с нулевым результатом^† при отслеживании текстового образца до его модельного семейства.

Это говорит о том, что чем больше тонкая настройка модели, тем больше она раскрывает о своем происхождении, опровергая предположение о том, что частная тонкая настройка всегда скрывает происхождение модели; вместо этого процесс настройки может оставить заметный отпечаток, который, если его правильно прочитать, выдаст игру — по крайней мере, до дальнейших достижений, которые теперь, похоже, появляются еженедельно.

В документе указано*:

'[Обнаружение машинно-генерируемого текста] обычно различает текст, сгенерированный LLM, и текст, написанный человеком, с помощью бинарной классификации. Существующие методы либо изучить общие текстовые особенности совместно используемое среди LLM с использованием обучения репрезентации или проектирования различимых метрик между человеческими и LLM текстами на основе внутренних сигналов LLM (например, вероятности токенов).

«Для обеих категорий тесты в основном проводились на данных из общедоступных LLM-программ, предполагая, что пользователи генерируют текст с помощью общедоступных готовых сервисов.

"Мы утверждаем, что эта ситуация меняется благодаря недавнему развитию сообщества LLM с открытым исходным кодом. С помощью таких платформ, как ОбниматьЛицо и эффективные методы обучения LLM, такие как низкоранговая адаптация (ЛоРА), создание точно настроенных LLM с настраиваемыми частными наборами данных стало намного проще, чем раньше.

«Например, было более 60 тыс. производных моделей на основе Llama на HuggingFace. После приватной тонкой настройки на неизвестном корпусе изученные характеристики базовых моделей могут измениться, и детекторы LLMGT [потерпят неудачу], что создаст новый риск того, что злоумышленники смогут генерировать вредоносные тексты в приватной обстановке, не будучи пойманными детекторами LLMGT.

«Возникает новая проблема: Как обнаружить текст, сгенерированный частным образом настроенными LLM с открытым исходным кодом?"

Метод и обучение

Система PhantomHunter использует с учетом интересов семьи Стратегия обучения, объединяющая три компонента: экстрактор функций, фиксируя выходные вероятности из известных базовых моделей; контрастный кодер обученный различать семьи; и (как подробно описано ниже) классификатор смешанного эксперта который присваивает метки семейства новым образцам текста:

Схема для системы. PhantomHunter обрабатывает текстовый образец, сначала извлекая вероятностные признаки из нескольких базовых моделей, которые затем кодируются с использованием CNN и слоев преобразователя. Он оценивает семейство моделей для вычисления весов стробирования, которые направляют модуль смеси экспертов в прогнозировании того, является ли текст сгенерированным LLM. Контрастная потеря применяется во время обучения для уточнения разделения между семействами моделей. Источник: https://arxiv.org/pdf/2506.15683

PhantomHunter работает, пропуская фрагмент текста через несколько известных базовых моделей и записывая, насколько вероятно, по мнению каждой из них, следующее слово, на каждом шагу. Затем эти шаблоны подаются в нейронную сеть, которая изучает отличительные характеристики каждого семейства моделей.

В процессе обучения система сравнивает тексты из одного семейства и учится группировать их вместе, различая тексты из разных семейств, что помогает выявлять скрытые связи между настроенными моделями и их базовыми моделями.

МЧС

Чтобы определить, был ли текст написан человеком или искусственным интеллектом, PhantomHunter использует смесь экспертов система, в которой каждый «эксперт» настроен на обнаружение текста из определенного модельного семейства.

Как только система догадывается, к какой семье, скорее всего, принадлежит текст, она использует это предположение, чтобы решить, какой вес придать мнению каждого эксперта. Затем эти взвешенные мнения объединяются, чтобы сделать окончательный выбор: ИИ или человек.

Обучение системы включает в себя несколько целей: обучение распознаванию модельных семейств; обучение отличию текста ИИ от человеческого текста; и обучение разделению различных семейств с помощью контрастного обучения — цели, которые уравновешиваются во время обучения с помощью настраиваемых параметров.

Сосредоточившись на закономерностях, общих для каждого семейства, а не на особенностях отдельных моделей, PhantomHunter теоретически должен быть в состоянии обнаруживать даже точно настроенные модели, которые он никогда раньше не видел.

Данные и тесты

Для разработки данных для тестов авторы сосредоточились на двух наиболее распространенных академических сценариях: письме и вопросно-ответном. Для письма они собрали 69,297 XNUMX рефератов из академического Arxiv архив, разделенных на основные домены. Для вопросов и ответов было отобрано 2,062 пары из Набор данных HC3 по трем предметам: ELI5; финансыи препарат:

Список источников данных и их количество в данных, отобранных для исследования.

Всего для теста было обучено двенадцать моделей. Три базовые модели были LLaMA-2 7B-Чат; Mistral 7B-Instruct-v0.1и Джемма 7B-it), из которых было создано девять доработанных вариантов, каждый из которых был адаптирован для имитации определенного домена или авторского стиля с использованием данных, специфичных для домена:

Статистика набора данных оценки, где «FT Domain» относится к домену, используемому во время тонкой настройки, а «base» указывает на отсутствие тонкой настройки.

Таким образом, в общей сложности три базовые модели были доработаны с использованием как полнопараметрических, так и ЛоРА методы в трех различных областях в каждом из двух сценариев использования: академическое написание абстрактных текстов и вопросно-ответныйЧтобы отразить реальные проблемы обнаружения, модели, настроенные на основе данных по информатике, не использовались в письменных тестах, а модели, настроенные на основе финансовых данных, не использовались в тестах на вопросы и ответы.

Были выбраны конкурирующие структуры РОБЕРТа; T5-Сентинел; SeqXGPT; ДНК-GPT; ОбнаружитьGPT; Fast-DetectGPTи Детектив.

PhantomHunter обучался с использованием двух типов слоев нейронной сети: трех сверточные слои с макс-пулинг для захвата локальных текстовых шаблонов и два трансформаторный слойс четырьмя головками внимания каждая для моделирования долгосрочных отношений.

Для пакетов контрастивное обучение, что побуждает систему различать разные семейства моделей, температура параметр был установлен на 0.07.

Цель обучения объединяла три термина потерь: L1 (для классификации семейств) и L2 (для бинарного обнаружения), каждый из которых имеет вес 1.0, и L3 (для контрастного обучения), имеющий вес 0.5.

Модель была оптимизирована с использованием Адам с скорость обучения 2e-5 и размер партии из 32. Обучение проходило в течение десяти полных эпохи, с наиболее эффективной контрольной точкой, выбранной с помощью набор проверки. Все эксперименты проводились на сервере с четырьмя графическими процессорами NVIDIA A100.

Использованные метрики были Подсчет очков в F1 для каждого тестового подмножества вместе с истинно положительный показатель, для сравнения с коммерческими детекторами.

F1 баллы за обнаружение текста из невидимых тонко настроенных языковых моделей. Два верхних результата в каждой категории выделены жирным шрифтом и подчеркнуты. «BFE» относится к извлечению базовых вероятностных признаков, «CL» — к контрастному обучению, а «MoE» — к модулю «смешение экспертов».

Результаты F1 для обнаружения текста на основе ранее неизвестных тонко настроенных языковых моделей. Два лучших результата в каждой категории выделены жирным шрифтом и подчёркнуты. «BFE» относится к извлечению базовых вероятностных признаков, «CL» — к контрастному обучению, а «MoE» — к модулю смешанного экспертного анализа.

Результаты первоначального теста, представленные в таблице выше, показывают, что PhantomHunter превзошел все базовые системы, сохранив баллы F1 выше девяноста процентов как для человеческого, так и для машинного текста, даже при оценке на выходных данных точно настроенных моделей, исключенных из обучения.

Авторы комментируют:

«Благодаря полной тонкой настройке PhantomHunter улучшает оценку MacF1 по сравнению с лучшим базовым уровнем на 3.65% и 2.96% для обоих наборов данных соответственно; а при тонкой настройке LoRA улучшения составляют 2.01% и 6.09% соответственно.

«Результат демонстрирует мощные возможности PhantomHunter по обнаружению текстов, сгенерированных невидимыми тонко настроенными LLM».

Исследования абляции проводились для оценки роли каждого основного компонента в PhantomHunter. При удалении отдельных элементов, таких как экстрактор признаков, контрастный кодер или классификатор на основе смеси экспертов, наблюдалось последовательное падение точности, что указывает на то, что архитектура опирается на координацию всех частей.

Авторы также изучили, может ли PhantomHunter обобщать данные за пределами своего тренировочного распределения, и установили, что даже при применении к выходным данным базовых моделей, полностью отсутствовавших во время обучения, он продолжал превосходить конкурирующие методы, что свидетельствует о том, что сигнатуры на уровне семейства остаются обнаруживаемыми в точно настроенных вариантах.

Заключение

Один аргумент в в пользу обучаемых пользователем генеративных языковых моделей заключается в том, что по крайней мере эти малоизвестные мелкие настройки и LoRA сохраняют индивидуальный колорит и эксцентричность автора в климате, где универсальная, вдохновленная SEO идиома чат-ботов ИИ грозит обобщить любой язык, где ИИ становится основным или доминирующим фактором.

Достаточно воспользоваться ИИ-ассистентом девальвация эссе колледжа, и со студентами сейчас Screencasting гигантские сеансы письма, чтобы доказать, что они не использовали ИИ в своих работах, все больше учителей за пределами Европы (где устные экзамены являются нормой) рассмотрение очных экзаменов как альтернатива представленным текстам. Совсем недавно, вернуться к рукописной работе было предложено.

Можно утверждать, что оба эти решения превосходят то, что грозит стать повторным запуском LLM гонка вооружений deepfake; хотя они достигаются ценой человеческих усилий и внимания, которые технологическая культура в настоящее время стремится автоматизировать.

^† Подробную информацию по этому вопросу см. в заключительном разделе после основных результатов в исходной статье.

* Я преобразовал встроенные цитаты авторов в гиперссылки. Выделение текста сделано авторами, а не мной.

Впервые опубликовано Четверг, 19 июня 2025 г.

Мартин Андерсон

Автор статей о машинном обучении, специалист по синтезу человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.
Личный сайт: Мартинандерсон.ай
Контактное лицо: [электронная почта защищена]
Твиттер: @manders_ai