Взгляд Anderson
Персонализированные языковые модели легко создать – и труднее обнаружить

Открытые клонированные версии ChatGPT можно донастроить в большом масштабе и с ограниченным или отсутствующим опытом, что облегчает создание «частных» языковых моделей, которые избегают обнаружения. Большинство инструментов не могут отслеживать, откуда эти модели берутся или для чего они были обучены, что позволяет студентам и другим пользователям генерировать тексты ИИ без обнаружения; но новый метод утверждает, что он может выявить эти скрытые варианты, обнаруживая общие «семейные черты» в выходных данных моделей.
Согласно новому исследованию из Канады, пользовательские модели ИИ-чата, аналогичные ChatGPT, способны производить контент в социальных сетях, который очень похож на человеческое письмо и может обмануть алгоритмы обнаружения и людей.
В статье говорится:
‘Реалистично мотивированный атакующий, скорее всего, донастроит модель для своего конкретного стиля и случая использования, поскольку это дешево и легко сделать. С минимальными усилиями, временем и деньгами мы произвели донастроенные генераторы, которые способны производить гораздо более реалистичные социальные медиа-твиты, основанные на лингвистических особенностях и точности обнаружения, и подтвержденные через аннотации человека.’
Авторы подчеркивают, что такие пользовательские модели не ограничиваются контентом социальных сетей:
‘Хотя мотивированы распространением контента ИИ в социальных сетях и связанными с этим рисками астротурфинга и кампаний влияния, мы подчеркиваем, что основные выводы распространяются на все текстовые области.
‘Действительно, донастройка моделей для генерации контента в стиле является общим методом, и он, скорее всего, уже используется многими пользователями генеративного ИИ – что вызывает вопрос о том, являются ли существующие методы обнаружения ИИ так же эффективными в реальном мире, как и в исследовательской лаборатории.’
Как отмечает статья, метод, используемый для создания этих индивидуальных языковых моделей, является донастройкой, при которой пользователи курируют ограниченное количество своей целевой данных и вводят их в растущее число простых в использовании и дешевых онлайн-инструментов обучения.
Например, популярный репозиторий Hugging Face предлагает донастройку Большой Языковой Модели (LLM) через упрощенный интерфейс, используя свою систему AutoTrain Advanced, которая может быть запущена за несколько долларов через онлайн-GPU или бесплатно, локально, если у пользователя есть достаточное оборудование:

Различные ценовые структуры в диапазоне доступных GPU для системы Hugging Face AutoTrain. Source: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true
Другие упрощенные методы и платформы включают Axolotl, Unsloth и более мощную, но требовательную TorchTune.
Пример использования будет студентом, который устал писать свои собственные эссе, но боится быть пойманным онлайн-инструментами обнаружения ИИ, который может использовать свои собственные реальные исторические эссе в качестве обучающих данных для донастройки очень эффективной популярной открытой модели, такой как серия Mistral.
Хотя донастройка модели склонна сместить ее производительность в сторону дополнительных обучающих данных и ухудшить общую производительность, «персонализированные» модели можно использовать для «де-АИ» все более отличительного выхода из систем, таких как ChatGPT, так, чтобы он отражал собственный исторический стиль пользователя (и, для повышения аутентичности, его недостатки).
Однако можно использовать исключительно донастроенную модель, которая была специально обучена для узкой задачи или набора задач, такой как LLM, донастроенная на курсовой работе конкретного университетского модуля. Модель такой специфики будет иметь узкий, но гораздо глубже понимание этой области, чем универсальная LLM, такая как ChatGPT, и, скорее всего, будет стоить менее 10-20 долларов для обучения.
Айсберг LLM
Трудно сказать, какой масштаб этой практики. Анекдотически, на различных социальных платформах, я недавно встретил много бизнес-ориентированных примеров донастройки LLM – определенно больше таких примеров, чем год назад; в одном случае компания донастроила языковую модель на своих опубликованных материалах, которая затем смогла преобразовать неуклюжий звонок Zoom с новым клиентом в отполированный пост B2B почти за один проход, на demande.
Модель такого рода требует парных данных (примеры до и после, в масштабе), тогда как создание персонализированного «глосса» характеристик конкретного писателя является более простой задачей, более похожей на перенос стиля.
Хотя это тайное занятие (несмотря на многочисленные заголовков и академических исследований на эту тему), где цифры не доступны, то же самое здравое рассуждение, которое привело к принятию закона TAKE IT DOWN в этом году, применимо и здесь: целевая деятельность возможна и доступна, и существует сильное понимание, что потенциальные пользователи высоко мотивированы.
Есть достаточно трения, оставшегося в самых «упрощенных» онлайн-системах донастройки, что практика неискреннего обучения и использования донастроенных моделей остается относительно нишевым случаем использования – хотя, конечно, не за пределами традиционной изобретательности студентов.
PhantomHunter
Это приводит нас к основной статье, представляющей интерес – новый подход из Китая, который объединяет широкий спектр методов в единую структуру – называемую PhantomHunter – которая утверждает, что может выявить выход донастроенных языковых моделей, который в противном случае будет принят за оригинальную человеческую работу.
Система разработана для работы даже тогда, когда конкретная донастроенная модель никогда не встречалась раньше, полагаясь вместо этого на остаточные следы, оставленные исходной базовой моделью – которую авторы характеризуют как «семейные черты», которые выживают в процессе донастройки.
В тестах статья – озаглавленная PhantomHunter: Обнаружение незаметно настроенных LLM-генерируемого текста через семейное обучение – сообщает о сильной точности обнаружения, с системой, превосходящей оценку GPT-4-mini zero-shot† в отслеживании образца текста до его модели семьи.
Это предполагает, что чем больше модель донастраивается, тем больше она раскрывает о своем происхождении, противореча предположению, что частная донастройка всегда маскирует происхождение модели; вместо этого процесс донастройки может оставить обнаруживаемый отпечаток, который, если его правильно прочитать, выдает игру – по крайней мере, пока не появятся дальнейшие достижения, которые, кажется, приходят каждую неделю теперь.
Статья гласит*:
‘Обнаружение генерируемого текста ИИ обычно различает LLM-генерируемый и человеческий текст через бинарную классификацию. Существующие методы либо учат общие текстовые особенности, общие для LLM, используя обучение представлений, либо проектируют различимые метрики между человеческим и LLM-текстами на основе внутренних сигналов LLM (например, вероятности токенов).
‘Для обеих категорий их тесты были в основном проведены на данных из публично доступных LLM, предполагая, что пользователи генерируют текст, используя публичные, готовые к использованию сервисы.
‘Мы утверждаем, что эта ситуация меняется из-за недавнего развития открытого сообщества LLM. С помощью платформ, таких как HuggingFace, и эффективных методов обучения LLM, таких как низкоранговая адаптация (LoRA), построение донастроенных LLM с настраиваемыми частными наборами данных стало намного проще, чем раньше.
‘Например, на HuggingFace было более 60 000 производных моделей Llama. После частной донастройки на неизвестном корпусе, изученные характеристики базовых моделей могли измениться, и детекторы LLMGT не смогут обнаружить их, формируя новый риск, что злонамеренные пользователи могут генерировать вредоносные тексты частным образом, не будучи пойманными детекторами LLMGT.
‘Новая задача возникает: Как обнаружить текст, сгенерированный частным настроенным открытым LLM?‘
Метод и обучение
Система PhantomHunter использует семейное обучение, объединяющее три компонента: экстрактор особенностей, захватывающий выходные вероятности из известных базовых моделей; контрастный кодировщик, обученный для различения между семьями; и (как подробно описано ниже) классификатор смеси экспертов, который присваивает метки семьи новым образцам текста:

Схема системы. PhantomHunter обрабатывает образец текста, извлекая сначала вероятностные особенности из нескольких базовых моделей, которые затем кодируются с помощью слоев CNN и трансформера. Он оценивает модель семьи, чтобы вычислить веса шлюза, которые направляют модуль смеси экспертов в предсказании того, является ли текст сгенерированным LLM. Контрастная потеря применяется во время обучения для уточнения разделения между модельными семьями. Source: https://arxiv.org/pdf/2506.15683
PhantomHunter работает, пропуская кусок текста через несколько известных базовых моделей и записывая, насколько вероятно, что каждая из них думает, что следующее слово является, на каждом шаге. Эти закономерности затем вводятся в нейронную сеть, которая учится различать характеристики каждой модели семьи.
Во время обучения система сравнивает тексты из одной семьи и учится группировать их вместе, различая их от тех, которые из разных семей, помогая выявить скрытые связи между донастроенными моделями и их базовыми моделями.
MOE
Чтобы решить, написан ли кусок текста человеком или ИИ, PhantomHunter использует модуль смеси экспертов, где каждый «эксперт» настроен на обнаружение текста из конкретной модели семьи.
Как только система угадывает, из какой семьи текст, скорее всего, происходит, она использует это предположение, чтобы решить, сколько веса дать каждому мнению эксперта. Эти взвешенные мнения затем объединяются, чтобы сделать окончательный вызов: ИИ или человек.
Обучение системы включает несколько целей: обучение для распознавания модельных семей; обучение для различения текста ИИ и человеческого текста; и обучение для разделения разных семей с помощью контрастного обучения – целей, которые балансируются во время обучения через настраиваемые параметры.
Фокусируясь на закономерностях, общих для каждой семьи, а не на причудах отдельных моделей, PhantomHunter, по теории, должен быть в состоянии обнаружить даже донастроенные модели, которые он никогда не видел раньше.
Данные и тесты
Чтобы разработать данные для тестов, авторы сосредоточились на двух наиболее распространенных академических сценариях: написании и ответах на вопросы. Для написания они собрали 69 297 абстрактов из академического архива Arxiv, разделенных на основные области. Для ответов на вопросы было собрано 2 062 пары из набора данных HC3 по трем предметам: ELI5; финансы; и медицина:

Список источников данных и их количества, в данных, собранных для исследования.
Всего было обучено двенадцать моделей для теста. Три базовые модели были LLaMA-2 7B-Chat; Mistral 7B-Instruct-v0.1; и Gemma 7B-it), из которых девять донастроенных вариантов были созданы, каждый из которых был адаптирован для имитации разных областей или авторского стиля, используя данные, специфичные для области:

Статистика оценочного набора данных, где ‘FT Domain’ относится к области, использованной во время донастройки, и ‘base’ указывает на отсутствие донастройки.
Всего, таким образом, три базовые модели были донастроены с помощью как полных параметров, так и LoRA-техник, в трех различных областях в каждом из двух сценариев использования: академическое абстрактное написание и ответы на вопросы. Чтобы отразить реальные проблемы обнаружения, модели, донастроенные на компьютерные науки, были исключены из тестов написания, в то время как модели, донастроенные на финансы, были исключены из оценок ответов на вопросы.
Соперничающие структуры были выбраны RoBERTa; T5-Sentinel; SeqXGPT; DNA-GPT; DetectGPT; Fast-DetectGPT; и DeTeCtive.
PhantomHunter был обучен, используя два типа слоев нейронной сети: три слоя свертки с максимальным пулингом, чтобы захватить местные закономерности текста, и два слоя трансформера с четырьмя головками внимания каждая, чтобы смоделировать более длинные отношения.
Для контрастного обучения, которое поощряет систему различать разные модельные семьи, параметр температуры был установлен на 0,07.
Цель обучения объединила три термина потерь: L1 (для классификации семьи) и L2 (для бинарного обнаружения), каждый из которых был взвешен на 1,0, и L3 (для контрастного обучения), взвешенный на 0,5.
Модель была оптимизирована, используя Adam с скоростью обучения 2e-5 и размером партии 32. Обучение проводилось в течение десяти полных эпох, с лучшей контрольной точкой, выбранной с помощью набора валидации. Все эксперименты проводились на сервере с четырьмя NVIDIA A100 GPU.
Метрики, используемые, были балансом F1 для каждого поднабора тестирования, вместе с истинной скоростью положительных результатов, для сравнения с коммерческими детекторами.

Баланс F1 для обнаружения текста из незнакомых донастроенных языковых моделей. Два лучших результата в каждой категории выделены полужирным шрифтом и подчеркнуты. ‘BFE’ относится к извлечению вероятностных особенностей базовой модели, ‘CL’ к контрастному обучению, и ‘MoE’ к модулю смеси экспертов.
Результаты первоначального теста, визуализированные в таблице выше, показывают, что PhantomHunter превосходит все базовые системы, сохраняя баланс F1 выше девяноста процентов как для человеческого, так и для машинного текста, даже при оценке на выходных данных из донастроенных моделей, исключенных из обучения.
Авторы комментируют:
‘С полной донастройкой PhantomHunter улучшает баланс F1 над лучшей базовой системой на 3,65% и 2,96% на обоих наборах данных соответственно; и с донастройкой LoRA улучшения составляют 2,01% и 6,09% соответственно.
‘Результат демонстрирует мощную способность обнаружения PhantomHunter для текстов, сгенерированных незнакомыми донастроенными LLM.’
Исследования удаления были проведены, чтобы оценить роль каждого основного компонента в PhantomHunter. Когда отдельные элементы были удалены, такие как извлекатель особенностей, контрастный кодировщик или классификатор смеси экспертов, наблюдался последовательный спад точности, указывающий на то, что архитектура зависит от координации всех частей.
Авторы также изучили, может ли PhantomHunter обобщить за пределами своей обучающей распределения и установили, что даже при применении к выходным данным из базовых моделей, полностью отсутствующих во время обучения, он продолжает превосходить соперничающие методы – что предполагает, что семейные сигнатуры остаются обнаруживаемыми через донастроенные варианты.
Вывод
Одним из аргументов в пользу пользовательских обученных генеративных языковых моделей является то, что, по крайней мере, эти скрытые донастройки и LoRA сохраняют индивидуальный вкус и причуды автора, в климате, где генерический, SEO-инспирированный идиом ИИ-чатботов угрожает генерализировать любой язык, где ИИ становится основным или доминирующим вкладчиком.
С девальвацией колледжского эссе и с тем, что студенты теперь сcreencasting огромные сессии написания, чтобы доказать, что они не использовали ИИ в своих работах, больше преподавателей вне Европы (где устные экзамены нормализированы) рассматривают лицом к лицу экзамены в качестве альтернативы представленным текстам. Более недавно, возвращение к рукописным работам было предложено.
Вероятно, оба этих решения лучше, чем то, что угрожает стать ИИ-основанным повторением гонки глубоких фейков; хотя они происходят за счет человеческих усилий и внимания, которые культура технологий в настоящее время стремится автоматизировать.
† Пожалуйста, см. конечный раздел после основных результатов в исходной статье для подробностей об этом.
* Мое преобразование внутренних цитат авторов в гиперссылки. Подчеркивания и акценты авторов, а не мои.
Опубликовано впервые в четверг, 19 июня 2025 года












