Connect with us

Les modèles de langage personnalisés sont faciles à créer – et plus difficiles à détecter

Angle d’Anderson

Les modèles de langage personnalisés sont faciles à créer – et plus difficiles à détecter

mm
A robot hand at large in an exam room - Flux, Krita (AI GENERATED).

Les clones open-source de ChatGPT peuvent être affinés à grande échelle et avec une expertise limitée ou nulle, facilitant ainsi les modèles de langage « privés » qui échappent à la détection. La plupart des outils ne peuvent pas retracer d’où viennent ces modèles ou à quoi ils ont été formés, permettant ainsi aux étudiants et aux autres utilisateurs de générer du texte AI sans se faire prendre ; mais une nouvelle méthode prétend qu’elle peut identifier ces variantes cachées en repérant des « traits de famille » partagés dans les sorties des modèles.

 

Selon une nouvelle étude du Canada, les modèles de chat AI personnalisés, similaires à ChatGPT, sont capables de produire du contenu de médias sociaux qui ressemble étroitement à l’écriture humaine, et qui peut tromper les algorithmes de détection et les humains.

Le document indique :

‘Un attaquant réaliste est susceptible d’affiner un modèle pour son style et son cas d’utilisation spécifiques, car cela est peu coûteux et facile à faire. Avec un minimum d’efforts, de temps et d’argent, nous avons produit des générateurs affinés capables de tweets de médias sociaux beaucoup plus réalistes, basés à la fois sur les caractéristiques linguistiques et la précision de détection, et vérifiés par des annotations humaines.’

Les auteurs soulignent que les modèles personnalisés de ce type ne sont pas limités au contenu de médias sociaux à court terme :

‘Bien que motivés par la propagation de contenu AI sur les médias sociaux, et les risques associés d’astroturfing et de campagnes d’influence, nous soulignons que les principales conclusions s’étendent à tous les domaines de texte.

‘En effet, l’affinement de modèles pour la génération de contenu spécifique à un style est une méthode généralement applicable, et l’une qui est susceptible d’être déjà utilisée par de nombreux utilisateurs d’AI générative – remettant en question si les méthodes existantes de détection d’AIGT sont aussi efficaces dans le monde réel que dans le laboratoire de recherche.’

Comme le constate le document, la méthode utilisée pour créer ces modèles de langage sur mesure est l’affinement, où les utilisateurs sélectionnent une quantité limitée de leurs propres données cibles et les alimentent dans un nombre croissant d’outils de formation en ligne faciles à utiliser et peu coûteux.

Par exemple, le répertoire populaire Hugging Face offre l’affinement du Modèle de Langage Large (LLM) via une interface simplifiée, en utilisant son système AutoTrain Advanced, qui peut être exécuté pour quelques dollars via une GPU en ligne ou gratuitement, localement, si l’utilisateur a un matériel adéquat :

Various price structures across the range of GPUs available for the Hugging Face AutoTrain system. Source: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Various price structures across the range of GPUs available for the Hugging Face AutoTrain system. Source: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

D’autres méthodes et plateformes simplifiées incluent Axolotl, Unsloth, et le plus capable mais exigeant TorchTune.

Un cas d’utilisation serait un étudiant qui est fatigué d’écrire ses propres essais, mais qui craint d’être pris en flagrant délit par les outils de détection en ligne, qui peut utiliser ses propres essais historiques réels comme données de formation pour affiner un modèle populaire open source très efficace tel que la série Mistral.

Bien que l’affinement d’un modèle tende à déformer ses performances vers les données de formation supplémentaires et à dégrader les performances globales, les modèles « personnalisés » peuvent être utilisés pour « dé-AI » la sortie de plus en plus distinctive de systèmes tels que ChatGPT, d’une manière qui reflète le style historique de l’utilisateur (et, pour une authenticité accrue, ses lacunes).

Cependant, on pourrait utiliser exclusivement un modèle affiné qui a été spécifiquement formé pour une tâche ou un ensemble de tâches étroites, tel qu’un LLM affiné sur les cours d’un module universitaire particulier. Un modèle aussi spécifique aurait une compréhension myope, mais beaucoup plus profonde de ce domaine que d’un LLM polyvalent comme ChatGPT, et coûterait probablement moins de 10 à 20 dollars pour la formation.

The LLM Iceberg

Il est difficile de dire quelle est l’ampleur de la pratique. Anecdotiquement, sur diverses plateformes de médias sociaux, j’ai récemment rencontré de nombreux exemples d’entreprise d’affinement de LLM – certainement beaucoup plus d’exemples qu’il y a un an ; dans un cas, une entreprise a affiné un modèle de langage sur ses propres pièces de réflexion publiées, qui a ensuite pu convertir un appel Zoom approximatif avec un nouveau client en un post B2B poli presque en une passe, sur demande.

Un modèle de ce type nécessite des données appariées (avant et après exemples, à grande échelle), alors que la création d’un « gloss » personnalisé des caractéristiques d’un écrivain particulier est une tâche plus facile, plus similaire à un transfert de style.

Bien que cela soit une poursuite clandestine (malgré de nombreux titres et études universitaires sur le sujet), où les chiffres ne sont pas disponibles, le même bon sens qui a amené la loi TAKE IT DOWN à être adoptée cette année s’applique ici : l’activité ciblée est possible et abordable, et il existe une forte compréhension de bon sens que les utilisateurs potentiels sont très motivés.

Il reste juste assez de friction dans les systèmes de formation en ligne les plus « dédouanés » pour que la pratique de disingenuously former et utiliser des modèles affinés reste un cas d’utilisation relativement de niche, pour le moment – bien que certainement pas au-delà de l’inventivité traditionnelle des étudiants.

PhantomHunter

Cela nous amène au document principal qui nous intéresse ici – une nouvelle approche de Chine qui rassemble une grande variété de techniques dans un seul cadre – appelé PhantomHunter – qui prétend identifier la sortie de modèles de langage affinés, qui passeraient autrement pour un travail humain original.

Le système est conçu pour fonctionner même lorsque le modèle affiné spécifique n’a jamais été rencontré auparavant, en s’appuyant plutôt sur les traces résiduelles laissées par le modèle de base initial – que les auteurs caractérisent comme des « traits de famille » qui survivent au processus d’affinement.

Dans les tests, le document – intitulé PhantomHunter : Détection de texte généré par des LLM privés affinés via l’apprentissage conscient de la famille – rapporte une forte précision de détection, avec le système surpassant l’évaluation zero-shot GPT-4-mini dans le traçage d’un échantillon de texte à sa famille de modèles.

Cela suggère que plus un modèle est affiné, plus il révèle sur son ascendance, contredisant l’hypothèse que l’affinement privé masque toujours l’origine d’un modèle ; au lieu de cela, le processus d’affinement peut laisser une empreinte détectable qui, si elle est lue correctement, donne le jeu – au moins, en attendant les progrès supplémentaires qui semblent arriver chaque semaine maintenant.

Le document indique* :

‘La détection de texte généré par machine [Machine Generated Text] distingue généralement le texte généré par LLM et le texte écrit par l’homme via une classification binaire. Les méthodes existantes apprennent soit des caractéristiques textuelles communes partagées entre les LLM en utilisant l’apprentissage de représentation, soit conçoivent des métriques distinguables entre les textes humains et LLM basés sur les signaux internes des LLM (par exemple, probabilités de jeton).

‘Pour les deux catégories, leurs tests ont été réalisés principalement sur des données provenant de LLM publics, en supposant que les utilisateurs génèrent du texte en utilisant des services publics, prêts à l’emploi.

Nous soutenons que cette situation est en train de changer en raison du développement récent de la communauté LLM open-source. Avec l’aide de plateformes comme HuggingFace et des techniques d’entraînement LLM efficaces comme l’adaptation de bas rang (LoRA), la construction de LLM affinés avec des ensembles de données privés personnalisés est devenue beaucoup plus facile qu’auparavant.

‘Par exemple, il y a eu plus de 60 000 modèles dérivés de Llama sur HuggingFace. Après un affinement privé sur un corpus inconnu, les caractéristiques apprises des modèles de base pourraient changer et les détecteurs LLMGT échoueraient, créant un nouveau risque que les utilisateurs malveillants puissent générer des textes nocifs en privé sans être pris par les détecteurs LLMGT.

‘Un nouveau défi surgit : Comment détecter le texte généré par des LLM ouverts affinés en privé ?

Méthode et formation

Le système PhantomHunter utilise une stratégie d’apprentissage conscient de la famille, combinant trois composants : un extracteur de caractéristiques, capturant les probabilités de sortie des modèles de base connus ; un encodeur contrastif formé pour distinguer entre les familles ; et (comme détaillé ci-dessous) un classificateur d’experts en mélange qui attribue des étiquettes de famille à de nouveaux échantillons de texte :

Schema for the system. PhantomHunter processes a text sample by first extracting probability features from multiple base models, which are then encoded using CNN and transformer layers. It estimates the model family to compute gating weights, which guide a mixture-of-experts module in predicting whether the text is LLM-generated. A contrastive loss is applied during training to refine the separation between model families. Source: https://arxiv.org/pdf/2506.15683

Schema for the system. PhantomHunter processes a text sample by first extracting probability features from multiple base models, which are then encoded using CNN and transformer layers. It estimates the model family to compute gating weights, which guide a mixture-of-experts module in predicting whether the text is LLM-generated. A contrastive loss is applied during training to refine the separation between model families. Source: https://arxiv.org/pdf/2506.15683

PhantomHunter fonctionne en passant un morceau de texte à travers plusieurs modèles de base connus et en enregistrant à quel point chaque modèle pense que le mot suivant est probable, à chaque étape. Ces modèles sont ensuite alimentés dans un réseau de neurones qui apprend les caractéristiques distinctives de chaque famille de modèles.

Lors de la formation, le système compare des textes de la même famille et apprend à les regrouper ensemble, tout en distinguant ceux provenant de familles différentes, aidant ainsi à identifier les connexions cachées entre les modèles affinés et leurs modèles de base.

MOE

Pour décider si un morceau de texte a été écrit par un humain ou par un IA, PhantomHunter utilise un système d’experts en mélange, où chaque « expert » est réglé pour détecter le texte d’une famille de modèles spécifique.

Une fois que le système devine de quelle famille le texte provient probablement, il utilise cette supposition pour décider à quel point il doit donner du poids à l’opinion de chaque expert. Ces opinions pondérées sont ensuite combinées pour prendre la décision finale : IA ou humain.

La formation du système implique plusieurs objectifs : apprendre à reconnaître les familles de modèles ; apprendre à distinguer le texte IA du texte humain ; et apprendre à séparer les différentes familles en utilisant l’apprentissage contrastif – des objectifs qui sont équilibrés lors de la formation via des paramètres ajustables.

En se concentrant sur les modèles partagés à travers chaque famille, plutôt que sur les particularités de modèles individuels, PhantomHunter devrait en théorie être capable de détecter même les modèles affinés qu’il n’a jamais vus auparavant.

Données et tests

Pour développer des données pour les tests, les auteurs se sont concentrés sur les deux scénarios académiques les plus courants : la rédaction et la réponse aux questions. Pour la rédaction, ils ont collecté 69 297 résumés de l’archive académique Arxiv, divisés en domaines principaux. Pour la réponse aux questions, 2 062 paires ont été curées à partir de l’ensemble de données HC3 sur trois sujets : ELI5 ; finance ; et médecine :

List of the data sources and numbers thereof, in data curated for the study.

List of the data sources and numbers thereof, in data curated for the study.

Au total, douze modèles ont été formés pour le test. Les trois modèles de base étaient LLaMA-2 7B-Chat ; Mistral 7B-Instruct-v0.1 ; et Gemma 7B-it), à partir desquels neuf variantes affinées ont été créées, chacune adaptée pour imiter un domaine ou un style d’auteur spécifique, en utilisant des données spécifiques au domaine :

Statistics of the evaluation dataset, where 'FT Domain' refers to the domain used during fine-tuning and 'base' indicates no fine-tuning.

Statistics of the evaluation dataset, where ‘FT Domain’ refers to the domain used during fine-tuning and ‘base’ indicates no fine-tuning.

Au total, donc, trois modèles de base ont été affinés à la fois avec des techniques de paramètres complets et LoRA à travers trois domaines distincts dans chacun des deux scénarios d’utilisation : rédaction d’abstracts universitaires et réponse aux questions. Pour refléter les défis de détection du monde réel, les modèles affinés sur des données de science informatique ont été retenus des tests d’écriture, tandis que ceux affinés sur des données de finance ont été retenus des évaluations de Q&A.

Les cadres rivaux sélectionnés étaient RoBERTa ; T5-Sentinel ; SeqXGPT ; DNA-GPT ; DetectGPT ; Fast-DetectGPT ; et DeTeCtive.

PhantomHunter a été formé en utilisant deux types de couches de réseau de neurones : trois couches convolutionnelles avec max-pooling pour capturer les modèles de texte locaux, et deux couches de transformateur avec quatre têtes d’attention chacune pour modéliser les relations à longue portée.

Pour l’apprentissage contrastif, qui encourage le système à distinguer entre les différentes familles de modèles, le paramètre de température a été réglé à 0,07.

L’objectif de formation combinait trois termes de perte : L1 (pour la classification de famille) et L2 (pour la détection binaire), chacun pesé à 1,0, et L3 (pour l’apprentissage contrastif), pesé à 0,5.

Le modèle a été optimisé en utilisant Adam avec un taux d’apprentissage de 2e-5 et une taille de lot de 32. La formation a eu lieu pendant dix époques complètes, avec le point de contrôle le plus performant sélectionné en utilisant un ensemble de validation. Toutes les expériences ont été menées sur un serveur avec quatre GPU NVIDIA A100.

Les métriques utilisées étaient F1 scoring pour chaque sous-ensemble de test, ainsi que true positive rate, pour la comparaison avec les détecteurs commerciaux.

F1 scores for detecting text from unseen fine-tuned language models. The top two results in each category are bolded and underlined. 'BFE' refers to base probability feature extraction, 'CL' to contrastive learning, and 'MoE' to the mixture-of-experts module.

F1 scores for detecting text from unseen fine-tuned language models. The top two results in each category are in bold/ underlined. ‘BFE’ refers to base probability feature extraction, ‘CL’ to contrastive learning, and ‘MoE’ to the mixture-of-experts module.

Les résultats du test initial, visualisés dans le tableau ci-dessus, montrent que PhantomHunter a surpassé tous les systèmes de référence, en maintenant des scores F1 supérieurs à 90 % pour les textes générés à la fois par l’homme et la machine, même lorsqu’ils sont évalués sur les sorties de modèles affinés exclus de la formation.

Les auteurs commentent :

‘Avec un affinement complet, PhantomHunter améliore le score MacF1 de 3,65 % et 2,96 % sur les deux ensembles de données, respectivement ; et avec l’affinement LoRA, les améliorations sont de 2,01 % et 6,09 % respectivement.

‘Le résultat démontre la puissante capacité de détection de PhantomHunter pour les textes générés par des LLM affinés inconnus.’

Des études d’ablation ont été menées pour évaluer le rôle de chaque composant principal dans PhantomHunter. Lorsque des éléments individuels ont été supprimés, tels que l’extracteur de caractéristiques, l’encodeur contrastif ou le classificateur d’experts en mélange, une baisse constante de précision a été observée, indiquant que l’architecture repose sur la coordination de toutes les parties.

Les auteurs ont également examiné si PhantomHunter pouvait généraliser au-delà de sa distribution de formation, et ont constaté qu’il continuait à surpasser les méthodes rivales même lorsqu’il était appliqué aux sorties de modèles de base entièrement absents pendant la formation, suggérant que les signatures de niveau de famille restent détectables à travers les variantes affinées.

Conclusion

Un argument en faveur des modèles de langage génératifs formés par l’utilisateur est qu’au moins ces affinements et LoRA peu visibles préservent la saveur et les excentricités individuelles d’un auteur, dans un climat où l’idiolecte générique, inspiré par le référencement, des chatbots IA menace de générifier n’importe quel langage où l’IA devient un contributeur majeur ou dominant.

Avec la dévaluation de l’essai universitaire, et avec les étudiants qui screencast désormais des sessions d’écriture massives pour prouver qu’ils n’ont pas utilisé l’IA pour leurs soumissions, plus d’enseignants en dehors de l’Europe (où les examens oraux sont normalisés) envisagent des examens en face à face comme alternative aux textes soumis. Plus récemment, un retour au travail manuscrit a été proposé.

On peut soutenir que ces deux solutions sont supérieures à ce qui menace d’être une course aux armements basée sur les LLM ; bien qu’elles se fassent au prix de l’effort humain et de l’attention, que la culture technologique tente actuellement d’automatiser.

 

Veuillez voir la section finale après les résultats principaux, dans le document source, pour plus de détails.

* Ma conversion des citations en ligne des auteurs en liens hypertexte. Texte souligné des auteurs, pas le mien.

Publié pour la première fois le jeudi 19 juin 2025

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.