Intelligence Artificielle

MARKLLM : une boîte à outils open source pour le filigrane LLM

Publié le 9 juillet, 2024

Kunal Kejriwal

MARKLLM : une boîte à outils open source pour le filigrane LLM

Le filigrane LLM, qui intègre des signaux imperceptibles mais détectables dans les sorties du modèle pour identifier le texte généré par les LLM, est essentiel pour empêcher l'utilisation abusive de grands modèles de langage. Ces techniques de tatouage sont principalement divisées en deux catégories : la Famille KGW et la Famille Christ. La famille KGW modifie les logits produits par le LLM pour créer une sortie filigranée en catégorisant le vocabulaire en une liste verte et une liste rouge basée sur le jeton précédent. Un biais est introduit dans les logits des jetons de la liste verte lors de la génération du texte, favorisant ces jetons dans le texte produit. Une métrique statistique est ensuite calculée à partir de la proportion de mots verts, et un seuil est établi pour distinguer le texte filigrané du texte non filigrané. Les améliorations apportées à la méthode KGW incluent un partitionnement de liste amélioré, une meilleure manipulation du logit, une capacité accrue d'informations sur les filigranes, une résistance aux attaques de suppression de filigrane et la capacité de détecter publiquement les filigranes.

À l'inverse, la famille Christ modifie le processus d'échantillonnage lors de la génération de texte LLM, en intégrant un filigrane en modifiant la façon dont les jetons sont sélectionnés. Les deux familles de filigranes visent à équilibrer la détectabilité des filigranes avec la qualité du texte, en relevant des défis tels que la robustesse dans différents paramètres d'entropie, l'augmentation de la capacité d'information des filigranes et la protection contre les tentatives de suppression. Des recherches récentes se sont concentrées sur l'affinement du partitionnement des listes et de la manipulation des logits), l'amélioration de la capacité d'information sur les filigranes, le développement de méthodes pour résister à la suppression des filigranes et la détection publique. En fin de compte, le filigrane LLM est crucial pour une utilisation éthique et responsable des grands modèles de langage, fournissant une méthode pour tracer et vérifier le texte généré par LLM. Les familles KGW et Christ proposent deux approches distinctes, chacune avec des atouts et des applications uniques, en constante évolution grâce à la recherche et à l'innovation continues.

En raison de la capacité des cadres de filigrane LLM à intégrer des signaux détectables par des algorithmes dans les sorties du modèle afin d'identifier le texte généré par un cadre LLM, il joue un rôle crucial dans l'atténuation des risques associés à l'utilisation abusive de grands modèles de langage. Cependant, il existe actuellement une abondance de cadres de filigrane LLM sur le marché, chacun avec ses propres perspectives et procédures d'évaluation, ce qui rend difficile pour les chercheurs d'expérimenter facilement ces cadres. Pour contrer ce problème, MarkLLM, une boîte à outils open source pour le filigrane, offre un cadre extensible et unifié pour implémenter les algorithmes de filigrane LLM tout en fournissant des interfaces conviviales pour garantir la facilité d'utilisation et d'accès. De plus, le framework MarkLLM prend en charge la visualisation automatique des mécanismes de ces frameworks, améliorant ainsi la compréhensibilité de ces modèles. Le framework MarkLLM propose une suite complète de 12 outils couvrant trois perspectives ainsi que deux pipelines d'évaluation automatisés pour évaluer ses performances. Cet article vise à couvrir le framework MarkLLM en profondeur et nous explorons le mécanisme, la méthodologie, l'architecture du framework ainsi que sa comparaison avec les frameworks de pointe. Alors, commençons.

MarkLLM : une boîte à outils de filigrane LLM

L'émergence de grands cadres de modèles de langage tels que LLaMA, GPT-4, ChatGPT et bien d'autres ont considérablement amélioré la capacité des modèles d'IA à effectuer des tâches spécifiques, notamment l'écriture créative, la compréhension de contenu, la récupération de formations et bien plus encore. Cependant, outre les avantages remarquables associés à la maîtrise exceptionnelle des grands modèles linguistiques actuels, certains risques sont apparus, notamment l'écriture fantôme d'articles universitaires, les fausses nouvelles et représentations générées par LLM et l'usurpation d'identité individuelle, pour n'en nommer que quelques-uns. Compte tenu des risques associés à ces problèmes, il est essentiel de développer des méthodes fiables capables de distinguer le contenu généré par le LLM du contenu humain, une exigence majeure pour garantir l'authenticité du contenu. communication digitale, et empêcher la propagation de fausses informations. Au cours des dernières années, le filigrane LLM a été recommandé comme l'une des solutions prometteuses pour distinguer le contenu généré par LLM du contenu humain, et en incorporant des fonctionnalités distinctes au cours du processus de génération de texte, les sorties LLM peuvent être identifiées de manière unique à l'aide de détecteurs spécialement conçus. Cependant, en raison de la prolifération et des algorithmes relativement complexes des cadres de filigrane LLM ainsi que de la diversification des mesures et des perspectives d'évaluation, il est extrêmement difficile d'expérimenter ces cadres.

Pour combler le fossé actuel, le cadre MarkLLM tente d'apporter les contributions suivantes. MARKLLM offre des interfaces cohérentes et conviviales pour charger des algorithmes, générer du texte filigrané, mener des processus de détection et collecter des données pour la visualisation. Il fournit des solutions de visualisation personnalisées pour les deux principales familles d'algorithmes de filigrane, permettant aux utilisateurs de voir comment différents algorithmes fonctionnent dans diverses configurations avec des exemples concrets. La boîte à outils comprend un module d'évaluation complet avec 12 outils traitant de la détectabilité, de la robustesse et de l'impact sur la qualité du texte. De plus, il propose deux types de pipelines d'évaluation automatisés prenant en charge la personnalisation par l'utilisateur des ensembles de données, des modèles, des mesures d'évaluation et des attaques, facilitant ainsi des évaluations flexibles et approfondies. Conçu avec une architecture modulaire et faiblement couplée, MARKLLM améliore l'évolutivité et la flexibilité. Ce choix de conception prend en charge l'intégration de nouveaux algorithmes, de techniques de visualisation innovantes et l'extension de la boîte à outils d'évaluation par les futurs développeurs.

De nombreux algorithmes de tatouage ont été proposés, mais leurs approches de mise en œuvre uniques donnent souvent la priorité aux exigences spécifiques plutôt qu'à la standardisation, ce qui entraîne plusieurs problèmes.

Manque de standardisation dans la conception des classes : Cela nécessite des efforts importants pour optimiser ou étendre les méthodes existantes en raison de conceptions de classes insuffisamment standardisées.
Manque d'uniformité dans les interfaces d'appel de niveau supérieur : Des interfaces incohérentes rendent le traitement par lots et la réplication de différents algorithmes fastidieux et fastidieux.
Problèmes de norme de code : Les défis incluent la nécessité de modifier les paramètres sur plusieurs segments de code et une documentation incohérente, ce qui complique la personnalisation et l'utilisation efficace. Les valeurs codées en dur et la gestion incohérente des erreurs entravent encore davantage les efforts d’adaptabilité et de débogage.

Pour résoudre ces problèmes, notre boîte à outils propose un cadre de mise en œuvre unifié qui permet d'invoquer facilement divers algorithmes de pointe dans des configurations flexibles. De plus, notre structure de classe méticuleusement conçue ouvre la voie à de futures extensions. La figure suivante illustre la conception de ce cadre de mise en œuvre unifié.

En raison de la conception distributive du framework, il est simple pour les développeurs d'ajouter des interfaces de niveau supérieur supplémentaires à n'importe quelle classe d'algorithme de filigrane spécifique sans se soucier de l'impact sur les autres algorithmes.

MarkLLM : Architecture et Méthodologie

Les techniques de tatouage LLM sont principalement divisées en deux catégories : la famille KGW et la famille Christ. La famille KGW modifie les logits produits par le LLM pour créer une sortie filigranée en catégorisant le vocabulaire en une liste verte et une liste rouge basée sur le jeton précédent. Un biais est introduit dans les logits des jetons de la liste verte lors de la génération du texte, favorisant ces jetons dans le texte produit. Une métrique statistique est ensuite calculée à partir de la proportion de mots verts, et un seuil est établi pour distinguer le texte filigrané du texte non filigrané. Les améliorations apportées à la méthode KGW incluent un partitionnement de liste amélioré, une meilleure manipulation du logit, une capacité accrue d'informations sur les filigranes, une résistance aux attaques de suppression de filigrane et la capacité de détecter publiquement les filigranes.

Évaluation complète automatisée

L'évaluation d'un algorithme de filigrane LLM est une tâche complexe. Premièrement, cela nécessite de prendre en compte divers aspects, notamment la détectabilité des filigranes, la robustesse contre la falsification et l’impact sur la qualité du texte. Deuxièmement, les évaluations de chaque point de vue peuvent nécessiter des mesures, des scénarios d'attaque et des tâches différents. De plus, mener une évaluation implique généralement plusieurs étapes, telles que la sélection d'un modèle et d'un ensemble de données, la génération de texte filigrané, le post-traitement, la détection du filigrane, la falsification du texte et le calcul des métriques. Pour faciliter une évaluation pratique et approfondie des algorithmes de filigrane LLM, MarkLLM propose douze outils conviviaux, notamment divers calculateurs de métriques et attaquants qui couvrent les trois perspectives d'évaluation susmentionnées. De plus, MARKLLM propose deux types de pipelines de démonstration automatisés, dont les modules peuvent être personnalisés et assemblés de manière flexible, permettant une configuration et une utilisation faciles..

Pour l’aspect de détectabilité, la plupart des algorithmes de filigrane nécessitent finalement de spécifier un seuil pour distinguer les textes filigranés des textes non filigranés. Nous fournissons un calculateur de taux de réussite de base utilisant un seuil fixe. De plus, pour minimiser l'impact de la sélection de seuil sur la détectabilité, nous proposons également un calculateur prenant en charge la sélection de seuil dynamique. Cet outil peut déterminer le seuil qui donne le meilleur score F1 ou sélectionner un seuil en fonction d'un taux de faux positifs (FPR) cible spécifié par l'utilisateur.

Pour l'aspect de robustesse, MARKLLM propose trois attaques de falsification de texte au niveau des mots : suppression aléatoire de mots selon un rapport spécifié, substitution aléatoire de synonymes utilisant WordNet comme ensemble de synonymes et substitution de synonymes contextuelle utilisant BERT comme modèle d'intégration. De plus, deux attaques de falsification de texte au niveau du document sont proposées : paraphraser le contexte via l'API OpenAI ou le modèle Dipper. Pour l'aspect qualité des textes, MARKLLM propose deux outils d'analyse directe : un calculateur de perplexité pour jauger la fluidité et un calculateur de diversité pour évaluer la variabilité des textes. Pour analyser l'impact du filigrane sur l'utilité du texte dans des tâches spécifiques en aval, nous fournissons un calculateur BLEU pour les tâches de traduction automatique et un juge de réussite ou non pour les tâches de génération de code. De plus, étant donné les méthodes actuelles de comparaison de la qualité du texte filigrané et non filigrané, qui incluent l'utilisation d'un LLM plus fort pour le jugement, MarkLLM propose également un discriminateur GPT, utilisant GPT-4 pour comparer la qualité du texte.

Pipelines d’évaluation

Pour faciliter l'évaluation automatisée des algorithmes de filigrane LLM, MARKLLM propose deux pipelines d'évaluation : un pour évaluer la détectabilité des filigranes avec et sans attaques, et un autre pour analyser l'impact de ces algorithmes sur la qualité du texte. Suite à ce processus, nous avons mis en place deux pipelines : WMDetect3 et UWMDetect4. La principale différence entre eux réside dans la phase de génération de texte. Le premier nécessite l'utilisation de la méthode generate_watermarked_text de l'algorithme de filigrane, tandis que le second dépend du paramètre text_source pour déterminer s'il faut récupérer directement le texte naturel d'un ensemble de données ou invoquer la méthode generate_unwatermarked_text.

Pour évaluer l'impact du filigrane sur la qualité du texte, des paires de textes filigranés et non filigranés sont générées. Les textes, ainsi que d'autres entrées nécessaires, sont ensuite traités et introduits dans un analyseur de qualité de texte désigné pour produire des résultats d'analyse et de comparaison détaillés. Suite à ce processus, nous avons mis en œuvre trois pipelines pour différents scénarios d'évaluation :

DirectQual.5 : Ce pipeline est spécifiquement conçu pour analyser la qualité des textes en comparant directement les caractéristiques des textes filigranés avec celles des textes non filigranés. Il évalue des métriques telles que la perplexité (PPL) et la diversité des journaux, sans avoir besoin de textes de référence externes.
RefQual.6 : ce pipeline évalue la qualité du texte en comparant les textes avec et sans filigrane avec un texte de référence commun. Il mesure le degré de similarité ou d'écart par rapport au texte de référence, ce qui le rend idéal pour les scénarios nécessitant des tâches spécifiques en aval pour évaluer la qualité du texte, telles que la traduction automatique et la génération de code.
ExDisQual.7 : ce pipeline utilise un juge externe, tel que GPT-4 (OpenAI, 2023), pour évaluer la qualité des textes filigranés et non filigranés. Le discriminateur évalue les textes sur la base des descriptions de tâches fournies par l'utilisateur, identifiant toute dégradation potentielle ou préservation de la qualité due au filigrane. Cette méthode est particulièrement utile lorsqu’une analyse avancée basée sur l’IA des effets subtils du filigrane est requise.

MarkLLM : expériences et résultats

Pour évaluer ses performances, le framework MarkLLM effectue des évaluations sur neuf algorithmes différents et évalue leur impact, leur robustesse et leur détectabilité sur la qualité du texte.

Le tableau ci-dessus contient les résultats de l'évaluation de la détectabilité de neuf algorithmes pris en charge dans MarkLLM. L'ajustement dynamique du seuil est utilisé pour évaluer la détectabilité du filigrane, avec trois paramètres fournis : sous un FPR cible de 10 %, sous un FPR cible de 1 % et dans des conditions permettant des performances optimales du score F1. 200 textes filigranés sont générés, tandis que 200 textes non filigranés servent d'exemples négatifs. Nous fournissons le score TPR et F1 sous ajustements de seuil dynamiques pour 10 % et 1 % de FPR, aux côtés de TPR, TNR, FPR, FNR, P, R, F1, ACC avec des performances optimales. Le tableau suivant contient les résultats de l'évaluation de la robustesse de neuf algorithmes pris en charge dans MarkLLM. Pour chaque attaque, 200 textes filigranés sont générés puis falsifiés, 200 textes supplémentaires non filigranés servant d'exemples négatifs. Nous rapportons le score TPR et F1 avec des performances optimales dans chaque circonstance.

Réflexions finales

Dans cet article, nous avons parlé de MarkLLM, une boîte à outils open source pour le filigrane qui offre un cadre extensible et unifié pour implémenter les algorithmes de filigrane LLM tout en fournissant des interfaces conviviales pour garantir une facilité d'utilisation et d'accès. De plus, le framework MarkLLM prend en charge la visualisation automatique des mécanismes de ces frameworks, améliorant ainsi la compréhensibilité de ces modèles. Le framework MarkLLM propose une suite complète de 12 outils couvrant trois perspectives ainsi que deux pipelines d'évaluation automatisés pour évaluer ses performances.

Kunal Kejriwal

« Ingénieur de profession, écrivain de cœur ». Kunal est un rédacteur technique avec un amour et une compréhension profonds de l'IA et du ML, dédié à la simplification de concepts complexes dans ces domaines grâce à sa documentation engageante et informative.