Andersons Blickwinkel

Personalisierte Sprachmodelle sind leicht zu erstellen – und schwerer zu erkennen

Published June 19, 2025

Updated April 26, 2026

Martin Anderson

A robot hand at large in an exam room - Flux, Krita (AI GENERATED).

Open-Source-Klone von ChatGPT können im großen Maßstab und mit begrenzter oder keiner Expertise fein abgestimmt werden, was die Erstellung von “privaten” Sprachmodellen ermöglicht, die der Erkennung entgehen. Die meisten Tools können nicht nachverfolgen, woher diese Modelle stammen oder wofür sie trainiert wurden, was es Studierenden und anderen Nutzern ermöglicht, AI-Texte zu generieren, ohne erwischt zu werden; jedoch behauptet eine neue Methode, dass sie diese versteckten Varianten identifizieren kann, indem sie gemeinsame “Familienmerkmale” in den Ausgaben der Modelle erkennt.

Laut einer neuen Studie aus Kanada sind benutzerdefinierte AI-Chat-Modelle, ähnlich wie ChatGPT, in der Lage, soziale Medieninhalte zu produzieren, die dem menschlichen Schreiben sehr ähnlich sind und die state-of-the-art-Erkennungsalgorithmen und Menschen täuschen können.

Das Papier besagt:

‘Ein realistisch motivierter Angreifer wird wahrscheinlich ein Modell für seinen spezifischen Stil und Einsatzfall fein abstimmen, da dies billig und leicht zu tun ist. Mit minimalem Aufwand, Zeit und Geld haben wir fein abgestimmte Generatoren produziert, die in der Lage sind, realistischere soziale Medien-Tweets zu produzieren, basierend auf linguistischen Merkmalen und Erkennungsgenauigkeit, und durch menschliche Annotationen verifiziert.’

Die Autoren betonen, dass benutzerdefinierte Modelle dieser Art nicht auf kurze soziale Medieninhalte beschränkt sind:

‘Obwohl durch die Verbreitung von AI-Inhalten in sozialen Medien und die damit verbundenen Risiken von Astroturfing und Einflusskampagnen motiviert, betonen wir, dass die wichtigsten Ergebnisse sich über alle Textbereiche erstrecken.

‘Tatsächlich ist die Feinabstimmung von Modellen für die Erzeugung von stil-spezifischen Inhalten eine allgemein anwendbare Methode, die wahrscheinlich bereits von vielen generativen AI-Nutzern verwendet wird – was die Frage aufwirft, ob bestehende Methoden zur Erkennung von AIGT so effektiv in der realen Welt sind wie im Forschungslabor.’

Wie das Papier feststellt, ist die Methode, die zur Erstellung dieser maßgeschneiderten Sprachmodelle verwendet wird, die Feinabstimmung, bei der Benutzer eine begrenzte Menge ihrer eigenen Ziel-Daten curieren und in eine zunehmende Anzahl von einfach zu bedienenden und preiswerten Online-Trainings-Tools einfügen.

Zum Beispiel bietet das beliebte Repository Hugging Face LLM-Feinabstimmung über eine vereinfachte Schnittstelle an, die mit seinem AutoTrain-Advanced-System verwendet werden kann, das für ein paar Dollar über eine Online-GPU oder kostenlos lokal ausgeführt werden kann, wenn der Benutzer über ausreichende Hardware verfügt:

Verschiedene Preisstrukturen über den Bereich der verfügbaren GPUs für das Hugging Face AutoTrain-System. Quelle: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Andere vereinfachte Methoden und Plattformen umfassen Axolotl, Unsloth und die leistungsfähigere, aber anspruchsvollere TorchTune.

Ein Beispiel-Anwendungsfall wäre ein Student, der müde ist, seine eigenen Essays zu schreiben, aber Angst hat, von Online-AI-Erkennungstools erwischt zu werden, der seine eigenen realen historischen Essays als Trainingsdaten verwenden kann, um ein sehr effektives, beliebtes Open-Source-Modell wie die Mistral-Serie fein abzustimmen.

Obwohl die Feinabstimmung eines Modells tendiert, seine Leistung in Richtung der zusätzlichen Trainingsdaten zu verschieben und die Gesamtleistung zu verschlechtern, können “personalisierte” Modelle verwendet werden, um die zunehmend charakteristische Ausgabe von Systemen wie ChatGPT zu “de-AI”, auf eine Weise, die den eigenen historischen Stil des Benutzers widerspiegelt (und, für erhöhte Authentizität, seine Mängel).

Allerdings könnte man ausschließlich ein fein abgestimmtes Modell verwenden, das speziell für eine enge Aufgabe oder einen bestimmten Aufgabenbereich trainiert wurde, wie z.B. ein LLM, das auf den Kursinhalten eines bestimmten Universitätsmoduls fein abgestimmt wurde. Ein Modell, das so spezifisch ist, hätte eine myopische, aber viel tiefere Einsicht in diesen Bereich als ein allgemeines LLM wie ChatGPT und würde wahrscheinlich weniger als 10-20 US-Dollar kosten, um es zu trainieren.

Der LLM-Eisberg

Es ist schwierig zu sagen, wie groß der Umfang dieser Praxis ist. Anekdotisch habe ich auf verschiedenen sozialen Medienplattformen in letzter Zeit viele geschäftliche Beispiele für LLM-Feinabstimmung gesehen – sicherlich viele mehr als ein Jahr ago; in einem Fall hat ein Unternehmen ein Sprachmodell auf seinen eigenen veröffentlichten Thought-Leadership-Artikeln fein abgestimmt, das dann in der Lage war, einen unvollkommenen Zoom-Anruf mit einem neuen Kunden in einen polierten B2B-Beitrag fast in einem Durchgang umzuwandeln.

Ein Modell dieser Art erfordert gepaarte Daten (Beispiele vor und nach, im großen Maßstab), während die Erstellung einer personalisierten “Gloss” der Merkmale eines bestimmten Schriftstellers eine einfachere Aufgabe ist, die eher der Stilübertragung ähnelt.

Obwohl dies ein heimlicher Vorstoß ist (trotz zahlreicher Schlagzeilen und akademischer Studien zu diesem Thema), wo Zahlen nicht verfügbar sind, gilt die gleiche gesunde Vernunft, die das TAKE IT DOWN-Gesetz in diesem Jahr in Kraft gesetzt hat, auch hier: die Zielaktivität ist möglich und erschwinglich, und es gibt ein starkes Verständnis, dass potenzielle Nutzer hoch motiviert sind.

Es gibt gerade noch genug Reibung in den meisten “verdummten” Online-Feinabstimmungssystemen, dass die Praxis der unredlichen Trainings- und Verwendung von fein abgestimmten Modellen noch ein relativischer Nischenanwendungsfall ist – zwar nicht außerhalb der traditionellen Erfindungsgabe von Studierenden.

PhantomHunter

Dies bringt uns zu dem Hauptpapier von Interesse hier – einem neuen Ansatz aus China, der eine Vielzahl von Techniken in einem einzigen Framework zusammenfasst – genannt PhantomHunter – das behauptet, die Ausgabe von fein abgestimmten Sprachmodellen zu identifizieren, die sonst als ursprüngliche menschliche Arbeit durchgehen würden.

Das System ist so konzipiert, dass es auch dann funktioniert, wenn das spezifische fein abgestimmte Modell noch nie zuvor gesehen wurde, und stattdessen auf residuale Spuren zurückgreift, die von dem ursprünglichen Basis-Modell hinterlassen wurden – die die Autoren als “Familienmerkmale” bezeichnen, die den Feinabstimmungsprozess überstehen.

In Tests berichtet das Papier – mit dem Titel PhantomHunter: Erkennung unsichtbarer privat abgestimmter LLM-erzeugter Texte über familienbewusstes Lernen – über eine starke Erkennungsgenauigkeit, wobei das System die Zero-Shot-GPT-4-Mini-Bewertung^† bei der Rückverfolgung einer Textprobe zu ihrer Modellfamilie übertrifft.

Dies deutet darauf hin, dass je mehr ein Modell fein abgestimmt wird, desto mehr gibt es über seine Abstammung preis, was der Annahme entgegenwirkt, dass private Feinabstimmung immer die Herkunft eines Modells maskiert; stattdessen kann der Abstimmungsprozess einen erkennbaren Fingerabdruck hinterlassen, der, wenn er richtig gelesen wird, das Spiel preisgibt – zumindest vorläufig, bis weitere Fortschritte, die scheinbar wöchentlich auftauchen.

Das Papier besagt*:

‘[Maschinell generierter Text]-Erkennung unterscheidet im Allgemeinen LLM-erzeugten und menschlich geschriebenen Text über binäre Klassifizierung. Bestehende Methoden lernen entweder gemeinsame textuelle Merkmale, die über LLMs hinweg geteilt werden, mithilfe von Repräsentationslernen oder entwerfen unterscheidbare Metriken zwischen menschlichem und LLM-Text auf der Grundlage von LLMs internen Signalen (z.B. Token-Wahrscheinlichkeiten).

‘Für beide Kategorien wurden ihre Tests hauptsächlich mit Daten von öffentlich verfügbaren LLMs durchgeführt, unter der Annahme, dass Benutzer Texte mit öffentlichen, standardmäßigen Diensten erzeugen.

‘Wir argumentieren, dass sich diese Situation aufgrund der jüngsten Entwicklung der Open-Source-LLM-Gemeinschaft ändert. Mit der Hilfe von Plattformen wie HuggingFace und effizienten LLM-Trainings-Techniken wie Low-Rank-Adaptation (LoRA) ist es viel einfacher geworden, fein abgestimmte LLMs mit privaten Daten zu erstellen.

‘Zum Beispiel gibt es über 60.000 Llama-basierte abgeleitete Modelle auf HuggingFace. Nach privater Feinabstimmung auf unbekannten Korpus könnten die gelernten Merkmale der Basis-Modelle geändert werden und die LLMGT-Erkennung würde [versagen], was ein neues Risiko darstellt, dass bösartige Benutzer schädliche Texte privat erzeugen können, ohne von LLMGT-Erkennern erwischt zu werden.

‘Eine neue Herausforderung entsteht: Wie kann man Text erkennen, der von privat abgestimmten offenen LLMs erzeugt wurde?‘

Methode und Training

Das PhantomHunter-System verwendet eine familienbewusste Lernstrategie, die drei Komponenten kombiniert: einen Merkmalsextraktor, der Ausgabe-Wahrscheinlichkeiten von bekannten Basis-Modellen erfasst; einen kontrastiven Encoder, der trainiert wird, um zwischen Familien zu unterscheiden; und (wie im Folgenden detailliert) einen Mischung-der-Experten-Klassifizierer, der Familien-Labels neuen Textproben zuweist:

Schema für das System. PhantomHunter verarbeitet eine Textprobe, indem es zunächst Wahrscheinlichkeitsmerkmale von mehreren Basis-Modellen extrahiert, die dann mithilfe von CNN- und Transformer-Schichten kodiert werden. Es schätzt die Modellfamilie, um Tor-Gewichte zu berechnen, die ein Mischung-der-Experten-Modul leiten, um vorherzusagen, ob der Text LLM-erzeugt ist. Ein kontrastiver Verlust wird während des Trainings angewendet, um die Trennung zwischen Modellfamilien zu verfeinern. Quelle: https://arxiv.org/pdf/2506.15683

PhantomHunter funktioniert, indem es einen Text durch mehrere bekannte Basis-Modelle leitet und aufzeichnet, wie wahrscheinlich jedes davon denkt, dass das nächste Wort ist, bei jedem Schritt. Diese Muster werden dann in ein neuronales Netzwerk eingespeist, das die unterscheidbaren Merkmale jeder Modellfamilie lernt.

Während des Trainings vergleicht das System Texte aus der gleichen Familie und lernt, sie zusammen zu gruppieren, während es zwischen denen aus verschiedenen Familien unterscheidet, was hilft, verborgene Verbindungen zwischen fein abgestimmten Modellen und ihren Basis-Modellen zu identifizieren.

MOE

Um zu entscheiden, ob ein Text von einem Menschen oder von AI geschrieben wurde, verwendet PhantomHunter ein Mischung-der-Experten-System, bei dem jeder “Experte” so trainiert wird, dass er Texte von einer bestimmten Modellfamilie erkennt.

Sobald das System errät, aus welcher Familie der Text wahrscheinlich stammt, verwendet es diese Vermutung, um zu entscheiden, wie viel Gewicht es jeder Meinung des Experten gibt. Diese gewichteten Meinungen werden dann kombiniert, um die endgültige Entscheidung zu treffen: AI oder Mensch.

Das Training des Systems umfasst mehrere Ziele: das Lernen, Modellfamilien zu erkennen; das Lernen, AI-Text von menschlichem Text zu unterscheiden; und das Lernen, verschiedene Familien mithilfe von kontrastivem Lernen zu trennen – Ziele, die während des Trainings durch einstellbare Parameter ausbalanciert werden.

Indem es sich auf Muster konzentriert, die über jede Familie hinweg geteilt werden, anstatt auf Eigenheiten einzelner Modelle, sollte PhantomHunter theoretisch in der Lage sein, sogar fein abgestimmte Modelle zu erkennen, die es noch nie zuvor gesehen hat.

Daten und Tests

Um Daten für Tests zu entwickeln, konzentrierten sich die Autoren auf die beiden häufigsten akademischen Szenarien: Schreiben und Fragebeantwortung. Für das Schreiben sammelten sie 69.297 Abstracts aus dem Arxiv-Archiv, unterteilt in primäre Bereiche. Für die Fragebeantwortung wurden 2.062 Paare aus dem HC3-Datensatz über drei Themen curiert: ELI5; Finanzen; und Medizin:

Liste der Datenquellen und ihrer Anzahl, in den für die Studie curierten Daten.

Insgesamt wurden zwölf Modelle für den Test trainiert. Die drei Basis-Modelle waren LLaMA-2 7B-Chat; Mistral 7B-Instruct-v0.1; und Gemma 7B-it), von denen neun fein abgestimmte Varianten abgeleitet wurden, jede davon auf eine bestimmte Domäne oder Schreibstil zugeschnitten, mithilfe von domänen-spezifischen Daten:

Statistiken des Evaluierungs-Datensatzes, wobei ‘FT-Domäne’ die Domäne bezeichnet, die während der Feinabstimmung verwendet wurde, und ‘Basis’ bedeutet, dass keine Feinabstimmung durchgeführt wurde.

Insgesamt wurden also drei Basis-Modelle mithilfe von Vollparameter- und LoRA-Techniken über drei verschiedene Domänen in jedem von zwei Nutzungsszenarien fein abgestimmt: akademisches Abstract-Schreiben und Fragebeantwortung. Um reale Erkennungsherausforderungen widerzuspiegeln, wurden Modelle, die auf Computer-Science-Daten fein abgestimmt wurden, von den Schreibtests ausgeschlossen, während diejenigen, die auf Finanz-Daten fein abgestimmt wurden, von den Q&A-Bewertungen ausgeschlossen wurden.

Rivalisierende Frameworks, die ausgewählt wurden, waren RoBERTa; T5-Sentinel; SeqXGPT; DNA-GPT; DetectGPT; Fast-DetectGPT; und DeTeCtive.

PhantomHunter wurde mithilfe von zwei Arten von neuronalen Netzwerkschichten trainiert: drei konvolutiven Schichten mit Max-Pooling, um lokale Textmuster zu erfassen, und zwei Transformer-Schichten mit vier Aufmerksamkeitsköpfen, um längere Beziehungen zu modellieren.

Für kontrastives Lernen, das das System dazu anregt, zwischen verschiedenen Modellfamilien zu unterscheiden, wurde der Temperaturparameter auf 0,07 gesetzt.

Das Trainingsziel kombinierte drei Verlustterme: L1 (für Familien-Klassifizierung) und L2 (für binäre Erkennung), jeweils mit einem Gewicht von 1,0, und L3 (für kontrastives Lernen), mit einem Gewicht von 0,5.

Das Modell wurde mithilfe von Adam mit einer Lernrate von 2e-5 und einer Batch-Größe von 32 optimiert. Das Training fand über zehn vollständige Epochen statt, wobei der beste Checkpoint mithilfe eines Validierungs-Datensatzes ausgewählt wurde. Alle Experimente wurden auf einem Server mit vier NVIDIA A100-GPUs durchgeführt.

Die verwendeten Metriken waren F1-Punktzahl für jeden Test-Untersatz, zusammen mit wahrer Positiv-Rate, für den Vergleich mit kommerziellen Erkennern.

F1-Punktzahlen für die Erkennung von Texten, die von unsichtbaren fein abgestimmten Sprachmodellen erzeugt wurden. Die beiden besten Ergebnisse in jeder Kategorie sind fett und unterstrichen. ‘BFE’ bezieht sich auf die Extraktion von Basis-Wahrscheinlichkeitsmerkmalen, ‘CL’ auf kontrastives Lernen und ‘MoE’ auf das Mischung-der-Experten-Modul.

Die Ergebnisse des initialen Tests, die in der obigen Tabelle visualisiert sind, zeigen, dass PhantomHunter alle Basissysteme übertrifft, wobei die F1-Punktzahl über 90 Prozent für sowohl menschlich generierten als auch maschinell generierten Text bleibt, sogar wenn sie auf Ausgaben von fein abgestimmten Modellen ausgewertet werden, die während des Trainings ausgeschlossen waren.

Die Autoren kommentieren:

‘Mit voller Feinabstimmung verbessert PhantomHunter die MacF1-Punktzahl um 3,65 % und 2,96 % auf beiden Datensätzen im Vergleich zum besten Basissystem; und mit LoRA-Feinabstimmung sind die Verbesserungen 2,01 % und 6,09 % respectively.

‘Das Ergebnis zeigt PhantomHunters starke Erkennungsfähigkeit für Texte, die von unsichtbaren fein abgestimmten LLMs erzeugt werden.’

Ablationsstudien wurden durchgeführt, um die Rolle jeder Kernkomponente in PhantomHunter zu bewerten. Wenn einzelne Elemente entfernt wurden, wie der Merkmalsextraktor, der kontrastive Encoder oder der Mischung-der-Experten-Klassifizierer, wurde ein konsistenter Rückgang der Genauigkeit beobachtet, was darauf hindeutet, dass die Architektur von der Koordination aller Teile abhängt.

Die Autoren haben auch untersucht, ob PhantomHunter über seine Trainingsverteilung hinaus verallgemeinert werden kann, und haben festgestellt, dass es sogar bei der Anwendung auf Ausgaben von Basis-Modellen, die während des Trainings nicht vorhanden waren, weiterhin die rivalisierenden Methoden übertrifft – was darauf hindeutet, dass familienweite Signaturen auch über fein abgestimmte Varianten hinweg erkennbar bleiben.

Schlussfolgerung

Ein Argument für benutzertrainierte generative Sprachmodelle ist, dass diese zumindest die individuelle Note und die Eigenheiten eines Autors bewahren, in einer Atmosphäre, in der die generische, SEO-inspirierte Sprache von AI-Chatbots die Sprache zu generisieren droht, wo AI zu einem großen oder dominanten Beitrag wird.

Mit der Entwertung des College-Essays und mit Studierenden, die jetzt Screencasts von riesigen Schreibsitzungen erstellen, um zu beweisen, dass sie keine AI für ihre Einreichungen verwendet haben, überlegen mehr Lehrer außerhalb Europas (wo mündliche Prüfungen normal sind) mündliche Prüfungen als Alternative zu eingereichten Texten. Vor kurzem wurde auch eine Rückkehr zu handgeschriebenen Arbeiten vorgeschlagen.

Beide Lösungen sind wahrscheinlich besser als das, was zu einem LLM-basierten Wiederholungsspiel des Deepfake-Wettlaufs führen könnte; obwohl sie auf Kosten von menschlichem Aufwand und Aufmerksamkeit kommen, die die Technologie-Kultur derzeit zu automatisieren versucht.

^† Siehe bitte den Endabschnitt nach den Hauptergebnissen im Quellenpapier für Details dazu.

* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks. Autoren-Betonung, nicht meine.

Erstveröffentlicht am Donnerstag, 19. Juni 2025