L'angolo di Anderson

I modelli linguistici personalizzati sono facili da realizzare, ma più difficili da rilevare

Pubblicato il 19 Giugno 2025

Martin Anderson

Una mano robotica libera in una sala d'esame - Flux, Krita (GENERATA DA IA).

I cloni open source di ChatGPT possono essere perfezionati su larga scala e con competenze limitate o nulle, facilitando la creazione di modelli linguistici "privati" che sfuggono al rilevamento. La maggior parte degli strumenti non è in grado di risalire alla provenienza di questi modelli o a cosa siano stati addestrati a fare, consentendo a studenti e altri utenti di generare testo di intelligenza artificiale senza essere scoperti; ma un nuovo metodo afferma di poter identificare queste varianti nascoste individuando "tratti familiari" condivisi negli output dei modelli.

Secondo un nuovo studio Dal Canada, i modelli di chat basati sull'intelligenza artificiale personalizzati dall'utente, simili a ChatGPT, sono in grado di produrre contenuti per i social media che assomigliano molto alla scrittura umana e che possono ingannare sia gli algoritmi di rilevamento più avanzati sia gli esseri umani.

Il documento afferma:

"Un aggressore motivato realisticamente è propenso a perfezionare un modello in base al proprio stile e caso d'uso specifici, poiché è economico e facile da fare. Con il minimo sforzo, tempo e denaro, abbiamo prodotto generatori ottimizzati in grado di generare tweet sui social media molto più realistici, basati sia sulle caratteristiche linguistiche che sulla precisione di rilevamento, e verificati tramite annotazioni umane."

Gli autori sottolineano che i modelli personalizzati di questo tipo non si limitano ai contenuti brevi dei social media:

"Sebbene motivati dalla diffusione di contenuti di intelligenza artificiale sui social media e dai rischi associati all'astroturfing e alle campagne di influenza, sottolineiamo che i risultati principali si estendono a tutti i domini di testo.

'In effetti, la messa a punto di modelli per la generazione di contenuti specifici per stile è un metodo generalmente applicabile e probabilmente già utilizzato da molti utenti di intelligenza artificiale generativa, il che mette in discussione se i metodi esistenti per rilevare l'AIGT siano efficaci nel mondo reale quanto nei laboratori di ricerca.'

Come osserva il documento, il metodo utilizzato per creare questi modelli linguistici su misura è ritocchi, in cui gli utenti selezionano una quantità limitata dei propri dati target e li inseriscono in un numero crescente di strumenti di formazione online facili da usare ed economici.

Ad esempio, il popolare repository Hugging Face offre Ottimizzazione del Large Language Model (LLM) tramite un'interfaccia semplificata, utilizzando il suo sistema AutoTrain Advanced, che può essere eseguito per pochi dollari tramite una GPU online o gratuitamente, localmente, se l'utente dispone di hardware adeguato:

Diverse strutture di prezzo per la gamma di GPU disponibili per il sistema Hugging Face AutoTrain. Fonte: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Altri metodi e piattaforme semplificati includono Axolotl, Pigrizia, e quelli più capaci ma esigenti TorchTune.

Un esempio di caso d'uso potrebbe essere uno studente stanco di scrivere i propri saggi, ma che teme di essere scoperto dagli strumenti di rilevamento dell'intelligenza artificiale online, che può utilizzare i propri veri saggi storici come dati di formazione per perfezionare un modello open source popolare davvero efficace come il Mistral serie.

Sebbene la messa a punto di un modello tende ad inclinarsi le sue prestazioni rispetto ai dati di addestramento aggiuntivi e degradano le prestazioni complessive, i modelli "personalizzati" possono essere utilizzati per "de-AI" l'output sempre più distintivo di sistemi come ChatGPT, in un modo che rifletta lo stile storico dell'utente (e, per una maggiore autenticità, i suoi difetti).

Tuttavia, si potrebbe utilizzare esclusivamente un modello perfezionato, specificamente addestrato per un compito specifico o una gamma di compiti, come un LLM perfezionato sui corsi di un particolare modulo universitario. Un modello così specifico avrebbe una visione miope, ma molto più approfondita di quel dominio rispetto a un LLM multiuso come ChatGPT, e costerebbe probabilmente meno di 10-20 dollari per l'addestramento.

L'iceberg dell'LLM

È difficile stabilire l'entità di questa pratica. A livello aneddotico, su diverse piattaforme di social media, mi sono imbattuto ultimamente in numerosi esempi di perfezionamento di LLM in ambito aziendale – certamente molti di più rispetto a un anno fa; in un caso, un'azienda ha perfezionato un modello linguistico per i propri articoli di thought leadership pubblicati, trasformando così una chiamata Zoom approssimativa con un nuovo cliente in un post B2B rifinito quasi in un colpo solo, on-demand.

Un modello di tale natura richiede dati accoppiati (esempi prima e dopo, su larga scala), mentre creare una "glossa" personalizzata delle caratteristiche di uno scrittore particolare è un compito più semplice, più simile a trasferimento di stile.

Sebbene si tratti di un'attività clandestina (nonostante le numerose titoli studi accademici sull'argomento), dove i dati non sono disponibili, lo stesso buon senso che ha portato il L'atto TAKE IT DOWN diventa legge quest'anno si applica qui: l'attività target è possibile e conveniente, ed è ampiamente riconosciuto che i potenziali utenti sono altamente motivati.

C'è ancora abbastanza attrito nei sistemi di messa a punto online più "semplificati" che la pratica di in malafede Per il momento, la formazione e l'utilizzo di modelli perfezionati restano casi d'uso relativamente di nicchia, anche se certamente non vanno oltre la tradizionale inventiva degli studenti.

Cacciatore di fantasmi

Ciò ci porta al documento principale di interesse qui: un nuovo approccio dalla Cina che riunisce un'ampia varietà di tecniche in un unico quadro, chiamato Cacciatore di fantasmi – che pretende di identificare l'output di modelli linguistici perfezionati, che altrimenti verrebbero spacciati per lavoro umano originale.

Il sistema è progettato per funzionare anche quando il modello specifico messo a punto non è mai stato incontrato prima, basandosi invece sulle tracce residue lasciate dal modello di base originale, che gli autori definiscono "tratti familiari" che sopravvivono al processo di messa a punto.

Nei test, il documento – intitolato PhantomHunter: Rilevamento di testi LLM generati in modo privato e non visibile tramite apprendimento consapevole della famiglia – segnala un'elevata accuratezza di rilevamento, con il sistema che supera la valutazione zero-shot GPT-4-mini^† nel ricondurre un campione di testo alla sua famiglia modello.

Ciò suggerisce che più un modello viene messo a punto, più rivela informazioni sulla sua ascendenza, contraddicendo l'ipotesi secondo cui la messa a punto privata maschera sempre l'origine di un modello; al contrario, il processo di messa a punto potrebbe lasciare un'impronta digitale rilevabile che, se letta correttamente, svela il gioco, almeno in attesa degli ulteriori progressi che ormai sembrano arrivare settimanalmente.

Il documento afferma*:

Il rilevamento del testo generato automaticamente distingue generalmente il testo generato da LLM da quello scritto da esseri umani tramite classificazione binaria. I metodi esistenti apprendere le caratteristiche testuali comuni condiviso tra gli LLM utilizzando l'apprendimento della rappresentazione o progettando metriche distinguibili tra testi umani e LLM basate sui segnali interni degli LLM (ad esempio, probabilità di token).

Per entrambe le categorie, i test sono stati condotti principalmente su dati provenienti da LLM disponibili al pubblico, partendo dal presupposto che gli utenti generino testo utilizzando servizi pubblici già pronti all'uso.

'Sosteniamo che questa situazione stia cambiando grazie al recente sviluppo della comunità LLM open source. Con l'aiuto di piattaforme come abbracciare il viso e le tecniche di formazione LLM efficienti come l'adattamento di basso rango (LORA), creare LLM ottimizzati con set di dati privati personalizzati è diventato molto più semplice di prima.

"Ad esempio, ci sono stati più di 60k modelli derivati basati su lama Su HuggingFace. Dopo una messa a punto privata su un corpus sconosciuto, le caratteristiche apprese dei modelli base potrebbero cambiare e i rilevatori LLMGT [fallirebbero], creando un nuovo rischio: utenti malintenzionati potrebbero generare testi dannosi privatamente senza essere rilevati dai rilevatori LLMGT.

'Si presenta una nuova sfida: Come rilevare il testo generato da LLM open source sintonizzati privatamente?'

Metodo e formazione

Il sistema PhantomHunter utilizza un attento alla famiglia strategia di apprendimento, che combina tre componenti: a estrattore di funzionalità, catturando le probabilità di output da modelli di base noti; a codificatore contrastivo addestrati a distinguere tra le famiglie; e (come dettagliato di seguito) un classificatore di miscele di esperti che assegna etichette di famiglia ai nuovi campioni di testo:

Schema del sistema. PhantomHunter elabora un campione di testo estraendo innanzitutto le caratteristiche di probabilità da più modelli base, che vengono poi codificate utilizzando CNN e livelli di trasformazione. Stima la famiglia di modelli per calcolare i pesi di gating, che guidano un modulo misto di esperti nel predire se il testo è generato da LLM. Durante l'addestramento, viene applicata una perdita di contrasto per perfezionare la separazione tra le famiglie di modelli. Fonte: https://arxiv.org/pdf/2506.15683

PhantomHunter funziona passando un testo attraverso diversi modelli di base noti e registrando la probabilità che ciascuno di essi pensi la parola successiva, a ogni passaggio. Questi modelli vengono poi inseriti in una rete neurale che apprende le caratteristiche distintive di ciascuna famiglia di modelli.

Durante l'addestramento, il sistema confronta i testi della stessa famiglia e impara a raggrupparli, distinguendo al contempo quelli appartenenti a famiglie diverse, contribuendo a identificare connessioni nascoste tra i modelli perfezionati e i loro modelli di base.

MOE

Per decidere se un pezzo di testo è stato scritto da un essere umano o da un'intelligenza artificiale, PhantomHunter utilizza un miscela di esperti sistema, in cui ogni "esperto" è sintonizzato per rilevare il testo da una specifica famiglia di modelli.

Una volta che il sistema ha indovinato da quale famiglia il testo provenga con maggiore probabilità, usa questa ipotesi per decidere quanto peso dare all'opinione di ciascun esperto. Queste opinioni ponderate vengono poi combinate per giungere alla decisione finale: IA o essere umano.

L'addestramento del sistema implica molteplici obiettivi: imparare a riconoscere le famiglie di modelli; imparare a distinguere il testo dell'IA dal testo umano; e imparare a separare le diverse famiglie utilizzando l'apprendimento contrastivo: obiettivi che vengono bilanciati durante l'addestramento tramite parametri regolabili.

Concentrandosi sui modelli condivisi da ogni famiglia, anziché sulle peculiarità dei singoli modelli, PhantomHunter dovrebbe in teoria essere in grado di rilevare anche modelli molto perfezionati mai visti prima.

Dati e test

Per elaborare i dati per i test, gli autori si sono concentrati sui due scenari accademici più comuni: scrittura e domande-risposta. Per la scrittura, hanno raccolto 69,297 abstract dalla rivista accademica Arxiv. archiviare, suddiviso in domini primari. Per le domande e risposte, sono state selezionate 2,062 coppie da Set di dati HC3 su tre argomenti: ELI5; finanziare, E medicina:

Elenco delle fonti dei dati e dei relativi numeri, nei dati curati per lo studio.

In totale, dodici modelli sono stati addestrati per il test. I tre modelli base erano LLaMA-2 7B-Chat; Mistral 7B-Istruzione-v0.1, E Gemma 7B-it), da cui sono state ricavate nove varianti perfezionate, ciascuna studiata per imitare un diverso dominio o stile autoriale, utilizzando dati specifici del dominio:

Statistiche del set di dati di valutazione, dove "FT Domain" si riferisce al dominio utilizzato durante la messa a punto e "base" indica nessuna messa a punto.

In totale, quindi, tre modelli di base sono stati messi a punto utilizzando sia parametri completi che LORA tecniche in tre domini distinti in ciascuno dei due scenari di utilizzo: scrittura di abstract accademici domanda-rispostaPer riflettere le sfide di rilevamento del mondo reale, i modelli perfezionati su dati informatici sono stati esclusi dai test di scrittura, mentre quelli perfezionati su dati finanziari sono stati esclusi dalle valutazioni delle domande e risposte.

Sono stati selezionati framework rivali RoBERta; T5-Sentinella; SeqXGPT; DNA-GPT; Rileva GPT; Rilevamento rapido GPT, E Detective.

PhantomHunter è stato addestrato utilizzando due tipi di livelli di rete neurale: tre strati convoluzionali con massimo pooling per catturare modelli di testo locali e due strato del trasformatorecon quattro teste di attenzione ciascuna per modellare relazioni a lungo termine.

Per apprendimento contrastivo, che incoraggia il sistema a distinguere tra diverse famiglie di modelli, il temperatura il parametro è stato impostato su 0.07.

L'obiettivo formativo combinava tre termini di perdita: L1 (per la classificazione familiare) e L2 (per il rilevamento binario), ciascuna ponderata a 1.0, e L3 (per l'apprendimento contrastivo), ponderata a 0.5.

Il modello è stato ottimizzato utilizzando Adam con una tasso di apprendimento di 2e-5 e un dimensione del lotto di 32. L'addestramento si è svolto per dieci giorni interi epoche, con il checkpoint più performante selezionato utilizzando un set di validazioneTutti gli esperimenti sono stati condotti su un server con quattro GPU NVIDIA A100.

Le metriche utilizzate sono state Punteggio F1 per ogni sottoinsieme di test, insieme a tasso di veri positivi, per il confronto con i rilevatori commerciali.

Punteggi F1 per il rilevamento di testo da modelli linguistici finemente ottimizzati e invisibili. I primi due risultati di ogni categoria sono in grassetto e sottolineati. "BFE" si riferisce all'estrazione di caratteristiche di probabilità di base, "CL" all'apprendimento contrastivo e "MoE" al modulo di combinazione di esperti.

Punteggi F1 per il rilevamento di testo da modelli linguistici finemente ottimizzati e invisibili. I primi due risultati in ogni categoria sono in grassetto/sottolineati. 'BFE' si riferisce all'estrazione di caratteristiche di probabilità di base, 'CL' all'apprendimento contrastivo e 'MoE' al modulo di combinazione di esperti.

I risultati del test iniziale, visualizzati nella tabella sopra, mostrano che PhantomHunter ha superato tutti i sistemi di base, mantenendo punteggi F1 superiori al novanta percento sia per il testo generato dall'uomo che per quello generato dalla macchina, anche quando valutato su output di modelli ottimizzati esclusi dall'addestramento.

Gli autori commentano:

Con la messa a punto completa, PhantomHunter migliora il punteggio MacF1 rispetto alla migliore base di riferimento rispettivamente del 3.65% e del 2.96% su entrambi i set di dati; con la messa a punto LoRA, i miglioramenti sono rispettivamente del 2.01% e del 6.09%.

"Il risultato dimostra la potente capacità di rilevamento di PhantomHunter per i testi generati da LLM invisibili e ottimizzati."

Sono stati condotti studi di ablazione per valutare il ruolo di ciascun componente principale di PhantomHunter. Quando singoli elementi sono stati rimossi, come l'estrattore di feature, l'encoder contrastivo o il classificatore basato su un mix di esperti, è stato osservato un calo costante della precisione, a indicare che l'architettura si basa sul coordinamento di tutte le parti.

Gli autori hanno anche esaminato se PhantomHunter potesse generalizzare oltre la sua distribuzione di addestramento e hanno accertato che, anche quando applicato a output di modelli di base completamente assenti durante l'addestramento, continuava a superare i metodi rivali, suggerendo che le firme a livello di famiglia rimangono rilevabili attraverso varianti ottimizzate.

Conclusione

Un argomento in favorire dei modelli linguistici generativi addestrati dall'utente è che almeno queste piccole e oscure messe a punto e LoRA preservano il sapore individuale e le eccentricità di un autore, in un clima in cui l'idioma generico ispirato alla SEO dei chatbot AI minaccia di genericizzare qualsiasi linguaggio in cui l'intelligenza artificiale diventa un fattore importante o dominante.

Grazie alla svalutazione del saggio universitario, e con gli studenti ora screencast sessioni di scrittura gigantesche per dimostrare che non hanno utilizzato l'intelligenza artificiale nelle loro presentazioni, più insegnanti al di fuori dell'Europa (dove gli esami orali sono normalizzati) sono considerando gli esami faccia a faccia come alternativa ai testi presentati. Più recentemente, un ritorno al lavoro scritto a mano è stato proposto.

Si può sostenere che entrambe queste soluzioni siano superiori a quella che minaccia di essere una replica basata su LLM. corsa agli armamenti deepfake; sebbene ciò avvenga a scapito dell'impegno e dell'attenzione umana, che la cultura tecnologica sta attualmente cercando di automatizzare.

^† Per maggiori dettagli, consultare la sezione finale, dopo i risultati principali, nel documento originale.

* Conversione delle citazioni in linea degli autori in collegamenti ipertestuali da parte mia. Enfasi del testo degli autori, non mia.

Prima pubblicazione giovedì 19 giugno 2025

Martin Anderson

Scrittore di machine learning, specialista di dominio nella sintesi di immagini umane. Ex responsabile dei contenuti di ricerca presso Metaphysic.ai.
Sito personale: martinandson.ai
Contatti: [email protected]
Twitter: @manders_ai