Connect with us

I modelli linguistici personalizzati sono facili da creare – e più difficili da rilevare

Angolo di Anderson

I modelli linguistici personalizzati sono facili da creare – e più difficili da rilevare

mm
A robot hand at large in an exam room - Flux, Krita (AI GENERATED).

I cloni open-source di ChatGPT possono essere ottimizzati su larga scala e con limitata o nessuna esperienza, facilitando i modelli linguistici “privati” che evitano la rilevazione. La maggior parte degli strumenti non può tracciare da dove provengono questi modelli o a cosa sono stati addestrati, consentendo agli studenti e ad altri utenti di generare testi AI senza essere scoperti; ma un nuovo metodo afferma di poter identificare queste varianti nascoste rilevando condivise “caratteristiche di famiglia” nei modelli di output.

 

Secondo uno nuovo studio del Canada, i modelli di chat AI personalizzati dall’utente, simili a ChatGPT, sono in grado di produrre contenuti per i social media che assomigliano molto alla scrittura umana e che possono ingannare algoritmi di rilevamento e umani allo stato dell’arte.

Il documento afferma:

‘Un attaccante realisticamente motivato probabilmente ottimizzerà un modello per il proprio stile e caso d’uso specifico, poiché è economico e facile da fare. Con uno sforzo minimo, tempo e denaro, abbiamo prodotto generatori ottimizzati in grado di produrre tweet sui social media molto più realistici, basati su caratteristiche linguistiche e accuratezza di rilevamento, e verificati attraverso annotazioni umane.’

Gli autori sottolineano che i modelli personalizzati di questo tipo non sono limitati ai contenuti dei social media a breve forma:

‘Sebbene motivati dalla diffusione di contenuti AI sui social media e dai rischi associati di astroturfing e campagne di influenza, sottolineiamo che i principali risultati si estendono a tutti i domini del testo.

‘In effetti, l’ottimizzazione dei modelli per la generazione di contenuti specifici di stile è un metodo generalmente applicabile, e uno che probabilmente è già in uso da molti utenti di AI generativa – mettendo in discussione se i metodi esistenti per la rilevazione di AIGT siano così efficaci nel mondo reale come in laboratorio.’

Come osserva il documento, il metodo utilizzato per creare questi modelli linguistici personalizzati è l’ottimizzazione, dove gli utenti curano una quantità limitata dei propri dati di destinazione e li alimentano in un numero crescente di strumenti di formazione online facili da usare e a buon mercato.

Ad esempio, il popolare repository Hugging Face offre l’ottimizzazione del modello linguistico Large Language Model (LLM) tramite un’interfaccia semplificata, utilizzando il sistema AutoTrain Advanced, che può essere eseguito per pochi dollari tramite un’unità di elaborazione grafica online o gratuitamente, se l’utente ha un hardware adeguato:

Varie strutture dei prezzi across the range of GPUs available for the Hugging Face AutoTrain system. Source: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Varie strutture dei prezzi across the range of GPUs available for the Hugging Face AutoTrain system. Source: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Altri metodi e piattaforme semplificati includono Axolotl, Unsloth e il più capace ma esigente TorchTune.

Un caso d’uso esemplificativo sarebbe uno studente che è stanco di scrivere i propri saggi, ma teme di essere scoperto dagli strumenti di rilevamento AI online, che può utilizzare i propri saggi storici reali come dati di formazione per ottimizzare un modello open source molto efficace come la serie Mistral.

Sebbene l’ottimizzazione di un modello tende a inclinare le sue prestazioni verso i dati di formazione aggiuntivi e degradare le prestazioni generali, i modelli “personalizzati” possono essere utilizzati per “de-AI” l’output sempre più distintivo di sistemi come ChatGPT, in un modo che riflette lo stile storico dell’utente (e, per un’autenticità aumentata, le sue carenze).

Tuttavia, si potrebbe utilizzare esclusivamente un modello ottimizzato che è stato addestrato specificamente a un compito o a una gamma di compiti ristretti, come un LLM ottimizzato sui corsi di un modulo universitario specifico. Un modello così specifico avrebbe una visione miope, ma molto più profonda di quel dominio rispetto a un LLM generico come ChatGPT, e probabilmente costerebbe meno di 10-20 dollari per l’addestramento.

The LLM Iceberg

È difficile dire quale sia la portata di questa pratica. Anedoticamente, su diverse piattaforme di social media, ho recentemente incontrato molti esempi di business di ottimizzazione LLM – certamente molti più esempi di un anno fa; in un caso, un’azienda ha ottimizzato un modello linguistico sui propri pezzi di pensiero leader pubblicati, che è stato in grado di convertire una telefonata Zoom con un nuovo cliente in un post B2B lucido quasi in un solo passaggio, su richiesta.

Un modello di questo tipo richiede dati accoppiati (esempi prima e dopo, su larga scala), mentre la creazione di un “lucido” personalizzato delle caratteristiche di uno scrittore specifico è un compito più semplice, più simile al trasferimento di stile.

Sebbene questo sia un inseguimento clandestino (nonostante numerosi titoli e studi accademici sull’argomento), dove le cifre non sono disponibili, la stessa logica che ha portato l’approvazione della legge TAKE IT DOWN quest’anno si applica qui: l’attività target è possibile e accessibile, e c’è una forte comprensione comune che gli utenti potenziali sono altamente motivati.

C’è ancora abbastanza attrito lasciato nei sistemi di ottimizzazione online più “semplificati” che la pratica di addestrare e utilizzare modelli ottimizzati in modo disonesto rimane un caso d’uso relativamente di nicchia, per il momento – sebbene certamente non al di là dell’inventiva tradizionale degli studenti.

PhantomHunter

Ciò ci porta al principale documento di interesse qui – un nuovo approccio dalla Cina che raccoglie insieme una vasta gamma di tecniche in un unico framework – chiamato PhantomHunter – che afferma di identificare l’output dei modelli linguistici ottimizzati, che altrimenti passerebbero come lavoro umano originale.

Il sistema è progettato per funzionare anche quando il modello ottimizzato specifico non è stato incontrato prima, affidandosi invece a tracce residue lasciate dal modello base originale – che gli autori caratterizzano come “caratteristiche di famiglia” che sopravvivono al processo di ottimizzazione.

Nei test, il documento – intitolato PhantomHunter: Rilevamento di testo generato da LLM privati ottimizzati tramite apprendimento consapevole della famiglia – riporta una forte accuratezza di rilevamento, con il sistema che supera la valutazione zero-shot GPT-4-mini nel tracciare un campione di testo alla sua famiglia di modelli.

Ciò suggerisce che più un modello è ottimizzato, più rivela informazioni sulla sua ascendenza, contraddicendo l’ipotesi che l’ottimizzazione privata maschera sempre l’origine di un modello; invece, il processo di ottimizzazione potrebbe lasciare un’impronta rilevabile che, se letta correttamente, rivela il gioco – almeno, in attesa di ulteriori progressi che sembrano arrivare settimanalmente ora.

Il documento afferma*:

‘La rilevazione del testo generato da macchina in generale distingue il testo generato da LLM e scritto da umani tramite classificazione binaria. I metodi esistenti o imparano caratteristiche testuali comuni condivise tra LLM tramite apprendimento di rappresentazione o progettano metriche distinguibili tra testi umani e LLM basate sui segnali interni di LLM (ad esempio, probabilità di token).

‘Per entrambe le categorie, i loro test sono stati condotti principalmente su dati di LLM pubblicamente disponibili, supponendo che gli utenti generino testi utilizzando servizi pubblici, pronti all’uso.

Sosteniamo che questa situazione sta cambiando a causa dello sviluppo recente della comunità LLM open-source. Con l’aiuto di piattaforme come HuggingFace e tecniche di formazione LLM efficienti come l’adattamento a basso rango (LoRA), la creazione di LLM ottimizzati con dataset privati personalizzati è diventata molto più facile di prima.

‘Ad esempio, ci sono stati oltre 60k modelli derivati Llama su HuggingFace. Dopo l’ottimizzazione privata su un corpus sconosciuto, le caratteristiche apprese dei modelli base potrebbero cambiare e i rilevatori LLMGT fallirebbero, plasmando un nuovo rischio che gli utenti malintenzionati possano generare testi dannosi privatamente senza essere scoperti dai rilevatori LLMGT.

‘Un nuova sfida sorge: Come rilevare il testo generato da LLM privati ottimizzati?

Metodo e formazione

Il sistema PhantomHunter utilizza una strategia di apprendimento consapevole della famiglia, combinando tre componenti: un estraettore di caratteristiche, che cattura le probabilità di output da modelli base noti; un encodatore contrastivo addestrato a distinguere tra famiglie; e (come dettagliato di seguito) un classificatore a miscela di esperti che assegna etichette di famiglia a nuovi campioni di testo:

Schema per il sistema. PhantomHunter elabora un campione di testo estraendo prima le caratteristiche di probabilità da più modelli base, che vengono quindi codificate utilizzando strati CNN e transformer. Stima la famiglia del modello per calcolare i pesi di controllo, che guidano un modulo a miscela di esperti nella previsione se il testo è generato da LLM. Una perdita contrastiva viene applicata durante l'addestramento per raffinare la separazione tra famiglie di modelli. Source: https://arxiv.org/pdf/2506.15683

Schema per il sistema. PhantomHunter elabora un campione di testo estraendo prima le caratteristiche di probabilità da più modelli base, che vengono quindi codificate utilizzando strati CNN e transformer. Stima la famiglia del modello per calcolare i pesi di controllo, che guidano un modulo a miscela di esperti nella previsione se il testo è generato da LLM. Una perdita contrastiva viene applicata durante l’addestramento per raffinare la separazione tra famiglie di modelli. Source: https://arxiv.org/pdf/2506.15683

PhantomHunter funziona passando un pezzo di testo attraverso più modelli base noti e registrando quanto probabile sia ogni parola successiva, a ogni passaggio. Questi modelli vengono quindi alimentati in una rete neurale che apprende le caratteristiche distintive di ogni famiglia di modelli.

Durante l’addestramento, il sistema confronta testi della stessa famiglia e apprende a raggrupparli insieme, mentre distingue quelli di famiglie diverse, aiutando a identificare collegamenti nascosti tra modelli ottimizzati e modelli base.

MOE

Per decidere se un pezzo di testo sia stato scritto da un umano o da un’intelligenza artificiale, PhantomHunter utilizza un sistema a miscela di esperti, in cui ogni “esperto” è ottimizzato per rilevare testo da una famiglia di modelli specifica.

Una volta che il sistema ipotizza da quale famiglia provenga il testo, utilizza quell’ipotesi per decidere quanto peso dare all’opinione di ogni esperto. Queste opinioni pesate vengono quindi combinate per prendere la decisione finale: AI o umano.

L’addestramento del sistema coinvolge più obiettivi: apprendere a riconoscere le famiglie di modelli; apprendere a distinguere il testo AI da quello umano; e apprendere a separare le famiglie diverse utilizzando l’apprendimento contrastivo – obiettivi che vengono bilanciati durante l’addestramento attraverso parametri regolabili.

Concentrandosi sui modelli condivisi all’interno di ogni famiglia, piuttosto che sulle peculiarità dei singoli modelli, PhantomHunter dovrebbe in teoria essere in grado di rilevare anche modelli ottimizzati che non ha mai visto prima.

Dati e test

Per sviluppare dati per i test, gli autori si sono concentrati sui due scenari accademici più comuni: la scrittura e la risposta alle domande. Per la scrittura, hanno raccolto 69.297 abstract dall’archivio accademico Arxiv, divisi in domini principali. Per la risposta alle domande, 2.062 coppie sono state curate dal set di dati HC3 su tre soggetti: ELI5; finanza; e medicina:

Elenco delle fonti di dati e dei numeri, nel set di dati curato per lo studio.

Elenco delle fonti di dati e dei numeri, nel set di dati curato per lo studio.

In totale, dodici modelli sono stati addestrati per il test. I tre modelli base sono stati LLaMA-2 7B-Chat; Mistral 7B-Instruct-v0.1; e Gemma 7B-it), da cui nove varianti ottimizzate sono state create, ciascuna adattata per imitare un dominio o uno stile di scrittura diverso, utilizzando dati specifici del dominio:

Statistiche del set di dati di valutazione, dove 'FT Domain' si riferisce al dominio utilizzato durante l'ottimizzazione e 'base' indica nessuna ottimizzazione.

Statistiche del set di dati di valutazione, dove ‘FT Domain’ si riferisce al dominio utilizzato durante l’ottimizzazione e ‘base’ indica nessuna ottimizzazione.

In totale, quindi, tre modelli base sono stati ottimizzati utilizzando sia la tecnica di ottimizzazione completa che LoRA attraverso tre domini distinti in ciascuno dei due scenari di utilizzo: scrittura di abstract accademici e risposta alle domande. Per riflettere le sfide di rilevamento del mondo reale, i modelli ottimizzati sui dati di informatica sono stati esclusi dai test di scrittura, mentre quelli ottimizzati sui dati di finanza sono stati esclusi dalle valutazioni di risposta alle domande.

I framework rivali selezionati sono stati RoBERTa; T5-Sentinel; SeqXGPT; DNA-GPT; DetectGPT; Fast-DetectGPT; e DeTeCtive.

PhantomHunter è stato addestrato utilizzando due tipi di layer di reti neurali: tre layer convoluzionali con pooling massimo per catturare modelli di testo locali, e due layer transformer con quattro teste di attenzione ciascuno per modellare relazioni a lungo raggio.

Per l’apprendimento contrastivo, che incoraggia il sistema a distinguere tra diverse famiglie di modelli, il parametro temperatura è stato impostato su 0,07.

L’obiettivo di addestramento ha combinato tre termini di perdita: L1 (per la classificazione della famiglia) e L2 (per la rilevazione binaria), ciascuno pesato a 1,0, e L3 (per l’apprendimento contrastivo), pesato a 0,5.

Il modello è stato ottimizzato utilizzando Adam con un tasso di apprendimento di 2e-5 e un batch size di 32. L’addestramento ha avuto luogo per dieci epoche complete, con il checkpoint di migliori prestazioni selezionato utilizzando un set di convalida. Tutti gli esperimenti sono stati condotti su un server con quattro GPU NVIDIA A100.

Le metriche utilizzate sono state F1 scoring per ogni subset di test, insieme al tasso di true positive, per il confronto con i rilevatori commerciali.

Punteggi F1 per la rilevazione di testo da modelli linguistici ottimizzati non visti. I due risultati migliori in ogni categoria sono in grassetto e sottolineati. 'BFE' si riferisce all'estrazione delle caratteristiche di probabilità di base, 'CL' all'apprendimento contrastivo e 'MoE' al modulo a miscela di esperti.

Punteggi F1 per la rilevazione di testo da modelli linguistici ottimizzati non visti. I due risultati migliori in ogni categoria sono in grassetto e sottolineati. ‘BFE’ si riferisce all’estrazione delle caratteristiche di probabilità di base, ‘CL’ all’apprendimento contrastivo e ‘MoE’ al modulo a miscela di esperti.

I risultati del test iniziale, visualizzati nella tabella sopra, mostrano che PhantomHunter ha superato tutti i sistemi di base, mantenendo punteggi F1 sopra il 90% per entrambi i testi generati da umani e macchine, anche quando valutati su output da modelli ottimizzati esclusi dall’addestramento.

Gli autori commentano:

‘Con l’ottimizzazione completa, PhantomHunter migliora il punteggio MacF1 del 3,65% e del 2,96% su entrambi i set di dati, rispettivamente; e con l’ottimizzazione LoRA, i miglioramenti sono del 2,01% e del 6,09% rispettivamente.

‘Il risultato dimostra la potente capacità di rilevamento di PhantomHunter per i testi generati da LLM privati ottimizzati.’

Sono stati condotti studi di ablazione per valutare il ruolo di ogni componente fondamentale in PhantomHunter. Quando sono stati rimossi elementi individuali, come l’estraettore di caratteristiche, l’encodatore contrastivo o il classificatore a miscela di esperti, è stato osservato un calo costante di accuratezza, indicando che l’architettura si basa sulla coordinazione di tutte le parti.

Gli autori hanno anche esaminato se PhantomHunter potesse generalizzare al di là della sua distribuzione di addestramento e hanno accertato che, anche quando applicato a output da modelli base completamente assenti durante l’addestramento, continuava a superare i metodi rivali – suggerendo che le firme a livello di famiglia rimangono rilevabili attraverso varianti ottimizzate.

Conclusione

Un argomento a favore dei modelli linguistici generativi addestrati dall’utente è che almeno questi ottimizzazioni e LoRA conservano il sapore individuale e le eccentricità di uno scrittore, in un clima in cui l’idioma generico, ispirato al SEO, dei chatbot AI minaccia di generizzare qualsiasi linguaggio in cui l’AI diventa un contributore importante.

Con la svalutazione del saggio universitario e con gli studenti che ora registrano enormi sessioni di scrittura per provare di non aver utilizzato l’AI sui loro elaborati, più insegnanti al di fuori dell’Europa (dove gli esami orali sono normalizzati) stanno considerando gli esami faccia a faccia come alternativa ai testi inviati. Più recentemente, un ritorno al lavoro scritto a mano è stato proposto.

Argomentabile, entrambe le soluzioni sono superiori a ciò che minaccia di essere una corsa agli armamenti LLM basata sull’AI; sebbene queste soluzioni richiedano sforzo e attenzione umana, che la cultura tecnologica sta attualmente cercando di automatizzare.

 

Si prega di vedere la sezione finale dopo i risultati principali, nel documento originale, per i dettagli su questo.

* La mia conversione delle citazioni in linea degli autori in collegamenti ipertestuali. Enfasi degli autori, non mia.

Pubblicato per la prima volta giovedì 19 giugno 2025

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.