Unghiul lui Anderson
Modelele de limbă personalizate sunt ușor de creat – și mai greu de detectat

Clonurile open-source ale ChatGPT pot fi fine-tunate la scară și cu expertiză limitată sau inexistentă, facilitând modelele de limbă “private” care evită detectarea. Majoritatea instrumentelor nu pot urmări de unde provin aceste modele sau la ce au fost antrenate, permițând studenților și altor utilizatori să genereze text AI fără a fi prinși; dar o nouă metodă afirmă că poate identifica aceste variante ascunse prin detectarea “trăsăturilor de familie” comune în ieșirile modelului.
Conform unui studiu nou din Canada, modelele de chat AI personalizate, asemănătoare cu ChatGPT, sunt capabile să producă conținut de social media care seamănă îndeaproape cu scrierea umană și care poate păcăli algoritmii de detectare de ultimă generație și oamenii deopotrivă.
Articolul afirmă:
‘Un atacator motivat în mod real este probabil să fine-tuneze un model pentru stilul și cazul de utilizare specific, deoarece este ieftin și ușor de făcut. Cu efort minim, timp și bani, am produs generatoare fine-tunate care sunt capabile de tweet-uri de social media mult mai realiste, pe baza atât a caracteristicilor lingvistice, cât și a acurateței de detectare, și verificate prin anotări umane.’
Autorii subliniază că modelele personalizate de acest tip nu sunt limitate la conținutul de social media de scurtă durată:
‘Deși motivat de răspândirea conținutului AI pe social media și de riscurile asociate cu astroturfing și campaniile de influență, subliniem că principalele constatări se extind în toate domeniile de text.
‘Într-adevăr, fine-tuningul modelului pentru generarea de conținut specific stilului este o metodă general aplicabilă și una care este probabil deja utilizată de mulți utilizatori AI generativi – punând sub semnul întrebării dacă metodele existente de detectare a AIGT sunt la fel de eficiente în lumea reală ca în laboratorul de cercetare.’
Așa cum observă articolul, metoda utilizată pentru crearea acestor modele de limbă personalizate este fine-tuning, unde utilizatorii selectează o cantitate limitată de date țintă proprii și le introduc într-un număr tot mai mare de instrumente de antrenare online ușor de utilizat și ieftine.
De exemplu, repository-ul popular Hugging Face ofere fine-tuning pentru Large Language Model (LLM) prin intermediul unei interfețe simplificate, utilizând sistemul său AutoTrain Advanced, care poate fi rulat pentru câteva dolari prin intermediul unei GPU online sau gratuit, local, dacă utilizatorul are hardware adecvat:

Diverse structuri de prețuri pentru gama de GPU disponibilă pentru sistemul Hugging Face AutoTrain. Sursă: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true
Alte metode și platforme simplificate includ Axolotl, Unsloth și mai capabil, dar mai exigent, TorchTune.
Un exemplu de caz de utilizare ar fi un student care este obosit să-și scrie propriile eseuri, dar se teme să fie prins de instrumentele online de detectare AI, care poate utiliza eseuri istorice reale ca date de antrenare pentru a fine-tuna un model popular open-source, cum ar fi seria Mistral.
Deși fine-tuningul unui model tinde să încline performanța sa către datele de antrenare suplimentare și să degradeze performanța generală, modelele “personalizate” pot fi utilizate pentru a “de-AI” ieșirile din ce în ce mai distinctive ale sistemelor precum ChatGPT, într-un mod care reflectă stilul propriu al utilizatorului (și, pentru o autenticitate crescută, defectele sale).
Cu toate acestea, se poate utiliza exclusiv un model fine-tunat care a fost antrenat specific pentru o sarcină sau un set de sarcini îngust, cum ar fi un LLM fine-tunat pe cursul unei anumite module universitare. Un model atât de specific ar avea o perspectivă miopică, dar mult mai profundă asupra acelui domeniu decât un LLM general, cum ar fi ChatGPT, și ar costa probabil mai puțin de 10-20 de dolari pentru a fi antrenat.
Ghețarul LLM
Este dificil de spus care este scala acestei practici. Anecdotic, pe diverse platforme de social media, am întâlnit recent multe exemple de afaceri de fine-tuning LLM – cu siguranță mult mai multe decât acum un an; într-un caz, o companie a fine-tunat un model de limbă pe propriile sale piese de gândire publicate, care a putut să convertească o chemare Zoom cu un nou client într-un post B2B politicos aproape într-o singură trecere, la cerere.
Un model de acest fel necesită date pereche (exemplare dinainte și după, la scară), în timp ce crearea unui “strat” personalizat al caracteristicilor unui anumit scriitor este o sarcină mai ușoară, mai asemănătoare transferului de stil.
Deși aceasta este o urmărire clandestină (în ciuda numeroaselor titluri și studii academice pe această temă), unde cifrele nu sunt disponibile, același simț comun care a adus legea TAKE IT DOWN în vigoare anul acesta se aplică și aici: activitatea țintă este posibilă și accesibilă, și există o înțelegere comună puternică că utilizatorii potențiali sunt foarte motivați.
Există suficientă fricțiune rămasă în sistemele online de fine-tuning “cele mai îndepărtate” pentru ca practica antrenării și utilizării modelului fine-tunat în mod necinstit să rămână un caz de utilizare relativ de nișă, pentru moment – deși cu siguranță nu dincolo de inventivitatea tradițională a studenților.
PhantomHunter
Acest lucru ne aduce la articolul principal de interes aici – o abordare nouă din China care reunește o varietate largă de tehnici într-un singur cadru – numit PhantomHunter – care afirmă că poate identifica ieșirile modelului fine-tunat, care altfel ar trece drept lucrări originale ale omului.
Sistemul este proiectat să funcționeze chiar și atunci când modelul fine-tunat specific nu a fost întâlnit anterior, bazându-se în schimb pe urmele reziduale lăsate de modelul de bază – pe care autorii le caracterizează ca “trăsături de familie” care supraviețuiesc procesului de fine-tuning.
În teste, articolul – intitulat PhantomHunter: Detecting Unseen Privately-Tuned LLM-Generated Text via Family-Aware Learning – raportează o acuratețe de detectare puternică, sistemul depășind evaluarea zero-shot GPT-4-mini† în urmărirea unei mostre de text până la familia sa de modele.
Acest lucru sugerează că, cu cât un model este mai fine-tunat, cu atât mai mult revelează despre strămoșii săi, contrar ipotezei că fine-tuningul privat maschează întotdeauna originea modelului; în schimb, procesul de tuning poate lăsa o amprentă detectabilă care, dacă este citită corect, dă de gol – cel puțin până la progresele ulterioare care par să apară săptămânal acum.
Articolul afirmă*:
‘[Detectarea textului generat de mașină] distinge în general textul generat de LLM și textul scris de om prin clasificare binară. Metodele existente învață fie caracteristici textuale comune partajate de LLM-uri utilizând învățarea reprezentării sau proiectează metrice distincte între textele umane și LLM-uri pe baza semnalelor interne ale LLM-urilor (de exemplu, probabilități de token).
‘Pentru ambele categorii, testele au fost efectuate în principal pe date de la LLM-uri public disponibile, presupunând că utilizatorii generează text utilizând servicii publice, off-the-shelf.
‘Noi argumentăm că această situație este schimbată datorită dezvoltării recente a comunității LLM open-source. Cu ajutorul platformelor precum HuggingFace și tehnici de antrenare LLM eficiente, cum ar fi adaptarea de rang scăzut (LoRA), crearea de modele LLM fine-tunate cu seturi de date private personalizate a devenit mult mai ușoară decât înainte.
‘De exemplu, au existat peste 60.000 de modele derivate Llama pe HuggingFace. După fine-tuning privat pe un corpus necunoscut, caracteristicile învățate ale modelelor de bază ar putea să se schimbe și detectoarele LLMGT ar putea , creând un nou risc că utilizatorii răuvoitori pot genera texte dăunătoare în mod privat fără a fi prinși de detectoarele LLMGT.
‘O nouă provocare apare: Cum să detectăm textul generat de modele LLM fine-tunate în mod privat?‘
Metodă și antrenament
Sistemul PhantomHunter utilizează o strategie de învățare conștientă de familie, combinând trei componente: un extractor de caracteristici, care capturează probabilitățile de ieșire de la modelele de bază cunoscute; un encoder contrastiv antrenat pentru a distinge între familii; și (așa cum se detaliază mai jos) un clasificator de expertiză mixtă care atribuie etichete de familie pentru mostre de text noi:

Schema pentru sistem. PhantomHunter procesează o mostră de text prin extragerea caracteristicilor de probabilitate de la multiple modele de bază, care sunt apoi codificate utilizând straturi CNN și transformer. Acesta estimează familia de modele pentru a calcula greutățile de porționare, care conduc un modul de expertiză mixtă în prezicerea dacă textul este generat de LLM. O pierdere contrastivă este aplicată în timpul antrenamentului pentru a rafina separarea dintre familiile de modele. Sursă: https://arxiv.org/pdf/2506.15683
PhantomHunter funcționează prin trecerea unei bucăți de text prin mai multe modele de bază cunoscute și înregistrarea modului în care fiecare dintre ele crede că este probabil ca următorul cuvânt, la fiecare pas. Aceste modele sunt apoi introduse într-o rețea neurală care învață caracteristicile distinctive ale fiecărei familii de modele.
În timpul antrenamentului, sistemul compară texte din aceeași familie și învață să le grupeze împreună, în timp ce diferențiază între cele din familii diferite, ajutând la identificarea conexiunilor ascunse între modelele fine-tunate și modelele de bază.
MOE
Pentru a decide dacă o bucată de text a fost scrisă de un om sau de un AI, PhantomHunter utilizează un sistem de expertiză mixtă, în care fiecare “expert” este reglat pentru a detecta text de la o anumită familie de modele.
Odată ce sistemul ghicește din ce familie provine cel mai probabil textul, utilizează acea ipoteză pentru a decide câtă greutate să acorde opiniei fiecărui expert. Aceste opinii ponderate sunt apoi combinate pentru a face apelul final: AI sau om.
Antrenamentul sistemului implică multiple obiective: învățarea recunoașterii familiilor de modele; învățarea distincției între textul AI și cel uman; și învățarea separării familiilor diferite utilizând învățarea contrastivă – obiective care sunt echilibrate în timpul antrenamentului prin parametri reglabili.
Prin concentrarea asupra patternurilor partajate de fiecare familie, mai degrabă decât a particularităților modelelor individuale, PhantomHunter ar trebui, în teorie, să poată detecta chiar și modele fine-tunate pe care nu le-a văzut anterior.
Date și teste
Pentru a dezvolta date pentru teste, autorii s-au concentrat pe cele două scenarii academice comune: scrierea și răspunsurile la întrebări. Pentru scriere, au colectat 69.297 de rezumate din arhiva academică Arxiv, împărțite în domenii principale. Pentru Q&A, au curat 2.062 de perechi din setul de date HC3 pe trei subiecte: ELI5; finanțe; și medicină:

Listă de surse de date și numărul acestora, în date curate pentru studiu.
În total, douăsprezece modele au fost antrenate pentru test. Cele trei modele de bază au fost LLaMA-2 7B-Chat; Mistral 7B-Instruct-v0.1; și Gemma 7B-it), din care au fost create nouă variante fine-tunate, fiecare adaptată pentru a imita un domeniu sau un stil autorial diferit, utilizând date specifice domeniului:

Statistici ale setului de date de evaluare, unde ‘FT Domeniu’ se referă la domeniul utilizat în timpul fine-tuningului și ‘bază’ indică faptul că nu s-a efectuat fine-tuning.
În total, prin urmare, trei modele de bază au fost fine-tunate utilizând atât tehnici de fine-tuning complete, cât și LoRA în trei domenii distincte în fiecare dintre cele două scenarii de utilizare: scrierea de abstracte academice și răspunsurile la întrebări. Pentru a reflecta provocările de detectare din lumea reală, modelele fine-tunate pe date de științe computaționale au fost retrase din testele de scriere, în timp ce cele fine-tunate pe date de finanțe au fost retrase din evaluările Q&A.
Sistemul PhantomHunter a fost antrenat utilizând două tipuri de straturi de rețea neurală: trei straturi convolutive cu max-pooling pentru a capta patternuri locale de text și două straturi transformer cu patru capete de atenție fiecare pentru a modela relații pe termen lung.
Pentru învățarea contrastivă, care încurajează sistemul să distingă între diferite familii de modele, parametrul temperatură a fost setat la 0,07.
Obiectivul de antrenament a combinat trei termeni de pierdere: L1 (pentru clasificarea familiilor) și L2 (pentru detectarea binară), fiecare cu o greutate de 1,0, și L3 (pentru învățarea contrastivă), cu o greutate de 0,5.
Modelul a fost optimizat utilizând Adam cu o rată de învățare de 2e-5 și o dimensiune a lotului de 32. Antrenamentul a avut loc timp de zece epoci complete, cu punctul de control cel mai performant selectat utilizând un set de validare. Toate experimentele au fost efectuate pe un server cu patru GPU-uri NVIDIA A100.
Metricile utilizate au fost scorul F1 pentru fiecare subansamblu de testare, împreună cu rata de detectare pozitivă, pentru comparație cu detectoarele comerciale.

Scoruri F1 pentru detectarea textului din modele LLM fine-tunate nevăzute. Rezultatele celor mai bune două din fiecare categorie sunt încadrate și subliniate. ‘BFE’ se referă la extragerea caracteristicilor de probabilitate de bază, ‘CL’ la învățarea contrastivă, și ‘MoE’ la modulul de expertiză mixtă.
Rezultatele testului inițial, vizualizate în tabelul de mai sus, arată că PhantomHunter a depășit toate sistemele de referință, menținând scoruri F1 peste 90% atât pentru textul uman, cât și pentru cel generat de mașină, chiar și atunci când a fost evaluat pe ieșirile de la modele fine-tunate excluse din antrenament.
Autorii comentează:
‘Cu fine-tuning complet, PhantomHunter îmbunătățește scorul MacF1 cu 3,65% și 2,96% pe ambele seturi de date, respectiv; și cu fine-tuning LoRA, îmbunătățirile sunt de 2,01% și 6,09%, respectiv.
‘Rezultatul demonstrează capacitatea puternică de detectare a lui PhantomHunter pentru texte generate de modele LLM fine-tunate nevăzute.’
Studiile de ablație au fost efectuate pentru a evalua rolul fiecărui component principal în PhantomHunter. Atunci când elemente individuale au fost eliminate, cum ar fi extractorul de caracteristici, encoderul contrastiv sau clasificatorul de expertiză mixtă, a fost observată o scădere constantă a acurateței, indicând faptul că arhitectura se bazează pe coordonarea tuturor părților.
Autorii au examinat, de asemenea, dacă PhantomHunter poate generaliza dincolo de distribuția sa de antrenament și au stabilit că, chiar și atunci când a fost aplicat pe ieșiri de la modele de bază complet absente în timpul antrenamentului, a continuat să depășească metodele rivale – sugerând că semnăturile de nivel de familie rămân detectabile pe variantele fine-tunate.
Concluzie
Un argument în favoarea modelelor de limbă generative antrenate de utilizatori este acela că, cel puțin, aceste fine-tuninguri și LoRA-uri obscure conservă aroma și excentricitățile individuale ale unui autor, într-un climat în care idiomul generic, inspirat de SEO, al chatbot-urilor AI amenință să genericizeze orice limbă în care AI devine un contributor major sau dominant.
Cu devalorizarea eseurilor universitare și cu studenții care acum înregistrează sesiuni de scriere masivă pentru a dovedi că nu au utilizat AI la lucrările lor, mai mulți profesori din afara Europei (unde examenele orale sunt normalizate) iau în considerare examenul oral ca o alternativă la texte depuse. Mai recent, s-a propus revenirea la lucrul scris de mână.
Probabil, ambele soluții sunt superioare ceea ce amenință să devină o cursă a înarmării LLM; deși vin la costul efortului și atenției umane, pe care cultura tehnologică încearcă în prezent să le automatizeze.
† Vă rugăm să consultați secțiunea finală, după rezultatele principale, în articolul sursă, pentru detalii.
* Conversia mea a citărilor inline ale autorilor în legături hipertext. Accentuarea textului autorilor, nu a mea.
Publicat pentru prima dată joi, 19 iunie 2025












