Andersonov kut

Personalizirane jezične modele je lako napraviti – a teže otkriti

Objavljeno Lipnja 19, 2025

Martin Anderson

Robotska ruka u ordinaciji - Flux, Krita (GENERIRANO UMJETNOM INTELIGENTNOM RADIONICOM).

Klonovi otvorenog koda ChatGPT-a mogu se fino podesiti u velikim razmjerima i s ograničenim ili nikakvim stručnim znanjem, olakšavajući "privatne" jezične modele koji izbjegavaju otkrivanje. Većina alata ne može pratiti odakle ti modeli dolaze ili za što su obučeni, što omogućuje studentima i drugim korisnicima generiranje AI teksta bez da budu uhvaćeni; ali nova metoda tvrdi da može identificirati te skrivene varijante uočavanjem zajedničkih "obiteljskih osobina" u izlazima modela.

Prema Nova studija Iz Kanade, korisnički prilagođeni AI modeli chata, slični ChatGPT-u, sposobni su za stvaranje sadržaja društvenih medija koji jako nalikuje ljudskom pisanju i koji može prevariti najsuvremenije algoritme za detekciju i ljude.

U radu se navodi:

„Realno motiviran napadač vjerojatno će fino podesiti model za svoj specifični stil i slučaj upotrebe, jer je to jeftino i jednostavno. Uz minimalan trud, vrijeme i novac, proizveli smo fino podešene generatore koji su sposobni za puno realističnije tweetove na društvenim mrežama, temeljene i na lingvističkim značajkama i točnosti detekcije, te provjerene ljudskim bilješkama.“

Autori naglašavaju da prilagođeni modeli ove vrste nisu ograničeni na kratki sadržaj društvenih medija:

Iako motivirano širenjem sadržaja umjetne inteligencije na društvenim mrežama i povezanim rizicima astroturfinga i kampanja utjecaja, naglašavamo da se glavni nalazi protežu na sve tekstualne domene.

„Doista, fino podešavanje modela za generiranje sadržaja specifičnog za stil općenito je primjenjiva metoda koju vjerojatno već koriste mnogi korisnici generativne umjetne inteligencije – što dovodi u pitanje jesu li postojeće metode otkrivanja AIGT-a jednako učinkovite u stvarnom svijetu kao i u istraživačkom laboratoriju.“

Kao što se u radu navodi, metoda koja se koristi za stvaranje ovih prilagođenih jezičnih modela je fino podešavanje, gdje korisnici prikupljaju ograničenu količinu vlastitih ciljanih podataka i unose ih u sve veći broj jednostavnih za korištenje i jeftinih online alata za obuku.

Na primjer, popularno spremište Hugging Face nudi Fino podešavanje LLM (Large Language Model) putem pojednostavljenog sučelja, korištenjem AutoTrain Advanced sustava, koji se može pokrenuti za nekoliko dolara putem online GPU-a ili besplatno, lokalno, ako korisnik ima odgovarajući hardver:

Različite cjenovne strukture za različite GPU-ove dostupne za Hugging Face AutoTrain sustav. Izvor: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Različite cjenovne strukture za cijeli niz GPU-ova dostupnih za Hugging Face AutoTrain sustav. Izvor: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Druge pojednostavljene metode i platforme uključuju Daždevnjak, Nelijenosti sposobniji, ali zahtjevniji TorchTune.

Primjer upotrebe bio bi student koji je umoran od pisanja vlastitih eseja, ali se boji da će ga uhvatiti online alati za detekciju umjetne inteligencije, te može koristiti vlastite stvarne povijesne eseje kao podatke za obuku kako bi fino podesio stvarno učinkovit popularan model otvorenog koda kao što je mistral Serija.

Iako fino podešavanje modela ima tendenciju iskrivljavanja njegove performanse prema dodatnim podacima za obuku i degradiraju ukupne performanse, 'personalizirani' modeli mogu se koristiti za 'de-AI' sve prepoznatljivije rezultate iz sustava poput ChatGPT-a, na način koji odražava korisnikov vlastiti povijesni stil (i, radi veće autentičnosti, njihove nedostatke).

Međutim, mogao bi se koristiti isključivo precizno podešeni model koji je posebno obučen za uski zadatak ili raspon zadataka, poput LLM-a precizno podešenog na temelju nastavnog plana određenog sveučilišnog modula. Model specifičan poput ovog imao bi kratkovidan, ali daleko dublji uvid u tu domenu od univerzalnog LLM-a poput ChatGPT-a, a vjerojatno bi koštao manje od 10-20 dolara za obuku.

Ledenjak LLM-a

Teško je reći koliki je opseg te prakse. Anegdotski, na raznim platformama društvenih medija, u posljednje vrijeme nailazim na mnoge poslovno orijentirane primjere finog podešavanja LLM-a - svakako puno više takvih primjera nego prije godinu dana; u jednom slučaju, tvrtka je fino podesila jezični model na vlastitim objavljenim tekstovima o liderstvu mišljenja, koji su potom, na zahtjev, mogli pretvoriti sporadični Zoom poziv s novim klijentom u uglađenu B2B objavu gotovo u jednom prolazu.

Takva priroda zahtijeva upareni podaci (primjeri prije i poslije, u mjerilu), dok je stvaranje personaliziranog 'glossa' karakteristika određenog pisca lakši zadatak, sličniji prijenos stila.

Iako je ovo tajna potraga (unatoč brojnim naslovi i akademske studije na tu temu), gdje brojke nisu dostupne, isti zdrav razum koji je donio UKINI TO, pretvori ga u zakon ove godine ovdje vrijedi: ciljana aktivnost je moguća i pristupačna, te postoji snažno općeprihvaćeno shvaćanje da su potencijalni korisnici visoko motivirani.

U najjednostavnijim online sustavima za fino podešavanje ostalo je taman toliko trenja da praksa neiskreno Treniranje i korištenje fino podešenih modela za sada ostaje relativno nišna upotreba - iako zasigurno ne izvan tradicionalne inventivnosti studenata.

PhantomHunter

To nas dovodi do glavnog rada od interesa ovdje – novog pristupa iz Kine koji okuplja širok raspon tehnika u jedinstveni okvir – nazvan PhantomHunter – koji tvrdi da identificira rezultat fino podešenih jezičnih modela, koji bi inače prošli kao originalno ljudsko djelo.

Sustav je dizajniran da funkcionira čak i kada se specifični fino podešeni model nikada prije nije susreo, oslanjajući se umjesto toga na rezidualne tragove koje je ostavio izvorni osnovni model - koje autori karakteriziraju kao 'obiteljske osobine' koje preživljavaju proces finog podešavanja.

U testovima, rad – pod nazivom PhantomHunter: Detekcija nevidljivog, privatno podešenog teksta generiranog LLM-om putem obiteljski svjesnog učenja – izvještava o visokoj točnosti detekcije, pri čemu sustav nadmašuje evaluaciju GPT-4-mini s nultom brzinom^† pri praćenju uzorka teksta do njegove modelne obitelji.

To sugerira da što je model više fino podešen, to više otkriva o svom podrijetlu, što opovrgava pretpostavku da privatno fino podešavanje uvijek maskira podrijetlo modela; umjesto toga, proces podešavanja može ostaviti uočljiv otisak koji, ako se ispravno pročita, otkriva igru - barem dok se čekaju daljnji napredak koji, čini se, sada stiže tjedno.

U radu stoji*:

Detekcija [strojno generiranog teksta] općenito razlikuje tekst generiran LLM-om od teksta napisanog ljudima putem binarne klasifikacije. Postojeće metode naučiti uobičajene tekstualne značajke dijeljeno između LLM-ova korištenjem učenja reprezentacije ili dizajniranja prepoznatljivih metrika između ljudskih i LLM tekstova na temelju unutarnjih signala LLM-ova (npr. vjerojatnosti tokena).

Za obje kategorije, testovi su uglavnom provedeni na podacima iz javno dostupnih LLM-ova, uz pretpostavku da korisnici generiraju tekst koristeći javne, gotove usluge.

'Tvrdimo da se ova situacija mijenja zbog nedavnog razvoja zajednice otvorenog koda za LLM. Uz pomoć platformi poput HuggingFace i učinkovite tehnike LLM obuke poput adaptacije niskog ranga (LoRA), izgradnja fino podešenih LLM-ova s prilagođenim privatnim skupovima podataka postala je mnogo lakša nego prije.

'Na primjer, bilo ih je više od 60 tisuća derivativnih modela temeljenih na lami na HuggingFaceu. Nakon privatnog finog podešavanja na nepoznatom korpusu, naučene karakteristike osnovnih modela mogle bi se promijeniti i LLMGT detektori bi [zakazali], stvarajući novi rizik da zlonamjerni korisnici mogu privatno generirati štetne tekstove bez da ih LLMGT detektori uhvate.

'Pojavljuje se novi izazov:' Kako otkriti tekst generiran privatno podešenim LLM-ovima otvorenog koda?'

Metoda i obuka

PhantomHunter sustav koristi obiteljski osviješten strategija učenja, koja kombinira tri komponente: a ekstraktor značajki, hvatajući vjerojatnosti izlaza iz poznatih osnovnih modela; a kontrastivni koder obučeni za razlikovanje obitelji; i (kao što je detaljno opisano u nastavku) klasifikator mješavine stručnjaka koji novim uzorcima teksta dodjeljuje oznake obitelji:

Shema za sustav. PhantomHunter obrađuje uzorak teksta tako da prvo izdvaja značajke vjerojatnosti iz više osnovnih modela, koji se zatim kodiraju pomoću CNN i transformatorskih slojeva. Procjenjuje obitelj modela kako bi izračunao težine usklađenja, koje vode modul mješavine stručnjaka u predviđanju je li tekst generiran LLM-om. Tijekom učenja primjenjuje se kontrastivni gubitak kako bi se poboljšalo odvajanje između obitelji modela. Izvor: https://arxiv.org/pdf/2506.15683

PhantomHunter radi tako da propušta dio teksta kroz nekoliko poznatih osnovnih modela i bilježi koliko je vjerojatno da će svaki od njih pomisliti na sljedeću riječ, u svakom koraku. Ti se obrasci zatim unose u neuronsku mrežu koja uči razlikovne karakteristike svake obitelji modela.

Tijekom obuke, sustav uspoređuje tekstove iz iste porodice i uči ih grupirati, istovremeno razlikujući one iz različitih porodica, pomažući u prepoznavanju skrivenih veza između fino podešenih modela i njihovih osnovnih modela.

MOE

Kako bi utvrdio je li tekst napisao čovjek ili umjetna inteligencija, PhantomHunter koristi mješavina stručnjaka sustav, u kojem je svaki 'stručnjak' podešen za detekciju teksta iz određene obitelji modela.

Nakon što sustav pogodi iz koje obitelji najvjerojatnije potječe tekst, koristi tu pretpostavku kako bi odlučio koliku težinu dati mišljenju svakog stručnjaka. Ta ponderirana mišljenja zatim se kombiniraju kako bi se donijela konačna odluka: umjetna inteligencija ili čovjek.

Treniranje sustava uključuje više ciljeva: učenje prepoznavanja obitelji modela; učenje razlikovanja teksta umjetne inteligencije od ljudskog teksta; i učenje odvajanja različitih obitelji korištenjem kontrastivnog učenja – ciljeva koji su uravnoteženi tijekom treninga putem podesivih parametara.

Fokusirajući se na obrasce zajedničke svakoj obitelji, a ne na osobitosti pojedinačnih modela, PhantomHunter bi u teoriji trebao biti u stanju otkriti čak i fino podešene modele koje nikada prije nije vidio.

Podaci i testovi

Kako bi razvili podatke za testove, autori su se usredotočili na dva najčešća akademska scenarija: pisanje i odgovaranje na pitanja. Za pisanje su prikupili 69,297 XNUMX sažetaka iz akademske baze podataka Arxiv. Arhiva, podijeljeno u primarne domene. Za pitanja i odgovore odabrano je 2,062 para iz HC3 skup podataka kroz tri predmeta: EL5; financije, Te lijek:

Popis izvora podataka i njihov broj, u podacima pripremljenim za studiju.

Ukupno je dvanaest modela obučeno za test. Tri osnovna modela su bila LLaMA-2 7B-Čavrljanje; Mistral 7B-Instruct-v0.1, Te Gemma 7B-it), iz kojih je izvučeno devet fino podešenih varijanti, svaka prilagođena oponašanju različite domene ili autorskog stila, koristeći podatke specifične za domenu:

Statistika skupa podataka za evaluaciju, gdje se 'FT domena' odnosi na domenu korištenu tijekom finog podešavanja, a 'osnova' označava da nije provedeno fino podešavanje.

Stoga su ukupno tri osnovna modela fino podešena korištenjem i punih parametara i LoRA tehnike u tri različite domene u svakom od dva scenarija upotrebe: akademsko pisanje sažetaka i pitanje-odgovaranjeKako bi se odrazili izazovi detekcije u stvarnom svijetu, modeli precizno podešeni na podacima računalnih znanosti izostavljeni su iz testova pisanja, dok su oni precizno podešeni na financijskim podacima izostavljeni iz evaluacija pitanja i odgovora.

Odabrani konkurentski okviri bili su RoBERTa; T5-Sentinel; SeqXGPT; DNA-GPT; DetectGPT; Brzo otkrivanje GPT-a, Te Detektiv.

PhantomHunter je treniran korištenjem dvije vrste slojeva neuronske mreže: tri konvolucijski slojevi s maksimalno udruživanje za hvatanje lokalnih tekstualnih uzoraka i dva transformatorski slojs po četiri glave za pažnju kako bi se modelirali dugoročniji odnosi.

Za kontrastivno učenje, što potiče sustav da razlikuje različite obitelji modela, temperatura Parametar je postavljen na 0.07.

Cilj treninga kombinirao je tri uvjeta gubitka: L1 (za klasifikaciju obitelji) i L2 (za binarnu detekciju), svaki ponderiran s 1.0, i L3 (za kontrastivno učenje), ponderiran s 0.5.

Model je optimiziran korištenjem Adam sa stopa učenja od 2e-5 i a veličina serije od 32. Obuka se odvijala punih deset epohe, s najboljom kontrolnom točkom odabranom pomoću skup za provjeru valjanostiSvi eksperimenti provedeni su na poslužitelju s četiri NVIDIA A100 GPU-a.

Mjerni podaci koji su korišteni bili su Bodovanje F1 za svaki podskup za testiranje, zajedno s prava pozitivna stopa, za usporedbu s komercijalnim detektorima.

F1 rezultati za otkrivanje teksta iz nevidljivih fino podešenih jezičnih modela. Prva dva rezultata u svakoj kategoriji su podebljana i podcrtana. 'BFE' se odnosi na ekstrakciju značajki osnovne vjerojatnosti, 'CL' na kontrastivno učenje, a 'MoE' na modul mješavine stručnjaka.

F1 rezultati za otkrivanje teksta iz nevidljivih fino podešenih jezičnih modela. Prva dva rezultata u svakoj kategoriji su podebljana/podcrtana. 'BFE' se odnosi na ekstrakciju značajki osnovne vjerojatnosti, 'CL' na kontrastivno učenje, a 'MoE' na modul mješavine stručnjaka.

Rezultati početnog testa, vizualizirani u gornjoj tablici, pokazuju da je PhantomHunter nadmašio sve osnovne sustave, održavajući F1 rezultate iznad devedeset posto i za ljudski i za strojno generirani tekst, čak i kada se procjenjuju na izlazima iz fino podešenih modela isključenih iz obuke.

Autori komentiraju:

S potpunim finim podešavanjem, PhantomHunter poboljšava MacF1 rezultat u odnosu na najbolju početnu vrijednost za 3.65% odnosno 2.96% na oba skupa podataka; a s finim podešavanjem LoRA, poboljšanja su 2.01% odnosno 6.09%.

'Rezultat pokazuje PhantomHunterovu snažnu sposobnost detekcije tekstova generiranih nevidljivim, fino podešenim LLM-ovima.'

Studije ablacije provedene su kako bi se procijenila uloga svake ključne komponente u PhantomHunteru. Kada su pojedinačni elementi uklonjeni, poput ekstraktora značajki, kontrastivnog kodera ili klasifikatora mješavine stručnjaka, uočen je konzistentan pad točnosti, što ukazuje na to da se arhitektura oslanja na koordinaciju svih dijelova.

Autori su također ispitali može li PhantomHunter generalizirati izvan svoje distribucije treniranja i utvrdili da čak i kada se primjenjuje na izlaze iz osnovnih modela koji su potpuno odsutni tijekom treniranja, nastavlja nadmašivati konkurentske metode - što sugerira da potpisi na razini obitelji ostaju uočljivi u fino podešenim varijantama.

Zaključak

Jedan argument u favoriziraju generativnih jezičnih modela koje su obučili korisnici jest to što barem te opskurne male fine prilagodbe i LoRA-e čuvaju individualni okus i ekscentričnosti autora, u klimi u kojoj generički, SEO-om inspirirani idiom AI chatbotova prijeti generiziranjem bilo koji jezik gdje umjetna inteligencija postaje glavni ili dominantan doprinos.

Uz devalvacija fakultetskog eseja i sa studentima sada prikazivanje ekrana mamutske sesije pisanja kako bi dokazali da nisu koristili umjetnu inteligenciju u svojim radovima, sve više učitelja izvan Europe (gdje su usmeni ispiti normalizirani) razmatranje ispita licem u lice kao alternativa poslanim tekstovima. Nedavno je povratak rukopisnom radu je predloženo.

Moglo bi se reći da su oba ova rješenja superiornija onome što prijeti da će biti ponovna primjena temeljena na LLM-u. utrka u naoružanju s deepfakeom; iako dolaze na štetu ljudskog truda i pažnje, koju tehnološka kultura trenutno nastoji automatizirati.

^† Za detalje o ovome pogledajte završni odjeljak nakon glavnih rezultata, u izvornom radu.

* Moja pretvorba citata autora u tekstu u hiperveze. Naglasak/i autora u tekstu, ne moj/moja.

Prvi put objavljeno u četvrtak, 19. lipnja 2025.

Sljedeći

Ograničenja memorije kod studenata prava: Kada umjetna inteligencija pamti previše

Ne propustite

Višejezično otkrivanje pristranosti umjetne inteligencije pomoću SHADES-a: Izgradnja pravednih i uključivih sustava umjetne inteligencije