Umjetna inteligencija

Odučiti se od podataka zaštićenih autorskim pravima od obučenog LLM-a – je li moguće?

Objavljeno

Prije 4 mjeseci

23. 2024. XNUMX.

U domenama umjetne inteligencije (AI) i strojnog učenja (ML), veliki jezični modeli (LLM) prikazuju i postignuća i izazove. Obučeni na ogromnim tekstualnim skupovima podataka, LLM modeli sažimaju ljudski jezik i znanje.

Ipak, njihova sposobnost da apsorbiraju i oponašaju ljudsko razumijevanje predstavlja pravne, etičke i tehnološke izazove. Štoviše, ogromni skupovi podataka koji pokreću LLM mogu sadržavati otrovne materijale, tekstove zaštićene autorskim pravima, netočnosti ili osobne podatke.

Natjerati LLM-e da zaborave odabrane podatke postalo je hitno pitanje kako bi se osigurala zakonska usklađenost i etička odgovornost.

Istražimo koncept natjeravanja LLM-a da ne uče podatke zaštićene autorskim pravima kako bismo odgovorili na temeljno pitanje: Je li to moguće?

Zašto je potrebno odučavanje od LLM-a?

LLM-ovi često sadrže sporne podatke, uključujući podatke zaštićene autorskim pravima. Posjedovanje takvih podataka u LLM-u predstavlja pravne izazove povezane s privatnim informacijama, pristranim informacijama, podacima o autorskim pravima i lažnim ili štetnim elementima.

Stoga je odučavanje ključno kako bi se zajamčilo pridržavanje LLM-ova propisa o privatnosti i pridržavanje autorsko pravo zakona, promicanje odgovornih i etičkih LLM-a.

Međutim, izvlačenje sadržaja zaštićenog autorskim pravima iz ogromnog znanja koje su ovi modeli stekli izazovno je. Evo nekoliko tehnika odučavanja koje mogu pomoći u rješavanju ovog problema:

Filtriranje podataka: Uključuje sustavno identificiranje i uklanjanje elemenata zaštićenih autorskim pravima, bučnih ili pristranih podataka, iz podataka o obuci modela. Međutim, filtriranje može dovesti do potencijalnog gubitka vrijednih informacija koje nisu zaštićene autorskim pravima tijekom procesa filtriranja.
Gradijentne metode: Ove metode prilagođavaju parametre modela na temelju gradijenta funkcije gubitka, rješavajući problem podataka zaštićenih autorskim pravima u ML modelima. Međutim, prilagodbe mogu nepovoljno utjecati na ukupnu izvedbu modela na podacima koji nisu zaštićeni autorskim pravima.
Odučavanje u kontekstu: Ova tehnika učinkovito eliminira utjecaj specifičnih točaka obuke na model ažuriranjem njegovih parametara bez utjecaja na nepovezano znanje. Međutim, metoda se suočava s ograničenjima u postizanju preciznosti odvikavanje, posebno kod velikih modela, a njegova učinkovitost zahtijeva daljnju procjenu.

Ove tehnike zahtijevaju mnogo resursa i vremena, što ih čini teškim za implementaciju.

Studije slučaja

Da bismo razumjeli značaj odučavanja od učenja LLM-a, ovi slučajevi iz stvarnog svijeta naglašavaju kako se tvrtke suočavaju s pravnim izazovima koji se tiču velikih jezičnih modela (LLM) i podataka zaštićenih autorskim pravima.

OpenAI tužbe: OpenAI, istaknuta AI tvrtka, pogođena je brojnim tužbe preko podataka o obuci LLM-a. Ovi pravni postupci dovode u pitanje korištenje materijala zaštićenog autorskim pravima u LLM obuci. Također, pokrenuli su upite o mehanizmima koje modeli koriste kako bi osigurali dopuštenje za svako djelo zaštićeno autorskim pravima integrirano u njihov proces obuke.

Tužba Sarah Silverman: Korištenje električnih romobila ističe Slučaj Sarah Silverman uključuje tvrdnju da je model ChatGPT neovlašteno generirao sažetke njezinih knjiga. Ovaj pravni postupak naglašava važna pitanja u vezi s budućnošću umjetne inteligencije i podataka zaštićenih autorskim pravima.

Ažuriranje pravnih okvira radi usklađivanja s tehnološkim napretkom osigurava odgovornu i zakonitu upotrebu modela umjetne inteligencije. Štoviše, istraživačka zajednica mora se sveobuhvatno pozabaviti ovim izazovima kako bi doktorske studije učinile etičnim i poštenim.

Tradicionalne LLM tehnike odučavanja

LLM odučavanje je poput odvajanja određenih sastojaka iz složenog recepta, osiguravajući da samo željene komponente pridonose konačnom jelu. Tradicionalno LLM odučavanje tehnikama, poput finog podešavanja s odabranim podacima i ponovne obuke, nedostaju jednostavni mehanizmi za uklanjanje podataka zaštićenih autorskim pravima.

Njihov široki pristup često se pokaže neučinkovitim i zahtjevnim za resursima za sofisticirani zadatak selektivnog odučavanja budući da zahtijevaju opsežnu ponovnu obuku.

Dok ove tradicionalne metode mogu prilagoditi parametre modela, teško im je precizno ciljati sadržaj zaštićen autorskim pravima, riskirajući nenamjerni gubitak podataka i neoptimalnu usklađenost.

Posljedično, ograničenja tradicionalnih tehnika i robusna rješenja zahtijevaju eksperimentiranje s alternativnim tehnikama odučavanja.

Nova tehnika: Odvikavanje od podskupa podataka za obuku

Korištenje električnih romobila ističe Microsoftov istraživački rad uvodi revolucionarnu tehniku za odučavanje podataka zaštićenih autorskim pravima na LLM-u. Usredotočujući se na primjer modela Llama2-7b i knjiga o Harryju Potteru, metoda uključuje tri ključne komponente kako bi LLM zaboravio svijet Harryja Pottera. Ove komponente uključuju:

Pojačana identifikacija modela: Stvaranje ojačanog modela uključuje fino podešavanje ciljnih podataka (npr. Harry Potter) kako bi se ojačalo njegovo znanje o sadržaju koji se ne uči.
Zamjena idiosinkratskih izraza: Jedinstveni Harry Potter izrazi u ciljnim podacima zamijenjeni su generičkim izrazima, olakšavajući općenitije razumijevanje.
Fino podešavanje alternativnih predviđanja: Osnovni model prolazi kroz fino podešavanje na temelju ovih alternativnih predviđanja. U osnovi, učinkovito briše izvorni tekst iz svoje memorije kada se suoči s relevantnim kontekstom.

Iako je Microsoftova tehnika u ranoj fazi i može imati ograničenja, ona predstavlja obećavajući napredak prema snažnijim, etičkim i prilagodljivijim LLM-ovima.

Ishod romana Tehnika

Inovativna metoda pomoću koje LLM-i zaborave podatke zaštićene autorskim pravima predstavljeni u Microsoftov istraživački rad korak je prema odgovornim i etičnim modelima.

Nova tehnika uključuje brisanje sadržaja povezanog s Harryjem Potterom iz Metinog modela Llama2-7b, za koji se zna da je obučen na skupu podataka “books3” koji sadrži djela zaštićena autorskim pravima. Naime, izvorni odgovori modela pokazali su zamršeno razumijevanje svemira JK Rowling, čak i uz generičke upute.

Međutim, Microsoft predložena tehnika značajno je transformirala svoje odgovore. Ovdje su primjeri upita koji prikazuju značajne razlike između izvornog modela Llama2-7b i fino podešene verzije.

Izvor slike

Ova tablica ilustrira da fino podešeni modeli odučavanja održavaju svoju izvedbu na različitim referentnim vrijednostima (kao što su Hellaswag, Winogrande, piqa, boolq i arc).

Izvor slike

Metoda evaluacije, koja se oslanja na upite modela i naknadnu analizu odgovora, pokazala se učinkovitom, ali može previdjeti složenije, kontradiktorne metode ekstrakcije informacija.

Iako je tehnika obećavajuća, potrebna su daljnja istraživanja za usavršavanje i proširenje, posebno u rješavanju širih zadataka odučavanja unutar LLM-a.

Izazovi nove tehnike odučavanja

Dok Microsoftova tehnika odučavanja obećava, postoji nekoliko izazova i ograničenja autorskih prava AI.

Ključna ograničenja i područja za poboljšanje obuhvaćaju:

Curenje informacija o autorskim pravima: Metoda možda neće u potpunosti ublažiti rizik od informacije o autorskim pravima curenja, budući da model može zadržati nešto znanja o ciljnom sadržaju tijekom procesa finog podešavanja.
Evaluacija različitih skupova podataka: Kako bi se procijenila učinkovitost, tehnika mora proći dodatnu evaluaciju u različitim skupovima podataka, budući da je početni eksperiment bio usredotočen isključivo na knjige o Harryju Potteru.
skalabilnost: Testiranje na većim skupovima podataka i zamršenijim jezičnim modelima neophodno je za procjenu primjenjivosti i prilagodljivosti tehnike u scenarijima stvarnog svijeta.

Porast broja pravnih slučajeva povezanih s umjetnom inteligencijom, posebice tužbi za autorska prava protiv LLM-a, naglašava potrebu za jasnim smjernicama. Obećavajući razvoj, poput metode odučavanja koju je predložio Microsoft, utire put prema etičkoj, pravnoj i odgovornoj umjetnoj inteligenciji.

Ne propustite najnovije vijesti i analize u AI i ML – posjetite ujediniti.ai danas.