Tekoäly

Tekijänoikeudellisen tiedon unohtaminen koulutetusta LLM:stä – Onko se mahdollista?

mm
Blog Image of Copyright Symbols

Tekoäly- ja koneoppimisalalla (AI ja ML) suurten kielen mallien (LLM) on osoittanut sekä saavutuksia että haasteita. Laajojen tekstuaalisten tietojoukkojen avulla koulutettujen LLM-mallien sisältö kattaa ihmisen kielen ja tietämyksen.

Toisaalta niiden kyky absorboida ja matkia ihmisen ymmärrystä luo oikeudellisia, eettisiä ja teknologisia haasteita. Lisäksi LLM-malleja voimistavat massiiviset tietojoukot saattavat sisältää myös myrkyllistä materiaalia, tekijänoikeudellista tekstiä, epätarkkuuksia tai henkilökohtaista tietoa.

LLM-mallien unohtaminen valittuja tietoja on muodostunut tärkeäksi kysymykseksi oikeudellisen vaatimukseen ja eettisestä vastuusta.

Tutkitaan LLM-mallien tekijänoikeudellisen tiedon unohtamista ja yhtä perustavaa kysymystä: Onko se mahdollista?

Miksi LLM-mallien unohtaminen on tarpeen?

LLM-mallit sisältävät usein kiistanalaista tietoa, mukaan lukien tekijänoikeudellista tietoa. Tällaisen tiedon sisällyttäminen LLM-malleihin luo oikeudellisia haasteita, jotka liittyvät yksityiseen tietoon, vinoutuneeseen tietoon, tekijänoikeuksiin ja virheellisiin tai vahingollisiin elementteihin.

Unohtaminen on tarpeen, jotta LLM-mallit noudattaisivat yksityisyyden suojaamiseen liittyviä sääntöjä ja tekijänoikeuksia, edistäen vastuullisia ja eettisiä LLM-malleja.

Tekijänoikeuksien ja immateriaalioikeuksien kuva

Kuitenkin tekijänoikeudellisen sisällön poistaminen näiden mallien laajasta tietämyksestä on haasteellista. Tässä ovat joitakin unohtamistekniikoita, jotka voivat auttaa ratkaisemaan tämän ongelman:

  • Tiedon suodatus: Se sisältää järjestelmällisen tekijänoikeudellisten elementtien, meluisan tai vinoutuneen tiedon tunnistamisen ja poistamisen mallin koulutusaineistosta. Suodatus kuitenkin voi johtaa arvokkaan tekijänoikeudettoman tiedon menetykseen suodatusprosessin aikana.
  • Gradient menetelmät: Nämä menetelmät säätävät mallin parametreja menetetyn funktion gradientin perusteella, ja ne käsittelevät tekijänoikeudellista tietoa ML-malleissa. Säätö kuitenkin voi vaikuttaa mallin yleiseen suorituskykyyn tekijänoikeudettomalla tiedolla.
  • Kontekstissä unohtaminen: Tämä tekniikka poistaa tehokkaasti tietyn koulutusaineiston vaikutuksen mallista päivittämällä sen parametreja ilman vaikutusta muuhun tietoon. Tämä menetelmä kuitenkin kohtaa rajoituksia tarkassa unohtamisessa, erityisesti suurten mallien kanssa, ja sen tehokkuus vaatii edelleen arviointia.

Nämä tekniikat ovat resursseja vaativia ja aikaa vieviä, mikä tekee niiden toteuttamisesta haasteellista.

Käytännön tapaukset

Ymmärtääksemme LLM-mallien unohtamisen merkitystä, nämä käytännön tapaukset korostavat, miten yritykset kohtaavat oikeudellisia haasteita suurten kielen mallien (LLM) ja tekijänoikeudellisen tiedon kanssa.

OpenAI-oikeudenkäynnit: OpenAI, tunnettu tekoälyyritys, on kohdannut useita oikeudenkäyntejä LLM-mallien koulutusaineistosta. Nämä oikeudelliset toimet kyselevät tekijänoikeudellisen aineiston käyttöä LLM-koulutuksessa. Ne myös herättävät kysymyksiä siitä, miten mallit hankkivat luvan kullekin tekijänoikeudelliseen teokseen, joka on sisällytetty koulutusprosessiinsa.

Sarah Silvermanin oikeudenkäynti: Sarah Silvermanin tapaus liittyy syytökseen, jonka mukaan ChatGPT-malli tuotti hänen kirjojensa tiivistelmiä ilman lupaa. Tämä oikeudellinen toimi korostaa tärkeitä kysymyksiä tekoälyn ja tekijänoikeuksien tulevaisuudesta.

Oikeudellisten kehysten päivittäminen teknologisen edistymisen mukaisesti takaa vastuullisen ja oikeudellisen tekoälymallien käytön. Lisäksi tutkimusyhteisön on ratkaistava nämä haasteet kattavasti, jotta LLM-mallit voisivat olla eettisiä ja reiluja.

Perinteiset LLM-mallien unohtamistekniikat

LLM-mallien unohtaminen on kuin tiettyjen ainesosien erottaminen monimutkaisesta reseptistä, varmistamalla, että ainoastaan halutut komponentit vaikuttavat lopputuotteeseen. Perinteiset LLM-mallien unohtamistekniikat, kuten hienosäätö kuratoiduilla aineistoilla ja uudelleenkoulutus, puuttuvat suoraviivaisilta mekanismeilta tekijänoikeudellisen tiedon poistamiseksi.

Näiden perinteisten menetelmien laaja-alainen lähestymistapa usein osoittautuu tehottomaksi ja resursseja vaativaksi valikoivan unohtamisen monimutkaiselle tehtävälle, sillä ne edellyttävät laajaa uudelleenkoulutusta.

Vaikka nämä perinteiset menetelmät voivat säätää mallin parametreja, ne kamppailevat kohdistamalla tarkasti tekijänoikeudellista sisältöä, vaaraten tahattoman tiedon menetyksen ja alaista oikeudellista noudattamista.

Tämän vuoksi perinteisten tekniikoiden rajoitukset ja vahvat ratkaisut vaativat kokeilua vaihtoehtoisilla unohtamistekniikoilla.

Uusi tekniikka: Unohtaminen osittaisesta koulutusaineistosta

Microsoftin tutkimuspaperi esittelee uraauurtavan tekniikan tekijänoikeudellisen tiedon unohtamiseksi LLM-malleissa. Esimerkkinä Llama2-7b-mallista ja Harry Potter -kirjoista, menetelmä sisältää kolme ydinkomponenttia, jotta LLM-malli unohtaa Harry Potterin maailman. Nämä komponentit sisältävät:

  • Vahvistettu mallin tunnistaminen: Vahvistetun mallin luominen sisältää kohdistetun aineiston (esim. Harry Potter) hienosäätämisen vahvistamaan sen tietämyksen unohtettavasta sisällöstä.
  • Idiosynkratisten ilmausten korvaaminen: Harry Potterin yksilölliset ilmaukset kohdistetussa aineistossa korvataan yleisillä ilmauksilla, helpottaen yleistetympää ymmärrystä.
  • Hienosäätö vaihtoehtoisilla ennusteilla: Perusmalli käy läpi hienosäätöä näiden vaihtoehtoisten ennusteiden perusteella. Periaatteessa se poistaa alkuperäisen tekstin muististaan, kun se kohtaa asiaan liittyvää kontekstia.

Vaikka Microsoftin tekniikka on alkuvaiheessa ja saattaa olla rajoituksia, se edustaa lupaavaa edistystä voimakkaampien, eettisempien ja sopeutuvampien LLM-mallien kehittämiseksi.

Uuden tekniikan tulos

Innovaatio, jossa LLM-mallit unohtavat tekijänoikeudellista tietoa, esitetty Microsoftin tutkimuspaperissa, on askel kohti vastuullisia ja eettisiä malleja.

Uusi tekniikka sisältää Harry Potter -aiheisen sisällön poistamisen Meta Llama2-7b-mallista, joka on koulutettu “books3”-aineistoon, joka sisältää tekijänoikeudellista aineistoa. Merkittävästi mallin alkuperäiset vastaukset osoittivat monimutkaisen ymmärryksen J.K. Rowlingin maailmasta, jopa yleisillä ärsykkeillä.

Microsoftin ehdottama tekniikka muutti merkittävästi sen vastauksia. Tässä on esimerkkejä ärsykkeistä, jotka osoittavat merkittävät erot alkuperäisen Llama2-7b-mallin ja hienosäätöversion välillä.

Hienosäätöärsykevertailu perusarvon kanssa

Kuva lähde

Tämä taulukko osoittaa, että hienosäätöllä unohtavat mallit säilyttävät suorituskykynsä eri mittareilla (kuten Hellaswag, Winogrande, piqa, boolq ja arc).

Uuden tekniikan mittausarvio

Kuva lähde

Arviointimenetelmä, joka perustuu mallin ärsykkeisiin ja sitä seuraavaan vastausanalyysiin, osoittautuu tehokkaaksi, mutta se saattaa jättää huomiotta monimutkaisemmat, vihamieliset tiedonhakumenetelmät.

Vaikka tekniikka on lupaava, edellyttää se edelleen tutkimusta jalostamiseksi ja laajentamiseksi, erityisesti laajempien unohtamistehtävien ratkaisemiseksi LLM-malleissa.

Uuden unohtamistekniikan haasteet

Vaikka Microsoftin unohtamistekniikka näyttää lupaavalta, on olemassa useita tekoälyyn liittyviä tekijänoikeudellisia haasteita ja rajoituksia.

Avainrajoitukset ja parantamisen kohteet käsittävät:

  • Tekijänoikeudellisen tiedon vuodot: Menetelmä saattaa ei täysin poistaa tekijänoikeudellisen tiedon vuotojen riskiä, sillä malli saattaa säilyttää jotain tietoa kohdistetusta sisällöstä hienosäätöprosessin aikana.
  • Eri aineistojen arviointi: Menetelmän tehokkuuden arviointi edellyttää lisää arviointia eri aineistoilla, sillä alkuperäinen koe keskittyi ainoastaan Harry Potter -kirjoihin.
  • Skalautuvuus: Testaaminen laajemmissa aineistoissa ja monimutkaisemmissa kielen malleissa on välttämätöntä arvioida menetelmän soveltuvuutta ja sopeutumista todellisissa tilanteissa.

Tekoälyyn liittyvien oikeudenkäyntien lisääntyminen, erityisesti tekijänoikeuskanne LLM-malleja vastaan, korostaa selkeiden ohjeiden tarpeen. Lupaavat kehityssuunnat, kuten Microsoftin ehdottama unohtamistekniikka, avaavat tien eettisille, oikeudellisille ja vastuullisille tekoälylle.

Älä missaa viimeisimmät uutiset ja analyysit tekoälystä ja koneoppimisesta – vieraile unite.ai tänään.

Haziqa on Data Scientist, jolla on laaja kokemus teknisen sisällön kirjoittamisesta AI- ja SaaS-yrityksille.