Artificial Intelligence

Het afleren van auteursrechtelijk beschermde gegevens van een getrainde LLM – is het mogelijk?

gepubliceerd

4 maanden geleden

23 januari 2024

Op het gebied van kunstmatige intelligentie (AI) en machinaal leren (ML) laten grote taalmodellen (LLM's) zowel prestaties als uitdagingen zien. Getraind op grote tekstuele datasets, LLM-modellen menselijke taal en kennis inkapselen.

Toch brengt hun vermogen om menselijk begrip te absorberen en na te bootsen juridische, ethische en technologische uitdagingen met zich mee. Bovendien kunnen de enorme datasets die LLM's aandrijven giftig materiaal, auteursrechtelijk beschermde teksten, onnauwkeurigheden of persoonlijke gegevens bevatten.

Het is een dringende kwestie geworden om LLM's geselecteerde gegevens te laten vergeten om wettelijke naleving en ethische verantwoordelijkheid te garanderen.

Laten we eens kijken naar het concept om LLM's auteursrechtelijk beschermde gegevens te laten afleren om een fundamentele vraag te beantwoorden: is het mogelijk?

Waarom is LLM afleren nodig?

LLM's bevatten vaak betwiste gegevens, waaronder auteursrechtelijk beschermde gegevens. Het hebben van dergelijke gegevens in LLM's brengt juridische uitdagingen met zich mee met betrekking tot privé-informatie, bevooroordeelde informatie, auteursrechtelijke gegevens en valse of schadelijke elementen.

Daarom is afleren essentieel om te garanderen dat LLM’s zich aan de privacyregelgeving houden en naleven auteursrecht wetten, het bevorderen van verantwoordelijke en ethische LLM's.

Het is echter een uitdaging om auteursrechtelijk beschermde inhoud te extraheren uit de enorme kennis die deze modellen hebben verworven. Hier zijn enkele afleertechnieken die kunnen helpen dit probleem aan te pakken:

Gegevens filteren: Het omvat het systematisch identificeren en verwijderen van auteursrechtelijk beschermde elementen, luidruchtige of bevooroordeelde gegevens, uit de trainingsgegevens van het model. Filteren kan echter leiden tot het potentiële verlies van waardevolle, niet-auteursrechtelijk beschermde informatie tijdens het filterproces.
Verloopmethoden: Deze methoden passen de parameters van het model aan op basis van de gradiënt van de verliesfunctie, waardoor het auteursrechtelijk beschermde gegevensprobleem in ML-modellen wordt aangepakt. Aanpassingen kunnen echter een negatieve invloed hebben op de algehele prestaties van het model op niet-auteursrechtelijk beschermde gegevens.
In-context afleren: Deze techniek elimineert op efficiënte wijze de impact van specifieke trainingspunten op het model door de parameters ervan bij te werken zonder de niet-gerelateerde kennis te beïnvloeden. De methode heeft echter te maken met beperkingen bij het bereiken van nauwkeurigheid ontleren, vooral bij grote modellen, en de effectiviteit ervan vereist verdere evaluatie.

Deze technieken zijn arbeidsintensief en tijdrovend, waardoor ze moeilijk te implementeren zijn.

Casestudies

Om de betekenis van het afleren van LLM te begrijpen, benadrukken deze praktijkvoorbeelden hoe bedrijven wemelen van juridische uitdagingen met betrekking tot grote taalmodellen (LLM's) en auteursrechtelijk beschermde gegevens.

OpenAI-rechtszaken: OpenAI, een vooraanstaand AI-bedrijf, is door velen getroffen rechtszaken via de trainingsgegevens van LLM's. Deze juridische acties stellen het gebruik van auteursrechtelijk beschermd materiaal in LLM-training in vraag. Ook hebben ze onderzoek gedaan naar de mechanismen die modellen gebruiken om toestemming te verkrijgen voor elk auteursrechtelijk beschermd werk dat in hun trainingsproces is geïntegreerd.

Sarah Silverman-rechtszaak: De Sarah Silverman-zaak betreft een bewering dat het ChatGPT-model zonder toestemming samenvattingen van haar boeken genereerde. Deze juridische actie onderstreept de belangrijke kwesties met betrekking tot de toekomst van AI en auteursrechtelijk beschermde gegevens.

Het actualiseren van wettelijke kaders om deze aan te passen aan de technologische vooruitgang zorgt voor een verantwoord en legaal gebruik van AI-modellen. Bovendien moet de onderzoeksgemeenschap deze uitdagingen alomvattend aanpakken om LLM's ethisch en eerlijk te maken.

Traditionele LLM-technieken voor het afleren

LLM afleren is als het scheiden van specifieke ingrediënten uit een complex recept, waarbij ervoor wordt gezorgd dat alleen de gewenste componenten bijdragen aan het uiteindelijke gerecht. Traditioneel LLM afleren Bij technieken, zoals het verfijnen van gecureerde data en het opnieuw trainen, ontbreken eenvoudige mechanismen voor het verwijderen van auteursrechtelijk beschermde data.

Hun brede aanpak blijkt vaak inefficiënt en arbeidsintensief voor de geavanceerde taak van het selectief afleren, omdat ze uitgebreide herscholing vereisen.

Hoewel deze traditionele methoden de parameters van het model kunnen aanpassen, hebben ze moeite om auteursrechtelijk beschermde inhoud nauwkeurig te targeten, waardoor het risico bestaat op onbedoeld gegevensverlies en suboptimale naleving.

Bijgevolg vereisen de beperkingen van traditionele technieken en robuuste oplossingen dat er wordt geëxperimenteerd met alternatieve afleertechnieken.

Nieuwe techniek: het afleren van een subset van trainingsgegevens

De Onderzoekspaper van Microsoft introduceert een baanbrekende techniek voor het afleren van auteursrechtelijk beschermde gegevens in LLM's. De methode concentreert zich op het voorbeeld van het Llama2-7b-model en de Harry Potter-boeken en omvat drie kerncomponenten om LLM de wereld van Harry Potter te laten vergeten. Deze componenten omvatten:

Versterkte modelidentificatie: Het creëren van een versterkt model impliceert het verfijnen van doelgegevens (bijvoorbeeld Harry Potter) om de kennis van de af te leren inhoud te versterken.
Eigenzinnige uitdrukkingen vervangen: Unieke Harry Potter-uitdrukkingen in de doelgegevens worden vervangen door generieke uitdrukkingen, waardoor een meer algemeen begrip wordt vergemakkelijkt.
Verfijning van alternatieve voorspellingen: Het basismodel wordt verfijnd op basis van deze alternatieve voorspellingen. Kortom, het verwijdert effectief de originele tekst uit zijn geheugen wanneer het wordt geconfronteerd met relevante context.

Hoewel de Microsoft-techniek zich nog in de beginfase bevindt en mogelijk beperkingen kent, vertegenwoordigt deze een veelbelovende vooruitgang in de richting van krachtigere, ethischere en aanpasbare LLM's.

Het resultaat van de nieuwe techniek

De innovatieve methode om LLM's auteursrechtelijk beschermde gegevens te laten vergeten die worden gepresenteerd in de Onderzoekspaper van Microsoft is een stap in de richting van verantwoorde en ethische modellen.

De nieuwe techniek omvat het verwijderen van Harry Potter-gerelateerde inhoud uit Meta's Llama2-7b-model, waarvan bekend is dat het is getraind op de 'books3'-dataset met auteursrechtelijk beschermde werken. Opvallend is dat de oorspronkelijke reacties van het model blijk gaven van een ingewikkeld begrip van het universum van JK Rowling, zelfs met algemene aanwijzingen.

Echter, Microsoft's De voorgestelde techniek transformeerde de reacties aanzienlijk. Hier zijn voorbeelden van aanwijzingen die de opmerkelijke verschillen laten zien tussen het originele Llama2-7b-model en de verfijnde versie.

Beeldbron

Deze tabel illustreert dat de verfijnde afleermodellen hun prestaties behouden in verschillende benchmarks (zoals Hellaswag, Winogrande, piqa, boolq en arc).

Beeldbron

De evaluatiemethode, gebaseerd op modelprompts en daaropvolgende responsanalyse, blijkt effectief, maar kan ingewikkeldere, vijandige informatie-extractiemethoden over het hoofd zien.

Hoewel de techniek veelbelovend is, is verder onderzoek nodig voor verfijning en uitbreiding, vooral bij het aanpakken van bredere afleertaken binnen LLM's.

Nieuwe uitdagingen op het gebied van het afleren van technieken

Hoewel de afleertechniek van Microsoft veelbelovend is, bestaan er verschillende uitdagingen en beperkingen op het gebied van AI-auteursrecht.

De belangrijkste beperkingen en gebieden voor verbetering omvatten:

Lekken van copyrightinformatie: Het is mogelijk dat de methode het risico niet volledig verkleint informatie over copyright lekken, omdat het model mogelijk enige kennis over de doelinhoud behoudt tijdens het verfijningsproces.
Evaluatie van verschillende datasets: Om de effectiviteit te meten, moet de techniek aanvullende evaluatie ondergaan over verschillende datasets heen, aangezien het eerste experiment zich uitsluitend op de Harry Potter-boeken concentreerde.
schaalbaarheid: Testen op grotere datasets en ingewikkeldere taalmodellen is absoluut noodzakelijk om de toepasbaarheid en het aanpassingsvermogen van de techniek in reële scenario's te beoordelen.

De toename van het aantal AI-gerelateerde rechtszaken, met name auteursrechtzaken tegen LLM’s, onderstreept de noodzaak van duidelijke richtlijnen. Veelbelovende ontwikkelingen, zoals de door Microsoft voorgestelde afleermethode, effenen de weg naar ethische, juridische en verantwoorde AI.

Mis het laatste nieuws en analyses op het gebied van AI en ML niet – bezoek verenigen.ai <p></p>