Kunstmatige intelligentie
Het onthouden van gecopyreerde gegevens uit een getrainde LLM – Is het mogelijk?

In de domeinen van kunstmatige intelligentie (AI) en machine learning (ML) laten grote taalmodellen (LLM’s) zowel prestaties als uitdagingen zien. Getraind op uitgebreide tekstdatasets, LLM-modellen omvatten menselijke taal en kennis.
Yet hun vermogen om menselijk begrip te absorberen en na te bootsen, presenteert juridische, ethische en technologische uitdagingen. Bovendien kunnen de enorme datasets die LLM’s aandrijven, giftig materiaal, gecopyreerde teksten, onnauwkeurigheden of persoonlijke gegevens bevatten.
Het laten vergeten van geselecteerde gegevens door LLM’s is een dringende kwestie geworden om juridische naleving en ethische verantwoordelijkheid te garanderen.
Laten we het concept van het laten vergeten van gecopyreerde gegevens door LLM’s onderzoeken om een fundamentele vraag te beantwoorden: Is het mogelijk?
Waarom is LLM-onthouden nodig?
LLM’s bevatten vaak betwiste gegevens, waaronder gecopyreerde gegevens. Het hebben van dergelijke gegevens in LLM’s levert juridische uitdagingen op met betrekking tot privé-informatie, bevooroordeelde informatie, gecopyreerde gegevens en valse of schadelijke elementen.
Hierdoor is onthouden essentieel om te garanderen dat LLM’s voldoen aan privacyregels en voldoen aan auteursrecht wetten, waardoor verantwoordelijke en ethische LLM’s worden bevorderd.

Echter, het extraheren van gecopyreerde inhoud uit de enorme kennis die deze modellen hebben verworven, is een uitdaging. Hier zijn enkele onthoudtechnieken die kunnen helpen bij het aanpakken van dit probleem:
- Gegevensfiltering: Het omvat systematisch identificeren en verwijderen van gecopyreerde elementen, lawaaierige of bevooroordeelde gegevens, uit de trainingsgegevens van het model. Echter, filtering kan leiden tot het potentieel verlies van waardevolle niet-gecopyreerde informatie tijdens het filterproces.
- Gradiëntmethoden: Deze methoden passen de parameters van het model aan op basis van de gradiënt van de verliesfunctie, waarmee het probleem van gecopyreerde gegevens in ML-modellen wordt aangepakt. Echter, aanpassingen kunnen nadelig zijn voor de algehele prestaties van het model op niet-gecopyreerde gegevens.
- In-context onthouden: Deze techniek elimineert efficiënt de invloed van specifieke trainingspunten op het model door zijn parameters bij te werken zonder ongerelateerde kennis te beïnvloeden. Echter, de methode heeft beperkingen in het bereiken van precies onthouden, vooral bij grote modellen, en zijn effectiviteit vereist verdere evaluatie.
Deze technieken zijn hulpbronnen-intensief en tijdrovend, waardoor ze moeilijk te implementeren zijn.
Case Studies
Om de belangrijkheid van LLM-onthouden te begrijpen, benadrukken deze real-world cases hoe bedrijven worden geconfronteerd met juridische uitdagingen met betrekking tot grote taalmodellen (LLM’s) en gecopyreerde gegevens.
OpenAI-rechtszaken: OpenAI, een toonaangevend AI-bedrijf, is getroffen door meerdere rechtszaken over de trainingsgegevens van LLM’s. Deze juridische acties betwisten het gebruik van gecopyreerde materiaal in LLM-training. Bovendien hebben ze vragen opgeroepen over de mechanismen die modellen gebruiken om toestemming te verkrijgen voor elk gecopyreerd werk dat in hun trainingsproces is geïntegreerd.
Sarah Silverman-rechtszaak: De Sarah Silverman-zaak betreft een aantijging dat het ChatGPT-model samenvattingen van haar boeken heeft gegenereerd zonder toestemming. Deze juridische actie benadrukt de belangrijke kwesties met betrekking tot de toekomst van AI en gecopyreerde gegevens.
Het bijwerken van juridische kaders om ze in overeenstemming te brengen met technologische vooruitgang, waarborgt het verantwoorde en juridische gebruik van AI-modellen. Bovendien moet de onderzoekscommunity deze uitdagingen omvattend aanpakken om LLM’s ethisch en eerlijk te maken.
Traditionele LLM-onthoudtechnieken
LLM-onthouden is als het scheiden van specifieke ingrediënten uit een complex recept, waarbij alleen de gewenste componenten bijdragen aan het eindproduct. Traditionele LLM-onthoudtechnieken, zoals fine-tuning met gecureerde gegevens en opnieuw trainen, ontbreken eenvoudige mechanismen voor het verwijderen van gecopyreerde gegevens.
Hun brede aanpak blijkt vaak inefficiënt en hulpbronnen-intensief voor de geavanceerde taak van selectief onthouden, aangezien ze uitgebreide opnieuw training vereisen.
Terwijl deze traditionele methoden de parameters van het model kunnen aanpassen, hebben ze moeite om precies gecopyreerde inhoud te richten, waardoor onbedoeld gegevensverlies en suboptimale naleving ontstaat.
Dientengevolge vereisen de beperkingen van traditionele technieken en robuuste oplossingen experimenten met alternatieve onthoudtechnieken.
Nieuwe techniek: Onthouden van een subset van trainingsgegevens
Het Microsoft-onderzoeksrapport introduceert een baanbrekende techniek voor het onthouden van gecopyreerde gegevens in LLM’s. Met als voorbeeld de Llama2-7b-model en Harry Potter-boeken, omvat de methode drie kerncomponenten om LLM te laten vergeten de wereld van Harry Potter. Deze componenten omvatten:
- Versterkte modelidentificatie: Het creëren van een versterkt model omvat het fijn afstemmen van doelgegevens (bijv. Harry Potter) om zijn kennis van de inhoud die moet worden onthouden te versterken.
- Vervangen van idiosyncratische uitdrukkingen: Unieke Harry Potter-uitdrukkingen in de doelgegevens worden vervangen door generieke uitdrukkingen, waardoor een meer gegeneraliseerde begrip wordt gefaciliteerd.
- Fine-tuning op alternatieve voorspellingen: Het basismodel ondergaat fine-tuning op basis van deze alternatieve voorspellingen. Feitelijk, het wisjt effectief de oorspronkelijke tekst uit zijn geheugen wanneer het wordt geconfronteerd met relevante context.
Hoewel de Microsoft-techniek in een vroeg stadium is en beperkingen kan hebben, vertegenwoordigt het een veelbelovende vooruitgang naar krachtigere, ethischere en aanpasbare LLM’s.
De uitkomst van de nieuwe techniek
De innovatieve methode om LLM’s te laten vergeten gecopyreerde gegevens, zoals gepresenteerd in het Microsoft-onderzoeksrapport, is een stap naar verantwoorde en ethische modellen.
De nieuwe techniek omvat het wissen van Harry Potter-gerelateerde inhoud uit Meta’s Llama2-7b-model, dat bekend staat als getraind op de “books3”-dataset die gecopyreerde werken bevat. Opvallend, toonde het model oorspronkelijke antwoorden een ingewikkeld begrip van J.K. Rowling’s universum, zelfs met generieke prompts.
Echter, Microsoft’s voorgestelde techniek transformeerde zijn antwoorden aanzienlijk. Hier zijn voorbeelden van prompts die de opvallende verschillen tussen het oorspronkelijke Llama2-7b-model en de fijn afgestemde versie laten zien.

Deze tabel illustreert dat de fijn afgestemde onthoudmodellen hun prestaties behouden over verschillende benchmarks (zoals Hellaswag, Winogrande, piqa, boolq en arc).

De evaluatiemethode, die afhankelijk is van modelprompts en daaropvolgende responsanalyse, blijkt effectief, maar kan meer ingewikkelde, vijandige informatie-extractiemethoden missen.
Hoewel de techniek veelbelovend is, is verdere onderzoek vereist voor verfijning en uitbreiding, met name bij het aanpakken van bredere onthoudtaken binnen LLM’s.
Nieuwe onthoudtechniek-uitdagingen
Hoewel Microsoft’s onthoudtechniek veelbelovend is, bestaan er verschillende AI-auteursrechtuitdagingen en beperkingen.
Sleutelbeperkingen en verbeteringsgebieden omvatten:
- Lekken van auteursrechtinformatie: De methode kan de risico’s van auteursrechtinformatie lekken niet geheel mitigeren, aangezien het model enige kennis van de doelinhoud kan behouden tijdens het fine-tunen.
- Evaluatie van diverse datasets: Om de effectiviteit te meten, moet de techniek worden geëvalueerd over diverse datasets, aangezien het initiële experiment zich alleen richtte op de Harry Potter-boeken.
- Schaalbaarheid: Testen op grotere datasets en meer complexe taalmodellen is essentieel om de toepasbaarheid en aanpasbaarheid van de techniek in real-world scenario’s te beoordelen.
De toename in AI-gerelateerde rechtszaken, met name auteursrechtzaken die LLM’s betreffen, benadrukt de noodzaak van duidelijke richtlijnen. Belovende ontwikkelingen, zoals de onthoudmethode voorgesteld door Microsoft, banen een weg naar ethische, juridische en verantwoorde AI.
Miss geen van de laatste nieuws en analyses in AI en ML – bezoek unite.ai vandaag.












