Изкуствен интелект

Отказване от обучение на защитени с авторски права данни от обучен LLM – възможно ли е?

Публикуван

Преди 4 месеца

Януари 23, 2024

Блог Изображение на символи за авторско право

В областите на изкуствения интелект (AI) и машинното обучение (ML) големите езикови модели (LLM) демонстрират както постижения, така и предизвикателства. Обучен на огромни текстови набори от данни, LLM модели капсулират човешкия език и знания.

И все пак способността им да абсорбират и имитират човешкото разбиране представлява правни, етични и технологични предизвикателства. Освен това масивните набори от данни, захранващи LLM, може да съдържат токсични материали, защитени с авторски права текстове, неточности или лични данни.

Да накарате LLMs да забравят избрани данни се превърна в неотложен проблем, за да се гарантира спазването на законите и етичната отговорност.

Нека проучим концепцията да накараме LLM да се отучат от защитени с авторски права данни, за да отговорим на фундаментален въпрос: Възможно ли е?

Защо е необходимо LLM Unlearning?

LLM често съдържат оспорвани данни, включително данни, защитени с авторски права. Наличието на такива данни в LLM поставя правни предизвикателства, свързани с лична информация, пристрастна информация, данни за авторски права и неверни или вредни елементи.

Следователно отучването е от съществено значение, за да се гарантира, че LLM спазват разпоредбите за поверителност и спазват авторско право закони, насърчаващи отговорни и етични LLMs.

Въпреки това извличането на защитено с авторски права съдържание от огромните знания, които тези модели са придобили, е предизвикателство. Ето някои техники за отучаване, които могат да помогнат за справяне с този проблем:

Филтриране на данни: Това включва систематично идентифициране и премахване на защитени с авторски права елементи, шумни или пристрастни данни, от данните за обучение на модела. Филтрирането обаче може да доведе до потенциална загуба на ценна незащитена с авторски права информация по време на процеса на филтриране.
Градиентни методи: Тези методи коригират параметрите на модела въз основа на градиента на функцията за загуба, адресирайки проблема със защитените с авторски права данни в ML моделите. Корекциите обаче могат да повлияят неблагоприятно на цялостната производителност на модела върху данни, които не са защитени с авторски права.
Отучаване в контекст: Тази техника ефективно елиминира влиянието на специфични точки за обучение върху модела чрез актуализиране на неговите параметри, без да засяга несвързаните знания. Въпреки това, методът е изправен пред ограничения за постигане на прецизност отучаване, особено при големи модели, и неговата ефективност изисква допълнителна оценка.

Тези техники са ресурсоемки и времеемки, което ги прави трудни за прилагане.

Казуси

За да разберем значението на отучването на LLM, тези случаи от реалния свят подчертават как компаниите са затрупани с правни предизвикателства относно големи езикови модели (LLM) и защитени с авторски права данни.

Съдебни дела с OpenAI: OpenAI, известна компания за изкуствен интелект, беше засегната от множество съдебни дела над данните за обучение на LLM. Тези съдебни действия поставят под въпрос използването на защитени с авторски права материали в обучението по LLM. Освен това те са задействали запитвания относно механизмите, които моделите използват, за да осигурят разрешение за всяка защитена с авторски права работа, интегрирана в техния процес на обучение.

Дело на Сара Силвърман: - Случаят на Сара Силвърман включва обвинение, че моделът ChatGPT е генерирал резюмета на нейните книги без разрешение. Това правно действие подчертава важните въпроси относно бъдещето на AI и защитените с авторски права данни.

Актуализирането на правните рамки, за да се приведат в съответствие с технологичния прогрес, гарантира отговорно и законно използване на AI модели. Освен това изследователската общност трябва да се справи с тези предизвикателства изчерпателно, за да направи LLM етични и справедливи.

Традиционни LLM техники за отучаване

Преустановяването на LLM е като отделяне на конкретни съставки от сложна рецепта, като се гарантира, че само желаните компоненти допринасят за крайното ястие. Традиционен LLM отучаване техники, като фина настройка с курирани данни и повторно обучение, нямат ясни механизми за премахване на защитени с авторски права данни.

Техният широкообхватен подход често се оказва неефективен и ресурсоемък за сложната задача на селективно отучаване, тъй като те изискват широко преквалификация.

Въпреки че тези традиционни методи могат да коригират параметрите на модела, те се борят да насочат точно защитеното с авторски права съдържание, рискувайки неволна загуба на данни и неоптимално съответствие.

Следователно ограниченията на традиционните техники и стабилните решения изискват експериментиране с алтернативни техники за отучаване.

Нова техника: Отучаване на подмножество от данни за обучение

- Научна статия на Microsoft въвежда новаторска техника за отучаване на защитени с авторски права данни в LLM. Фокусирайки се върху примера на модела Llama2-7b и книгите за Хари Потър, методът включва три основни компонента, за да накара LLM да забрави света на Хари Потър. Тези компоненти включват:

Подсилена идентификация на модела: Създаването на подсилен модел включва фина настройка на целевите данни (напр. Хари Потър), за да се засилят знанията му за съдържанието, което трябва да бъде отучено.
Замяна на идиосинкратични изрази: Уникалните изрази на Хари Потър в целевите данни се заменят с общи, което улеснява по-обобщено разбиране.
Фина настройка на алтернативни прогнози: Базовият модел претърпява фина настройка въз основа на тези алтернативни прогнози. По принцип той ефективно изтрива оригиналния текст от паметта си, когато се сблъска с подходящ контекст.

Въпреки че техниката на Microsoft е в ранен етап и може да има ограничения, тя представлява обещаващ напредък към по-мощни, етични и адаптивни LLMs.

Резултатът от новата техника

Иновативният метод да накарате LLM да забравят защитените с авторски права данни, представени в Научна статия на Microsoft е стъпка към отговорни и етични модели.

Новата техника включва изтриване на свързано с Хари Потър съдържание от модела Llama2-7b на Meta, за който е известно, че е бил обучен върху набора от данни „books3“, съдържащ произведения, защитени с авторски права. Трябва да се отбележи, че оригиналните отговори на модела демонстрираха сложно разбиране на вселената на Дж. К. Роулинг, дори с общи подсказки.

Въпреки това, на Microsoft предложената техника значително трансформира неговите отговори. Ето примери за подкани, показващи забележителните разлики между оригиналния модел Llama2-7b и фино настроената версия.

Източник на изображение

Тази таблица илюстрира, че фино настроените модели за отучаване поддържат ефективността си в различни сравнителни тестове (като Hellaswag, Winogrande, piqa, boolq и arc).

Източник на изображение

Методът за оценка, разчитащ на подкани на модела и последващ анализ на отговора, се оказва ефективен, но може да пренебрегне по-сложни, противопоставящи се методи за извличане на информация.

Въпреки че техниката е обещаваща, необходими са допълнителни изследвания за усъвършенстване и разширяване, особено при справяне с по-широки задачи за отучаване в LLM.

Предизвикателства за нови техники за отучаване

Въпреки че техниката за отучаване на Microsoft е обещаваща, съществуват няколко предизвикателства и ограничения на авторските права на AI.

Основните ограничения и областите за подобряване включват:

Течове на информация за авторски права: Методът може да не намали напълно риска от информация за авторски права изтичане, тъй като моделът може да запази известна информация за целевото съдържание по време на процеса на фина настройка.
Оценка на различни набори от данни: За да се прецени ефективността, техниката трябва да бъде подложена на допълнителна оценка в различни набори от данни, тъй като първоначалният експеримент се фокусира единствено върху книгите за Хари Потър.
скалируемост: Тестването на по-големи набори от данни и по-сложни езикови модели е наложително, за да се оцени приложимостта и адаптивността на техниката в сценарии от реалния свят.

Нарастването на съдебните дела, свързани с ИИ, особено съдебните дела за авторски права, насочени към LLM, подчертава необходимостта от ясни насоки. Обещаващите разработки, като метода на отучаване, предложен от Microsoft, проправят път към етичен, законен и отговорен AI.

Не пропускайте последните новини и анализи в AI и ML – посетете обединявам.ai днес.