Umělá inteligence
Výzkum zjistil, že poškození z jemného vyladění modelu umělé inteligence lze snadno napravit

Naznačuje to nový výzkum z USA doladění model základů AI na vašich vlastních datech nemusí snižovat nebo zhoršovat funkčnost původního modelu – a že relativně jednoduchá oprava může nejen obnovit schopnosti původního modelu, ale ve skutečnosti zlepšit kvalita výstupu, který se snažíte přimět (již vyškolený) model produkovat.

Zvýšení výkonu u různých modelů díky nové kalibraci autorů po tréninku. Další podrobnosti dále v článku. Zdroj: http://export.arxiv.org/pdf/2409.16223
Důsledky pro to jsou významné nejen pro technologické giganty, jejichž pozornost se soustřeďuje na finanční odměny za pronájem generativních systémů „jako službu“, ale také pro rostoucí počet nadšenců „řezače šňůr“, kteří stáhnout a upravit modely s otevřeným zdrojovým kódem, aby mohli přistupovat k personalizovaným systémům pro psaní AI a generování obrázků/videí levněji – a s menšími omezeními.
Autoři článku se nebojí ukázat své nadšení z potenciálu své metody, která zjevně činí významné pokroky v roce 2023. podání Holistický přenos: Směrem k nerušivému jemnému doladění s částečnými cílovými daty (ve spolupráci s mnoha přispěvateli do nového článku).
Uvádějí:
„[Nálezy] jsou povzbudivé a mají hluboké důsledky! Naznačují, že jednoduchá kalibrace po zpracování může potenciálně řešit nižší přesnost vyladěného modelu na nepřítomných třídách, čímž se obnoví schopnost předtrénovaného modelu a zároveň se odhalí zlepšená kvalita funkcí ve všech třídách.'
Brzy se podíváme na nové dílo. Nejprve se podívejme, jaký problém se snaží vyřešit.
Proč to záleží
První vlna rozsáhlého jemného dolaďování nastala hned po vydání Stability.ai's Stabilní difúze text-to-image model v srpnu 2002. První modely, trénované na podmnožině hyperškály LAION datový soubor, byly zpřístupněny ke stažení všem.
Nicméně uživatelé, kteří chtěli vložit konkrétní obsahu (jako je jejich vlastní identita, umělecké styly nebo reprezentace celebrit) do mimořádných generativních kvalit Stable Diffusion bylo nutné obrátit se k technikám, jako je např. stánek snů – extrapolace a Metoda přizpůsobení výzkumu Google, což uživateli umožnilo natrénovat nová data do volně dostupného modelu pomocí jemného ladění.

Příklady uživatelského procesu pro oficiální implementaci DreamBooth od společnosti Google z roku 2022. Uživatel kurátoruje malý výběr obrázků a v textových výzvách z vyladěného modelu si vybere jedinečný název (ten, který Stable Diffusion nemá ve svých tréninkových datech). Zdroj: https://dreambooth.github.io/
Tímto způsobem bylo možné získat kopii modelu, který byl velmi dobrý při vytváření konkrétního člověka nebo vlastní umělecký styl, ale který byl nyní „kompromitováno“ pro obecnější použití.
To znamenalo, že pokud jste chtěli doladit stabilní difúzi tak, aby přesně zobrazovala tři různé lidi, nevyhnutelně jste museli vytvořit tři různé modely, každý kolem 2-4 GB nebo více.
Jakýkoli pokus o doladění těchto modelů vteřina čas by nejenom ještě více snížil celkový výkon modelu, ale nepříznivě by ovlivnil výstup z předchozí relace jemného ladění.
V každém případě by se na internetu brzy rozšířily modely celebrit DreamBooth, které se scházely především na doméně civit.ai. Případně méně náročné metody jako např Adaptace nízkého hodnocení (LoRA) předběhla v popularitě jemné doladění (ačkoli zůstává, zda je výstup LoRA stejně účinný jako úplné jemné doladění diskutabilnía od té doby NVIDIA otevřené zdroje zdánlivě efektivnější přístup tzv Dora).
LoRA spadá do kategorie Parametrově efektivní jemné ladění (PEFT), který ovlivňuje pouze podmnožinu natrénovaných parametrů modelu.
Někteří uživatelé chtěli změnit základní povahu open source Stable Diffusion kontrolních míst, jejich doladěním na mnoha tisících obrázků.
To ve skutečnosti vytvořilo náhradníka základový model, věnované jakékoli doméně, kterou se uživatel pokoušel trénovat (například konkrétní umělecký styl). Pro tento účel byly „odlehčené“ metody, jako je LoRA, pravděpodobně méně účinné, protože závaží potřebného modelu a těžký zaujatost vůči novým tréninkovým datům.
Místní chat
S nedávným nárůstem zájmu o Velké jazykové modely (LLM), uživatelé, kteří se chtějí vyhnout rostoucím prodejnám (a souvisejícím nákladům) služeb založených na rozhraní API, jako je ChatGPT, mají stále více začal stahovat a dolaďovat efektivní modely s otevřeným zdrojovým kódem jako lama 3, mezi mnoha dalšími.
Tady taky, Lze použít LoRA místo doladění celého kontrolního bodu. máme tvrdili dříve že jemné ladění je vynikající metodou pro vytváření LLM, které jsou přizpůsobeny specifickým potřebám uživatele. Ačkoli jemné ladění může mít vyšší hardwarové požadavky a může trvat déle, nabízí hlubší zobecnění nových dat, která uživatel chce, aby model asimiloval.
Problém s doladěním je, že se jedná o destruktivní proces, který nelze později postupně trénovat na dalších datech, jak jsme uvedli výše.
Zjevně se do modelu vkládají rysy a předsudky narušit původní rovnováhu vah v datové sadě, což znamená, že model buď bude s nadměrnou pravděpodobností odrážet data přidaná uživateli, nebo bude přinejmenším fungovat celkově hůře než původní základní model (u úloh, které s novými daty nesouvisejí).
To lze do určité míry napravit tím, že zmrazení určité části modelu během tréninku; ale to může vést ke snížení obecné funkčnosti, protože zamrzlá část architektury se nemusí dobře zobecnit na nově vyladěná data uvnitř modelu latentní prostor.
Bylo by proto opravdu skvělé, kdyby existoval nějaký snazší způsob, jak zachovat původní schopnosti vyladěného modelu a zároveň zachovat schopnost modelu produkovat výstup na základě vyladěných dat.
Takový vývoj by byl přínosem pro celou řadu potenciálních uživatelů, od fandů a prvních osvojitelů využívajících místní LLM a další typy generativních modelů až po úroveň FAANG (kde by bylo možné velmi drahý model umělé inteligence vylepšit iterativně a nedestruktivně, bez multi-milionový výdaj zahájení tréninku znovu s dalšími údaji).
Kalibrace po zpracování
To nás přivádí zpět k nový papír, který se nazývá Jemné ladění je v pořádku, pokud je kalibrovánoa pochází od 11 výzkumníků z Ohio State University, University of Wisconsin Madison a Rensselar Polytechnic Institute.
Výzkumníci se pokoušeli zjistit, co přesně se poškodí v modelu základů, když je doladěn. Došli k závěru, že jediný hlavní rozdíl mezi modelem „před a po“ spočívá v tom, že logitové škály napříč třídami jemného ladění a původními třídami v modelu vykazují velký rozdíl.
Logit links předpovídají pravděpodobnost úspěchu v a logická regrese proces, převádějící odhadované hodnoty (které mohou být velmi přesné) na nulu nebo jedničku.
Autoři nejen zjistili, že tento deficit je téměř náhodně reverzibilní kalibrační technikou, ale že toto post fakt oprava skutečně zlepšuje kvalitu výstupu pro dolaďovací data. Proto s touto technikou získáte nejen původní schopnosti modelu základů, ale získáte lepší integraci vlastních vyladěných dat.
(Přestože článek nezkoumá vyhlídky, tato technika znamená, že model lze několikrát doladit a zůstat účinný)
Autoři diskutují o svých zjištěních při vyšetřování poškození modelu po jemném doladění:
„K našemu překvapení jsme zjistili, že vyladěný model ani nezapomíná na vztah mezi ostatními třídami, ani nedegraduje vlastnosti, aby tyto třídy rozpoznával.
„Namísto toho jemně vyladěný model často vytváří pro tyto další třídy rozlišovací vlastnosti, i když při jemném dolaďování chyběly!
„[Co] skutečně bolí na přesnosti, jsou rozdílné logitové stupnice mezi třídami jemného doladění a ostatními [třídami], což znamená, že jednoduchá kalibrace po zpracování by vrátila schopnosti předem trénovaného modelu a zároveň odhalila vylepšení funkcí ve všech třídách.'
Autoři učinili výsledky svých testů pro tuto teorii reprodukovatelnými v a Úložiště GitHub.
Zjistili, že při vyšetřování byla jediná část architektury základního modelu, která je poškozena při jemném ladění, binární klasifikátor, což nesprávně klasifikuje třídy, které jsou nepřítomný v původním modelu jako třídy jemného doladění.
V novinách se píše *:
'[Přidáním kalibračního faktoru zkreslení ke všem logitům nepřítomných tříd [4, 40 ], vyladěný model může úspěšně získat zpět chybějící přesnost třídy a získat slušné celkové zlepšení v downstreamu [doména].
„Výsledný výkon dokonce překonává silnou základní linii [Holistický přenos – papír, na kterém tento dokument staví ] v mnoha benchmarkech, včetně ImageNet a jeho variant [IMAGEnet, ImageNet-R(konec), ImageNet-S (ketch) ], Office-Home, a VTAB, bez složitého tréninku a nastavování hyperparametrů.'

Výsledky článku: vyladěný model, na kterém byla provedena postprocessingová kalibrace, může, jak uvádějí autoři, překonat současný přístup k problému.
Autoři klasifikují zlepšený výkon postkalibrovaného jemně vyladěného modelu jako „neočekávané benigní chování“ a pozorují, že když základní Stochastický gradientní sestup (SGD) optimalizátorem, je dosaženo lepšího výsledku než s populárnějšími současnými optimalizátory, jako je např Adam.
'Stále,' berou na vědomí "S dostatečně menšími rychlostmi učení a úbytkem hmotnosti se benigní chování projeví a udrží."
Drobné opravy
Pro opravu logitových nesrovnalostí vyplývajících z jemného ladění si autoři vypůjčili a technika od učení s nulovým výstřelem, přidáním konstantního faktoru k logitům všech nepřítomných tříd. Výsledkem je nové klasifikační pravidlo.
Autoři poznamenávají, že tento proces „povyšuje“ opomíjené chybějící třídy na stejnou kvalitu predikce jako u jemně vyladěných tříd, obnovuje původní výkon a zlepšuje výkon „přidaných“ dat v době odvození.

V testech obnovila postkalibrační technika výkon různých jemně vyladěných modelů. „Oracle“ uvedený v tabulce odkazuje na vyladěný klasifikátor, který také bere v úvahu chybějící data třídy.
Dále poznamenávají, že kalibrace po zpracování je „potenciálně použitelná na jakýkoli model“ a že metody, které se snaží zachovat integritu základního modelu zmrazením vrstev (jako je klasifikátor a páteř), dosahují ve srovnání s jejich vlastním navrhovaným přístupem špatně. .
Proč investovat do čističky vzduchu?
Výsledky této spolupráce se zdají být významné. Trénink modelu umělé inteligence na hyperscale datasetu je obrovský závazek, analogický ke startu osobního letadla. I když lze trénink přerušit a případné poškození zmírnit pravidelným ukládáním aktuálních závaží (za značných nákladů na skladování), aby bylo možné trénink přerušit, lze jen relativně málo udělat, aby se výsledek po spuštění změnil.
Na práci je působivé, že se zdá, že výzkumníci objevili základní princip v obecném modelovém tréninku AI a že jejich řešení je překvapivě elegantní.
Významné jsou také ekonomické důsledky schopnosti zachovat přesnost modelu základů po jemném doladění. Doposud bylo nejběžnější metodou řešení nedostatků mnohamilionových modelů filtrování výstupu v čase inference nebo řízení inference, aby se zabránilo jakékoli Achillově patě patrné v modelu.
Navíc by taková technika mohla teoreticky přinést významná zlepšení schopností vyladěných generativních modelů na spotřebitelské úrovni s bonusem ve zvýšení kvality výstupu.
* Můj převod inline citací autorů na hypertextové odkazy.
Poprvé zveřejněno v úterý 1. října 2024