Tekoäly
Vahingot AI-mallin hienosäätössä voidaan helposti korjata, tutkimus osoittaa

Uusi tutkimus Yhdysvalloista osoittaa, että hienosäätö AI-perusmallia omilla tiedoilla ei välttämättä tarvitse heikentää tai vahingoittaa alkuperäisen mallin toiminnallisuutta – ja että suhteellisen yksinkertainen korjaus voi paitsi palauttaa alkuperäisen mallin kyvyt, myös parantaa ulostulon laadun, jonka yrität saada (jo valmiiksi koulutetusta) mallista tuottamaan.

Suorituskyvyn parannukset monilla malleilla tutkijoiden uuden jälkikoulutuskalibroinnin kanssa. Lisätietoja myöhemmin artikkelissa. Lähde: http://export.arxiv.org/pdf/2409.16223
Tämän vaikutukset ovat merkittäviä, ei vain teknologiajätteille, joiden huomio kiinnittyy rahallisiin palkkioihin generatiivisten järjestelmien vuokraamisesta “palveluna”, vaan myös kasvavalle määrälle “kaapelia katkaisijoita”, jotka lataavat ja mukauttavat avoimen lähdekoodin malleja, jotta he voivat päästä henkilökohtaisiin AI-kirjoitus- ja kuva/video-generaattorijärjestelmiin edullisemmin – ja vähemmän rajoituksin.
Tutkimuksen tekijät eivät pelkää osoittaa innostustaan menetelmänsä potentiaalille, joka näyttää tekevän merkittäviä edistysaskelia vuoden 2023 julkaisuun Holistic Transfer: Towards Non-Disruptive Fine-Tuning with Partial Target Data (johon useat tutkijat osallistuivat).
He toteavat:
‘Tulokset ovat rohkaisevia ja niillä on syvät vaikutukset! Ne osoittavat, että yksinkertainen jälkikäsittelykalibrointi voi mahdollisesti korjata hienosäätömallin heikomman tarkin ja palauttaa alkuperäisen esikoulutetun mallin kyvyt, samalla paljastaen parannetun piirteiden laadun kaikissa luokissa.’
Katsotaan uutta tutkimusta pian. Ensinnäkin, katsotaan, minkä ongelman se pyrkii ratkaisemaan.
Miksi se on tärkeää
Ensimmäinen aalto laajaa hienosäätöä tapahtui Stable Diffusion -teksti-kuvamallin julkaisun jälkeen elokuussa 2002. Varhaiset mallit, jotka oli koulutettu osaan LAION -tietokantaa, olivat kaikkien ladattavissa.
Kuitenkin, käyttäjät, jotka halusivat lisätä tietyt sisällöt (kuten omat identiteetit, taidetyylit tai julkimojen edustajat) Stable Diffusionin poikkeuksellisiin generatiivisiin ominaisuuksiin, joutuivat turvautumaan tekniikoihin, kuten DreamBoothiin – joka on Google Researchin mukauttamismenetelmän laajennus, joka salli käyttäjän kouluttaa uusia tietoja vapaasti saatavilla olevaan malliin hienosäätämällä.

Käyttäjän prosessin esimerkkejä Googlen virallisesta DreamBooth-toteutuksesta vuodelta 2022. Käyttäjä kokoaa pienen valikoiman kuvia ja valitsee yksilöivän nimen (jota Stable Diffusionilla ei ole koulutusdatasta) tekstiprompteissa hienosäätömallista. Lähde: https://dreambooth.github.io/
Tällä tavoin oli mahdollista saada kopio mallista, joka oli erittäin hyvä luomaan tietyn henkilön tai mukautetun taidetyylin, mutta joka oli nyt ‘heikentynyt’ yleisemmässä käytössä.
Tämä tarkoitti, että jos halusit hienosäätää Stable Diffusionia, jotta se voisi tarkasti kuvata kolmea eri henkilöä, jouduit välttämättä luomaan kolme eri mallia, kunkin noin 2-4 GB, tai enemmän.
Mikä tahansa yritys hienosäätää näitä malleja toistamiseen heikentäisi mallin yleistä suorituskykyä entisestään ja vaikuttaisi myös aiemman hienosäätöistunnon tuloksiin.
Joka tapauksessa, julkkis-DreamBooth-mallit levisivät pian internetiin, kokoontuen pääasiassa civit.ai-verkkotunnukseen. Myöhemmin vähemmän raskassoutuinen menetelmät, kuten Low-Rank Adaptation (LoRA), ohittivat hienosäätämisen suosiossa (vaikka on kiistelty, onko LoRA-tulos yhtä tehokas kuin täysi hienosäätö, ja NVIDIA on myöhemmin julkaisnut ilmeisesti tehokkaamman lähestymistavan nimeltä DoRA).
LoRA kuuluu Parameter-Efficient Fine-Tuning (PEFT) -luokkaan, joka vaikuttaa vain osaan mallin koulutetuista parametreista.
Jotkut käyttäjät halusivat muuttaa avoimen lähdekoodin Stable Diffusion tarkistuspisteiden perustavaa luonnetta hienosäätämällä niitä tuhansilla kuvilla.
Tämä tuotti käytännössä vaihtoehtoisen perusmallin, joka oli omistettu sille alueelle, jota käyttäjä yritti kouluttaa (kuten tietyn taidetyylin). Tämän tarkoituksen vuoksi “kevyet” menetelmät, kuten LoRA, olisivat todennäköisesti vähemmän tehokkaita, koska mallin painot tarvitsivat vakavaa vinoumaa uusien koulutusdataa kohtaan.
Paikallinen keskustelu
Viimeaikaisen suurten kielen mallien (LLM) kiinnostuksen kasvun myötä, käyttäjät, jotka haluavat välttää kasvavia kanavia (ja niihin liittyviä kustannuksia) API-pohjaisille palveluille, kuten ChatGPT, ovat yhä useammin lataaneet ja hienosäätäneet tehokkaita avoimen lähdekoodin malleja kuten Llama 3, monien muiden joukossa.
Myös tässä, LoRA voidaan käyttää hienosäätämisen sijaan. Olemme väittäneet aiemmin, että hienosäätö on parempi menetelmä LLM-mallien tuottamiseksi, jotka on mukautettu käyttäjän tarpeisiin. Vaikka hienosäätö voi vaatia suurempia laitteistovaatimuksia ja kestää kauemmin, se tarjoaa syvemmän yleistymisen uusille dataille, joita käyttäjä haluaa mallin omaksuvan.
Hienosäätämisen ongelma on, että se on tuhova prosessi, jota ei voida kouluttaa lisää dataa myöhemmin, kuten mainittiin aiemmin.
Piirteet ja vinoumat, jotka injektoidaan malliin, näyttävät häiritsevän alkuperäisen painotusbalanssin datassa, mikä tarkoittaa, että malli on joko liian todennäköisesti heijastamaan käyttäjän tarjoamaa dataa tai suorittaa huonommin yleisesti verrattuna alkuperäiseen perusmalliin (tehtävissä, jotka eivät liity uusiin tietoihin).
Tätä voidaan korjata tiettyyn asti jäädyttämällä tiettyjä osia mallista koulutuksen aikana; mutta tämä voi johtaa vähennetyksiin yleisessä toiminnallisuudessa, koska jäädytetty osa arkkitehtuurista saattaa ei yleisty hyvin uusille hienosäätödataan mallin latenttiavaruudessa.
Olisi siis erittäin hyvä, jos olisi helpompi tapa säilyttää hienosäätömallin alkuperäiset kyvyt, samalla säilyttäen mallin kyky tuottaa ulostuloa hienosäätödatasta.
Tällainen kehitys olisi hyödyllinen kaikenlaisille potentiaalisille käyttäjille, harrastajista ja varhaisista omaksujista, jotka käyttävät paikallisia LLM- ja muita generatiivisia malleja, aina FAANG-tasolle (jossa erittäin kallinen AI-malli voisi parantaa iteratiivisesti ja tuhoutumattomasti ilman useiden miljoonien dollarien koulutuskustannuksia).
Jälkikäsittelykalibrointi
Tämä tuo meidät takaisin uuteen tutkimukseen, joka on nimeltään Hienosäätö on ok, jos kalibroitu, ja se tulee 11 tutkijalta Ohio State Universitysta, Wisconsinin yliopistosta Madisonissa ja Rensselaer Polytechnic Institutesta.
Tutkijat yrittivät selvittää, mitä vahinkoa perusmalliin tulee, kun se hienosäätetään. He ovat päättäneet, että ainoa suuri ero “ennen ja jälkeen” -mallissa on, että logit-asteikot hienosäätöluokissa ja alkuperäisissä luokissa mallissa osoittavat suuren epäsymmetrian.
Logiikkayhteydet ennustavat onnistumisen todennäköisyyden lokaaliregressioprosessissa, muuttaen arvioidut arvot (joita voi olla hyvin tarkka) nollaksi tai ykköseksi.
Tekijät havaitsivat, että tämä puute on melkein tahattomasti palautettavissa kalibrointitekniikalla, ja että tämä post facto -korjaus parantaa itse asiassa hienosäätödataa ulostulon laatua. Siis, tämän tekniikan avulla saat sekä alkuperäisen perusmallin kyvyt, että paremman integraation omista hienosäätödatasta.
(Vaikka tutkimus ei tarkastele mahdollisuutta, tämä tekniikka viittaa siihen, että malli voidaan hienosäätää useita kertoja ja säilyttää tehokkuutensa)
Keskustellessaan havainnoistaan mallivahinkojen jälkeen hienosäätössä, tekijät toteavat:
‘Havainnot ovat rohkaisevia ja niillä on syvät vaikutukset! Ne osoittavat, että yksinkertainen jälkikäsittelykalibrointi voi mahdollisesti korjata hienosäätömallin heikomman tarkin ja palauttaa alkuperäisen esikoulutetun mallin kyvyt, samalla paljastaen parannetun piirteiden laadun kaikissa luokissa.’
‘Toisin sanoen, hienosäätömalli ei unohda suhdetta muiden luokkien välillä eikä heikennä piirteitä tunnistaa nämä luokat. Sen sijaan hienosäätömalli usein tuottaa enemmän erottuvia piirteitä näille muille luokille, vaikka ne puuttuvat hienosäätössä! ‘
‘[Mikä] todella vahingoittaa tarkin on logit-asteikkojen epäsymmetria hienosäätöluokkien ja muiden luokkien välillä, mikä viittaa siihen, että yksinkertainen jälkikäsittelykalibrointi voisi palauttaa alkuperäisen esikoulutetun mallin kyvyt ja samalla paljastaa parannetun piirteiden laadun kaikissa luokissa.’
Tekijät ovat tehneet tutkimustuloksensa toistettaviksi GitHub-repositoriossa.
He havaitsivat, että tutkimuksessa perusmallin arkkitehtuurin ainoa vahingoittunut osa on binääri-luokittelija, joka luokittelua puuttuvia luokkia alkuperäisessä mallissa hienosäätöluokkina.
Tutkimus toteaa*:
‘[Lisäämällä] kalibrointivakiofaktoria kaikkiin puuttuvien luokkien logiteille [4, 40], hienosäätömalli voi onnistuneesti palauttaa puuttuvien luokkien tarkin ja saavuttaa kohtuullisen yleisen parannuksen alihankintaprosessissa.
‘Tuloksena oleva suorituskyky voi jopa ylittää vahvan vertailuarvon [Holistic Transfer – tutkimus, jolle tämä tutkimus perustuu] useissa benchmarkkeja, mukaan lukien ImageNet ja sen variantit [ImageNet, ImageNet-R(endition), ImageNet-S(ketch)], Office-Home ja VTAB, ilman monimutkaisia koulutus- ja hyperparametrisäätöjä.’

Tutkimuksen tulokset: hienosäätömalli, jolle on tehty jälkikäsittelykalibrointi, voi ylittää tutkijoiden mukaan alan parhaan lähestymistavan ongelmaan.
Tekijät luokittelevat parannetun suorituskyvyn hienosäätömallissa, jolle on tehty jälkikäsittelykalibrointi, “odottamattomaksi myönteiseksi käyttäytymiseksi” ja huomaavat, että kun perus Stokastinen Gradient Descent (SGD) -optimoija käytetään, saadaan parempi tulos kuin nykyään suositummilla optimoijilla, kuten Adam.
‘Silti,’ he huomaavat ‘pienillä oppimisnopeuksilla ja painojen heittämisellä myönteiset käyttäytymiset ilmestyvät ja säilyvät.’
Pienet korjaukset
Jälkikäsittelykalibroinnin tuloksena syntyneiden logit-epäsymmetrioiden korjaamiseksi tekijät lainasivat tekniikan tekniikan nollauslaukaisusta oppimisesta, lisäämällä vakion logiteille kaikille puuttuville luokille. Tämä johtaa uuteen luokittelusääntöön.
Tekijät toteavat, että tämä prosessi “edistää” laiminlyötyjä puuttuvia luokkia samaan ennustuslaatuun kuin hienosäätöluokat, palauttaen alkuperäisen suorituskyvyn ja parantaen “lisätyn” datan suorituskykyä johtopäätöksenteon aikana.

Testeissä jälkikalibrointitekniikka palautti suorituskyvyn moniin hienosäätömalliin. ‘Oracle’ taulukossa viittaa hienosäätöluokittelijaan, joka ottaa huomioon myös puuttuvat luokkatiedot.
He huomaavat, että jälkikäsittelykalibrointi on “potentiaalisesti sovellettavissa mihin tahansa malliin”, ja että menetelmät, jotka pyrkivät ylläpitämään perusmallin eheysä luokkien (kuten luokittelijan ja rungon) jäädyttämisen kautta, saavuttavat heidän ehdottamansa lähestymistavan verrattuna heikkoon suorituskykyyn.
Johtopäätös
Tutkimuksen tulokset vaikuttavat merkittäviltä. Kouluttaa AI-malli hyperskaaladatassa on valtava sitoumus, joka on verrattavissa matkustajakoneen lähtöön. Vaikka koulutus voidaan keskeyttää ja vahinkoja voidaan korjata tallentamalla nykyiset painot säännöllisesti (suurella tallennuskustannuksella), jotta koulutuksen keskeyttäminen olisi mahdollista, on suhteellisen vähän mitä voidaan tehdä tuloksen muuttamiseksi lähdön jälkeen.
Mitä vaikuttavampaa tässä työssä on, että tutkijat näyttävät löytäneen periaatteen yleisessä AI-mallien koulutuksessa, ja että heidän ratkaisunsa on yllättävän elegantti.
Taloudelliset vaikutukset siitä, että perusmallin tarkkuus voidaan säilyttää hienosäätämisen jälkeen, ovat myös merkittäviä. Toistaiseksi yleisin tapa osoittaa monimiljoonien dollarien mallien heikkouksia on ollut suodattaa ulostuloa johtopäätöksenteon aikana tai ohjata johtopäätöksiä välttääkseen mallissa näkyvän akilleen kantapään.
Lisäksi tällainen tekniikka voisi teoriassa tuoda merkittäviä parannuksia hienosäätögeneratiivisten mallien kykyihin kuluttajatasolla, bonuksena ulostulon laadun parantuminen.
* Minun muutos tekijöiden sisäisistä viittauksista hyperlinkkeihin.
Julkaistu ensimmäisen kerran tiistaina, 1. lokakuuta 2024












