Tekoäly
Tekoälymallin hienosäädön aiheuttamat vahingot voidaan helposti korjata, tutkimus havaitsee

Uusi yhdysvaltalainen tutkimus osoittaa tämän hienosäätö omiin tietoihisi perustuvan tekoälyperusmallin ei tarvitse heikentää tai heikentää alkuperäisen mallin toimivuutta – ja että suhteellisen yksinkertainen korjaus ei voi ainoastaan palauttaa alkuperäisen mallin ominaisuuksia, vaan itse asiassa parantaa sen tulosteen laatu, jota yrität saada (jo koulutetun) mallin tuottamaan.

Suorituskyvyn parannukset erilaisissa malleissa kirjoittajien uuden harjoituksen jälkeisen kalibroinnin avulla. Lisätietoja myöhemmin artikkelissa. Lähde: http://export.arxiv.org/pdf/2409.16223
Tällä on merkittäviä seurauksia paitsi teknologiajäteille, joiden huomio keskittyy generatiivisten järjestelmien vuokraamisen taloudellisiin hyödyihin "palveluna", myös kasvavalle määrälle "johtoja katkaisevia" harrastajia, jotka lataa ja mukauta avoimen lähdekoodin malleja, jotta he voivat käyttää personoituja tekoälyn kirjoitus- ja kuvan/videon luontijärjestelmiä halvemmalla – ja vähemmän rajoituksin.
Paperin kirjoittajat eivät pelkää osoittaa innostustaan menetelmänsä tarjoamia mahdollisuuksia kohtaan, mikä on näennäisesti merkittävä edistysaskel 2023 jättämisestä Kokonaisvaltainen siirto: Kohti häiritsemätöntä hienosäätöä osittaisilla kohdetiedoilla (kirjoitettu yhdessä monien uuden lehden kirjoittajien kanssa).
He toteavat:
”[Löydökset] ovat rohkaisevia ja niillä on syvällisiä vaikutuksia! Ne viittaavat siihen, että yksinkertainen jälkikäsittelykalibrointi voi mahdollisesti korjata hienosäädetyn mallin heikon tarkkuuden poissaolevissa luokissa, palauttaen esikoulutetun mallin ominaisuudet ja paljastaen samalla parantuneen ominaisuuksien laadun kaikissa luokissa.”
Katsotaanpa pian uutta teosta. Katsotaanpa ensin, mihin ongelmaan sillä pyritään ratkaisemaan.
Miksi se koskee
Ensimmäinen laajamittaisen hienosäädön aalto tapahtui Stability.ai:n julkaisun jälkeen. Vakaa diffuusio tekstistä kuvaksi -malli elokuussa 2002. Varhaiset mallit, jotka koulutettiin hyperskaalan osajoukolla LAION tietojoukko oli kaikkien ladattavissa.
Kuitenkin käyttäjät, jotka halusivat lisätä erityinen Sisällön (kuten heidän oma identiteettinsä, taidetyylinsä tai julkkisten esittely) Stable Diffusionin poikkeuksellisiin generatiivisiin ominaisuuksiin vaadittiin kääntymään tekniikoiden, kuten esim. unelmakoppi – a:n ekstrapolointi Google Researchin mukautusmenetelmä, jonka avulla käyttäjä pystyi opettamaan uutta dataa vapaasti saatavilla olevaan malliin hienosäädön avulla.

Esimerkkejä Googlen virallisen DreamBooth-toteutuksen käyttäjäprosessista vuodelta 2022. Käyttäjä kuratoi pienen valikoiman kuvia ja valitsee hienosäädetystä mallista tekstikehotteisiin yksilöllisen nimen (sellaisen, jota Stable Diffusionilla ei ole harjoitusdatassaan). Lähde: https://dreambooth.github.io/
Tällä tavalla oli mahdollista saada kopio mallista, joka oli erittäin hyvä luomaan tietyn henkilön tai mukautetun taidetyylin, mutta joka oli nyt 'vaarantunut' yleisempään käyttöön.
Tämä tarkoitti, että jos halusit hienosäätää Stable Diffusionia niin, että se voisi kuvata tarkasti kolmea eri henkilöä, sinun oli väistämättä luotava kolmea eri mallia, kukin noin 2–4 Gt tai enemmän.
Kaikki yritykset hienosäätää näitä malleja sekunti aika ei ainoastaan heikentäisi mallin yleistä suorituskykyä entisestään, vaan se vaikuttaisi haitallisesti edellisen hienosäätöistunnon tuottoon.
Joka tapauksessa julkkis DreamBooth -mallit yleistyisivät pian Internetissä ja kokoontuisivat pääasiassa civit.ai-verkkotunnuksella. Lopulta vähemmän rasittavia menetelmiä, kuten Matala-arvoinen sopeutuminen (LoRA) ohitti suosion hienosäädön (vaikka onko LoRA-tulos yhtä tehokas kuin täydellinen hienosäätö riidanalainen, ja NVIDIA on tehnyt siitä lähtien avoimen lähdekoodin ilmeisesti tehokkaampi lähestymistapa nimeltä Dora).
LoRA kuuluu luokkaan Parametritehokas hienosäätö (PEFT), joka vaikuttaa vain osaan mallin koulutetuista parametreista.
Jotkut käyttäjät halusivat muuttaa avoimen lähdekoodin vakaan diffuusion perusluonnetta tarkistuspisteitä, hienosäätämällä niitä monissa tuhansissa kuvissa.
Tämä tuotti käytännössä vaihtoehdon pohjamalli, joka on omistettu käyttäjälle harjoitettavalle alueelle (kuten tietylle taidetyylille). Tähän tarkoitukseen kevyemmät menetelmät, kuten LoRA, olivat todennäköisesti vähemmän tehokkaita, koska painot tarvittavasta mallista a vaikea harhaa kohti uusia harjoitustietoja.
Paikallinen chat
Viime aikoina lisääntynyt kiinnostus Suuret kielimallit Käyttäjät, jotka haluavat välttää API-pohjaisten palveluiden, kuten ChatGPT:n, kasvavia myyntipisteitä (ja niihin liittyviä kustannuksia) ovat yhä useammin alkoi ladata ja hienosäätää tehokkaita avoimen lähdekoodin malleja kuten Llama 3, monien muiden joukossa.
Täällä myös, LoRA:ita voidaan käyttää täyden tarkistuspisteen hienosäädön sijaan. Meillä on taistellut aiemmin että hienosäätö on parempi menetelmä sellaisten oikeustieteen mallien (LLM) tuottamiseen, jotka on mukautettu käyttäjän tarpeisiin. Vaikka hienosäädöllä voi olla suurempia laitteistovaatimuksia ja se voi kestää kauemmin, se tarjoaa syvemmän yleistyksen uudesta datasta, jota käyttäjä haluaa mallin omaksuvan.
Hienosäädön ongelmana on, että se on tuhoisa prosessi, jota ei voida myöhemmin kouluttaa inkrementaalisesti lisätiedoilla, kuten edellä totesimme.
Ominaisuudet ja harhakuvat ilmeisesti ruiskutetaan malliin häiritä tietojoukon alkuperäistä painojen tasapainoa, mikä tarkoittaa, että malli joko heijastelee liian todennäköisesti käyttäjien toimittamia tietoja tai toimii ainakin yleisesti ottaen huonommin kuin alkuperäinen perusmalli (tehtävissä, jotka eivät liity uusiin tietoihin).
Tämä voidaan korjata jossain määrin tekemällä jäädytys tiettyjä mallin osia koulutuksen aikana; mutta tämä voi johtaa yleisen toiminnallisuuden heikkenemiseen, koska arkkitehtuurin jäädytetty osa ei välttämättä yleisty hyvin mallin sisällä olevaan juuri hienosäädettyyn dataan piilevä tila.
Siksi olisi todella hienoa, jos olisi olemassa jokin helpompi tapa säilyttää hienosäädetyn mallin alkuperäiset ominaisuudet samalla, kun mallin kyky tuottaa tulosta hienosäätödatan perusteella säilyy.
Tällainen kehitys hyödyttäisi kaikkia potentiaalisia käyttäjiä harrastajista ja paikallisia LLM:itä ja muun tyyppisiä generatiivisia malleja käyttävistä käyttäjistä aina FAANG-tasolle (jossa erittäin kallista tekoälymallia voitaisiin parantaa iteratiivisesti ja tuhoamatta, ilman moni-miljoonan dollarin kulut harjoituksen aloittamisesta alusta lisätiedoilla).
Jälkikäsittelyn kalibrointi
Tämä tuo meidät takaisin asiaan uusi paperi, jota kutsutaan Hienosäätö on hieno, jos se on kalibroitu, ja se tulee 11 tutkijalta Ohion osavaltion yliopistosta, Wisconsinin yliopistosta Madisonista ja Rensselar Polytechnic Institutesta.
Tutkijat yrittivät selvittää tarkalleen, mikä perusmallissa vaurioituu, kun sitä hienosäädetään. He ovat tulleet siihen tulokseen, että ainoa merkittävä ero "ennen ja jälkeen" -mallin välillä on se, että hienosäätöluokkien ja mallin alkuperäisten luokkien logit-asteikot ovat merkittävästi ristiriidassa keskenään.
Logit-linkit ennustavat onnistumisen todennäköisyyden a looginen regressio prosessi, muuntaa arvioidut arvot (jotka voivat olla hyvin tarkkoja) nollaksi tai ykköseksi.
Kirjoittajat eivät ainoastaan havainneet, että tämä puute on lähes satunnaisesti korjattavissa kalibrointitekniikalla, vaan että tämä postaa faktaa fix itse asiassa parantaa hienosäätötietojen lähdön laatua. Siksi tällä tekniikalla et saa vain perusmallin alkuperäisiä ominaisuuksia, vaan saat paremmin integroitua omia hienosäädettyjä tietojasi.
(Vaikka artikkelissa ei tarkastella mahdollisuutta, tämä tekniikka tarkoittaa, että mallia voidaan hienosäätää useita kertoja ja se pysyy tehokkaana)
Keskustelemalla löydöistään mallivaurioiden tutkimisessa hienosäädön jälkeen, kirjoittajat toteavat:
"Yllätykseksemme huomaamme, että hienosäädetty malli ei unohda muiden luokkien välistä suhdetta eikä heikennä ominaisuuksia näiden luokkien tunnistamiseksi.
'Sen sijaan hienosäädetyssä mallissa on usein enemmän erottelevia ominaisuuksia näille muille luokille, vaikka ne puuttuisivat hienosäädön aikana!
”[Mikä] todella heikentää tarkkuutta, ovat hienosäätöluokkien ja muiden [luokkien] väliset ristiriitaiset logit-asteikot, mikä viittaa siihen, että yksinkertainen jälkikäsittelykalibrointi palauttaisi esikoulutetun mallin ominaisuudet ja samalla paljastaisi ominaisuuksien parannuksen kaikissa luokissa.”
Kirjoittajat ovat tehneet tämän teorian testien tulokset toistettavissa a GitHub-arkisto.
He havaitsivat tutkimuksessa, että ainoa osa perustusmallin arkkitehtuurista, joka vaurioituu hienosäädössä, on binäärinen luokitin, joka luokittelee väärin luokat, jotka ovat poissa alkuperäisessä mallissa hienosäätöluokina.
Lehdessä lukee*:
"[Lisäämällä] kalibroinnin bias-tekijän kaikkiin poissa oleviin luokkiin" [4, 40 ], hienosäädetyllä mallilla voidaan onnistuneesti palauttaa poissa olevan luokan tarkkuus ja saada kunnollinen yleinen parannus loppupäässä [verkkoalue].
Tuloksena oleva suorituskyky jopa ylittää vahvan lähtötason [Kokonaisvaltainen siirto – paperi, jolle tämä paperi perustuu ] monissa vertailuissa, mukaan lukien ImageNet ja sen muunnelmat [IMAGEnet, ImageNet-R(pääte), ImageNet-S(ketch) ], Toimisto-kotija VTAB, ilman monimutkaista koulutusta ja hyperparametrien asetusta. "

Tutkimuksen tulokset: hienosäädetty malli, jolle on suoritettu jälkikäsittelykalibrointi, voi tekijöiden mukaan ylittää nykyaikaisen lähestymistavan ongelmaan.
Kirjoittajat luokittelevat jälkikalibroidun hienosäädetyn mallin parantuneen suorituskyvyn "odottamattomiksi hyvänlaatuisiksi käyttäytymisiksi" ja havaitsevat, että kun perus- Stokastinen gradienttilasku (SGD) optimoijaa käytetään, saadaan parempi tulos kuin suosituimmilla virtaoptimoijilla, kuten esim Aatami.
'Edelleen,' he huomaavat "riittävän pienemmillä oppimisprosenteilla ja painon laskulla hyvänlaatuiset käyttäytymismallit ilmaantuvat ja pysyvät."
Pienet korjaukset
Hienosäädöstä johtuvien logit-erojen korjaamiseksi kirjoittajat lainasivat a tekniikka alkaen nolla-ammuttu oppiminen, lisäämällä vakiotekijän kaikkien poissa olevien luokkien logiteihin. Tämä johtaa uuteen luokittelusääntöön.
Kirjoittajat huomauttavat, että tämä prosessi "ylentää" laiminlyötyjä poissaolevia luokkia samaan ennustuslaatuun kuin hienosäädetyt luokat, palauttaen alkuperäisen suorituskyvyn ja parantaen "lisättyjen" tietojen suorituskykyä päättelyhetkellä.

Testeissä jälkikalibrointitekniikka palautti suorituskyvyn useille hienosäädetyille malleille. Taulukossa merkitty 'Oracle' viittaa hienosäädettyyn luokittelijaan, joka ottaa huomioon myös puuttuvat luokkatiedot.
He huomauttavat lisäksi, että jälkikäsittelyn kalibrointi on "potentiaalisesti sovellettavissa mihin tahansa malliin" ja että menetelmät, jotka pyrkivät ylläpitämään perusmallin eheyttä jäädyttämällä kerroksia (kuten luokittelijaa ja selkärankaa), saavat huonoja pisteitä verrattuna heidän omaan ehdottamaansa lähestymistapaan.
Yhteenveto
Tämän yhteistyön tulokset vaikuttavat merkittäviltä. Tekoälymallin kouluttaminen hyperskaalalla datajoukolla on valtava sitoutuminen, joka on analoginen matkustajalentokoneen lentoonlähtöön. Vaikka harjoittelu voidaan keskeyttää ja mahdollisia vahinkoja lieventää säästämällä nykyiset painot ajoittain (huomattavilla säilytyskustannuksilla), jotta harjoittelu keskeytyy, tuloksen muuttamiseksi laukaisun jälkeen on suhteellisen vähän.
Työssä on vaikuttavaa se, että tutkijat näyttävät löytäneen tekoälymallien yleisen koulutuksen perusperiaatteen ja että heidän ratkaisunsa on yllättävän elegantti.
Myös perusmallin tarkkuuden säilyttämisen taloudelliset vaikutukset hienosäädön jälkeen ovat merkittäviä. Tähän mennessä yleisin tapa korjata monen miljoonan dollarin mallien puutteita on ollut suodattaa ulostulo päättelyhetkellä tai ohjata päättelyä, jotta vältetään mallissa ilmeinen akilleen kantapää.
Lisäksi tällainen tekniikka voisi teoriassa tuoda merkittäviä parannuksia hienosäädettyjen generatiivisten mallien ominaisuuksiin kuluttajatasolla, lisäten tuotoksen laatua.
* Muunnani kirjoittajien tekstiviittaukset hyperlinkeiksi.
Julkaistu ensimmäisen kerran tiistaina 1