Kapcsolatba velünk

Mesterséges intelligencia

A Google 28%-kal gyorsabbá teszi az AI-képzést az SLM-ek tanárként való használatával

Közzététel:

 on

Képzések nagy nyelvi modellek (LLM) a legtöbb szervezet számára elérhetetlenné vált. A milliósra rúgó költségek és a számítási igények miatt, amelyek megizzasztják a szuperszámítógépeket, a mesterséges intelligencia fejlesztése a technológiai óriások ajtói mögött maradt. De a Google a fejére forgatta ezt a történetet egy olyan egyszerű megközelítéssel, hogy elgondolkodtat, miért nem jutott eszébe ez korábban senkinek: kisebb AI-modelleket használnak tanárként.

Hogyan működik a SALT: A mesterséges intelligencia modellek képzésének új megközelítése

Egy közelmúltbeli kutatási cikkben, melynek címe „Egy kis segítség messzire vezet: Hatékony LLM-képzés a kis LM-ek kihasználásával,” A Google Research és a DeepMind bemutatta a SALT-ot (Small Model Aided Large Model Training). Ez az új módszer, amely megkérdőjelezi az LLM-ek képzésének hagyományos megközelítését.

Miért jelentős ez a kutatás? Jelenleg a nagy mesterséges intelligencia modellek képzése olyan, mintha valakit egyszerre próbálnánk megtanítani, amit egy témáról tudnia kell – ez nem hatékony, drága, és gyakran csak a hatalmas számítási erőforrásokkal rendelkező szervezetekre korlátozódik. A SALT más utat jár be, egy kétlépcsős képzési folyamatot vezet be, amely egyszerre innovatív és praktikus.

A SÓ tényleges működésének lebontása:

1. szakasz: Tudáslepárlás

  • A kisebb nyelvi modell (SLM) tanárként tevékenykedik, megosztva tudását a nagyobb modellel
  • A kisebb modell a „tanult tudás” átadására összpontosít, amit a kutatók „puha címkéknek” neveznek.
  • Képzelje el úgy, mint egy tanársegéd, aki az alapfogalmakat kezeli, mielőtt a hallgató haladó témákra tér át
  • Ez a szakasz különösen hatékony a tanulás „könnyű” régióiban – olyan területeken, ahol a kisebb modell erős prediktív bizalommal rendelkezik

2 szakasz: Önfelügyelt tanulás

  • A nagy modell áttér az önálló tanulásra
  • Az összetett minták elsajátítására és a kihívást jelentő feladatokra összpontosít
  • Ez az a hely, ahol a modell olyan képességeket fejleszt ki, amelyek túlmutatnak azon, amit kisebb „tanára” tudna nyújtani
  • A szakaszok közötti átmenet gondosan megtervezett stratégiákat használ, beleértve a desztillációs veszteség tömegének lineáris lecsengését és lineáris arányú csillapítását

Nem technikai értelemben, iKépzeld el, hogy a kisebb AI modell olyan, mint egy segítőkész oktató, aki a nagyobb modellt vezeti a képzés kezdeti szakaszában. Ez az oktató további információkat nyújt a válaszaikkal együtt, jelezve, hogy mennyire magabiztos az egyes válaszokkal kapcsolatban. Ez a „soft labels” néven ismert extra információ segít a nagyobb modellnek gyorsabban és hatékonyabban tanulni.

Most, ahogy a nagyobb AI-modell egyre alkalmasabbá válik, át kell térnie az oktatóra támaszkodóról az önálló tanulásra. Itt jön a képbe a „lineáris lecsengés” és a „lineáris arányú lecsengés”.
Gondoljon ezekre a technikákra, mint amelyek fokozatosan csökkentik az oktató befolyását az idő múlásával:
  • Lineáris csökkenés: Ez olyan, mintha lassan lehalkítaná a tanár hangját. Az oktató útmutatása minden lépéssel kevésbé szembetűnő, így a nagyobb modell jobban összpontosíthat magából a nyers adatokból való tanulásra.
  • Lineáris arány csökkenése: Ez olyan, mint az oktató tanácsa és az aktuális feladat közötti egyensúly beállítása. A képzés előrehaladtával a hangsúly inkább az eredeti feladat felé tolódik el, miközben a tutor inputja kevésbé dominál.
Mindkét technika célja zökkenőmentes átmenet biztosítása a nagyobb AI-modell számára, megelőzve a tanulási viselkedésében bekövetkező hirtelen változásokat. 

Az eredmények meggyőzőek. Amikor a Google kutatói a SALT-t tesztelték egy 1.5 milliárd paraméteres SLM segítségével, hogy egy 2.8 milliárd paraméterű LLM-et tanítsanak a Cölöp adatkészlet, látták:

  • 28%-os edzésidő csökkenés a hagyományos módszerekhez képest
  • Jelentős teljesítményjavulás a finomhangolás után:
    • A matematikai feladatok pontossága 34.87%-ra ugrott (szemben a 31.84%-os kiindulási értékkel)
    • A szövegértés 67%-os pontosságot ért el (63.7%-ról).

De ami a SALT-ot igazán innovatívvá teszi, az az elméleti keret. A kutatók felfedezték, hogy még egy „gyengébb” tanári modell is javíthatja a tanuló teljesítményét azáltal, hogy eléri az általuk „kedvező torzítás-variancia kompromisszumot”. Egyszerűbben fogalmazva, a kisebb modell segít a nagyobbnak az alapvető minták hatékonyabb megtanulásában, erősebb alapot teremtve a haladó tanuláshoz.

Miért alakíthatja át a SALT az AI-fejlesztés játékterét?

Emlékszel, amikor a számítási felhő átalakult, ki alapíthatott technológiai céget? A SÓ ugyanezt teheti a mesterséges intelligencia fejlesztésében.

Évek óta követem a mesterséges intelligencia képzési innovációit, és a legtöbb áttörés elsősorban a technológiai óriások hasznára vált. De a SÓ más.

Íme, mit jelenthet ez a jövőre nézve:

Korlátozott erőforrásokkal rendelkező szervezetek számára:

  • Lehetséges, hogy már nincs szüksége hatalmas számítási infrastruktúrára ahhoz, hogy alkalmas AI-modelleket fejlesszen ki
  • Kisebb kutatólaboratóriumok és cégek kísérletezhetnek egyedi modellfejlesztéssel
  • A képzési idő 28%-os csökkenése közvetlenül az alacsonyabb számítási költségeket jelenti
  • Ennél is fontosabb, hogy szerény számítási erőforrásokkal kezdhet, és még mindig professzionális eredményeket érhet el

Az AI fejlesztési tájhoz:

  • Több játékos léphetne pályára, ami sokrétűbb és speciálisabb AI-megoldásokhoz vezetne
  • Az egyetemek és kutatóintézetek több kísérletet folytathatnának meglévő erőforrásaikkal
  • Az AI-kutatásba való belépési korlát jelentősen csökken
  • Új alkalmazásokat láthatunk olyan területeken, amelyek korábban nem engedhették meg maguknak a mesterséges intelligencia fejlesztését

Mit jelent ez a jövő szempontjából

Azzal, hogy kis modelleket használunk tanárként, nem csak az AI-képzést tesszük hatékonyabbá, hanem alapvetően megváltoztatjuk azt is, hogy kik vehetnek részt a mesterséges intelligencia fejlesztésében. A következmények messze túlmutatnak a technikai fejlesztéseken.

A legfontosabb tudnivalók, amelyeket szem előtt kell tartani:

  • A képzési idő 28%-os csökkenése a különbség aközött, hogy egy mesterségesintelligencia-projektet elindítanak vagy elérhetetlennek tekintik azt
  • A teljesítménynövekedés (34.87% matematikában, 67% olvasási feladatokban) azt mutatja, hogy a hozzáférhetőség nem mindig jelent kompromisszumot a minőségben
  • A SALT megközelítése bizonyítja, hogy néha a legjobb megoldások az alapok újragondolásából fakadnak, nem pedig csak a számítási teljesítmény növeléséből.

Mire kell figyelni:

  1. Tartsa szemmel a kisebb szervezeteket, amelyek elkezdenek egyéni AI-modelleket fejleszteni
  2. Figyeljen az új alkalmazásokra olyan területeken, amelyek korábban nem engedhették meg maguknak az AI fejlesztését
  3. Keressen újításokat a kisebb modellek speciális feladatokhoz való felhasználásában

Ne feledje: A SALT valódi értéke abban rejlik, hogy hogyan alakíthatja át azt, hogy ki újíthat meg az AI-ban. Függetlenül attól, hogy kutatólaboratóriumot vezet, műszaki csapatot irányít, vagy csak érdeklődik a mesterséges intelligencia fejlesztése iránt, ez az a fajta áttörés, amely megvalósíthatja következő nagy ötletét.

Talán kezdjen el gondolkodni azon az AI-projekten, amelyet elérhetetlennek tartott. Lehet, hogy ez lehetségesebb, mint gondoltad.

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.