Mesterséges intelligencia
A Google 28%-kal gyorsabbá teszi az AI-képzést az SLM-ek tanárként való használatával

Képzések nagy nyelvi modellek (LLM) a legtöbb szervezet számára elérhetetlenné vált. A milliósra rúgó költségek és a számítási igények miatt, amelyek megizzasztják a szuperszámítógépeket, a mesterséges intelligencia fejlesztése a technológiai óriások ajtói mögött maradt. De a Google a fejére forgatta ezt a történetet egy olyan egyszerű megközelítéssel, hogy elgondolkodtat, miért nem jutott eszébe ez korábban senkinek: kisebb AI-modelleket használnak tanárként.
Hogyan működik a SALT: A mesterséges intelligencia modellek képzésének új megközelítése
Egy közelmúltbeli kutatási cikkben, melynek címe „Egy kis segítség messzire vezet: Hatékony LLM-képzés a kis LM-ek kihasználásával,” A Google Research és a DeepMind bemutatta a SALT-ot (Small Model Aided Large Model Training). Ez az új módszer, amely megkérdőjelezi az LLM-ek képzésének hagyományos megközelítését.
Miért jelentős ez a kutatás? Jelenleg a nagy mesterséges intelligencia modellek képzése olyan, mintha valakit egyszerre próbálnánk megtanítani, amit egy témáról tudnia kell – ez nem hatékony, drága, és gyakran csak a hatalmas számítási erőforrásokkal rendelkező szervezetekre korlátozódik. A SALT más utat jár be, egy kétlépcsős képzési folyamatot vezet be, amely egyszerre innovatív és praktikus.
A SÓ tényleges működésének lebontása:
1. szakasz: Tudáslepárlás
- A kisebb nyelvi modell (SLM) tanárként tevékenykedik, megosztva tudását a nagyobb modellel
- A kisebb modell a „tanult tudás” átadására összpontosít, amit a kutatók „puha címkéknek” neveznek.
- Képzelje el úgy, mint egy tanársegéd, aki az alapfogalmakat kezeli, mielőtt a hallgató haladó témákra tér át
- Ez a szakasz különösen hatékony a tanulás „könnyű” régióiban – olyan területeken, ahol a kisebb modell erős prediktív bizalommal rendelkezik
2 szakasz: Önfelügyelt tanulás
- A nagy modell áttér az önálló tanulásra
- Az összetett minták elsajátítására és a kihívást jelentő feladatokra összpontosít
- Ez az a hely, ahol a modell olyan képességeket fejleszt ki, amelyek túlmutatnak azon, amit kisebb „tanára” tudna nyújtani
- A szakaszok közötti átmenet gondosan megtervezett stratégiákat használ, beleértve a desztillációs veszteség tömegének lineáris lecsengését és lineáris arányú csillapítását
Nem technikai értelemben, iKépzeld el, hogy a kisebb AI modell olyan, mint egy segítőkész oktató, aki a nagyobb modellt vezeti a képzés kezdeti szakaszában. Ez az oktató további információkat nyújt a válaszaikkal együtt, jelezve, hogy mennyire magabiztos az egyes válaszokkal kapcsolatban. Ez a „soft labels” néven ismert extra információ segít a nagyobb modellnek gyorsabban és hatékonyabban tanulni.
- Lineáris csökkenés: Ez olyan, mintha lassan lehalkítaná a tanár hangját. Az oktató útmutatása minden lépéssel kevésbé szembetűnő, így a nagyobb modell jobban összpontosíthat magából a nyers adatokból való tanulásra.
- Lineáris arány csökkenése: Ez olyan, mint az oktató tanácsa és az aktuális feladat közötti egyensúly beállítása. A képzés előrehaladtával a hangsúly inkább az eredeti feladat felé tolódik el, miközben a tutor inputja kevésbé dominál.
Az eredmények meggyőzőek. Amikor a Google kutatói a SALT-t tesztelték egy 1.5 milliárd paraméteres SLM segítségével, hogy egy 2.8 milliárd paraméterű LLM-et tanítsanak a Cölöp adatkészlet, látták:
- 28%-os edzésidő csökkenés a hagyományos módszerekhez képest
- Jelentős teljesítményjavulás a finomhangolás után:
- A matematikai feladatok pontossága 34.87%-ra ugrott (szemben a 31.84%-os kiindulási értékkel)
- A szövegértés 67%-os pontosságot ért el (63.7%-ról).
De ami a SALT-ot igazán innovatívvá teszi, az az elméleti keret. A kutatók felfedezték, hogy még egy „gyengébb” tanári modell is javíthatja a tanuló teljesítményét azáltal, hogy eléri az általuk „kedvező torzítás-variancia kompromisszumot”. Egyszerűbben fogalmazva, a kisebb modell segít a nagyobbnak az alapvető minták hatékonyabb megtanulásában, erősebb alapot teremtve a haladó tanuláshoz.
Miért alakíthatja át a SALT az AI-fejlesztés játékterét?
Emlékszel, amikor a számítási felhő átalakult, ki alapíthatott technológiai céget? A SÓ ugyanezt teheti a mesterséges intelligencia fejlesztésében.
Évek óta követem a mesterséges intelligencia képzési innovációit, és a legtöbb áttörés elsősorban a technológiai óriások hasznára vált. De a SÓ más.
Íme, mit jelenthet ez a jövőre nézve:
Korlátozott erőforrásokkal rendelkező szervezetek számára:
- Lehetséges, hogy már nincs szüksége hatalmas számítási infrastruktúrára ahhoz, hogy alkalmas AI-modelleket fejlesszen ki
- Kisebb kutatólaboratóriumok és cégek kísérletezhetnek egyedi modellfejlesztéssel
- A képzési idő 28%-os csökkenése közvetlenül az alacsonyabb számítási költségeket jelenti
- Ennél is fontosabb, hogy szerény számítási erőforrásokkal kezdhet, és még mindig professzionális eredményeket érhet el
Az AI fejlesztési tájhoz:
- Több játékos léphetne pályára, ami sokrétűbb és speciálisabb AI-megoldásokhoz vezetne
- Az egyetemek és kutatóintézetek több kísérletet folytathatnának meglévő erőforrásaikkal
- Az AI-kutatásba való belépési korlát jelentősen csökken
- Új alkalmazásokat láthatunk olyan területeken, amelyek korábban nem engedhették meg maguknak a mesterséges intelligencia fejlesztését
Mit jelent ez a jövő szempontjából
Azzal, hogy kis modelleket használunk tanárként, nem csak az AI-képzést tesszük hatékonyabbá, hanem alapvetően megváltoztatjuk azt is, hogy kik vehetnek részt a mesterséges intelligencia fejlesztésében. A következmények messze túlmutatnak a technikai fejlesztéseken.
A legfontosabb tudnivalók, amelyeket szem előtt kell tartani:
- A képzési idő 28%-os csökkenése a különbség aközött, hogy egy mesterségesintelligencia-projektet elindítanak vagy elérhetetlennek tekintik azt
- A teljesítménynövekedés (34.87% matematikában, 67% olvasási feladatokban) azt mutatja, hogy a hozzáférhetőség nem mindig jelent kompromisszumot a minőségben
- A SALT megközelítése bizonyítja, hogy néha a legjobb megoldások az alapok újragondolásából fakadnak, nem pedig csak a számítási teljesítmény növeléséből.
Mire kell figyelni:
- Tartsa szemmel a kisebb szervezeteket, amelyek elkezdenek egyéni AI-modelleket fejleszteni
- Figyeljen az új alkalmazásokra olyan területeken, amelyek korábban nem engedhették meg maguknak az AI fejlesztését
- Keressen újításokat a kisebb modellek speciális feladatokhoz való felhasználásában
Ne feledje: A SALT valódi értéke abban rejlik, hogy hogyan alakíthatja át azt, hogy ki újíthat meg az AI-ban. Függetlenül attól, hogy kutatólaboratóriumot vezet, műszaki csapatot irányít, vagy csak érdeklődik a mesterséges intelligencia fejlesztése iránt, ez az a fajta áttörés, amely megvalósíthatja következő nagy ötletét.
Talán kezdjen el gondolkodni azon az AI-projekten, amelyet elérhetetlennek tartott. Lehet, hogy ez lehetségesebb, mint gondoltad.