Umělá inteligence
Google dělá školení AI o 28 % rychlejší pomocí SLM jako učitelů

Školení velkých jazykových modelů (LLM) se stalo pro většinu organizací nedosažitelným. S náklady, které se pohybují v milionech a požadavky na výpočetní výkon, které by zpocály i superpočítač, zůstal vývoj AI uzavřený za dveřmi technologických gigantů. Ale Google právě otočil tento příběh vzhůru nohama s přístupem tak jednoduchým, že vás to nutí přemýšlet, proč na to nikdo dříve nepřišel: pomocí menších modelů AI jako učitelů.
Jak SALT funguje: Nový přístup ke školení modelů AI
V nedávné výzkumné práci s názvem “A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs,” představily Google Research a DeepMind SALT (Small model Aided Large model Training). Jedná se o novou metodu, která zpochybňuje náš tradiční přístup ke školení LLM.
Proč je tento výzkum významný? V současné době je školení velkých modelů AI podobné jako učit někoho všechno, co potřebuje vědět o předmětu najednou – je to neefektivní, drahé a často omezené na organizace s masivními výpočetními zdroji. SALT zvolil jinou cestu, představil dvoufázový proces školení, který je inovativní a praktický.
Rozebrání toho, jak SALT skutečně funguje:
Stage 1: Knowledge Distillation
- Menší jazykový model (SLM) funguje jako učitel, sdílí své porozumění s větším modelem
- Menší model se zaměřuje na přenos svého “naučeného poznání” prostřednictvím toho, co výzkumníci nazývají “soft labels”
- Představte si to jako učitele, který zajišťuje základní koncepty, než student přechází k pokročilejším tématům
- Tato fáze je zvláště efektivní v “lehkých” oblastech učení – oblastech, kde menší model má silnou předpovědní jistotu
Stage 2: Self-Supervised Learning
- Velký model přechází na nezávislé učení
- Zaměřuje se na zvládnutí složitých vzorců a náročných úkolů
- To je místo, kde model rozvíjí schopnosti, které jeho menší “učitel” nemohl poskytnout
- Přechod mezi fázemi využívá pečlivě navržené strategie, včetně lineárního poklesu a lineárního poměrného poklesu váhy ztráty destilace
V nelékařských termínech, představte si, že menší model AI je jako užitečný tutor, který vede větší model v počátečních fázích školení. Tento tutor poskytuje další informace spolu se svými odpověďmi, ukazuje, jak je si jistý každou odpovědí. Tyto další informace, známé jako “soft labels”, pomáhají většímu modelu učit se rychleji a efektivněji.
- Lineární pokles: Je to jako pomalé snižování hlasitosti učitele. Učitelova vedení se stává méně prominentním s každým krokem, umožňující většímu modelu soustředit se více na učení z raw dat samotných.
- Lineární poměr poklesu: To je jako úprava rovnováhy mezi učitelem a skutečným úkolem. Jakmile školení postupuje, důraz se posouvá více k původnímu úkolu, zatímco učitelův vstup se stává méně dominantním.
Výsledky jsou přesvědčivé. Když výzkumníci z Google testovali SALT pomocí 1,5 miliardy parametrů SLM pro školení 2,8 miliardy parametrů LLM na Pile dataset, viděli:
- 28% snížení školicího času ve srovnání s tradičními metodami
- Značné zlepšení výkonu po jemném ladění:
- Přesnost matematických problémů skočila na 34,87% (ve srovnání s 31,84% bazální hodnotou)
- Porozumění čtení dosáhlo 67% přesnosti (oproti 63,7%)
Ale co dělá SALT skutečně inovativním, je jeho teoretický rámec. Výzkumníci objevili, že i “slabší” učební model může vylepšit výkon studenta tím, že dosáhne toho, co nazývají “příznivým rozdělením bias-variance”. V jednodušších termínech, menší model pomáhá většímu modelu naučit se základní vzorce efektivněji, vytváří silnější základ pro pokročilé učení.
Proč SALT může změnit hru ve vývoji AI
Pamatujete, když cloud computing transformoval, kdo mohl založit technologickou firmu? SALT by mohl udělat totéž pro vývoj AI.
Sleduji inovace ve školení AI po léta a většina průlomů hlavně prospěla technologickým gigantům. Ale SALT je jiný.
Zde je to, co by to mohlo znamenat pro budoucnost:
Pro organizace s omezenými zdroji:
- Možná již nebudete potřebovat masivní výpočetní infrastrukturu pro vývoj schopných modelů AI
- Menší výzkumné laboratoře a společnosti by mohly experimentovat s vlastním vývojem modelů
- 28% snížení školicího času se přímo překládá do nižších výpočetních nákladů
- Ještě důležitější je, že můžete začít s skromnými výpočetními zdroji a přesto dosáhnout profesionálních výsledků
Pro krajinu vývoje AI:
- Více hráčů by mohlo vstoupit do tohoto odvětví, vedoucí k více rozmanitým a specializovaným řešením AI
- Univerzity a výzkumné instituce by mohly provádět více experimentů se svými stávajícími zdroji
- Bariéra pro vstup do výzkumu AI klesá výrazně
- Můžeme vidět nové aplikace v oblastech, které dříve nemohly dovolit vývoj AI
Co to znamená pro budoucnost
Používáním menších modelů jako učitelů neměníme pouze školení AI, aby bylo efektivnější – měníme také fundamentálně, kdo se může účastnit vývoje AI. Důsledky jdou daleko za technické zlepšení.
Klíčové body, které je třeba mít na paměti:
- Snížení školicího času o 28 % je rozdíl mezi zahájením projektu AI a úvahou o tom, zda je to nedosažitelné
- Zlepšení výkonu (34,87 % na matematických úkolech, 67 % na úkolech čtení) ukazuje, že dostupnost nemusí vždy znamenat kompromis na kvalitě
- Přístup SALT dokazuje, že někdy nejlepší řešení pocházejí z předefinování základů, spíše než z přidání více výpočetního výkonu
Co sledovat:
- Sledujte menší organizace, které začínají vyvíjet vlastní modely AI
- Sledujte nové aplikace v oblastech, které dříve nemohly dovolit vývoj AI
- Hledejte inovace v tom, jak jsou menší modely používány pro specializované úkoly
Pamatujte: Skutečná hodnota SALT spočívá v tom, jak by mohl změnit, kdo se může inovovat v AI. Bez ohledu na to, zda řídíte výzkumnou laboratoř, spravujete technologický tým nebo jste jen zvědaví na vývoj AI, tato průlomová technologie by mohla učinit váš další velký nápad možným.
Možná začněte uvažovat o tom projektu AI, o kterém jste si mysleli, že je nedosažitelný. Může být více možný, než jste si představovali.












