výhonek Výzkum Google identifikuje úzké hrdlo v hyperškálových přístupech k umělé inteligenci – Unite.AI
Spojte se s námi

Umělá inteligence

Výzkum Google identifikuje úzké hrdlo v hyperškálových přístupech k umělé inteligenci

mm
aktualizováno on

Nový dokument od Google Research naznačuje, že současný trend směřující ke správě velmi objemných datových sad může být kontraproduktivní pro vývoj účinných systémů umělé inteligence. Výzkum ve skutečnosti naznačuje, že lepší produkty strojového učení mohou vzniknout díky školení méně přesné (tj. technicky „horší“) datové soubory.

Pokud jsou principy získané výzkumnými pracovníky platné, znamená to, že „hyperškálové“ datové soubory, jako je např nedávno vydané LAION-400M (který obsahuje 400 milionů párů text/obrázek) a data za motorem neuronového jazyka GPT-3 (obsahující 175 miliard parametrů) potenciálně podléhají určitému „tepelnému limitu“ v tradičních a populárních architekturách strojového učení. a metodologií, díky nimž naprostý objem dat „nasycuje“ následné aplikace a brání jim v užitečném zobecňování.

Výzkumníci také navrhují alternativní metody pro přehodnocení architektury hyperškálových datových souborů, aby napravili nerovnováhu.

Článek uvádí:

„Při hlubším zkoumání důvodů, které vedou k těmto jevům, ukazujeme, že chování při saturaci, které pozorujeme, úzce souvisí se způsobem, jakým se reprezentace vyvíjejí přes vrstvy modelů. Uvádíme ještě extrémnější scénář, kde je výkon na upstreamu a downstreamu ve vzájemném rozporu. To znamená, že abychom měli lepší výkon po proudu, musíme snížit přesnost proti proudu.“

Projekt studovat je s názvem Zkoumání limitů rozsáhlého předtréninkua pochází od čtyř autorů z Google Research.

Zkoumání „saturace“

Autoři zpochybňují převládající předpoklady vztahující se strojové učení>datová data ve věku hyperškálových dat: že škálování modelů a velikost dat výrazně zlepšuje výkon (víra, která byla utvrzena v humbuku kolem GPT-3 od jeho uvedení); a že tento zlepšený výkon „přechází“ do navazujících úkolů lineárním (tj. žádoucím) způsobem, takže algoritmy na zařízení, které jsou nakonec uvedeny na trh, odvozené z jinak nevládně obrovských datových sad a nedestilovaných trénovaných modelů, plně těží z pohledy na plnohodnotné, upstream architektury.

"Tyto pohledy," poznamenávají výzkumníci "naznačují, že vynaložení výpočetního a výzkumného úsilí na zlepšení výkonu na jednom masivním korpusu by se vyplatilo, protože by nám to umožnilo řešit mnoho následných úkolů téměř zdarma."

Článek však tvrdí, že nedostatek výpočetních zdrojů a následné „ekonomické“ metody vyhodnocování modelů přispívají k mylnému dojmu o dynamice vztahu mezi objemem dat a užitečnými systémy umělé inteligence. Autoři identifikují tento zvyk jako „hlavní nedostatek“, protože výzkumná komunita obvykle předpokládá, že místní (pozitivní) výsledky se promítnou do užitečných pozdějších implementací:

'[Vzhledem k omezením výpočtu není uveden výkon pro různé volby hodnot hyperparametrů." Grafy měřítka se zdají příznivější, pokud je hyperparametr zvolený pro každé měřítko pevný nebo určený jednoduchou funkcí měřítka.“

Výzkumníci dále uvádějí, že mnoho škálovacích studií není měřeno na absolutních škálách, ale jako přírůstková zlepšení oproti stavu techniky (SotA), přičemž pozorují, že „neexistuje žádný důvod, a priori, aby se škálování drželo mimo studovaný rozsah“.

Předškolní příprava

Článek se zabývá praxí „předtréninkového“ opatření, což je opatření určené k úspoře výpočetních zdrojů a zkrácení často příšerných časových plánů potřebných k trénování modelu na rozsáhlých datech od nuly. Snímky před školením zvládají „ABC“ způsobu, jakým se data v rámci jedné domény během školení zobecňují a běžně se používají v různých sektorech a specializacích strojového učení, od zpracování přirozeného jazyka (NLP) až po deepfakes.

Předchozí akademický výzkum měl nalezeno že předtrénování může výrazně zlepšit robustnost a přesnost modelu, ale nový dokument naznačuje, že složitost funkcí, a to i v relativně krátkodobě natrénovaných předtréninkových šablonách, by mohla být výhodnější, kdyby se přesunula na pozdější procesy v potrubí. .

To se však nemůže stát, pokud výzkumníci budou i nadále záviset na předem vyškolených modelech, které využívají současnou nejlepší praxi při aplikaci míry učení, což, jak výzkum uzavírá, může výrazně ovlivnit konečnou přesnost konečných aplikací práce. V tomto ohledu autoři poznamenávají, že „nelze doufat, že najdeme jeden předem vycvičený kontrolní bod, který bude dobře plnit všechny možné následné úkoly“.

Studie

Aby autoři stanovili saturační efekt, provedli 4800 experimentů na Vision Transformers, ResNet a MLP-Mixers, každý s různým počtem parametrů, od 10 milionů do 10 miliard, všechny trénované na datasetech s nejvyšším objemem dostupných v příslušných sektorech. počítaje v to ImageNet21K a vlastní Google JFT-300M.

Výsledky, tvrdí list, to ukazují datová rozmanitost by měla být považována za další osu při pokusu o „zvětšení“ dat, parametrů modelu a výpočetního času. V současné době těžká koncentrace školicích zdrojů (a pozornosti výzkumníků) na horní část potrubí AI účinně tlačí na následné aplikace lavinou parametrů až do bodu „nasycení“, což snižuje schopnost nasazených algoritmů navigovat. prostřednictvím funkcí a provádět odvození nebo transformace efektů.

Dokument uzavírá:

„Prostřednictvím rozsáhlé studie jsme zjistili, že jak zlepšujeme výkon upstream úlohy buď zvýšením měřítka, nebo hyperparametrem a architektonickými volbami, výkon navazujících úloh vykazuje saturující chování. Kromě toho poskytujeme silný empirický důkaz, že na rozdíl od běžného narativu nevede škálování k řešení založenému na jednom modelu.'