Umělá inteligence
Vědci objevili vysoce efektivní subsíťové struktury u hlubokých učících se neuronových sítí

Hluboké učící se neuronové sítě jsou často obrovské a vyžadují obrovské množství výpočetní síly, ale nová objev naznačuje, jak lze tuto sílu snížit, aby se úkoly dokončovaly efektivněji. Jonathan Frankle a jeho tým z MIT přišli s hypotézou “loterie”, která ukazuje, že existují štíhlejší subsíťové struktury uvnitř větších neuronových sítí. Tyto subsíťové struktury mohou dokončit úkol v ruce efektivněji s méně požadovanou výpočetní silou, přičemž jedním z největších problémů je najít tyto subsíťové struktury, nebo takzvané “výherní losy” týmu.
Tým objevil tyto subsíťové struktury u BERT, špičkové techniky strojového učení pro zpracování přirozeného jazyka (NLP). NLP, která je suboborem umělé inteligence (AI), je zodpovědná za rozluštění a analýzu lidského jazyka a používá se pro aplikace, jako je generování předpovědí a chatboty.
Avšak BERT je velký a vyžaduje superpočítačovou sílu, která je většině uživatelů nedostupná. S novým objevem těchto subsíťových struktur by se mohlo otevřít přístup k této technologii, aby více uživatelů mohlo využívat NLP nástroje.
„Dosáhli jsme bodu, kdy budeme muset tyto modely ztenčit a učinit je efektivnějšími,“ říká Frankle.
Podle něj by toto rozvoje mohlo „snížit bariéry vstupu“ pro NLP.
BERT – „Obscénně drahý“
BERT je zásadní pro věci, jako je Googleův vyhledávač, a získal velkou pozornost od doby, kdy ho Google vydal v roce 2018. Je to metoda pro vytváření neuronových sítí a je trénován opakovaným pokusem o vyplnění prázdných pasáží psaného textu. Jednou z nejpozoruhodnějších funkcí BERT je jeho obrovský počáteční tréninkový dataset.
Pak může být upraven uživateli pro konkrétní úkoly, jako jsou chatboty pro zákaznickou podporu, ale opět vyžaduje obrovské množství procesorového času, s možností parametrů dosahujících 1 miliardu.
„Standardní model BERT – ten běžný – má 340 milionů parametrů,“ říká Frankle. „To je prostě obscéně drahé. To je daleko za našimi výpočetními možnostmi.“
Podle vedoucího autora Tianlonga Chena z University of Texas at Austin models, jako je BERT, „trpí enormní velikostí sítě“, ale díky nové výzkumu „hypotéza loterie parece být řešením“.
Efektivní subsíťové struktury
Chen a tým hledali menší model umístěný uvnitř BERT a porovnali výkon objevených subsíťových struktur s původním modelem BERT. To bylo otestováno na různých úkolech NLP, včetně odpovědí na otázky a vyplňování prázdných slov ve větě.
Tým objevil úspěšné subsíťové struktury, které byly o 40 až 90 procent štíhlejší než původní model BERT, přičemž skutečný procentní podíl závisel na úkolu. Kromě toho mohli identifikovat je před úkolem-specifickým jemným laděním, což vedlo k dalšímu snížení výpočetních nákladů. Další výhodou bylo, že některé subsíťové struktury vybrané pro konkrétní úkol mohly být poté repurponovány pro jiný.
„Byl jsem trochu šokován, že to fungovalo,“ říká Frankle. „To není něco, co jsem bral jako samozřejmost. Očekával jsem mnohem špinavější výsledek, než jsme dostali.“
Podle Ariho Morcose, vědce z Facebook AI Research, je tato objev „přesvědčivý“ a „Tyto modely se stávají stále více rozšířenými. Proto je důležité pochopit, zda hypotéza loterie platí.“
Morcos také říká, že pokud by tyto subsíťové struktury mohly běžet s dramaticky menší výpočetní silou, pak by to „bylo velmi dopadné, protože tyto extrémně velké modely jsou目前 velmi drahé na běh.“
„Nevím, jak mnohem větší můžeme jít pomocí těchto superpočítačových výpočtů,“ dodává Frankle. „Budeme muset snížit bariéru vstupu.“
„Naděje je, že to sníží náklady, že to učiní přístupnější všem… malým chlapcům, kteří mají pouze laptop,“ uzavírá.
Výzkum má být prezentován na Konferenci o zpracování neuronových informací.












