Umělá inteligence
Výzkumníci objevují vysoce efektivní podsítě v rámci Deep Learning neuronových sítí

Neuronové sítě s hlubokým učením jsou často masivní a vyžadují obrovské množství výpočetního výkonu, ale nový objev ukazuje, jak to lze omezit, aby bylo možné úkoly plnit efektivněji. Jonathan Frankle a jeho tým z MIT přišli s „hypotézami loterijních lístků“, které ukazují, jak existují štíhlejší podsítě v rámci větších neuronových sítí. Tyto podsítě mohou splnit úkol efektivněji s menším požadovaným výpočetním výkonem, přičemž jedním z největších problémů je najít tyto podsítě nebo vyhrát losy, jak je tým označuje.
Tým objevil tyto podsítě v rámci BERT, špičkové techniky strojového učení pro zpracování přirozeného jazyka (NLP). NLP, což je podpolí umělé inteligence (AI), je zodpovědné za dešifrování a analýzu lidského jazyka a používá se pro aplikace, jako je prediktivní generování textu a chatboti.
BERT je však velký a vyžaduje superpočítačový výkon, který je pro většinu uživatelů nedostupný. S novým objevem těchto podsítí by mohl tento přístup otevřít a umožnit více uživatelům využívat technologii k vývoji nástrojů NLP.
„Dostáváme se do bodu, kdy budeme muset tyto modely zeštíhlit a zefektivnit,“ říká Frankle.
Podle něj by tento vývoj mohl „snížit bariéry vstupu“ pro NLP.
BERT – „Obscénně drahé“
BERT je zásadní pro věci, jako je vyhledávač Google, a od té doby, co jej Google v roce 2018 vydal, získal velkou pozornost. Je to metoda pro vytváření neuronových sítí a je trénována tím, že se mnohokrát pokouší vyplnit prázdné pasáže v psaní. Jednou z nejpůsobivějších funkcí BERT je jeho masivní počáteční tréninková datová sada.
Uživatelé jej pak mohou vyladit pro specifické úkoly, jako jsou chatboti zákaznických služeb, ale opět vyžaduje obrovské množství výpočetního výkonu s možností parametrů dosahujících 1 miliardy.
„V současnosti standardní model BERT – zahradní odrůda – má 340 milionů parametrů,“ říká Frankle. „Tohle je jen nemravně drahé. To je daleko za výpočetními schopnostmi vás nebo mě."
Podle hlavního autora Tianlong Chena z Texaské univerzity v Austinu modely jako BERT „trpí obrovskou velikostí sítě“, ale díky novému výzkumu se „hypotéza loterijního lístku zdá být řešením“.
Efektivní podsítě
Chen a tým hledali menší model umístěný v BERT a porovnávali výkony objevených podsítí s původním modelem BERT. To bylo testováno na řadě různých úkolů NLP, včetně odpovídání na otázky a vyplňování prázdných slov ve větě.
Tým objevil úspěšné podsítě, které byly o působivých 40 až 90 procent tenčí než původní model BERT, přičemž skutečné procento záviselo na úkolu. Navíc je mohli identifikovat před doladěním specifickým pro daný úkol, což má za následek ještě další snížení nákladů na výpočetní techniku. Další výhodou bylo, že některé podsítě vybrané pro konkrétní úlohu mohly být poté znovu použity pro jinou.
"Byl jsem trochu šokován, že to vůbec fungovalo," říká Frankle. "Není to něco, co bych považoval za samozřejmost." Očekával jsem mnohem horší výsledek, než jsme dostali."
Podle Ariho Morcose, vědce z Facebook AI Research, je tento objev „přesvědčivý“ a „Tyto modely jsou stále rozšířenější. Je tedy důležité pochopit, zda hypotéza o loterijním tiketu platí.“
Morcos také říká, že pokud by tyto podsítě mohly běžet s výrazně nižším výpočetním výkonem, pak by to „bylo velmi účinné vzhledem k tomu, že provoz těchto extrémně velkých modelů je v současnosti velmi nákladný“.
„Nevím, o kolik větších rozměrů můžeme dosáhnout pomocí těchto výpočtů ve stylu superpočítačů,“ dodává Frankle. "Budeme muset snížit bariéru vstupu."
„Doufáme, že se tím sníží náklady, že to bude dostupnější pro každého… pro malé kluky, kteří mají jen notebook,“ uzavírá.
Výzkum je připraven k prezentaci na Konference o systémech zpracování neurálních informací.