peň Výskumníci objavujú vysoko efektívne podsiete v rámci neurónových sietí s hlbokým učením – Unite.AI
Spojte sa s nami

Umelá inteligencia

Výskumníci objavujú vysoko efektívne podsiete v rámci Deep Learning neurónových sietí

Aktualizované on

Neurónové siete s hlbokým učením sú často masívne a vyžadujú obrovské množstvo výpočtového výkonu, no nový objav ukazuje, ako sa to dá zredukovať, aby sa úlohy plnili efektívnejšie. Jonathan Frankle a jeho tím z MIT prišli s „hypotézami lotériových lístkov“, ktoré ukazujú, ako existujú štíhlejšie podsiete v rámci väčších neurónových sietí. Tieto podsiete môžu vykonávať danú úlohu efektívnejšie s menším potrebným výpočtovým výkonom, pričom jednou z najväčších výziev je nájsť tieto podsiete alebo vyhrať losy, ako ich tím označuje.

Tím objavil tieto podsiete v rámci BERT, špičkovej techniky strojového učenia na spracovanie prirodzeného jazyka (NLP). NLP, čo je podoblasť umelej inteligencie (AI), je zodpovedná za dešifrovanie a analýzu ľudského jazyka a používa sa v aplikáciách, ako je prediktívne generovanie textu a chatboti.

BERT je však veľký a vyžaduje superpočítačový výkon, ktorý je pre väčšinu používateľov nedostupný. S novým objavom týchto podsietí by mohol tento prístup otvoriť a umožniť viacerým používateľom využívať technológiu na vývoj nástrojov NLP.

„Dostávame sa do bodu, kedy budeme musieť tieto modely zoštíhliť a zefektívniť,“ hovorí Frankle.

Podľa neho by tento vývoj mohol „znížiť bariéry vstupu“ pre NLP.

BERT – „Obscénne drahé“  

BERT je základom pre veci, ako je vyhľadávací nástroj Google, a odkedy ho Google v roku 2018 vydal, získal veľkú pozornosť. Je to metóda na vytváranie neurónových sietí a je trénovaná tak, že sa mnohokrát pokúša vyplniť prázdnu časť písania. Jednou z najpôsobivejších funkcií BERT je jeho masívny počiatočný tréningový súbor údajov.

Používatelia ho potom môžu vyladiť pre špecifické úlohy, ako sú chatboty pre zákaznícky servis, ale opäť to vyžaduje obrovské množstvo výpočtového výkonu s možnosťou parametrov dosahujúcich 1 miliardu.

„Štandardný model BERT v súčasnosti – záhradná odroda – má 340 miliónov parametrov,“ hovorí Frankle. „Toto je len neslušne drahé. Toto je ďaleko za výpočtovými schopnosťami teba alebo mňa."

Podľa vedúceho autora Tianlong Chena z Texaskej univerzity v Austine modely ako BERT „trpia obrovskou veľkosťou siete“, ale vďaka novému výskumu sa „hypotéza lotériových lístkov javí ako riešenie“.

Efektívne podsiete 

Chen a tím hľadali menší model umiestnený v BERT a porovnávali výkony objavených podsietí s pôvodným modelom BERT. Toto bolo testované na rôznych úlohách NLP vrátane odpovedí na otázky a vypĺňania prázdnych slov vo vete.

Tím objavil úspešné podsiete, ktoré boli o pôsobivých 40 až 90 percent tenšie ako pôvodný model BERT, pričom skutočné percento záviselo od úlohy. Okrem toho ich mohli identifikovať pred doladením špecifickým pre danú úlohu, čo vedie k ešte väčšiemu zníženiu nákladov na výpočtovú techniku. Ďalšou výhodou bolo, že niektoré z podsietí vybratých pre konkrétnu úlohu mohli byť potom znovu použité pre inú.

"Bol som trochu šokovaný, že to vôbec fungovalo," hovorí Frankle. „Nie je to niečo, čo som považoval za samozrejmosť. Čakal som oveľa horší výsledok, ako sme dostali."

Podľa Ariho Morcosa, vedca z Facebook AI Research, je tento objav „presvedčivý“ a „Tieto modely sú čoraz rozšírenejšie. Preto je dôležité pochopiť, či hypotéza o lotériovom lístku platí.“

Morcos tiež hovorí, že ak by tieto podsiete mohli bežať s výrazne nižším výpočtovým výkonom, potom by to „bolo veľmi účinné vzhľadom na to, že prevádzka týchto extrémne veľkých modelov je v súčasnosti veľmi nákladná“.

„Neviem, do akej miery môžeme ísť pomocou týchto výpočtov v štýle superpočítačov,“ dodáva Frankle. "Budeme musieť znížiť bariéru vstupu."

„Dúfam, že sa tým znížia náklady, že sa to stane dostupnejším pre každého... pre malých chlapcov, ktorí majú len notebook,“ uzatvára.

Výskum je naplánovaný na prezentáciu na Konferencia o systémoch spracovania neurónových informácií.

Alex McFarland je novinár a spisovateľ AI, ktorý skúma najnovší vývoj v oblasti umelej inteligencie. Spolupracoval s množstvom AI startupov a publikácií po celom svete.