csonk A kutatók rendkívül hatékony alhálózatokat fedeztek fel a mély tanulási neurális hálózatokon belül - Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

A kutatók rendkívül hatékony alhálózatokat fedeznek fel a Deep Learning neurális hálózatokon belül

korszerűsített on

A mélyen tanuló neurális hálózatok gyakran hatalmasak, és hatalmas számítási teljesítményt igényelnek, de egy új felfedezés megmutatja, hogyan lehet ezt csökkenteni a feladatok hatékonyabb elvégzése érdekében. Jonathan Frankle és csapata az MIT-től kidolgozta a „lottószelvény-hipotéziseket”, amelyek megmutatják, hogyan vannak karcsúbb alhálózatok a nagyobb neurális hálózatokon belül. Ezek az alhálózatok hatékonyabban tudják elvégezni az adott feladatot kisebb számítási teljesítmény mellett, és az egyik legnagyobb kihívást ezeknek az alhálózatoknak a megtalálása vagy a sorsjegyek megnyerése jelenti, ahogy a csapat hivatkozik rájuk.

A csapat felfedezte ezeket az alhálózatokat a BERT-en belül, amely a természetes nyelvi feldolgozás (NLP) legmodernebb gépi tanulási technikája. Az NLP, amely a mesterséges intelligencia (AI) egy részterülete, felelős az emberi nyelv megfejtéséért és elemzéséért, és olyan alkalmazásokhoz használják, mint a prediktív szöveggenerálás és a chatbotok.

A BERT azonban nagy, és szuperszámítási teljesítményt igényel, ami a legtöbb felhasználó számára elérhetetlen. Ezen alhálózatok új felfedezésével megnyílhat ez a hozzáférés, és több felhasználó használhatja a technológiát NLP-eszközök fejlesztésére.

„Elérkeztünk ahhoz a ponthoz, amikor ezeket a modelleket karcsúbbá és hatékonyabbá kell tennünk” – mondja Frankle.

Szerinte ez a fejlesztés „csökkentheti a belépési korlátokat” az NLP számára.

BERT – „Obszcénen drága”  

A BERT alapvető fontosságú olyan dolgokban, mint például a Google keresőmotorja, és nagy figyelmet kapott, mióta a Google 2018-ban kiadta. Ez egy neurális hálózatok létrehozásának módszere, amelyet úgy képeznek, hogy sokszor megpróbálja kitölteni az üres szövegrészeket. A BERT egyik leglenyűgözőbb tulajdonsága a hatalmas kezdeti képzési adatkészlet.

Ezt követően a felhasználók bizonyos feladatokra, például ügyfélszolgálati chatbotokra hangolhatják, de ismét hatalmas mennyiségű feldolgozási teljesítményt igényel, és a paraméterek akár 1 milliárdot is elérhetnek.

„A manapság egy szabványos BERT modell – a kerti fajta – 340 millió paraméterrel rendelkezik” – mondja Frankle. „Ez egyszerűen obszcén drága. Ez jóval meghaladja ön vagy én számítási képességeit.”

Tianlong Chen, az austini Texasi Egyetem vezető szerzője szerint az olyan modellek, mint a BERT, „óriási hálózatmérettől szenvednek”, de az új kutatásnak köszönhetően „a lottószelvény hipotézise megoldásnak tűnik”.

Hatékony alhálózatok 

Chen és csapata egy kisebb modellt keresett a BERT-en belül, és összehasonlították a felfedezett alhálózatok teljesítményét az eredeti BERT modellel. Ezt különféle NLP-feladatokon tesztelték, beleértve a kérdések megválaszolását és az üres szavak kitöltését egy mondatban.

A csapat sikeres alhálózatokat fedezett fel, amelyek lenyűgözően 40-90 százalékkal karcsúbbak voltak, mint az eredeti BERT-modell, és a tényleges százalék a feladattól függ. Ráadásul a feladatspecifikus finomhangolás előtt azonosítani tudták őket, ami még tovább csökkenti a számítási költségeket. Egy másik előny az volt, hogy az adott feladathoz kiválasztott alhálózatok egy része újra felhasználható volt egy másik számára.

„Kicsit megdöbbentett, hogy ez még működött is” – mondja Frankle. „Ezt nem vettem természetesnek. Sokkal zavarosabb eredményre számítottam, mint amit kaptunk.”

Ari Morcos, a Facebook AI Research tudósa szerint ez a felfedezés „meggyőző”, és „Ezek a modellek egyre szélesebb körben terjednek el. Ezért fontos megérteni, hogy a lottószelvény hipotézise érvényes-e.”

Morcos azt is mondja, hogy ha ezek az alhálózatok drasztikusan kevesebb számítási teljesítménnyel működnének, akkor ez „nagyon hatásos lenne, mivel ezek a rendkívül nagy modellek jelenleg nagyon költségesek”.

„Nem tudom, mennyivel nagyobbat tudunk elérni ezekkel a szuperszámítógép-stílusú számításokkal” – teszi hozzá Frankle. – Csökkentenünk kell a belépési akadályokat.

„Az a remény, hogy ez csökkenti a költségeket, és így mindenki számára elérhetőbbé válik… azok számára, akiknek csak laptopjuk van” – összegzi.

A kutatást a tervek szerint a Konferencia a neurális információfeldolgozó rendszerekről.

Alex McFarland mesterséges intelligencia újságíró és író, aki a mesterséges intelligencia legújabb fejleményeit vizsgálja. Számos AI startup vállalkozással és publikációval működött együtt világszerte.