Mesterséges Intelligencia
A kutatók rendkívül hatékony alhálózatokat fedeznek fel a Deep Learning neurális hálózatokon belül
A mélyen tanuló neurális hálózatok gyakran hatalmasak, és hatalmas számítási teljesítményt igényelnek, de egy új felfedezés megmutatja, hogyan lehet ezt csökkenteni a feladatok hatékonyabb elvégzése érdekében. Jonathan Frankle és csapata az MIT-től kidolgozta a „lottószelvény-hipotéziseket”, amelyek megmutatják, hogyan vannak karcsúbb alhálózatok a nagyobb neurális hálózatokon belül. Ezek az alhálózatok hatékonyabban tudják elvégezni az adott feladatot kisebb számítási teljesítmény mellett, és az egyik legnagyobb kihívást ezeknek az alhálózatoknak a megtalálása vagy a sorsjegyek megnyerése jelenti, ahogy a csapat hivatkozik rájuk.
A csapat felfedezte ezeket az alhálózatokat a BERT-en belül, amely a természetes nyelvi feldolgozás (NLP) legmodernebb gépi tanulási technikája. Az NLP, amely a mesterséges intelligencia (AI) egy részterülete, felelős az emberi nyelv megfejtéséért és elemzéséért, és olyan alkalmazásokhoz használják, mint a prediktív szöveggenerálás és a chatbotok.
A BERT azonban nagy, és szuperszámítási teljesítményt igényel, ami a legtöbb felhasználó számára elérhetetlen. Ezen alhálózatok új felfedezésével megnyílhat ez a hozzáférés, és több felhasználó használhatja a technológiát NLP-eszközök fejlesztésére.
„Elérkeztünk ahhoz a ponthoz, amikor ezeket a modelleket karcsúbbá és hatékonyabbá kell tennünk” – mondja Frankle.
Szerinte ez a fejlesztés „csökkentheti a belépési korlátokat” az NLP számára.
BERT – „Obszcénen drága”
A BERT alapvető fontosságú olyan dolgokban, mint például a Google keresőmotorja, és nagy figyelmet kapott, mióta a Google 2018-ban kiadta. Ez egy neurális hálózatok létrehozásának módszere, amelyet úgy képeznek, hogy sokszor megpróbálja kitölteni az üres szövegrészeket. A BERT egyik leglenyűgözőbb tulajdonsága a hatalmas kezdeti képzési adatkészlet.
Ezt követően a felhasználók bizonyos feladatokra, például ügyfélszolgálati chatbotokra hangolhatják, de ismét hatalmas mennyiségű feldolgozási teljesítményt igényel, és a paraméterek akár 1 milliárdot is elérhetnek.
„A manapság egy szabványos BERT modell – a kerti fajta – 340 millió paraméterrel rendelkezik” – mondja Frankle. „Ez egyszerűen obszcén drága. Ez jóval meghaladja ön vagy én számítási képességeit.”
Tianlong Chen, az austini Texasi Egyetem vezető szerzője szerint az olyan modellek, mint a BERT, „óriási hálózatmérettől szenvednek”, de az új kutatásnak köszönhetően „a lottószelvény hipotézise megoldásnak tűnik”.
Hatékony alhálózatok
Chen és csapata egy kisebb modellt keresett a BERT-en belül, és összehasonlították a felfedezett alhálózatok teljesítményét az eredeti BERT modellel. Ezt különféle NLP-feladatokon tesztelték, beleértve a kérdések megválaszolását és az üres szavak kitöltését egy mondatban.
A csapat sikeres alhálózatokat fedezett fel, amelyek lenyűgözően 40-90 százalékkal karcsúbbak voltak, mint az eredeti BERT-modell, és a tényleges százalék a feladattól függ. Ráadásul a feladatspecifikus finomhangolás előtt azonosítani tudták őket, ami még tovább csökkenti a számítási költségeket. Egy másik előny az volt, hogy az adott feladathoz kiválasztott alhálózatok egy része újra felhasználható volt egy másik számára.
„Kicsit megdöbbentett, hogy ez még működött is” – mondja Frankle. „Ezt nem vettem természetesnek. Sokkal zavarosabb eredményre számítottam, mint amit kaptunk.”
Ari Morcos, a Facebook AI Research tudósa szerint ez a felfedezés „meggyőző”, és „Ezek a modellek egyre szélesebb körben terjednek el. Ezért fontos megérteni, hogy a lottószelvény hipotézise érvényes-e.”
Morcos azt is mondja, hogy ha ezek az alhálózatok drasztikusan kevesebb számítási teljesítménnyel működnének, akkor ez „nagyon hatásos lenne, mivel ezek a rendkívül nagy modellek jelenleg nagyon költségesek”.
„Nem tudom, mennyivel nagyobbat tudunk elérni ezekkel a szuperszámítógép-stílusú számításokkal” – teszi hozzá Frankle. – Csökkentenünk kell a belépési akadályokat.
„Az a remény, hogy ez csökkenti a költségeket, és így mindenki számára elérhetőbbé válik… azok számára, akiknek csak laptopjuk van” – összegzi.
A kutatást a tervek szerint a Konferencia a neurális információfeldolgozó rendszerekről.