Mesterséges intelligencia
A léptékezési kód megszegése: Hogyan határozzák meg újra a szabályokat az AI-modellek

A mesterséges intelligencia figyelemreméltó lépéseket tett az elmúlt években. Azok a modellek, amelyek egykor alapvető feladatokkal küszködtek, most a matematikai feladatok megoldásában, kódgenerálásban és összetett kérdések megválaszolásában jeleskednek. Ennek a haladásnak a központi eleme a koncepció léptékezési törvények– szabályok, amelyek elmagyarázzák, hogyan javulnak az AI-modellek, ahogy növekednek, hogyan tanulnak több adatra, vagy hogyan működnek nagyobb számítási erőforrások. Évekig ezek a törvények szolgáltak tervezetként a jobb mesterséges intelligencia fejlesztéséhez.
A közelmúltban egy új trend jelent meg. A kutatók olyan módszereket találnak, amelyek úttörő eredményeket érhetnek el anélkül, hogy egyszerűen nagyobb modelleket készítenének. Ez a változás több, mint technikai fejlődés. Átformálja az AI felépítését, hatékonyabbá, hozzáférhetőbbé és fenntarthatóbbá teszi.
A méretezési törvények alapjai
A skálázási törvények olyanok, mint az AI fejlesztésének képlete. Azt állítják, hogy amint növeli a modell méretét, több adatot táplál be, vagy nagyobb számítási teljesítményhez ad hozzáférést, a teljesítménye javul. Például:
Modellméret: A nagyobb, több paraméterrel rendelkező modellek képesek megtanulni és összetettebb mintákat ábrázolni. A paraméterek a modell állítható részei, amelyek lehetővé teszik előrejelzések készítését.
dátum: A hatalmas, változatos adatkészletekre vonatkozó képzés segít a modellek jobb általánosításában, lehetővé téve számukra, hogy olyan feladatokat tudjanak kezelni, amelyekre nem kifejezetten képezték őket.
Kiszámít: A nagyobb számítási teljesítmény gyorsabb és hatékonyabb edzést tesz lehetővé, és nagyobb teljesítményt ér el.
Ez a recept több mint egy évtizede irányítja a mesterséges intelligencia fejlődését. A korai neurális hálózatok, mint pl AlexNet és a ResNet bemutatta, hogy a modellméret növelése hogyan javíthatja a képfelismerést. Aztán jöttek a transzformátorok, ahol a modellek kedvelik GPT-3 és a Google BERTI megmutatták, hogy a méretezés teljesen új lehetőségeket nyithat meg, mint például a néhány lépéses tanulás.
A méretezés határai
Sikerei ellenére a méretezésnek vannak korlátai. A modellek növekedésével a további paraméterek hozzáadásával kapcsolatos fejlesztések csökkennek. Ez a jelenség, az úgynevezett „a csökkenő hozam törvénye”, azt jelenti, hogy egy modell méretének megkétszerezése nem duplázza meg a teljesítményét. Ehelyett minden egyes lépés kisebb nyereséget eredményez. Ez azt jelenti, hogy az ilyen modellek teljesítményének további növeléséhez még több erőforrásra lenne szükség a viszonylag szerény nyereséghez. Ennek valós következményei vannak. A hatalmas modellek építése jelentős pénzügyi és környezetvédelmi költségekkel jár. A nagy modellek betanítása drága. A GPT-3 állítólag költséges millió dollár edzeni. Ezek a költségek elérhetetlenné teszik az élvonalbeli AI-t a kisebb szervezetek számára. A hatalmas modellek képzése hatalmas mennyiségű energiát fogyaszt. A tanulmány becslések szerint egyetlen nagy modell kiképzése annyi szén-dioxidot bocsáthat ki, mint öt autó élettartama során.
A kutatók felismerték ezeket a kihívásokat, és alternatívákat kezdtek vizsgálni. Ahelyett, hogy a nyers erőre hagyatkoztak volna, azt kérdezték: Hogyan tehetjük az AI-t okosabbá, nem csak nagyobbá?
A méretezési kód feltörése
A legutóbbi áttörések azt mutatják, hogy lehetséges felülmúlni a hagyományos méretezési törvényeket. Az intelligensebb architektúrák, a kifinomultabb adatstratégiák és a hatékony oktatási technikák lehetővé teszik az AI számára, hogy hatalmas erőforrások igénye nélkül érjen el új magasságokat.
Okosabb modelltervek: A modellek nagyobbítása helyett a kutatók a hatékonyabbá tételükre összpontosítanak. Példák:
-
- Ritka modellek: Az összes paraméter egyszerre történő aktiválása helyett a ritka modellek csak az adott feladathoz szükséges alkatrészeket használják. Ez a megközelítés számítási teljesítményt takarít meg, miközben megőrzi a teljesítményt. Figyelemre méltó példa az Mistral 7B, amely annak ellenére, hogy mindössze 7 milliárd paraméterrel rendelkezik, a ritka architektúra használatával sokkal nagyobb modelleket teljesít.
- Transzformátorfejlesztések: A transzformátorok továbbra is a modern mesterséges intelligencia gerincét képezik, de kialakításuk folyamatosan fejlődik. Olyan újítások, mint lineáris figyelemmechanizmusok gyorsabbá és kevésbé erőforrásigényessé teszik a transzformátorokat.
Jobb adatstratégiák: A több adat nem mindig jobb. A válogatott, jó minőségű adatkészletek gyakran felülmúlják a puszta mennyiséget. Például,
-
- Fókuszált adatkészletek: A hatalmas, szűretlen adatokon való képzés helyett a kutatók tiszta és releváns adatkészleteket használnak. Például az OpenAI a megbízhatóság javítása érdekében a gondosan kiválasztott adatok felé mozdult el.
- Domainspecifikus képzés: Az olyan speciális területeken, mint az orvostudomány vagy a jog, a célzott adatkészletek segítenek abban, hogy a modellek kevesebb példával jól teljesítsenek.
Hatékony edzési módszerek: Az új képzési technikák a teljesítmény feláldozása nélkül csökkentik az erőforrásigényt. Néhány példa ezekre a képzési módszerekre:
-
- Tantervi tanulás: Az egyszerűbb feladatokkal kezdődő és a nehezebbek fokozatos bevezetésével a modellek hatékonyabban tanulnak. Ez tükrözi, hogyan tanulnak az emberek.
- Olyan technikák, mint LoRA (Alacsony rangú adaptáció): Ezek a módszerek hatékonyan finomhangolják a modelleket anélkül, hogy teljesen áttanítanák őket.
- Gradiens ellenőrzési pont: Ez a megközelítés csökkenti a memóriahasználatot az edzés során, lehetővé téve a nagyobb modellek korlátozott hardveren való futtatását.
Emergens képességek: Ahogy nőnek a modellek, néha meglepő képességeket mutatnak be, például olyan problémák megoldását, amelyekre nem voltak kifejezetten kiképezve. Ezek a kialakuló képességek megkérdőjelezik a hagyományos skálázási törvényeket, mivel gyakran megjelennek a nagyobb modellekben, de nem a kisebb megfelelőikben. A kutatók most azt vizsgálják, hogyan lehetne hatékonyabban felszabadítani ezeket a képességeket, anélkül, hogy a nyers erővel történő skálázásra támaszkodnának.
Hibrid megközelítések az intelligensebb mesterséges intelligencia érdekében: A neurális hálózatok szimbolikus érveléssel való kombinálása egy másik ígéretes irány. Ezek a hibrid rendszerek a mintafelismerést logikai érveléssel kombinálják, így intelligensebbek és alkalmazkodóbbak. Ez a megközelítés csökkenti a hatalmas adatkészletek és a számítási teljesítmény szükségességét.
Valós példák
Számos legújabb modell bemutatja, hogy ezek a fejlesztések hogyan írják át a szabályokat:
GPT-4o Mini: A modell a sokkal nagyobb változatához hasonló teljesítményt nyújt, de a költségek és az erőforrások töredékéért. Ezeket az eredményeket intelligensebb képzési technikák és fókuszált adatkészletek segítségével éri el.
Mistral 7B: A mindössze 7 milliárd paraméterrel ez a modell több tízmilliárddal felülmúlja a modelleket. Ritka architektúrája bizonyítja, hogy az intelligens tervezés felülmúlhatja a nyers méretet.
Claude 3.5: A biztonsági és etikai szempontokat előnyben részesítő modell egyensúlyban tartja az erős teljesítményt az erőforrások átgondolt felhasználásával.
A méretezési törvények megszegésének hatása
Ezeknek a fejlesztéseknek valós vonatkozásai vannak.
Az AI elérhetőbbé tétele: A hatékony tervezés csökkenti a mesterséges intelligencia fejlesztésének és telepítésének költségeit. A nyílt forráskódú modellek, mint pl Láma 3.1 fejlett AI-eszközöket tesznek elérhetővé a kisebb cégek és kutatók számára.
Zöldebb jövő: Az optimalizált modellek csökkentik az energiafogyasztást, így fenntarthatóbb a mesterséges intelligencia fejlesztése. Ez az elmozdulás kritikus fontosságú, mivel a mesterséges intelligencia környezeti lábnyomával kapcsolatos aggodalmak nőnek.
Az AI kiterjesztése: A kisebb, hatékonyabb modellek mindennapi eszközökön, például okostelefonokon és IoT-modulokon is futhatnak. Ez új lehetőségeket nyit meg az alkalmazások előtt, a valós idejű nyelvi fordítástól az autók autonóm rendszeréig.
A lényeg
A méretezési törvények alakították az AI múltját, de már nem határozzák meg a jövőjét. Az intelligensebb architektúrák, a jobb adatkezelés és a hatékony oktatási módszerek megszegik a hagyományos méretezés szabályait. Ezek az újítások nemcsak erősebbé teszik az AI-t, hanem praktikusabbá és fenntarthatóbbá is.
A hangsúly a brute-force növekedésről az intelligens tervezésre helyeződött át. Ez az új korszak olyan mesterséges intelligenciát ígér, amely több ember számára elérhető, környezetbarát, és olyan módon képes megoldani a problémákat, ahogyan mi is csak most kezdjük elképzelni. A méretezési kódot nem csak feltörik, hanem újraírják.