Mesterséges Intelligencia
A Microsoft Phi-3 Mini belsejében: egy könnyű mesterséges intelligencia-modell, amely meghaladja a súlyát
A Microsoft a közelmúltban mutatta be legújabb, könnyű nyelvi modelljét, a Phi-3 Minit, amely egy olyan kompakt mesterségesintelligencia-modell hármasát indítja el, amelyek a legkorszerűbb teljesítményt nyújtják, miközben elég kicsik ahhoz, hogy hatékonyan működjenek korlátozott számítási erőforrásokkal rendelkező eszközökön. Mindössze 3.8 milliárd paraméterével a Phi-3 Mini töredéke a GPT-4-hez hasonló mesterségesintelligencia-óriások méretének, de az ígéretek szerint számos kulcsfontosságú területen megfelel a képességeiknek.
A fejlődése Phi-3 Mini jelentős mérföldkövet jelent a fejlett AI-képességek demokratizálására irányuló törekvésben azáltal, hogy a hardverek szélesebb körében elérhetővé teszik őket. Kis helyigénye lehetővé teszi, hogy helyben telepítse okostelefonokon, táblagépeken és más szélső eszközökön, leküzdve a felhőalapú modellekkel kapcsolatos késleltetési és adatvédelmi problémákat. Ez új lehetőségeket nyit meg az eszközön belüli intelligens élményekhez a különböző területeken, a virtuális asszisztensektől és a társalgási AI-tól a kódolási asszisztensekig és a nyelvértési feladatokig.
- 4 bites kvantált phi-3-mini natívan fut egy iPhone-on
A motorháztető alatt: Építészet és képzés
Lényegében a Phi-3 Mini egy transzformátor dekódoló modell, amely hasonló architektúrára épül, mint a nyílt forráskódú Llama-2 modell. 32 rétegből, 3072 rejtett dimenzióból és 32 figyelőfejből áll, az alapértelmezett kontextushosszúság pedig 4,000 token. A Microsoft bemutatta a Phi-3 Mini-128K nevű hosszú kontextusos verziót is, amely a kontextus hosszát lenyűgöző 128,000 XNUMX tokenre növeli olyan technikák segítségével, mint a LongRope.
Ami azonban megkülönbözteti a Phi-3 Minit, az az edzésmódszer. Ahelyett, hogy pusztán a hatalmas adatkészletek és a számítási teljesítmény nyers erejére hagyatkozna, a Microsoft egy jó minőségű, érvelést igénylő képzési adatkészlet összeállítására összpontosított. Ezek az adatok erősen szűrt webes adatokból, valamint nagyobb nyelvi modellek által generált szintetikus adatokból állnak.
A képzési folyamat kétfázisú megközelítést követ. Az első fázisban a modell sokféle internetes forrásnak van kitéve, amelyek célja az általános ismeretek és a nyelvértés megtanítása. A második fázis a még erősebben szűrt webes adatokat olyan szintetikus adatokkal kombinálja, amelyek logikai gondolkodási készségeket és niche tartományi szakértelmet biztosítanak.
A Microsoft ezt a megközelítést „adatoptimális rezsimnek” nevezi, ami eltér a hagyományos „számítási optimális rendszertől” vagy „túlképzési rendszertől”, amelyet sok nagy nyelvi modell alkalmaz. A cél az, hogy a képzési adatokat a modell skálájához igazítsák, megfelelő szintű tudást és érvelési képességet biztosítva, miközben elegendő kapacitást hagyva más képességekhez.
- Az új Phi-3 modellek minősége, a Massive Multitask Language Understanding (MMLU) benchmark teljesítményén mérve
Ez az adatközpontú megközelítés meghozta gyümölcsét, mivel a Phi-3 Mini figyelemre méltó teljesítményt ér el az akadémiai benchmarkok széles körében, gyakran vetekedve vagy felülmúlva a sokkal nagyobb modelleket. Például 69%-ot ér el az MMLU benchmarkon a többfeladatos tanulás és megértés terén, az MT-padon pedig 8.38 a matematikai érvelés terén – az eredmények egyenértékűek az olyan modellekkel, mint a Mixtral 8x7B és a GPT-3.5.
Biztonság és robusztusság
Lenyűgöző teljesítménye mellett A Microsoft nagy hangsúlyt fektetett a biztonságra és a robusztusságra a Phi-3 Mini fejlesztésében. A modell szigorú utóképzésen ment keresztül, amely magában foglalja a felügyelt finomhangolást (SFT) és a közvetlen preferenciaoptimalizálást (DPO).
Az SFT-szakasz magas szinten összegyűjtött adatokat hasznosít különféle területeken, beleértve a matematikát, a kódolást, az érvelést, a beszélgetést, a modellazonosságot és a biztonságot. Ez segít megerősíteni a modell képességeit ezeken a területeken, miközben erős identitástudatot és etikus magatartást kelt.
Az adatvédelmi tisztviselő szakasza ezzel szemben arra összpontosít, hogy a modellt elterelje a nem kívánt viselkedésektől, az elutasított válaszokat negatív példaként használva. Ez a folyamat magában foglalja a csevegési formátumú adatokat, az érvelési feladatokat és a felelős AI (RAI) erőfeszítéseket, biztosítva, hogy a Phi-3 Mini betartsa a Microsoft etikus és megbízható mesterséges intelligencia alapelveit.
Biztonsági profiljának továbbfejlesztése érdekében a Phi-3 Minit kiterjedt red-teaming és automatizált tesztelésnek vetették alá több tucat RAI ártalomkategóriában. A Microsoft független vörös csapata iteratívan megvizsgálta a modellt, azonosítva a fejlesztésre szoruló területeket, amelyeket aztán további összegyűjtött adatkészletek és átképzések révén kezeltek.
Ez a sokrétű megközelítés jelentősen csökkentette a káros válaszok, a ténybeli pontatlanságok és a torzítások előfordulását, amint azt a Microsoft belső RAI-benchmarkjai is mutatják. Például a modell alacsony hibaarányt mutat a káros tartalom folytatása (0.75%) és összegzése (10%), valamint alacsony megalapozatlansági aránya (0.603), ami azt jelzi, hogy válaszai szilárdan az adott kontextusban gyökereznek.
Alkalmazások és használati esetek
Lenyűgöző teljesítményével és robusztus biztonsági intézkedéseivel a Phi-3 Mini számos alkalmazáshoz jól illeszkedik, különösen korlátozott erőforrás-környezetekben és késleltetéshez kötött forgatókönyvekben.
Az egyik legizgalmasabb lehetőség az intelligens virtuális asszisztensek és a társalgási AI telepítése közvetlenül a mobileszközökön. Helyi futtatással ezek az asszisztensek azonnali válaszokat tudnak adni hálózati kapcsolat nélkül, miközben gondoskodnak arról is, hogy az érzékeny adatok az eszközön maradjanak, így kezelve az adatvédelmi aggályokat.
A Phi-3 Mini erős érvelési képességei a kódolási segítségnyújtás és a matematikai problémamegoldás szempontjából is értékes eszközzé teszik. A fejlesztők és a tanulók profitálhatnak az eszközön található kódkiegészítésből, a hibaészlelésből és a magyarázatokból, amelyek leegyszerűsítik a fejlesztési és tanulási folyamatokat.
Ezeken az alkalmazásokon túl a modell sokoldalúsága lehetőségeket nyit meg olyan területeken, mint a nyelvértés, a szövegösszegzés és a kérdések megválaszolása. Kis mérete és hatékonysága vonzó választássá teszi a mesterséges intelligencia képességeinek számos eszközbe és rendszerbe való beágyazásához, az intelligens háztartási készülékektől az ipari automatizálási rendszerekig.
Előretekintve: Phi-3 kicsi és Phi-3 közepes
Míg Phi-3 Mini már önmagában is figyelemre méltó teljesítmény, a Microsoftnak még nagyobb tervei vannak a Phi-3 családdal. A cég már bemutatott két nagyobb modellt, a Phi-3 Small-t (7 milliárd paraméter) és a Phi-3 Mediumot (14 milliárd paraméter), amelyek várhatóan kitágítják a kompakt nyelvi modellek teljesítményének határait.
A Phi-3 Small például egy fejlettebb tokenizálót (tiktoken) és egy csoportos lekérdezési figyelemmechanizmust, valamint egy új, blokkhiányos figyelemréteget használ, hogy optimalizálja a memóriaterületet, miközben megőrzi a hosszú kontextus-visszakeresési teljesítményt. A többnyelvű adatok további 10%-át is magában foglalja, javítva ezzel a nyelvértési és -generálási képességeket több nyelven.
A Phi-3 Medium ezzel szemben jelentős léptékbeli előrelépést jelent, 40 réteggel, 40 figyelemfelkeltő fejjel és 5,120-as beágyazási dimenzióval. Noha a Microsoft megjegyzi, hogy egyes benchmarkok további finomítását tehetik szükségessé a betanítási adatkeveréken a megnövekedett kapacitás teljes kihasználása érdekében, a kezdeti eredmények ígéretesek, a Phi-3 Small-hoz képest jelentős javulást mutattak az olyan feladatokban, mint az MMLU, a TriviaQA és a HumanEval.
Korlátozások és jövőbeli irányok
Lenyűgöző képességei ellenére a Phi-3 Mini, mint minden nyelvi modell, nem mentes a korlátoktól. Az egyik legfigyelemreméltóbb gyengeség a tényszerű ismeretek tárolásának viszonylag korlátozott kapacitása, amit az is bizonyít, hogy alacsonyabb teljesítményt nyújt az olyan benchmarkokon, mint a TriviaQA.
A Microsoft azonban úgy véli, hogy ez a korlátozás mérsékelhető, ha a modellt keresőmotor-képességekkel egészítik ki, lehetővé téve számára, hogy igény szerint lekérje és megfontolja a releváns információkat. Ezt a megközelítést a Ölelés arc Chat-UI, ahol a Phi-3 Mini kihasználhatja a keresést a válaszok fokozása érdekében.
Egy másik fejlesztésre szoruló terület a modell többnyelvűsége. Míg a Phi-3 Small megtette a kezdeti lépéseket további többnyelvű adatok beépítésével, további munkára van szükség ahhoz, hogy teljes mértékben kiaknázzuk ezekben a kompakt modellekben rejlő lehetőségeket a többnyelvű alkalmazásokban.
A jövőre nézve a Microsoft elkötelezett a Phi modellcsalád folyamatos fejlesztése, korlátaik kezelése és képességeik bővítése mellett. Ez magában foglalhatja a betanítási adatok és módszertan további finomítását, valamint új architektúrák és technikák feltárását, amelyeket kifejezetten a kompakt, nagy teljesítményű nyelvi modellekhez szabtak.
Következtetés
A Microsoft Phi-3 Minije jelentős előrelépést jelent a fejlett AI-képességek demokratizálása terén. A legkorszerűbb teljesítményt egy kompakt, erőforrás-hatékony csomagban kínálva új lehetőségeket nyit meg az intelligens eszközön történő élményekhez az alkalmazások széles körében.
A modell innovatív edzési megközelítése, amely a jó minőségű, érvelésben sűrű adatokat helyezi előtérbe a puszta számítási erő helyett, megváltoztatja a játékot, és lehetővé teszi a Phi-3 Mini számára, hogy jóval a súlycsoportja fölé üthessen. Határozott biztonsági intézkedéseivel és folyamatos fejlesztési erőfeszítéseivel kombinálva a Phi-3 modellcsalád döntő szerepet játszik az intelligens rendszerek jövőjének alakításában, így az AI minden eddiginél hozzáférhetőbbé, hatékonyabbá és megbízhatóbbá válik.
Ahogy a technológiai ipar továbbra is feszegeti a mesterséges intelligencia által lehetségesek határait, a Microsoft elkötelezettsége a könnyű, nagy teljesítményű modellek, például a Phi-3 Mini mellett, üdítő eltérést jelent a „minél nagyobb, annál jobb” hagyományos bölcsességétől. Azáltal, hogy bebizonyítja, hogy a méret nem minden, a Phi-3 Mini képes arra, hogy inspiráljon egy új innovációs hullámot, amelynek középpontjában az AI értékének és hatásának maximalizálása áll az intelligens adatkezelés, átgondolt modelltervezés és felelős fejlesztési gyakorlatok révén.