csonk A Microsoft Phi-3 Mini belsejében: egy könnyű mesterséges intelligencia-modell, amely meghaladja a súlyát - Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

A Microsoft Phi-3 Mini belsejében: egy könnyű mesterséges intelligencia-modell, amely meghaladja a súlyát

mm

Közzététel:

 on

Phi-3: Kiválóan használható nyelvi modell helyileg a telefonon

A Microsoft a közelmúltban mutatta be legújabb, könnyű nyelvi modelljét, a Phi-3 Minit, amely egy olyan kompakt mesterségesintelligencia-modell hármasát indítja el, amelyek a legkorszerűbb teljesítményt nyújtják, miközben elég kicsik ahhoz, hogy hatékonyan működjenek korlátozott számítási erőforrásokkal rendelkező eszközökön. Mindössze 3.8 milliárd paraméterével a Phi-3 Mini töredéke a GPT-4-hez hasonló mesterségesintelligencia-óriások méretének, de az ígéretek szerint számos kulcsfontosságú területen megfelel a képességeiknek.

A fejlődése Phi-3 Mini jelentős mérföldkövet jelent a fejlett AI-képességek demokratizálására irányuló törekvésben azáltal, hogy a hardverek szélesebb körében elérhetővé teszik őket. Kis helyigénye lehetővé teszi, hogy helyben telepítse okostelefonokon, táblagépeken és más szélső eszközökön, leküzdve a felhőalapú modellekkel kapcsolatos késleltetési és adatvédelmi problémákat. Ez új lehetőségeket nyit meg az eszközön belüli intelligens élményekhez a különböző területeken, a virtuális asszisztensektől és a társalgási AI-tól a kódolási asszisztensekig és a nyelvértési feladatokig.

4 bites kvantált phi-3-mini, amely natívan fut iPhone-on
4 bites kvantált phi-3-mini natívan fut egy iPhone-on

A motorháztető alatt: Építészet és képzés

Lényegében a Phi-3 Mini egy transzformátor dekódoló modell, amely hasonló architektúrára épül, mint a nyílt forráskódú Llama-2 modell. 32 rétegből, 3072 rejtett dimenzióból és 32 figyelőfejből áll, az alapértelmezett kontextushosszúság pedig 4,000 token. A Microsoft bemutatta a Phi-3 Mini-128K nevű hosszú kontextusos verziót is, amely a kontextus hosszát lenyűgöző 128,000 XNUMX tokenre növeli olyan technikák segítségével, mint a LongRope.

Ami azonban megkülönbözteti a Phi-3 Minit, az az edzésmódszer. Ahelyett, hogy pusztán a hatalmas adatkészletek és a számítási teljesítmény nyers erejére hagyatkozna, a Microsoft egy jó minőségű, érvelést igénylő képzési adatkészlet összeállítására összpontosított. Ezek az adatok erősen szűrt webes adatokból, valamint nagyobb nyelvi modellek által generált szintetikus adatokból állnak.

A képzési folyamat kétfázisú megközelítést követ. Az első fázisban a modell sokféle internetes forrásnak van kitéve, amelyek célja az általános ismeretek és a nyelvértés megtanítása. A második fázis a még erősebben szűrt webes adatokat olyan szintetikus adatokkal kombinálja, amelyek logikai gondolkodási készségeket és niche tartományi szakértelmet biztosítanak.

A Microsoft ezt a megközelítést „adatoptimális rezsimnek” nevezi, ami eltér a hagyományos „számítási optimális rendszertől” vagy „túlképzési rendszertől”, amelyet sok nagy nyelvi modell alkalmaz. A cél az, hogy a képzési adatokat a modell skálájához igazítsák, megfelelő szintű tudást és érvelési képességet biztosítva, miközben elegendő kapacitást hagyva más képességekhez.

Az új Phi-3 modellek minősége a Massive Multitask Language Understanding (MMLU) teljesítményével mérve
Az új Phi-3 modellek minősége, a Massive Multitask Language Understanding (MMLU) benchmark teljesítményén mérve

Ez az adatközpontú megközelítés meghozta gyümölcsét, mivel a Phi-3 Mini figyelemre méltó teljesítményt ér el az akadémiai benchmarkok széles körében, gyakran vetekedve vagy felülmúlva a sokkal nagyobb modelleket. Például 69%-ot ér el az MMLU benchmarkon a többfeladatos tanulás és megértés terén, az MT-padon pedig 8.38 a matematikai érvelés terén – az eredmények egyenértékűek az olyan modellekkel, mint a Mixtral 8x7B és a GPT-3.5.

Biztonság és robusztusság

Lenyűgöző teljesítménye mellett A Microsoft nagy hangsúlyt fektetett a biztonságra és a robusztusságra a Phi-3 Mini fejlesztésében. A modell szigorú utóképzésen ment keresztül, amely magában foglalja a felügyelt finomhangolást (SFT) és a közvetlen preferenciaoptimalizálást (DPO).

Az SFT-szakasz magas szinten összegyűjtött adatokat hasznosít különféle területeken, beleértve a matematikát, a kódolást, az érvelést, a beszélgetést, a modellazonosságot és a biztonságot. Ez segít megerősíteni a modell képességeit ezeken a területeken, miközben erős identitástudatot és etikus magatartást kelt.

Az adatvédelmi tisztviselő szakasza ezzel szemben arra összpontosít, hogy a modellt elterelje a nem kívánt viselkedésektől, az elutasított válaszokat negatív példaként használva. Ez a folyamat magában foglalja a csevegési formátumú adatokat, az érvelési feladatokat és a felelős AI (RAI) erőfeszítéseket, biztosítva, hogy a Phi-3 Mini betartsa a Microsoft etikus és megbízható mesterséges intelligencia alapelveit.

Biztonsági profiljának továbbfejlesztése érdekében a Phi-3 Minit kiterjedt red-teaming és automatizált tesztelésnek vetették alá több tucat RAI ártalomkategóriában. A Microsoft független vörös csapata iteratívan megvizsgálta a modellt, azonosítva a fejlesztésre szoruló területeket, amelyeket aztán további összegyűjtött adatkészletek és átképzések révén kezeltek.

Ez a sokrétű megközelítés jelentősen csökkentette a káros válaszok, a ténybeli pontatlanságok és a torzítások előfordulását, amint azt a Microsoft belső RAI-benchmarkjai is mutatják. Például a modell alacsony hibaarányt mutat a káros tartalom folytatása (0.75%) és összegzése (10%), valamint alacsony megalapozatlansági aránya (0.603), ami azt jelzi, hogy válaszai szilárdan az adott kontextusban gyökereznek.

Alkalmazások és használati esetek

Lenyűgöző teljesítményével és robusztus biztonsági intézkedéseivel a Phi-3 Mini számos alkalmazáshoz jól illeszkedik, különösen korlátozott erőforrás-környezetekben és késleltetéshez kötött forgatókönyvekben.

Az egyik legizgalmasabb lehetőség az intelligens virtuális asszisztensek és a társalgási AI telepítése közvetlenül a mobileszközökön. Helyi futtatással ezek az asszisztensek azonnali válaszokat tudnak adni hálózati kapcsolat nélkül, miközben gondoskodnak arról is, hogy az érzékeny adatok az eszközön maradjanak, így kezelve az adatvédelmi aggályokat.

A Phi-3 Mini erős érvelési képességei a kódolási segítségnyújtás és a matematikai problémamegoldás szempontjából is értékes eszközzé teszik. A fejlesztők és a tanulók profitálhatnak az eszközön található kódkiegészítésből, a hibaészlelésből és a magyarázatokból, amelyek leegyszerűsítik a fejlesztési és tanulási folyamatokat.

Ezeken az alkalmazásokon túl a modell sokoldalúsága lehetőségeket nyit meg olyan területeken, mint a nyelvértés, a szövegösszegzés és a kérdések megválaszolása. Kis mérete és hatékonysága vonzó választássá teszi a mesterséges intelligencia képességeinek számos eszközbe és rendszerbe való beágyazásához, az intelligens háztartási készülékektől az ipari automatizálási rendszerekig.

Előretekintve: Phi-3 kicsi és Phi-3 közepes

Míg Phi-3 Mini már önmagában is figyelemre méltó teljesítmény, a Microsoftnak még nagyobb tervei vannak a Phi-3 családdal. A cég már bemutatott két nagyobb modellt, a Phi-3 Small-t (7 milliárd paraméter) és a Phi-3 Mediumot (14 milliárd paraméter), amelyek várhatóan kitágítják a kompakt nyelvi modellek teljesítményének határait.

A Phi-3 Small például egy fejlettebb tokenizálót (tiktoken) és egy csoportos lekérdezési figyelemmechanizmust, valamint egy új, blokkhiányos figyelemréteget használ, hogy optimalizálja a memóriaterületet, miközben megőrzi a hosszú kontextus-visszakeresési teljesítményt. A többnyelvű adatok további 10%-át is magában foglalja, javítva ezzel a nyelvértési és -generálási képességeket több nyelven.

A Phi-3 Medium ezzel szemben jelentős léptékbeli előrelépést jelent, 40 réteggel, 40 figyelemfelkeltő fejjel és 5,120-as beágyazási dimenzióval. Noha a Microsoft megjegyzi, hogy egyes benchmarkok további finomítását tehetik szükségessé a betanítási adatkeveréken a megnövekedett kapacitás teljes kihasználása érdekében, a kezdeti eredmények ígéretesek, a Phi-3 Small-hoz képest jelentős javulást mutattak az olyan feladatokban, mint az MMLU, a TriviaQA és a HumanEval.

Korlátozások és jövőbeli irányok

Lenyűgöző képességei ellenére a Phi-3 Mini, mint minden nyelvi modell, nem mentes a korlátoktól. Az egyik legfigyelemreméltóbb gyengeség a tényszerű ismeretek tárolásának viszonylag korlátozott kapacitása, amit az is bizonyít, hogy alacsonyabb teljesítményt nyújt az olyan benchmarkokon, mint a TriviaQA.

A Microsoft azonban úgy véli, hogy ez a korlátozás mérsékelhető, ha a modellt keresőmotor-képességekkel egészítik ki, lehetővé téve számára, hogy igény szerint lekérje és megfontolja a releváns információkat. Ezt a megközelítést a Ölelés arc Chat-UI, ahol a Phi-3 Mini kihasználhatja a keresést a válaszok fokozása érdekében.

Egy másik fejlesztésre szoruló terület a modell többnyelvűsége. Míg a Phi-3 Small megtette a kezdeti lépéseket további többnyelvű adatok beépítésével, további munkára van szükség ahhoz, hogy teljes mértékben kiaknázzuk ezekben a kompakt modellekben rejlő lehetőségeket a többnyelvű alkalmazásokban.

A jövőre nézve a Microsoft elkötelezett a Phi modellcsalád folyamatos fejlesztése, korlátaik kezelése és képességeik bővítése mellett. Ez magában foglalhatja a betanítási adatok és módszertan további finomítását, valamint új architektúrák és technikák feltárását, amelyeket kifejezetten a kompakt, nagy teljesítményű nyelvi modellekhez szabtak.

Következtetés

A Microsoft Phi-3 Minije jelentős előrelépést jelent a fejlett AI-képességek demokratizálása terén. A legkorszerűbb teljesítményt egy kompakt, erőforrás-hatékony csomagban kínálva új lehetőségeket nyit meg az intelligens eszközön történő élményekhez az alkalmazások széles körében.

A modell innovatív edzési megközelítése, amely a jó minőségű, érvelésben sűrű adatokat helyezi előtérbe a puszta számítási erő helyett, megváltoztatja a játékot, és lehetővé teszi a Phi-3 Mini számára, hogy jóval a súlycsoportja fölé üthessen. Határozott biztonsági intézkedéseivel és folyamatos fejlesztési erőfeszítéseivel kombinálva a Phi-3 modellcsalád döntő szerepet játszik az intelligens rendszerek jövőjének alakításában, így az AI minden eddiginél hozzáférhetőbbé, hatékonyabbá és megbízhatóbbá válik.

Ahogy a technológiai ipar továbbra is feszegeti a mesterséges intelligencia által lehetségesek határait, a Microsoft elkötelezettsége a könnyű, nagy teljesítményű modellek, például a Phi-3 Mini mellett, üdítő eltérést jelent a „minél nagyobb, annál jobb” hagyományos bölcsességétől. Azáltal, hogy bebizonyítja, hogy a méret nem minden, a Phi-3 Mini képes arra, hogy inspiráljon egy új innovációs hullámot, amelynek középpontjában az AI értékének és hatásának maximalizálása áll az intelligens adatkezelés, átgondolt modelltervezés és felelős fejlesztési gyakorlatok révén.

Az elmúlt öt évet azzal töltöttem, hogy elmerüljek a gépi tanulás és a mélytanulás lenyűgöző világában. Szenvedélyem és szakértelmem késztetett arra, hogy több mint 50 különféle szoftverfejlesztési projektben működjek közre, különös tekintettel az AI/ML-re. Folyamatos kíváncsiságom a természetes nyelvi feldolgozás felé is vonzott, amely terület, amelyet szívesen fedezek fel.