Kuungana na sisi

Artificial Intelligence

Mistral AI: Kuweka Vigezo Vipya Zaidi ya Llama2 kwenye Nafasi ya Chanzo Huria

mm
Updated on
Mistral 7B LLM

Miundo Kubwa ya Lugha (LLMs) hivi majuzi imechukua hatua kuu, shukrani kwa wasanii bora kama ChatGPT. Meta ilipoanzisha miundo yao ya Llama, ilizua shauku mpya katika LLM za programu huria. Lengo? Ili kuunda LLM za chanzo huria za bei nafuu ambazo ni nzuri kama miundo ya kiwango cha juu kama vile GPT-4, lakini bila lebo ya bei kubwa au changamano.

Mchanganyiko huu wa uwezo na ufanisi haukufungua tu njia mpya kwa watafiti na watengenezaji bali pia uliweka mazingira ya enzi mpya ya maendeleo ya kiteknolojia katika usindikaji wa lugha asilia.

Hivi majuzi, uanzishaji wa AI wa uzalishaji umekuwa kwenye mkondo na ufadhili. Pamoja alimfufua $ 20 milioni, inayolenga kuunda AI ya chanzo huria. Anthropic pia ilichangisha dola milioni 450, na Cohere, akishirikiana na Google Cloud, imepata $ 270 milioni mnamo Juni mwaka huu.

Utangulizi wa Mistral 7B: Ukubwa na Upatikanaji

mistral AI

Mistral AI, iliyoko Paris na iliyoanzishwa kwa ushirikiano na wanachuo kutoka DeepMind na Meta ya Google, ilitangaza muundo wake wa kwanza wa lugha: Mistral 7B. Mtindo huu unaweza kupakuliwa kwa urahisi na mtu yeyote kutoka GitHub na hata kupitia a 13.4-gigabyte mkondo.

Uanzishaji huu uliweza kupata ufadhili wa mbegu uliovunja rekodi hata kabla ya kuwa na bidhaa nje. Njia ya kwanza ya Mistral AI yenye muundo wa parameta bilioni 7 inazidi utendaji wa moto 2 13B katika majaribio yote na kushinda Llama 1 34B katika vipimo vingi.

Ikilinganishwa na miundo mingine kama Llama 2, Mistral 7B hutoa uwezo sawa au bora lakini kwa uendeshaji mdogo wa hesabu. Ingawa miundo ya msingi kama GPT-4 inaweza kufikia zaidi, inakuja kwa gharama ya juu na haifai mtumiaji kwa vile inaweza kufikiwa hasa kupitia API.

Linapokuja suala la kazi za usimbaji, Mistral 7B inatoa KanuniLlama 7B kukimbia kwa pesa zake. Pamoja, ni sanjari ya kutosha kwa GB 13.4 kufanya kazi kwa mashine za kawaida.

Zaidi ya hayo, Mistral 7B Instruction, iliyoandaliwa mahususi kwa seti za data za mafundisho Uso wa kukumbatiana, imeonyesha utendaji mzuri. Inashinda miundo mingine ya 7B kwenye MT-Bench na inasimama bega kwa bega na miundo ya gumzo ya 13B.

Uainishaji wa Utendaji

Katika uchanganuzi wa kina wa utendakazi, Mistral 7B ilipimwa dhidi ya miundo ya familia ya Llama 2. Matokeo yalikuwa wazi: Mistral 7B ilipita Llama 2 13B kwa viwango vyote. Kwa kweli, ililingana na utendakazi wa Llama 34B, haswa kusimama katika kanuni na vigezo vya hoja.

Vigezo vilipangwa katika kategoria kadhaa, kama vile Kutoa Sababu kwa Kawaida, Maarifa ya Ulimwengu, Ufahamu wa Kusoma, Hesabu, na Msimbo, miongoni mwa zingine. Uchunguzi muhimu zaidi ulikuwa kipimo cha utendakazi wa gharama cha Mistral 7B, kinachojulikana kama "ukubwa wa muundo sawa". Katika maeneo kama vile hoja na ufahamu, Mistral 7B ilionyesha utendaji sawa na muundo wa Llama 2 mara tatu ya ukubwa wake, ikiashiria uokoaji unaowezekana katika kumbukumbu na nyongeza katika matokeo. Hata hivyo, katika viwango vya maarifa, Mistral 7B ililingana kwa karibu na Llama 2 13B, ambayo huenda inahusishwa na mapungufu yake ya kigezo yanayoathiri mgandamizo wa maarifa.

Ni nini hasa hufanya modeli ya Mistral 7B kuwa bora kuliko Mitindo mingine mingi ya Lugha?

Kurahisisha Taratibu za Kuzingatia

Ingawa hila za mifumo ya umakini ni ya kiufundi, wazo lao la msingi ni rahisi. Fikiria kusoma kitabu na kuangazia sentensi muhimu; hii ni sawa na jinsi mbinu za uangalizi "zinaangazia" au kutoa umuhimu kwa pointi maalum za data katika mlolongo.

Katika muktadha wa miundo ya lugha, taratibu hizi huwezesha kielelezo kuzingatia sehemu muhimu zaidi za data ya ingizo, kuhakikisha matokeo ni thabiti na sahihi kimuktadha.

Katika transfoma ya kawaida, alama za umakini huhesabiwa na formula:

Mfumo wa umakini wa transfoma

Mfumo wa Makini wa Transfoma

Fomula ya alama hizi inahusisha hatua muhimu - kuzidisha matrix ya Q na K. Changamoto hapa ni kwamba kadri urefu wa mfuatano unavyokua, hesabu zote mbili hupanuka ipasavyo, na kusababisha mchakato wa kukokotoa sana. Wasiwasi huu wa kuongezeka ni moja wapo ya sababu kuu kwa nini vibadilishaji vya kawaida vinaweza kuwa polepole, haswa wakati wa kushughulika na mlolongo mrefu.

transformerMbinu za kuzingatia husaidia miundo kuzingatia sehemu mahususi za data ya ingizo. Kwa kawaida, mifumo hii hutumia 'vichwa' kudhibiti umakini huu. Vichwa zaidi unavyo, tahadhari maalum zaidi, lakini pia inakuwa ngumu zaidi na polepole. Ingia ndani zaidi ya transfoma na mifumo ya umakini hapa.

Uangalifu wa maswali mengi (MQA) huharakisha mambo kwa kutumia seti moja ya vichwa vya 'thamani-msingi' lakini wakati mwingine hupoteza ubora. Sasa, unaweza kujiuliza, kwa nini usichanganye kasi ya MQA na ubora wa tahadhari ya vichwa vingi? Hapo ndipo umakini wa maswali ya Kundi (GQA) unapokuja.

Uangalifu wa Maswali ya Vikundi (GQA)

Uangalifu wa hoja za vikundi

Uangalifu wa hoja za vikundi

GQA ni suluhisho la msingi wa kati. Badala ya kutumia kichwa kimoja au vingi vya 'thamani ya ufunguo', inavipanga. Kwa njia hii, GQA inafanikisha utendakazi karibu na umakini wa kina wa vichwa vingi lakini kwa kasi ya MQA. Kwa miundo kama Mistral, hii inamaanisha utendakazi bora bila kuathiri ubora zaidi.

Uangalifu wa Dirisha la Kuteleza (SWA)

muda mrefu transfoma sliding dirisha

The dirisha la kuteleza ni njia nyingine ya matumizi katika usindikaji wa mpangilio wa umakini. Njia hii hutumia kidirisha cha umakini wa ukubwa usiobadilika karibu na kila ishara katika mlolongo. Kwa tabaka nyingi zinazoweka umakini huu wa dirisha, tabaka za juu hatimaye hupata mtazamo mpana, unaojumuisha taarifa kutoka kwa ingizo zima. Utaratibu huu ni sawa na nyuga pokezi zinazoonekana katika Mitandao ya Neural Convolutional (CNNs).

Kwa upande mwingine, "uangalifu wa dirisha la kuteleza lililopanuliwa" la modeli ya Longformer, ambayo kimawazo inafanana na njia ya kutelezesha ya dirisha, hukusanya diagonal chache tu za tumbo. Mabadiliko haya husababisha utumiaji wa kumbukumbu kuongezeka kwa mstari badala ya mara nne, na kuifanya kuwa njia bora zaidi ya mlolongo mrefu.

Uwazi wa Mistral AI dhidi ya Wasiwasi wa Usalama katika Ugatuaji

Katika tangazo lao, Mistral AI pia alisisitiza uwazi na taarifa: "Hakuna hila, hakuna data ya wamiliki." Lakini wakati huo huo muundo wao wa pekee unaopatikana kwa sasa 'Mistral-7B-v0.1' ni modeli ya msingi iliyofunzwa awali kwa hivyo inaweza kutoa jibu kwa swali lolote bila kukadiria, ambayo inazua maswala ya usalama yanayoweza kutokea. Ingawa miundo kama GPT na Llama ina mbinu za kutambua wakati wa kujibu, asili ya Mistral ya ugatuaji kikamilifu inaweza kutumiwa na watendaji wabaya.

Hata hivyo, ugatuaji wa Miundo Kubwa ya Lugha una sifa zake. Ingawa wengine wanaweza kuitumia vibaya, watu wanaweza kutumia nguvu zake kwa manufaa ya jamii na kufanya akili kupatikana kwa wote.

Kubadilika kwa Usambazaji

Moja ya mambo muhimu ni kwamba Mistral 7B inapatikana chini ya leseni ya Apache 2.0. Hii inamaanisha kuwa hakuna vizuizi vyovyote vya kuitumia - iwe unaitumia kwa madhumuni ya kibinafsi, shirika kubwa, au hata huluki ya serikali. Unahitaji tu mfumo sahihi ili kuiendesha, au unaweza kuwekeza katika rasilimali za wingu.

Ingawa kuna leseni zingine kama vile Leseni rahisi ya MIT na CC BY-SA-4.0 ya ushirika, ambayo inaamuru mkopo na leseni sawa kwa derivatives, Apache 2.0 hutoa msingi thabiti kwa juhudi kubwa.

Mawazo ya mwisho

Kuongezeka kwa Miundo ya Lugha Kubwa ya chanzo huria kama vile Mistral 7B inaashiria mabadiliko muhimu katika tasnia ya AI, na kufanya miundo ya lugha ya ubora wa juu kufikiwa na hadhira pana. Mbinu bunifu za Mistral AI, kama vile umakini wa hoja za Kundi na Uangalifu wa Dirisha la Kutelezesha, huahidi utendakazi bora bila kuathiri ubora.

Ingawa hali ya ugatuzi ya Mistral inaleta changamoto fulani, unyumbufu wake na utoaji wa leseni huria unasisitiza uwezekano wa kuleta demokrasia AI. Kadiri mandhari yanavyokua, lengo bila shaka litakuwa katika kusawazisha nguvu za miundo hii na mambo ya kimaadili na mbinu za usalama.

Je, unafuata kwa Mistral? Mfano wa 7B ulikuwa mwanzo tu. Timu inalenga kuzindua miundo mikubwa zaidi hivi karibuni. Iwapo miundo hii mipya inalingana na utendakazi wa 7B, Mistral inaweza kupanda haraka kama mchezaji bora kwenye tasnia, yote ndani ya mwaka wao wa kwanza.

Nimetumia miaka mitano iliyopita kujitumbukiza katika ulimwengu wa kuvutia wa Kujifunza kwa Mashine na Kujifunza kwa Kina. Shauku yangu na utaalam umeniongoza kuchangia zaidi ya miradi 50 ya uhandisi wa programu tofauti, nikizingatia haswa AI/ML. Udadisi wangu unaoendelea pia umenivutia kuelekea Uchakataji wa Lugha Asilia, uwanja ambao nina hamu ya kuchunguza zaidi.