stub BlackMamba: Төрийн сансрын загварт зориулсан мэргэжилтнүүдийн холимог - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

BlackMamba: Төрийн сансрын загварт зориулсан мэргэжилтнүүдийн холимог

mm

Нийтэлсэн

 on

BlackMamba: Төрийн сансрын загварт зориулсан мэргэжилтнүүдийн холимог

Зөвхөн декодчилогчтой трансформаторын загваруудаар бүтээгдсэн Том хэлний загваруудыг (LLMs) хөгжүүлсэн нь Байгалийн хэл боловсруулах (NLP) домэйныг өөрчлөхөөс гадна гүнзгий суралцах төрөл бүрийн програмуудыг хөгжүүлэхэд чухал үүрэг гүйцэтгэсэн. бэхжүүлэх сургалт, цаг хугацааны цуврал шинжилгээ, зураг боловсруулах гэх мэт. Гэсэн хэдий ч өргөтгөх боломжтой, хүчирхэг гүйцэтгэлтэй хэдий ч зөвхөн декодчилогчтой трансформаторын загвараар бүтээгдсэн LLM-ууд ихээхэн дутагдалтай хэвээр байна. Хэдийгээр илэрхий боловч трансформатороос гаралтай LLM-ийн анхаарлын механизм нь дүгнэлт болон сургалтын явцад өндөр тооцооллын нөөц шаарддаг бөгөөд дарааллын урт болон квадрат FLOP-д ихээхэн хэмжээний санах ой шаардагддаг. Энэхүү өндөр тооцооллын шаардлага нь трансформаторын загваруудын контекстийн уртыг хязгаарлаж, авторегресс үүсгэх ажлыг масштабтай пропорциональ үнэтэй болгож, тасралтгүй өгөгдлийн урсгалаас суралцах, үнэхээр хязгааргүй дарааллын боловсруулалт хийх чадварыг саатуулдаг.

Сүүлийн үед Төрийн сансрын загварууд (SSMs) нь гайхалтай чадвар, гүйцэтгэлийг харуулсан бөгөөд том хэмжээний загварчлалын жишиг үзүүлэлтүүдэд трансформатор-архитектурын загваруудтай өрсөлдөж, дарааллын урт ба шугаман хугацааны функцээр санах ойн нарийн төвөгтэй байдалд хүрсэн. Түүгээр ч зогсохгүй саяхан гарсан Төрийн сансрын загвар болох Мамба нь хэлний загварчлал, урт дараалсан боловсруулалтын ажлуудад гайхалтай гүйцэтгэлийг харуулсан. Үүний зэрэгцээ, Mixture of Expert (МЭ) загварууд нь гайхалтай гүйцэтгэлийг харуулж, илүү их санах ойн эзэлхүүнтэй ч гэсэн дүгнэлтийн хоцрогдол болон тооцооллын зардлыг эрс багасгасан. Энэ нийтлэлд Мамба болон МоЭ-ийн загварууд дээр тулгуурлан, хоёр хүрээний санал болгож буй ашиг тусыг ашиглахын тулд Мамба мужийн сансрын загварыг МоЭ-ийн загваруудтай хослуулсан шинэ архитектур болох BlackMamba-г хэлэлцэх болно. BlackMamba дээр хийсэн туршилтууд нь сургалтын FLOP болон дүгнэлтийн аль алинд нь одоо байгаа Мамба бүтэц, трансформаторын суурь үзүүлэлтээс давж гарах чадварыг харуулсан. BlackMamba тогтолцооны онцгой гүйцэтгэл нь энэ нь Мамба болон МоЭ хүрээний чадавхийг үр дүнтэй хослуулж, Мамба-аас шугаман нарийн төвөгтэй байдлыг бий болгоход ЯМХ-аас хурдан бөгөөд хэмнэлттэй дүгнэлтийг санал болгож байгааг харуулж байна.

Энэ нийтлэл нь BlackMamba хүрээг нарийвчлан судлах зорилготой юм. Бид хүрээний механизм, арга зүй, архитектурыг орчин үеийн зураг, видео үүсгэх хүрээтэй харьцуулахын зэрэгцээ судалж байна. Эхэлцгээе.

BlackMamba: Төрийн сансрын загваруудад зориулсан ЭМЯ-ны танилцуулга

Том хэлний загваруудын (LLMs), ялангуяа зөвхөн декодчилогчийн трансформаторын архитектурт суурилсан загваруудын хөгжил дэвшил нь эдгээрт ихээхэн нөлөөлсөн. Байгалийн хэлний боловсруулалт (NLP) талбар болон гүнзгийрүүлэн судлах төрөл бүрийн програмууд, тухайлбал бататгах сургалт, цагийн цуврал дүн шинжилгээ, зураг боловсруулах гэх мэт. Гэсэн хэдий ч, өргөтгөх боломжтой, бат бөх гүйцэтгэлтэй хэдий ч зөвхөн декодерт суурилсан трансформатор дээр суурилсан эдгээр LLM-ууд мэдэгдэхүйц сорилтуудтай тулгардаг. Анхаарал татах механизм нь трансформаторын үндсэн шинж чанар юм LLMss, дүгнэлт болон сургалтын аль алинд нь өргөн хэмжээний тооцооллын нөөц шаарддаг. Энэ нь дарааллын уртын дагуу өсөх санах ой, квадратаар нэмэгддэг тооцоолох үйлдлүүд (FLOPs) шаардлагатай байдаг. Ийм эрчимтэй тооцооллын хэрэгцээ нь загваруудын контекстийн уртыг хязгаарлаж, загварыг масштаблахын хэрээр авторегресс үүсгэх даалгаврын зардлыг нэмэгдүүлж, тасралтгүй өгөгдлийн урсгал эсвэл хязгааргүй урттай процессын дарааллаас үр дүнтэй суралцах боломжийг саатуулдаг. 

Эдгээр хязгаарлалтыг даван туулахын тулд сүүлийн хэдэн жилийн хугацаанд ихээхэн хүчин чармайлт гаргасан бөгөөд хамгийн ирээдүйтэй нэр дэвшигч архитектурууд болох SSMs болон MoE загварууд бүхий каноник нягт анхаарлын трансформаторын загваруудын архитектурын хувилбаруудыг боловсруулахад анхаарал хандуулсан. Трансформаторын архитектурын загвараас Төрийн орон зайн загваруудыг илүүд үзсэний гол давуу тал нь трансформаторын санал болгож буй квадрат нарийн төвөгтэй байдлаас ялгаатай SSM-ийн санал болгож буй оролтын дарааллын урттай холбоотой шугаман тооцооллын нарийн төвөгтэй байдал юм. Онолын хувьд оролтын дарааллын урттай холбоотой шугаман тооцооллын нарийн төвөгтэй байдал нь Төрийн орон зайн загварт өгөгдсөн төсөвт өгөгдсөн FLOPS эсвэл хөвөгч цэгийн үйлдлүүдийн хувьд трансформатор-архитектурын загвараас илүү том дарааллыг боловсруулж, KV кэшгүйгээр тооцоололд авторегресс үүсгэх тогтмол болгох боломжийг олгодог. Саяхан бүтээгдсэн Мамба, РетНет болон бусад хэд хэдэн муж улсын сансрын загварууд нь ижил төстэй масштабын шинж чанартай трансформаторуудад өрсөлдөхүйц хэлээр загварчлах даалгаврын гүйцэтгэлийн үр дүнтэй урт дарааллын дүгнэлт, сургалтыг харуулсан. Нөгөөтэйгүүр, Expert загварын архитектурын холимог нь нягт загвартай харьцуулж болохуйц чанарт хүрэхэд зайлшгүй шаардлагатай FLOP-уудыг сургах, дүгнэлтийг мэдэгдэхүйц бууруулахад тусалдаг тул нягт трансформаторын өөр хувилбар болж түгээмэл болж байна. МоЭ (Мэргэжилтнүүдийн холимог) загварууд нь нэг удаа дамжих явцад нийт параметрүүдийн зөвхөн сийрэг сонголтыг идэвхжүүлснээр ажилладаг. Тэд өгөгдсөн контекст дээр үндэслэн ямар "мэргэжилтнүүд" ажиллахыг тодорхойлохын тулд чиглүүлэлтийн функцийг ашигладаг. Энэ арга нь дүгнэлтийн тооцооллын зардал болон параметрийн нийт тооны хооронд тусгаарлалтыг бий болгож, параметрийн тоо нэмэгдэж, санах ойд илүү их хэрэгцээтэй ч гэсэн тогтмол дүгнэлтийн төсөвт гүйцэтгэлийг сайжруулах боломжийг олгодог.

Архитектурын энэхүү дэвшил нь уламжлалт трансформаторуудаас мэдэгдэхүйц давуу талыг бий болгож, цаашдын хөгжлийн сэтгэл хөдөлгөм чиглэлийг харуулж байна. Эдгээр сайжруулалтыг Mamba-MoE-ийн хосолсон загварт нэгтгэх нь стандарт трансформаторын загвараас илүү хэлний загварчлалын чадвар, үр ашгийг ихээхэн хурдасгах боломжтой гэж бид үзэж байна. Уламжлалт нягт трансформаторын загвартай харьцуулахад Mamba-MoE архитектурын хүлээгдэж буй давуу талууд нь:

Мамба: Сургалтын болон дүгнэлтийн үе шатуудын аль алинд нь оролтын дарааллын урттай харьцуулахад шугаман тооцооллын нарийн төвөгтэй байдалд хүрдэг. Энэ нь байнгын санах ойн ашиглалтын үед авторегресс үүсгэх боломжийг олгодог.

МЭ: Илүү нягтралтай хувилбартай тэнцүү тооны параметртэй загвартай өрсөлдөхүйц загварын чанарын түвшинг хадгалахын зэрэгцээ жижиг, нягт суурь загвартай харьцуулахуйц дүгнэлт гаргах хурд, сургалтын тооцооллын үр ашгийг санал болгодог.

Үүний зэрэгцээ трансформаторын архитектурын загварууд нь орчин үеийн хэвээр байгаа бөгөөд хэлний загварчлалын даалгавар, дараалал боловсруулах даалгаврууд дээр тууштай, гайхалтай сайн гүйцэтгэлийг харуулсан гэдгийг хэлэх нь чухал юм. Трансформаторын архитектур нь үндсэндээ өөр өөр жетонуудыг дарааллаар оруулах хоорондын цэгийн бүтээгдэхүүний ижил төстэй байдлыг квадратаар бүхэлд нь харьцуулж, гаралтын вектор руу шугаман зураглалыг гүйцэтгэдэг өөртөө анхаарал хандуулдаг. Трансформаторын загвар нь MLP эсвэл Олон давхаргат Перцептрон блокуудын хооронд давхарласан өөртөө анхаарал хандуулах блокуудаас бүрдэх бөгөөд цаашид өгөгдсөн идэвхжүүлэх функц бүхий хоёр давхаргат MLP-ээс бүрддэг. 

BlackMamba: Архитектур ба арга зүй

Төрийн сансрын загварууд

Төрийн сансрын загварууд нь оролтын дарааллын уртын дагуу шугаман нарийн төвөгтэй дарааллын загваруудын бүлэгт багтдаг. Төрийн сансрын загваруудын архитектур нь анхааралд суурилсан архитектураас илүүтэй давтагдах мэдрэлийн сүлжээ болон эвдрэлийн мэдрэлийн сүлжээтэй илүү нийцдэг бөгөөд далд далд орон зайгаар дамжуулан 1 хэмжээст функцийг дүрсэлсэн тасралтгүй динамик системээс санаа авсан. Шугаман динамик систем нь ассоциатив эсвэл эргэлтийн скан ашиглан зэрэгцээ тооцооллыг үр дүнтэй болгодог. Практик хувилбаруудын хувьд Төрийн сансрын загваруудын давтагдах шинж чанар нь үүнийг GPU гэх мэт өндөр зэрэглэлийн хиймэл оюун ухааны техник хангамжид ашиглах шалтгаан болсон. Гэсэн хэдий ч, RWKV гэх мэт SSM-ууд гарч ирэх ба Мамба Тэд GPU-д давтагдах үйлдлүүдийг үр ашигтайгаар дүрслэхийн тулд зэрэгцээ сканнерын цөмүүдийг ашигласан бөгөөд ингэснээр трансформаторын загвартай харьцуулж болохуйц үр ашигтай шинэ архитектурыг сургахад хялбар болсон. 

Трансформаторын дарааллын урттай холбоотой төрөлхийн квадрат нарийн төвөгтэй байдал нь маш урт контекст дээр дүгнэлт хийх, ойлгоход саад учруулдаг сайн мэддэг хязгаарлалт юм. Сүүлийн үеийн шинэчлэлүүд нь контекстийн уртыг уртасгах санааг нэвтрүүлж, трансформаторыг дүгнэлт хийх явцад илүү урт контекст ашиглахаас өмнө боломжийн хэмжээнд сургах боломжийг олгодог. Эдгээр ахиц дэвшлийг үл харгалзан дүгнэлт гаргах үйл явц нь маш их хэмжээний тооцооллын нөөц, санах ой, ялангуяа Түлхүүр-утга (KV) кэшийг хадгалахад шаардлагатай хэвээр байгаа тул үүнийг нөөц их шаарддаг ажил болгодог. Сүүлийн үеийн судалгааны хүчин чармайлтууд нь анхаарлын механизмд байдаг Query, Key, Value (QKV) матрицтай адил оролтоос хамааралтай хаалганы механизмуудыг оруулах замаар төлөв орон зайн загваруудын илэрхийлэх чадварыг сайжруулахад чиглэгдэж байна. 

Эдгээр хүчин чармайлт нь муж-сансрын рекурсын угаасаа шугаман явцыг хадгалахад чиглэгдэж, эргэлт эсвэл сонгомол скан хийх процессоор үр дүнтэй гүйцэтгэх боломжийг олгодог. Энэ арга нь практик хэрэглээнд трансформаторын гүйцэтгэлийн зөрүүг эрс багасгадаг. Эдгээр дэвшлийн дотроос Мамба нь өмнөх судалгааны зорилгыг тусгасан төрийн сансрын загвар гэдгээрээ ялгардаг бөгөөд 2.8 тэрбум хүртэлх параметрийн трансформатортай харьцуулж болохуйц гүйцэтгэлийн гайхалтай түвшинг харуулсан. Энэ нь төрийн сансрын загвар (SSM) рекурсын оролтод оролтоос хамааралтай гарцыг ашиглах замаар үүнийг хийдэг бөгөөд үүний зэрэгцээ захиалгат сонгомол сканнерын цөмүүдийг ашиглан үр ашигтай тооцооллыг баталгаажуулдаг.

Мэргэшсэн загваруудын холимог

Мэргэжилтнүүдийн (МЭ) загваруудын холимог нь дамжуулалтын явцад параметрүүдийг сонгон идэвхжүүлснээр дүгнэлтийн өртөг болон параметрийн нийт тоог хооронд нь ялгаж чаддаг. Эдгээр загварууд нь бүх параметрүүдийг ашиглахын оронд жетонуудыг олон давхаргат перцептрон (MLP) мэргэжилтнүүд рүү чиглүүлдэг. Мэргэжилтэн бүр тодорхой төрлийн оролтыг боловсруулахад тохирсон, чиглүүлэлтийн механизм, үндсэндээ авсаархан мэдрэлийн сүлжээтэй, токен бүрт хамгийн тохиромжтой шинжээчийг тодорхойлдог. Энэ арга нь илүү нягт тохируулгатай тэнцүү тооны параметр бүхий загварын иж бүрэн илэрхийлэх чадварыг хадгалахад чиглэгддэг, гэхдээ тооцооллын хэрэгцээ нь мэдэгдэхүйц багасдаг. Ерөнхийдөө чиглүүлэгч нь жетоноос шинжээч индекс хүртэлх шугаман давхаргын зураглал бөгөөд шинжээч бүр нь энгийн трансформаторын Multilayer Perceptron юм. Гэсэн хэдий ч, мэргэжилтнүүдийн томилгооны асуудал нь ялгагдахгүй тул хөгжүүлэгчид чиглүүлэгчийг сургах оновчтой аргыг хараахан олж чадаагүй байгаа бөгөөд "Мэргэжилтнүүдийн холимог" загварууд нь тоног төхөөрөмжийн үр ашгийг дээшлүүлэхийн тулд янз бүрийн мэргэжилтнүүдийн хооронд ачааллыг тэнцвэржүүлэх, сургалтын тогтвортой байдлыг хангахтай байнга тэмцдэг. 

архитектур

Үндсэндээ BlackMamba нь үлдэгдэл урсгалын дагуу дарааллаар нэмсэн MLP блокууд болон анхаарлын блокуудаас бүрдсэн стандарт трансформаторын загварыг ашигладаг. Одоо ихэнх Expert загварын холимог нь олон давхаргат перцептрон блокуудыг чиглүүлсэн шинжээчийн давхаргаар сольж байна. Нөгөөтэйгүүр, BlackMamba хүрээ нь трансформатор дахь олон давхаргат перцептрон блокыг чиглүүлсэн шинжээчийн давхаргаар орлуулаад зогсохгүй анхаарлын давхаргыг Мамба улсын сансрын загварын давхаргаар сольдог. BlackMamba хүрээний архитектурыг дараах зурагт үзүүлэв. 

Сургалт ба мэдээллийн багц

BlackMamba загвар нь захиалгат өгөгдлийн багц дээр 300 тэрбум гаруй жетон дээр бэлтгэгдсэн бөгөөд олон давхаргат хүлээн авагчдад зориулсан SwiGLU идэвхжүүлэх функцийг ашигладаг. Энэхүү хүрээ нь 8 мэргэжилтэнтэй сургалт явуулдаг бөгөөд хөгжүүлэгчид энэ тоог санах ойн хэмжээ болон загварын дүгнэлтийн өртөг хоёрын хооронд зөв тэнцвэржүүлж чадсан гэж үзсэн. BlackMamba хүрээг сургахад ашигладаг тусгай мэдээллийн багц нь Starcoder, SlimPajama, Pile гэх мэт аль хэдийн байгаа нээлттэй эхийн өгөгдлийн багцуудаас бүрддэг. Дараах хүснэгтэд BlackMamba хүрээг сургахад ашигласан өгөгдлийн багц бүрийн жинг харуулав. Нийтдээ өгөгдлийн багцад 1.8 их наяд жетон байна. 

BlackMamba: Үр дүн

Мамба болон БлэкМамба хоёрын хооронд шударга харьцуулалт хийхийн тулд хөгжүүлэгчид ижил сургалтын өгөгдөл дээр ижил сургалтын параметр бүхий хоёр загварыг сургасан. BlackMamba хүрээ нь Мамба болон трансформаторын загваруудыг хоёуланг нь давж гарах чадвартай бөгөөд дүгнэлт гаргах үед ижил хэмжээтэй урагш дамжих загвараас гадна секундэд хөвөх цэгийн үйлдлийг сургах боломжтой. Дараах зураг нь дарааллын уртаас хамаарсан анхны нэг жетон сануулгаас өгөгдсөн урттай дарааллыг авторегрессээр үүсгэхэд зарцуулсан хугацааг харуулж байна. 

Цаашилбал, Expert болон Mamba загваруудын хоцрогдлын ашиг тусыг BlackMamba системд нэгтгэсэн бөгөөд энэ нь трансформаторын загвар, цэвэр Мамба загвар болон ЭМЯ-ны загваруудтай харьцуулахад илүү хурдан дүгнэлт гаргах хугацааг бий болгодог. Цаашилбал, BlackMamba хүрээний дүгнэлтийн давуу тал нь дарааллын урттай шууд пропорциональ бөгөөд BlackMamba-г урт дараалал үүсгэхэд маш үр дүнтэй болгодог. Дараах зурагт BlackMamba загваруудад 340 сая ба 640 сая параметрээр хуваарилагдсан токенуудын тоог харуулав. Эндээс харахад BlackMamba загваруудын хэрэгжүүлсэн Sinkhorn алгоритмыг сайжруулсны үр дүнд давхаргуудын дийлэнх нь шинжээчдийн тэнцвэрт байдлын өндөр түвшнийг харуулж байна. 

Дараах хүснэгтэд BlackMamba хүрээний үнэлгээний оноог нээлттэй эхийн урьдчилан бэлтгэгдсэн хэлний загваруудтай харьцуулсан байна. Ажиглаж байгаагаар, BlackMamba хүрээ нь бүх суурь үзүүлэлтүүдийн ихэнх хүрээтэй өрсөлдөж, илүү сайн ажиллах чадвартай. Цаашилбал, BlackMamba-аас илүү үзүүлэлттэй загварууд нь параметрийн тооноос хамаагүй өндөр бөгөөд гүйцэтгэлийн ялгаа нь хамгийн бага байдаг нь BlackMamba хүрээ бага параметртэй болохыг харуулж байна гэдгийг тэмдэглэх нь зүйтэй. 

Final бодол

Энэ нийтлэлд бид BlackMamba буюу Мамба мужийн сансрын загварыг мэргэжилтнүүдийн холимог загвартай хослуулсан шинэ архитектурын талаар ярилцсан бөгөөд эдгээр хоёр хүрээний санал болгож буй ашиг тусыг хүртэх болно. BlackMamba дээр хийсэн туршилтууд нь сургалтын FLOP болон дүгнэлтийн аль алинд нь одоо байгаа Мамба бүтэц, трансформаторын суурь үзүүлэлтүүдээс илүү сайн болохыг харуулсан. BlackMamba тогтолцооны онцгой гүйцэтгэл нь МЯ-ны хямд бөгөөд хурдан дүгнэлтийг Мамбагийн шугаман нарийн төвөгтэй байдлыг хослуулсан тул Мамба болон МоЭ-ийн хүрээний чадварыг маш сайн өвлөн авч, хослуулж чаддагийг харуулж байна. Бид BlackMamba хүрээний архитектур нь хүчирхэг бэлтгэгдсэн том хэлний загварууд, одоо байгаа Мамба бүтэц, холимог мэргэжилтнүүдийн загваруудыг сургалтын FLOP болон дүгнэлтийн зардлын хувьд хэрхэн гүйцэлдүүлэх талаар ярилцсан. Цаашилбал, BlackMamba хүрээ нь Мэргэшсэн загваруудын холимог болон Мамба хүрээний аль алиных нь үеийн FLOP болон багасгасан сургалтыг нэгэн зэрэг өвлөн авдаг. 

 

"Мэргэжилээрээ инженер, цээжээрээ зохиолч". Кунал бол хиймэл оюун ухаан болон ML-д гүн гүнзгий хайртай, ойлголттой техникийн зохиолч бөгөөд эдгээр салбар дахь нарийн төвөгтэй ойлголтуудыг сонирхолтой, мэдээлэл сайтай баримт бичгүүдээрээ хялбарчлахад зориулагдсан.