stub Жижиг хэлний загваруудын өсөн нэмэгдэж буй нөлөө - Unite.AI
бидэнтэй хамт холбоно

Хиймэл оюун

Жижиг хэлний загваруудын өсөн нэмэгдэж буй нөлөө

mm

Нийтэлсэн

 on

Жижиг хэлний загвар

Жижиг хэлний загвар бий болсон нь

Хиймэл оюун ухаан хурдацтай хөгжиж буй ертөнцөд хэлний загварын хэмжээ нь түүний чадвартай ижил утгатай байдаг. GPT-4 гэх мэт том хэлний загварууд (LLMs) хиймэл оюун ухааны ландшафтыг давамгайлж, байгалийн хэлийг ойлгох, хөгжүүлэх гайхалтай чадварыг харуулсан. Гэсэн хэдий ч нарийн боловч мэдэгдэхүйц өөрчлөлт явагдаж байна. Хэлний жижиг загварууд нь том захидлууддаа дарагдсан байсан ч төрөл бүрийн AI програмуудад хүчирхэг хэрэгсэл болж гарч ирж байна. Энэхүү өөрчлөлт нь хиймэл оюун ухааны хөгжлийн чухал цэг болж, том нь үргэлж сайн байдаг гэсэн удаан хугацааны ойлголтыг эсэргүүцэж байна.

Том хэлний загваруудын хувьсал ба хязгаарлалтууд

Хүнтэй төстэй хэлийг ойлгох, үүсгэх чадвартай хиймэл оюун ухааны системийг хөгжүүлэх нь үндсэндээ LLM дээр төвлөрч байна. Эдгээр загварууд нь орчуулга, нэгтгэн дүгнэх, асуултанд хариулах зэрэг тал дээр илүү гарсан бөгөөд ихэвчлэн өмнөх жижиг загваруудаас илүү гарсан байдаг. Гэсэн хэдий ч LLM-ийн амжилт нь үнэ цэнэтэй байдаг. Тэдгээрийн эрчим хүчний өндөр хэрэглээ, санах ойд их хэмжээний шаардлага, тооцооллын ихээхэн зардал зэрэг нь санаа зовоож байна. Эдгээр сорилтууд нь эдгээр загваруудын өсөн нэмэгдэж буй хэмжээтэй харьцуулахад GPU-ийн шинэчлэлийн хоцрогдолтой байгаа нь улам бүр нэмэгдсээр байгаа бөгөөд энэ нь өргөтгөх боломжтой дээд хязгаарыг харуулж байна.

Судлаачид тодорхой хувилбаруудад илүү үр дүнтэй, олон талт хувилбаруудыг санал болгодог жижиг хэлний загварт анхаарлаа хандуулж байна. Жишээлбэл, Турк нар хийсэн судалгаа. (2019) LLM-ээс жижиг загварт шингэсэн мэдлэг нь тооцооллын хэрэгцээг мэдэгдэхүйц бууруулж, ижил төстэй гүйцэтгэлийг үзүүлж байгааг харуулсан. Цаашилбал, шилжүүлэх сургалт гэх мэт арга техникийг ашиглах нь эдгээр загваруудыг тодорхой ажлуудад үр дүнтэй дасан зохицож, мэдрэмжийн дүн шинжилгээ, орчуулга зэрэг салбарт харьцуулж болохуйц эсвэл бүр дээд зэргийн үр дүнд хүрэх боломжийг олгосон.

Сүүлийн үеийн дэвшилтүүд нь жижиг загваруудын боломжийг онцолж байна. DeepMind-ийн Чинчилла, Метагийн LLaMa загварууд, Стэнфордын Альпака, Stability AI-ийн StableLM цувралууд нь тод жишээ юм. Эдгээр загварууд нь хэдийгээр жижиг хэмжээтэй ч GPT-3.5 гэх мэт том загваруудтай тодорхой ажлуудын гүйцэтгэлтэй өрсөлдөж, тэр ч байтугай давж гардаг. Жишээ нь, Alpaca загвар нь GPT-3.5 асуулгын хариултыг нарийн тааруулахад зардлаа мэдэгдэхүйц бууруулж, гүйцэтгэлтэйгээ таарч байна. Ийм бүтээн байгуулалтууд нь хиймэл оюун ухааны талбарт жижиг загваруудын үр ашиг, үр ашигтай байдал газар авч байгааг харуулж байна.

Технологийн дэвшил ба тэдгээрийн үр дагавар

Жижиг хэлний загвар боловсруулахад шинээр гарч ирж буй техникүүд

Сүүлийн үеийн судалгаагаар жижиг хэлний загваруудын гүйцэтгэлийг сайжруулах хэд хэдэн шинэлэг арга техникийг онцолсон. Google-ийн UL2R болон Flan аргууд нь хамгийн сайн жишээ юм. UL2R буюу "Хэт хөнгөн 2-ын засвар" нь урьдчилан бэлтгэлээ үргэлжлүүлэхдээ denoisers-ийн холимог зорилтыг нэвтрүүлж, янз бүрийн даалгаварт загварын гүйцэтгэлийг сайжруулдаг. Нөгөөтэйгүүр, Flan нь зааварчилгаа хэлбэрээр илэрхийлэгдсэн олон төрлийн даалгаврын загваруудыг нарийн тааруулж, гүйцэтгэл болон ашиглах чадварыг сайжруулдаг.

Түүгээр ч барахгүй Яо Фү нарын бичсэн нийтлэл. Жижиг загварууд нь зохих ёсоор сургаж, нарийн тааруулж чадвал математикийн үндэслэл зэрэг тодорхой ажлуудыг амжилттай гүйцэтгэж чаддаг болохыг харуулсан. Эдгээр олдворууд нь тусгай хэрэглээнд жижиг загваруудыг ашиглах боломжийг онцолж, том загваруудыг нэгтгэх чадварыг сорьж байна.

Өгөгдлийг үр ашигтай ашиглахын ач холбогдол

Өгөгдлийн үр ашигтай хэрэглээ нь жижиг хэлний загваруудын хүрээнд гол сэдэв болж гарч ирсэн. цаас "Жижиг хэлтэй загвар өмсөгчид бас цөөн тооны суралцагчид байдаг” Тимо Шик нар. нь жижиг загваруудын гүйцэтгэлийг нэмэгдүүлэхийн тулд тэнцвэргүй өгөгдлийн багцтай хослуулсан тусгай маск хийх аргыг санал болгодог. Ийм стратеги нь жижиг хэлний загваруудын чадавхийг нэмэгдүүлэх шинэлэг арга барилд улам их анхаарал хандуулж байгааг онцолж байна.

Жижиг хэлний загваруудын давуу тал

Хэлний жижиг загваруудын сэтгэл татам байдал нь үр ашигтай, олон талт байдалд оршдог. Эдгээр нь илүү хурдан сургалт, дүгнэлт гаргах хугацааг санал болгож, нүүрстөрөгч болон усны ул мөрийг багасгаж, гар утас зэрэг нөөцийн хязгаарлалттай төхөөрөмжүүдэд ашиглахад илүү тохиромжтой. Энэхүү дасан зохицох чадвар нь төрөл бүрийн төхөөрөмжүүдэд хиймэл оюун ухааны хүртээмж, гүйцэтгэлийг чухалчилдаг салбарт улам бүр чухал болж байна.

Аж үйлдвэрийн инноваци ба хөгжил

Салбар жижиг, илүү үр ашигтай загвар руу шилжиж байгаа нь сүүлийн үеийн хөгжлийн жишээ юм. Mistral's Mixtral 8x7B, шинжээчдийн сийрэг холимог загвар, Microsoft-ын Phi-2 нь энэ салбарт гарсан нээлтүүд юм. Mixtral 8x7B нь жижиг хэмжээтэй хэдий ч GPT-3.5-ийн чанарт зарим жишиг үзүүлэлтээр нийцдэг. Phi-2 нь ердөө 2.7 тэрбум параметртэй гар утсан дээр ажилладаг. Эдгээр загварууд нь бага зардлаар ихийг бүтээхэд чиглэсэн салбар улам бүр нэмэгдэж байгааг онцолж байна.

Microsoft-ын Орка 2 энэ чиг хандлагыг улам бүр харуулж байна. Анхны Orca загвар дээр тулгуурлан Orca 2 нь жижиг хэлний загварт сэтгэн бодох чадварыг сайжруулж, хиймэл оюун ухааны судалгааны хил хязгаарыг давж байна.

Дүгнэж хэлэхэд, жижиг хэлний загваруудын өсөлт нь хиймэл оюун ухааны ландшафт дахь парадигмын өөрчлөлтийг харуулж байна. Эдгээр загварууд үргэлжлүүлэн хөгжиж, чадвараа харуулахын хэрээр том загваруудын давамгайлалыг сорьсон төдийгүй хиймэл оюун ухааны салбарт юу болох талаар бидний ойлголтыг шинэчилж байна.

Жижиг хэлний загварыг нэвтрүүлэх сэдэл

Жижиг хэлний загвар (SLMs)-ийн сонирхол нэмэгдэж байгаа нь үр ашиг, өртөг, тохируулга зэрэг хэд хэдэн гол хүчин зүйлээс шалтгаалж байна. Эдгээр талууд нь SLM-ийг янз бүрийн хэрэглээнд илүү том аналогиасаа илүү сонирхолтой хувилбар болгон байрлуулдаг.

Үр ашиг: Гол хөдөлгөгч хүч

SLM нь цөөн параметртэй тул асар том загвартай харьцуулахад тооцооллын ихээхэн үр ашгийг санал болгодог. Эдгээр үр ашиг нь илүү хурдан дүгнэлт гаргах, санах ой, хадгалах хэрэгцээг багасгах, сургалтанд шаардагдах мэдээллийн бага шаарддаг. Иймээс эдгээр загварууд нь илүү хурдан төдийгүй нөөцийн хэмнэлттэй байдаг нь хурд болон нөөцийн ашиглалт чухал ач холбогдолтой програмуудад ялангуяа ашигтай байдаг.

Зардлын үр ашиг

GPT-4 гэх мэт том хэлний загваруудыг (LLMs) сургах, ашиглахад шаардагдах өндөр тооцооллын нөөц нь ихээхэн зардал болж хувирдаг. Үүний эсрэгээр, SLM-ийг сургаж, илүү өргөн боломжтой техник хангамж дээр ажиллуулж, илүү өргөн хүрээний бизнесүүдэд илүү хүртээмжтэй, санхүүгийн хувьд боломжтой болгодог. Тэдний багассан нөөцийн шаардлага нь загварууд бага чадалтай төхөөрөмжүүд дээр үр ашигтай ажиллах шаардлагатай захын тооцооллын боломжийг нээж өгдөг.

Тохиромжтой байдал: Стратегийн давуу тал

LLM-ээс SLM-ийн хамгийн чухал давуу талуудын нэг бол тэдгээрийг өөрчлөх чадвар юм. Өргөн цар хүрээтэй боловч ерөнхий чадавхийг санал болгодог LLM-ээс ялгаатай нь SLM-ийг тодорхой домэйн болон програмуудад тохируулж болно. Энэхүү дасан зохицох чадварыг илүү хурдан давталтын мөчлөг, тусгай даалгаварт зориулж загваруудыг нарийн тааруулах чадвараар хангадаг. Энэхүү уян хатан чанар нь SLM-ийг тусгайлсан, зорилтот гүйцэтгэл нь ерөнхий чадвараас илүү үнэ цэнэтэй байдаг niche програмуудад онцгой ач холбогдолтой болгодог.

Чадварыг алдагдуулахгүйгээр хэлний загваруудыг багасгах

Чадварыг алдагдуулахгүйгээр хэлний загварын хэмжээг багасгахыг эрэлхийлэх нь одоогийн хиймэл оюун ухааны судалгааны гол сэдэв юм. Хэлний загварууд үр дүнтэй байсаар байхад хэр жижиг байж чадах вэ гэдэг асуулт байна.

Загварын масштабын доод хязгаарыг тогтоох

Сүүлийн үеийн судалгаагаар 1-10 сая параметртэй загварууд хэлний анхан шатны чадварыг эзэмшиж чаддаг болохыг харуулсан. Жишээлбэл, ердөө 8 сая параметртэй загвар нь 59 онд GLUE шалгуур үзүүлэлтээр 2023% орчим нарийвчлалтай болсон. Эдгээр олдворууд нь харьцангуй жижиг загварууд ч хэл боловсруулах тодорхой ажлуудад үр дүнтэй байж болохыг харуулж байна.

Тодорхой хэмжээнд хүрсний дараа гүйцэтгэл нь 200-300 сая орчим параметрт хүрсний дараа өндөр түвшинд хүрдэг бөгөөд энэ нь өгөөж буурах өгөөжийг улам бүр нэмэгдүүлж байгааг харуулж байна. Энэхүү өндөрлөг газар нь арилжааны зориулалтаар ашиглах боломжтой SLM-ийн хувьд ашигтай цэг болж, чадавхийг үр ашигтайгаар тэнцвэржүүлдэг.

Жижиг хэлний үр дүнтэй загваруудыг сургах

Чадварлаг СЛМ-ийг хөгжүүлэхэд сургалтын хэд хэдэн арга чухал үүрэг гүйцэтгэсэн. Дамжуулах сургалт нь загвар өмсөгчдөд урьдчилсан бэлтгэл хийх явцад өргөн хэмжээний чадамжийг олж авах боломжийг олгодог бөгөөд дараа нь тодорхой хэрэглээнд зориулж сайжруулж болно. Бие даан удирдах сургалт, ялангуяа жижиг загваруудад үр дүнтэй байдаг нь тэднийг өгөгдлийн жишээ бүрээс гүнзгий ерөнхийлөн дүгнэж, сургалтын явцад илүү бүрэн загварчлах чадварыг бий болгоход хүргэдэг.

Архитектурын сонголт бас чухал үүрэг гүйцэтгэдэг. Жишээлбэл, үр ашигтай трансформаторууд нь харьцангуй бага параметр бүхий үндсэн загваруудтай харьцуулж болохуйц гүйцэтгэлд хүрдэг. Эдгээр техникүүд нь янз бүрийн хэрэглээнд тохирсон жижиг боловч чадварлаг хэлний загварыг бий болгох боломжийг олгодог.

Энэ салбарт гарсан сүүлийн үеийн нээлт бол “Алхам алхмаар нэрэх” механизм. Энэхүү шинэ арга нь өгөгдлийн шаардлагыг багасгаж сайжруулсан гүйцэтгэлийг санал болгодог.

Алхам алхмаар нэрэх арга нь LLM-ийг зөвхөн чимээ шуугиантай шошгоны эх үүсвэр биш харин үндэслэл гаргах чадвартай агент болгон ашигладаг. Энэ арга нь LLM-ийн гаргасан байгалийн хэлний үндэслэлийг ашиглан өөрсдийн таамаглалыг зөвтгөж, жижиг загваруудыг сургахад нэмэлт хяналт болгон ашигладаг. Эдгээр үндэслэлүүдийг нэгтгэснээр жижиг загварууд даалгаврын талаарх мэдлэгийг илүү үр дүнтэй сурч, өргөн хүрээний сургалтын мэдээллийн хэрэгцээг бууруулж чадна.

Хөгжүүлэгчийн хүрээ ба домэйны тусгай загварууд

Hugging Face Hub, Anthropic Claude, Cohere for AI, Assembler зэрэг хүрээ нь хөгжүүлэгчдэд тохируулсан SLM үүсгэхэд хялбар болгож байна. Эдгээр платформууд нь SLM-ийг сургах, байршуулах, хянах хэрэгслүүдийг санал болгож, хэлний AI-г илүү өргөн хүрээний салбарт ашиглах боломжтой болгодог.

Домэйн тусгай SLM нь үнэн зөв, нууцлал, хариу үйлдэл нь хамгийн чухал байдаг санхүү зэрэг салбарт давуу талтай. Эдгээр загваруудыг тодорхой ажлуудад тохируулан өөрчилж болох бөгөөд ихэвчлэн том загваруудаас илүү үр ашигтай, аюулгүй байдаг.

Зорилго хайж байна

SLM-ийн хайгуул нь зөвхөн техникийн хүчин чармайлт биш, бас илүү тогтвортой, үр ашигтай, өөрчлөх боломжтой хиймэл оюун ухааны шийдлүүдэд чиглэсэн стратегийн алхам юм. Хиймэл оюун ухаан тасралтгүй хөгжихийн хэрээр жижиг, илүү нарийн мэргэшсэн загваруудад анхаарал хандуулах нь улам бүр нэмэгдэж, хиймэл оюун ухааны технологийг хөгжүүлэх, ашиглахад шинэ боломж, сорилтуудыг бий болгох болно.

Би сүүлийн таван жилийг Machine Learning болон Deep Learning хэмээх гайхалтай ертөнцөд шимтэн өнгөрүүлэхэд зарцуулсан. Миний хүсэл тэмүүлэл, туршлага намайг AI/ML-д онцгойлон анхаарч, 50 гаруй төрлийн програм хангамжийн инженерийн төсөлд хувь нэмрээ оруулахад хүргэсэн. Миний байнгын сониуч зан намайг цаашид судлахыг хүсч буй Байгалийн хэлний боловсруулалт руу татсан.