Хиймэл оюун

Та ChatGPT шиг том хэлний загваруудыг хагас зардлаар бүтээж чадах уу?

Нийтэлсэн

12 сарын өмнө

11 болтугай 2023

Том хэлний загварууд GPT-3 болон ChatGPT зэрэг (LLMs) нь байгалийн хэлний ойлголт, контент үүсгэх чадварыг санал болгосноор AI-д хувьсгал хийсэн. Гэхдээ тэдний хөгжил нь хүртээмж, цаашдын судалгааг хязгаарладаг өндөр үнээр ирдэг. Судлаачдын тооцоолсноор GPT-3-ыг сургахад OpenAI зардал ихтэй байдаг $ 5 сая. Гэсэн хэдий ч Майкрософт боломжоо хүлээн зөвшөөрч, хөрөнгө оруулалт хийсэн 1 тэрбум $ 2019 болон 10 тэрбум $ 2023 онд OpenAI-ийн GPT-3 болон ChatGPT компанид.

LLM нь NLP програмуудад зориулсан өргөн хүрээний текст өгөгдөл дээр бэлтгэгдсэн машин сургалтын загварууд юм. Эдгээр нь трансформаторын архитектур дээр суурилдаг бөгөөд асуулт хариулт, машин орчуулга, мэдрэмжийн шинжилгээ гэх мэт NLP даалгавруудад анхаарал хандуулах механизмуудыг ашигладаг.

Асуулт гарч ирнэ: тооцооллын зардал, сургалтын цагийг багасгахын зэрэгцээ эдгээр том загваруудын үр ашгийг нэмэгдүүлэх боломжтой юу?

Хэд хэдэн хандлага гэх мэт Прогрессив мэдрэлийн сүлжээ, Сүлжээний морфизм, давхарга доторх загварын параллелизм, мэдлэгийн өв залгамжлал, гэх мэтийг мэдрэлийн сүлжээг сургах тооцооллын зардлыг бууруулах зорилгоор боловсруулсан. роман LiGO (Шугаман өсөлтийн оператор) бидний ярилцах арга нь шинэ жишиг тогтоох явдал юм. Энэ нь LLM-ийг сургах тооцооллын зардлыг хоёр дахин бууруулдаг.

Энэ техникийг хэлэлцэхээс өмнө LLM хийх өндөр үнэд нөлөөлж буй хүчин зүйлсийг судлах нь чухал юм.

Том хэлний загвар бүтээх зардал

LLM-ийг хөгжүүлэх гурван үндсэн зардал нь дараах байдалтай байна.

1. Тооцооллын нөөц

LLM-ийг бий болгох нь том өгөгдлийн багц дээр сургахын тулд асар их тооцооллын нөөц шаарддаг. Тэд олон тэрбум параметрүүдийг боловсруулж, асар том текст өгөгдлөөс нарийн төвөгтэй хэв маягийг сурах ёстой.

График боловсруулах нэгж зэрэг тусгай техник хангамжид хөрөнгө оруулалт хийх (GPUs) болон Тензор боловсруулах нэгжүүд (TPUs) нь хамгийн сүүлийн үеийн гүйцэтгэлд хүрэхийн тулд LLM-ийг барьж, сургахад шаардлагатай.

Жишээлбэл, GPT-3 нь а супер компьютер 10000 аж ахуйн нэгжийн түвшний GPU (H100 ба A100) болон 285,000 CPU цөмтэй.

2. Эрчим хүчний хэрэглээ

LLM барихад шаардагдах эрчимтэй тооцооллын нөөц нь ихээхэн хэмжээний эрчим хүчний хэрэглээг бий болгодог. Жишээлбэл, GPT-175 3 тэрбум параметрийг сургасан 14.8 хоног 10,000 сая GPU цагтай тэнцэх 100 V3.55 GPU ашиглаж байна. Ийм өндөр эрчим хүчний хэрэглээ нь байгаль орчинд ихээхэн нөлөө үзүүлдэг.

3. Өгөгдөл хадгалах ба менежмент

LLM-ийг том өгөгдлийн багц дээр сургадаг. Жишээлбэл, GPT-3 нь текстийн асар том корпус дээр сургагдсан мэдээCommon Crawl, WebText2, Books1, Books2, Wikipedia зэрэг бусад эх сурвалжийг багтаасан болно. Эдгээр өгөгдлийн багцыг цуглуулах, боловсруулах, хадгалахад дэд бүтцийн томоохон хөрөнгө оруулалт шаардлагатай.

Мөн өгөгдөл хадгалахад үүлэн санах ой шаардлагатай бөгөөд өгөгдлийг урьдчилан боловсруулах, хувилбарыг хянахад хүний туршлага шаардлагатай. Түүнчлэн, таны мэдээллийн стратеги GDPR гэх мэт дүрэм журамд нийцэж байгаа эсэхийг баталгаажуулах нь зардлыг нэмэгдүүлдэг.

LiGO техник: Том хэлний загвар бүтээх зардлыг хоёр дахин бууруул

LiGO (Linear Growth Operator) нь MIT-ийн судлаачдын LLM-ийг сургах тооцооллын зардлыг 50%-иар бууруулах зорилгоор боловсруулсан шинэ техник юм. Энэ арга нь урьдчилан бэлтгэгдсэн жижиг загваруудаас том загваруудын жинг эхлүүлэх, мэдрэлийн сүлжээг үр дүнтэй масштаблах боломжийг олгодог.

Цааснаас авсан зураг: Трансформаторын үр дүнтэй сургалтанд зориулж урьдчилан бэлтгэгдсэн загваруудыг ургуулж сурах

Юн Ким, нийтлэлийн ахлах зохиолч хэлэхдээ:

“ChatGPT-ийн таамаглаж буй хэмжээний сургалтын загварууд нь зөвхөн нэг удаагийн сургалтанд олон сая доллар зарцуулдаг гэж тооцоолсон. Бид эдгээр сургалтын аргуудын үр ашгийг дээшлүүлж, бага хугацаанд, бага мөнгөөр сайн загваруудыг олж авах боломжтой юу? Бид үүнийг өмнө нь бэлтгэгдсэн жижиг хэлний загваруудыг ашиглах замаар хийхийг санал болгож байна."

Энэ арга нь том загварыг эхнээс нь сургахтай харьцуулахад тооцооллын зардал, сургалтын хугацаа багатай том загваруудын гүйцэтгэлийн үр ашгийг хадгалж байдаг. LiGO нь өгөгдөлд суурилсан шугаман өсөлтийн операторыг ашигладаг бөгөөд гүн болон өргөний операторуудыг хослуулан оновчтой гүйцэтгэлийг хангадаг.

Уг баримт бичигт BERT болон RoBERTa загваруудыг сургах англи хэлний Википедиа, GPT4-г сургахад зориулсан C2 өгөгдлийн багц зэрэг бичвэрт суурилсан туршилтуудыг явуулахын тулд янз бүрийн өгөгдлийн багцыг ашигласан.

LiGO техникийн туршилтанд BERT-Small-аас BERT-Base, BERT-Base-г BERT-Large, RoBERTaSmall-аас RoBERTa-Base, GPT2-Base-ыг GPT2-Medium, CaiT-XS-ийг CaiT-S болгон өсгөх зэрэг багтсан.

Судлаачид өөрсдийн арга барилыг эхнээс нь сургалт, дэвшилтэт сургалт, bert2BERT, KI зэрэг хэд хэдэн суурь үзүүлэлттэй харьцуулсан.

LiGO техник нь BERT-Small загварыг дахин ашиглах замаар BERT-Base-ийг эхнээс нь сургахтай харьцуулахад FLOP-д 44.7% хэмнэлт (секундэд хөвөх цэгийн үйлдэл) болон ханын цагийг 40.7% хэмнэв. LiGO өсөлтийн оператор нь үр дүнтэй сургалтаараа StackBERT, MSLT, bert2BERT, KI-г давж гарлаа.

LiGO шиг сургалтын оновчлолын техникийг ашиглахын ашиг тус

LiGO нь мэдрэлийн сүлжээг сургах үр дүнтэй арга бөгөөд дараах байдлаар хэд хэдэн давуу талтай.

1. Илүү хурдан сургалт

Өмнө дурьдсанчлан, хурдан сургах нь LiGO техникийн гол давуу тал юм. Энэ нь LLM-ийг хагас цагаар сургаж, бүтээмжийг нэмэгдүүлж, зардлыг бууруулдаг.

2. Нөөцийн хэмнэлттэй

LiGO нь нөөцийн хэмнэлттэй бөгөөд хананы цаг болон FLOP-ийг багасгаж, том трансформаторын загваруудыг сургахад илүү хэмнэлттэй, байгальд ээлтэй хандлагыг бий болгодог.

3. Ерөнхий дүгнэлт

LiGO техник нь хэл ярианы болон харааны трансформаторын гүйцэтгэлийг сайжруулсан бөгөөд энэ нь янз бүрийн даалгаварт хэрэглэгдэх боломжтой ерөнхий арга юм.

Арилжааны хиймэл оюун ухааны бүтээгдэхүүнийг бий болгох нь AI системтэй холбоотой нийт зардлын зөвхөн нэг хэсэг юм. Зардлын өөр нэг чухал бүрэлдэхүүн хэсэг нь өдөр тутмын үйл ажиллагаанаас бүрддэг. Жишээлбэл, OpenAI-д ойролцоогоор зардал гардаг $700,000 өдөр бүр ChatGPT ашиглан асуултанд хариулна. Судлаачид LLM-ийг сургалтын явцад хэмнэлттэй, ажиллах хугацаанд илүү хүртээмжтэй болгох арга барилыг үргэлжлүүлэн судлах төлөвтэй байна.

AI-тай холбоотой бусад контентыг үзэхийг хүсвэл зочилно уу unite.ai.