Хиймэл оюун

Декодер дээр суурилсан том хэлний загварууд: Бүрэн гарын авлага

шинэчлэгдсэн on Дөрөвдүгээр сар 27, 2024

Декодер дээр суурилсан том хэлний загварууд: Бүрэн гарын авлага

Том хэлний загварууд (LLMs) нь хүнтэй төстэй текст үүсгэх, асуултанд хариулах, хэлтэй холбоотой өргөн хүрээний ажлуудад туслах гайхалтай чадварыг харуулж, байгалийн хэл боловсруулах (NLP) салбарт хувьсгал хийсэн. Эдгээр хүчирхэг загваруудын цөм нь юм зөвхөн декодчилогчтой трансформаторын бүтэц, үндсэн нийтлэлд санал болгосон анхны трансформаторын архитектурын хувилбар "Анхаарал л танд хэрэгтэй” Васвани нар.

Энэхүү иж бүрэн гарын авлагад бид декодчилогч дээр суурилсан LLM-ийн дотоод үйл ажиллагааг судалж, эдгээр загваруудыг NLP судалгаа, хэрэглээний тэргүүн эгнээнд гаргахад түлхэц болсон үндсэн барилгын блокууд, архитектурын шинэчлэл, хэрэгжилтийн нарийн ширийнийг судлах болно.

Трансформаторын архитектур: Сэргээгч

Декодер дээр суурилсан LLM-ийн онцлог шинж чанаруудыг судлахын өмнө эдгээр загваруудыг бий болгосон трансформаторын архитектурыг эргэн харах нь чухал юм. Трансформатор нь өгөгдлийн урт хугацааны хамаарлыг давтагдах болон эргэлтийн давхарга шаардлагагүйгээр олж авахын тулд зөвхөн анхаарлын механизмд тулгуурласан дарааллын загварчлалын шинэ аргыг нэвтрүүлсэн.

Трансформаторын архитектур

Трансформаторын анхны бүтэц нь кодлогч ба декодер гэсэн хоёр үндсэн хэсгээс бүрдэнэ. Кодлогч нь оролтын дарааллыг боловсруулж, контекстчилсэн дүрслэлийг үүсгэдэг бөгөөд дараа нь гаралтын дарааллыг гаргахын тулд декодер ашигладаг. Энэхүү архитектур нь эхлээд машин орчуулгын даалгаварт зориулагдсан бөгөөд кодлогч нь эх хэл дээрх оролтын өгүүлбэрийг боловсруулдаг бөгөөд декодлогч нь зорилтот хэл дээр харгалзах өгүүлбэрийг үүсгэдэг.

Өөртөө анхаарал хандуулах: Трансформаторын амжилтын түлхүүр

Зүрхнийхээ зүрхэнд трансформаторын Өөртөө анхаарал хандуулах механизм нь загварт оруулах дарааллын янз бүрийн байрлалаас мэдээллийг жинлэх, нэгтгэх боломжийг олгодог хүчирхэг техник юм. Оролтын жетоныг дараалан боловсруулдаг уламжлалт дарааллын загваруудаас ялгаатай нь өөртөө анхаарал хандуулах нь загварт дараалал дахь байрлалаас үл хамааран дурын хос жетонуудын хоорондын хамаарлыг олж авах боломжийг олгодог.

Олон төрлийн анхаарал

Өөртөө анхаарал хандуулах үйл ажиллагааг гурван үндсэн үе шатанд хувааж болно.

Асуулга, Түлхүүр, Утгын төсөөлөл: Оролтын дарааллыг гурван тусдаа дүрслэлд тусгасан болно: асуултууд (Q), түлхүүрүүд (K), ба утгууд (V). Эдгээр проекцуудыг сурсан жингийн матрицаар оролтыг үржүүлэх замаар олж авна.
Анхаарлын онооны тооцоолол: Оролтын дарааллын байрлал бүрийн хувьд харгалзах асуулгын вектор болон бүх гол векторуудын хоорондох цэгийн үржвэрийг авч анхаарлын оноог тооцдог. Эдгээр оноо нь одоо ажиллаж буй албан тушаалд албан тушаал тус бүрийн хамаарлыг илэрхийлдэг.
Утгын жинлэсэн нийлбэр: Анхаарлын оноог softmax функцийг ашиглан хэвийн болгож, үүссэн анхаарлын жинг утгын векторуудын жигнэсэн нийлбэрийг тооцоолоход ашиглан одоогийн байрлалын гаралтын дүрслэлийг гаргадаг.

Өөртөө анхаарал хандуулах механизмын нэг хувилбар болох олон толгойн анхаарал нь загварт олон тооны анхаарлын оноог тооцоолох замаар янз бүрийн төрлийн харилцааг олж авах боломжийг олгодог.дарга” зэрэг нь тус бүр өөрийн гэсэн асуулга, түлхүүр, утгын төсөөлөлтэй.

Архитектурын хувилбарууд ба тохиргоо

Декодер дээр суурилсан LLM-ийн үндсэн зарчмууд тогтвортой хэвээр байгаа ч судлаачид гүйцэтгэл, үр ашиг, ерөнхий ойлголтыг сайжруулахын тулд янз бүрийн архитектурын хувилбарууд болон тохиргоонуудыг судалж үзсэн. Энэ хэсэгт бид янз бүрийн архитектурын сонголтууд болон тэдгээрийн үр нөлөөг судлах болно.

Архитектурын төрлүүд

Декодерт суурилсан LLM-ийг ерөнхийд нь кодлогч-декодер, учир шалтгааны декодер, угтвар декодлогч гэсэн гурван үндсэн төрөлд ангилж болно. Архитектурын төрөл бүр өөр өөр анхаарлын хэв маягийг харуулдаг.

Encoder-Decoder Architecture

Ванилийн трансформаторын загвар дээр тулгуурлан кодлогч-декодерийн архитектур нь кодлогч ба декодер гэсэн хоёр стекээс бүрдэнэ. Кодлогч нь оролтын дарааллыг кодчилох, далд дүрслэл үүсгэхийн тулд давхарласан олон толгойтой өөртөө анхаарал хандуулах давхаргыг ашигладаг. Дараа нь декодер нь зорилтот дарааллыг үүсгэхийн тулд эдгээр дүрслэлд хөндлөнгийн анхаарал хандуулдаг. Төрөл бүрийн NLP даалгавруудад үр дүнтэй боловч цөөн тооны LLM, тухайлбал Flan-T5, энэ архитектурыг нэвтрүүлэх.

Шалтгаан декодерийн архитектур

Шалтгаан декодчилогчийн архитектур нь нэг чиглэлтэй анхаарлын маск агуулсан бөгөөд оролтын жетон бүр зөвхөн өмнөх жетонууд болон өөртөө оролцох боломжийг олгодог. Оролтын болон гаралтын жетон хоёулаа ижил декодер дотор боловсруулагдана. алдартай загварууд дуртай GPT-1, GPT-2 болон GPT-3 нь энэхүү архитектур дээр бүтээгдсэн бөгөөд GPT-3 нь контекстэд суралцах гайхалтай чадварыг харуулдаг. OPT, BLOOM, Gopher зэрэг олон LLM-үүд учир шалтгааны декодлогчийг өргөнөөр нэвтрүүлсэн.

Угтвар декодчилогчийн архитектур

Шалтгаан бус декодер гэж нэрлэгддэг угтвар декодлогчийн архитектур нь угтвар токенууд дээр хоёр чиглэлтэй, үүсгэсэн жетон дээр нэг чиглэлтэй анхаарал хандуулахын тулд учир шалтгааны декодлогчдын далдлах механизмыг өөрчилдөг. Кодлогч-декодерийн архитектурын нэгэн адил угтвар декодлогч нь угтварын дарааллыг хоёр чиглэлтэй кодлож, хуваалцсан параметрүүдийг ашиглан гаралтын жетоныг авторегрессээр урьдчилан таамаглах боломжтой. Угтвар декодлогч дээр суурилсан LLM-д GLM130B болон U-PaLM орно.

Бүх гурван архитектурын төрлийг ашиглан өргөтгөж болно мэргэжилтнүүдийн холимог (МЭ) оролт бүрт мэдрэлийн сүлжээний жингийн дэд багцыг сийрэг идэвхжүүлдэг масштабын техник. Энэ аргыг Switch Transformer болон GLaM зэрэг загваруудад ашигласан бөгөөд шинжээчдийн тоо нэмэгдэж эсвэл параметрийн нийт хэмжээ нь гүйцэтгэлийн мэдэгдэхүйц сайжруулалтыг харуулж байна.

Зөвхөн декодчилогч-Трансформатор: Авторегрессийн мөн чанарыг хүлээн зөвшөөрөх

Трансформаторын анхны архитектур нь машин орчуулга гэх мэт дараалсан ажлуудад зориулагдсан байсан бол хэлний загварчлал, текст үүсгэх гэх мэт NLP-ийн олон даалгавруудыг авторегресс бодлого болгон тодорхойлж болох бөгөөд загвар нь нэг удаад нэг жетон үүсгэдэг. өмнө нь үүсгэсэн жетон.

Зөвхөн декодчилогчийн бүрэлдэхүүн хэсгийг хадгалсан трансформаторын архитектурын хялбаршуулсан хувилбар болох зөвхөн декодчилогч трансформаторыг оруулна уу. Энэхүү архитектур нь гаралтын жетонуудыг нэг нэгээр нь үүсгэж, оролтын контекст болгон өмнө нь үүсгэсэн жетонуудыг ашигладаг тул авторегрессив ажлуудад маш тохиромжтой.

Зөвхөн декодчилогчтой трансформатор ба анхны трансформаторын декодер хоёрын гол ялгаа нь өөртөө анхаарал хандуулах механизмд оршдог. Зөвхөн декодчилогчийн тохиргоонд загвар нь учир шалтгааны холбоо гэж нэрлэгддэг ирээдүйн жетонд оролцохоос сэргийлж өөртөө анхаарал хандуулах үйлдлийг өөрчилдөг. Энэ нь "масклагдсан өөртөө анхаарал хандуулах" арга техникээр хэрэгждэг бөгөөд ирээдүйн байрлалд тохирох анхаарлын оноог сөрөг хязгааргүй болгож, зөөлөн максыг хэвийн болгох үе шатанд үр дүнтэйгээр далдалдаг.

Декодерт суурилсан LLM-ийн архитектурын бүрэлдэхүүн хэсгүүд

Өөртөө анхаарал хандуулах, өөрийгөө далдлах үндсэн зарчмууд хэвээр байгаа ч орчин үеийн декодчилогч дээр суурилсан LLM нь гүйцэтгэл, үр ашиг, ерөнхий ойлголтыг сайжруулахын тулд архитектурын хэд хэдэн шинэчлэлийг нэвтрүүлсэн. Орчин үеийн LLM-д ашигладаг зарим гол бүрэлдэхүүн хэсэг, техникийг авч үзье.

Оролтын төлөөлөл

Оролтын дарааллыг боловсруулахын өмнө декодчилогч дээр суурилсан LLM нь түүхий текстийг загварт тохирсон тоон дүрслэл болгон хөрвүүлэхийн тулд токенизаци, оруулах аргыг ашигладаг.

вектор оруулах

Токенизаци: Токенжуулалтын үйл явц нь оруулсан текстийг токенжуулалтын стратегиас хамааран үг, дэд үг эсвэл бүр бие даасан тэмдэгтүүд байж болох дараалсан жетон болгон хувиргадаг. LLM-д зориулсан алдартай токенжуулалтын аргууд нь Byte-Pair Encoding (BPE), SentencePiece, WordPiece юм. Эдгээр аргууд нь үгсийн сангийн хэмжээ болон дүрслэлийн нарийн ширийн байдлын хоорондын тэнцвэрийг бий болгоход чиглэгдэж, загварт ховор эсвэл үгсийн сангаас хэтэрсэн үгсийг үр дүнтэй зохицуулах боломжийг олгодог.

Токен оруулах: Токенжуулалтын дараа токен бүрийг токен оруулах гэж нэрлэдэг нягт вектор дүрслэлд буулгана. Эдгээр оруулга нь сургалтын явцад суралцаж, жетон хоорондын утга санаа, синтаксийн харилцааг олж авдаг.

Байршил оруулах: Трансформаторын загварууд нь бүх оролтын дарааллыг нэгэн зэрэг боловсруулдаг бөгөөд давтагдах загваруудад тэмдэгтийн байрлалын тухай ойлголт байхгүй. Байршлын мэдээллийг оруулахын тулд жетон шигтгээнд байршлын суулгацыг нэмснээр загварт жетонуудыг дарааллаар нь ялгах боломжийг олгодог. Эртний LLM-үүд синусоид функц дээр суурилсан суурин байрлалын суулгацыг ашигладаг байсан бол сүүлийн үеийн загварууд нь сурах боломжтой байрлалын суулгац эсвэл эргэлтэт байрлалын шигтгээ гэх мэт өөр байрлалын кодчилолын аргуудыг судалжээ.

Олон толгойн анхаарлыг татах блокууд

Декодерт суурилсан LLM-ийн үндсэн барилгын блокууд нь өмнө дурдсан далдлагдсан өөртөө анхаарал хандуулах үйлдлийг гүйцэтгэдэг олон толгойн анхаарлын давхаргууд юм. Эдгээр давхаргууд нь хэд хэдэн удаа давхарласан бөгөөд давхарга бүр нь өмнөх давхаргын гаралтад оролцдог бөгөөд энэ нь загварт улам бүр төвөгтэй хамаарал, дүрслэлийг авах боломжийг олгодог.

Анхаарал хандуулах дарга нар: Олон толгойн анхаарлын давхарга бүр нь олон тооны "анхаарал төвлөрсөн толгой"-оос бүрдэх ба тус бүр өөрийн гэсэн асуулга, түлхүүр, үнэ цэнийн төсөөлөлтэй. Энэ нь загварт оролтын янз бүрийн талуудад нэгэн зэрэг оролцож, янз бүрийн харилцаа, хэв маягийг олж авах боломжийг олгодог.

Үлдэгдэл холболт ба давхаргыг хэвийн болгох: Гүн сүлжээг сургах ажлыг хөнгөвчлөх, алга болж буй градиент асуудлыг багасгахын тулд декодчилогч дээр суурилсан LLM-ууд үлдэгдэл холболт болон давхаргыг хэвийн болгох аргыг ашигладаг. Үлдэгдэл холболтууд нь давхаргын оролтыг түүний гаралтад нэмж, буцаан тархалтын үед градиент илүү хялбар урсахыг зөвшөөрдөг. Давхаргыг хэвийн болгох нь идэвхжүүлэлт, градиентийг тогтворжуулахад тусалдаг бөгөөд цаашлаад сургалтын тогтвортой байдал, гүйцэтгэлийг сайжруулдаг.

Дамжуулах давхаргууд

Олон толгойн анхаарлын давхаргуудаас гадна декодчилогч дээр суурилсан LLM нь урагш дамжуулах давхаргуудыг агуулдаг бөгөөд эдгээр нь дарааллын байрлал бүрт энгийн дамжуулагч мэдрэлийн сүлжээг ашигладаг. Эдгээр давхарга нь шугаман бус байдлыг нэвтрүүлж, загварт илүү төвөгтэй дүрслэлийг сурах боломжийг олгодог.

Идэвхжүүлэх функцууд: Урагш дамжуулах давхаргууд дахь идэвхжүүлэх функцийг сонгох нь загварын гүйцэтгэлд ихээхэн нөлөөлдөг. Өмнө нь LLM-ууд өргөн хэрэглэгддэг ReLU идэвхжүүлэлт дээр тулгуурладаг байсан бол сүүлийн үеийн загварууд нь Гауссын алдааны шугаман нэгж (GELU) эсвэл SwiGLU идэвхжүүлэлт зэрэг илүү боловсронгуй идэвхжүүлэлтийн функцуудыг нэвтрүүлсэн нь гүйцэтгэл сайжирсан.

Анхаарал багатай, үр ашигтай трансформаторууд

Өөртөө анхаарал хандуулах механизм нь хүчирхэг хэдий ч дарааллын урттай холбоотой квадрат тооцооллын нарийн төвөгтэй байдаг тул урт дарааллын хувьд тооцоолоход үнэтэй болгодог. Энэхүү сорилтыг шийдвэрлэхийн тулд өөртөө анхаарал хандуулахын тулд тооцоолох болон санах ойн хэрэгцээг багасгах хэд хэдэн аргыг санал болгож, урт дарааллыг үр дүнтэй боловсруулах боломжийг олгодог.

Анхаарал багатай: GPT-3 загварт ашигласан шиг анхаарал татахуйц сийрэг арга техникүүд нь бүх байрлалд анхаарал хандуулах оноог тооцоолохоос илүүтэйгээр оролтын дарааллын зарим байрлалыг сонгон авч үздэг. Энэ нь боломжийн гүйцэтгэлийг хадгалахын зэрэгцээ тооцооллын нарийн төвөгтэй байдлыг мэдэгдэхүйц бууруулж чадна.

Гулгадаг цонх Анхаар: Mistral 7B загварт нэвтрүүлсэн гүйдэг цонхны анхаарал (SWA) нь энгийн боловч үр дүнтэй арга бөгөөд токен бүрийн анхаарлыг тогтсон цонхны хэмжээгээр хязгаарладаг. Энэ арга нь трансформаторын давхаргын мэдээллийг олон давхаргаар дамжуулах чадварыг дээшлүүлж, өөрийгөө бүрэн анхаарч үзэх квадратын нарийн төвөгтэй байдалгүйгээр анхаарлын хугацааг үр дүнтэйгээр нэмэгдүүлдэг.

Rolling Buffer Cache: Санах ойн хэрэгцээг цаашид багасгахын тулд, ялангуяа урт дарааллын хувьд Mistral 7B загвар нь өнхрөх буфер кэшийг ашигладаг. Энэ техник нь тогтсон цонхны хэмжээтэй тооцоолсон түлхүүр болон утгын векторуудыг хадгалж, дахин ашигладаг бөгөөд илүүдэл тооцооллоос зайлсхийж, санах ойн хэрэглээг багасгадаг.

Бүлэглэсэн асуулгын анхаарал: LLaMA 2 загварт нэвтрүүлсэн бүлэг асуулгын анхаарал (GQA) нь анхаарлын толгойг бүлгүүдэд хуваадаг, бүлэг бүр нийтлэг түлхүүр болон утгын матрицтай байдаг олон асуулгын анхаарлын механизмын хувилбар юм. Энэхүү арга нь олон асуултын анхаарлын үр ашиг болон стандарт бие даасан анхаарлын гүйцэтгэлийн хоорондох тэнцвэрийг бий болгож, өндөр чанартай үр дүнг хадгалахын зэрэгцээ дүгнэлт гаргах хугацааг сайжруулдаг.

Бүлэглэсэн асуултын анхаарал

Загварын хэмжээ ба масштаб

Орчин үеийн LLM-ийн тодорхойлогч шинж чанаруудын нэг бол параметрийн тоо нь тэрбумаас хэдэн зуун тэрбум хүртэлх өргөн цар хүрээтэй байдаг. Загварын хэмжээг нэмэгдүүлэх нь хамгийн сүүлийн үеийн гүйцэтгэлд хүрэх чухал хүчин зүйл болсон, учир нь том загварууд нь өгөгдлийн илүү төвөгтэй хэв маяг, харилцааг олж авч чаддаг.

Параметрийн тоо: Декодерт суурилсан LLM-ийн параметрийн тоог үндсэндээ оруулах хэмжээс (d_model), анхаарлын толгойн тоо (n_heads), давхаргын тоо (n_layers), үгсийн сангийн хэмжээ (үгийн_хэмжээ) зэргээр тодорхойлогддог. Жишээлбэл, GPT-3 загвар нь 175 тэрбум параметртэй d_model = 12288, n_толгой = 96, n_давхарга = 96Болон үгийн_хэмжээ = 50257.

Загварын параллелизм: Ийм том загваруудыг сургах, ашиглахад ихээхэн хэмжээний тооцооллын нөөц, тусгай техник хангамж шаардлагатай. Энэхүү сорилтыг даван туулахын тулд загвар нь хэд хэдэн GPU эсвэл TPU-д хуваагдаж, төхөөрөмж бүр тооцооллын тодорхой хэсгийг хариуцдаг загварын параллелизм техникийг ашигласан.

Мэргэжилтнүүдийн холимог: LLM-ийг өргөжүүлэх өөр нэг арга бол шинжээчдийн холимог архитектур бөгөөд тус бүр нь өгөгдөл эсвэл даалгаврын тодорхой хэсэг дээр мэргэшсэн олон шинжээчдийн загварыг нэгтгэдэг. Mixtral 8x7B загвар нь ЭМЯ-ны загваруудын нэг жишээ юм Mistral 7B үндсэн загвар болохын зэрэгцээ тооцооллын үр ашгийг хадгалахын зэрэгцээ дээд зэргийн гүйцэтгэлд хүрэх.

Дүгнэлт ба текст үүсгэх

Декодерт суурилсан LLM-ийн үндсэн хэрэглээний нэг бол текст үүсгэх бөгөөд загвар нь өгөгдсөн сануулга эсвэл контекст дээр үндэслэн уялдаатай, байгалийн дуугаралттай текстийг үүсгэдэг.

Авторегрессив кодчилол: Дүгнэлт хийх явцад декодчилогч дээр суурилсан LLM нь өмнө нь үүсгэгдсэн токенууд болон оролтын мөрөнд тулгуурлан нэг удаад нэг жетоныг урьдчилан таамаглаж, авторегресс аргаар текст үүсгэдэг. Энэ үйл явц нь дарааллын дээд уртад хүрэх эсвэл дарааллын төгсгөлийн тэмдэг үүсгэх гэх мэт урьдчилан тодорхойлсон зогсоох шалгуурыг хангах хүртэл үргэлжилнэ.

Түүвэрлэлтийн стратеги: Төрөл бүрийн бөгөөд бодитой текст үүсгэхийн тулд дээд-k дээж авах, дээд-p дээж авах (мөн цөмийн дээж авах гэж нэрлэдэг) эсвэл температурын масштаблалт гэх мэт янз бүрийн түүвэрлэлтийн стратегийг ашиглаж болно. Эдгээр аргууд нь үгсийн сан дахь магадлалын хуваарилалтыг тохируулах замаар үүсгэсэн текстийн олон талт байдал, уялдаа холбоог зохицуулдаг.

Шуурхай инженерчлэл: Оролтын мөрийн чанар, онцлог нь үүсгэсэн текстэд ихээхэн нөлөөлдөг. Шуурхай инженерчлэл буюу үр дүнтэй зааварчилгааг бүтээх урлаг нь LLM-ийг янз бүрийн ажлуудад ашиглах чухал тал болж, хэрэглэгчдэд загвар гаргах үйл явцыг удирдан чиглүүлж, хүссэн үр дүнд хүрэх боломжийг олгодог.

Хүний давталт дахь кодыг тайлах: Үүсгэсэн текстийн чанар, уялдаа холбоог цаашид сайжруулах, гэх мэт арга техник Хүний санал хүсэлтээс суралцах бататгах (RLHF) ажилд орсон. Энэ аргын хувьд хүний үнэлгээчид тухайн загварын үүсгэсэн текстийн талаар санал хүсэлтээ өгдөг ба дараа нь загварыг нарийн тааруулж, хүний сонголттой үр дүнтэй уялдуулж, үр дүнг нь сайжруулахад ашигладаг.

Ахиц дэвшил ба ирээдүйн чиг хандлага

Декодерт суурилсан LLM-ийн салбар хурдацтай хөгжиж байгаа бөгөөд шинэ судалгаа, нээлтүүд эдгээр загваруудын хүрч чадах зүйлийн хил хязгаарыг тасралтгүй шахаж байна. Энд зарим нэг мэдэгдэхүйц дэвшил, ирээдүйн боломжит чиглэлүүд байна:

Трансформаторын үр ашигтай хувилбарууд: Анхаарал багатай, цонхны гүйлгээний анхаарал нь декодчилогч дээр суурилсан LLM-ийн үр ашгийг дээшлүүлэхэд чухал ахиц дэвшил гаргасан ч судлаачид гүйцэтгэлийг хадгалах эсвэл сайжруулахын зэрэгцээ тооцооллын шаардлагыг цаашид бууруулахын тулд өөр трансформаторын архитектур, анхаарал хандуулах механизмыг идэвхтэй судалж байна.

Multimodal LLMs: Текстээс гадна LLM-ийн чадавхийг өргөжүүлэхийн тулд мультимодаль загварууд нь зураг, аудио, видео зэрэг олон аргыг нэг нэгдсэн тогтолцоонд нэгтгэхийг зорьдог. Энэ нь зургийн тайлбар, визуал асуултанд хариулах, мультимедиа контент үүсгэх зэрэг програмуудад сонирхолтой боломжуудыг нээж өгдөг.

Хянах боломжтой үе: Үүсгэсэн текст дээр нарийн хяналтыг идэвхжүүлэх нь LLM-ийн хувьд хэцүү боловч чухал чиглэл юм. Хяналттай текст үүсгэх, шуурхай тааруулах зэрэг техникүүд нь хэв маяг, өнгө аяс эсвэл агуулгын тодорхой шаардлага гэх мэт үүсгэсэн текстийн төрөл бүрийн шинж чанаруудыг илүү нарийн хянах боломжийг хэрэглэгчдэд олгох зорилготой.

Дүгнэлт

Декодер дээр суурилсан LLM нь байгалийн хэл боловсруулах салбарт хувиргагч хүч болж гарч ирж, хэл үүсгэх, ойлгоход боломжтой зүйлийн хил хязгаарыг түлхэж байна. Трансформаторын архитектурын хялбаршуулсан хувилбар болох эгэл жирийн эхлэлээс эдгээр загварууд нь хамгийн сүүлийн үеийн техник, архитектурын шинэчлэлийг ашиглан маш боловсронгуй, хүчирхэг систем болон хувирсан.

Бид декодчилогч дээр суурилсан LLM-ийг үргэлжлүүлэн судалж, ахиулснаар хэлтэй холбоотой ажлууд, түүнчлэн эдгээр загваруудыг өргөн хүрээний хэрэглээ, домэйнд нэгтгэх талаар илүү гайхалтай амжилтуудыг олж харах болно. Гэсэн хэдий ч эдгээр хүчирхэг загваруудыг өргөнөөр ашигласнаас үүдэн гарч болох ёс суртахууны асуудал, тайлбарлах чадварын сорилтууд болон болзошгүй гажуудлыг шийдвэрлэх нь маш чухал юм.

Судалгааны тэргүүн эгнээнд байж, нээлттэй хамтын ажиллагааг дэмжин, хариуцлагатай хиймэл оюун ухааны хөгжилд тууштай хандсанаар бид декодчилогчдод суурилсан LLM-ийн бүрэн чадавхийг нээж, тэдгээрийг аюулгүй, ёс зүйтэй, ашиг тустай байдлаар хөгжүүлж, ашиглах боломжтой. нийгэм.

Холбогдох сэдвүүд:ХҮН декодер GPT-3 LLM ПаЛМ ШУУРХАЙ ИНЖЕНЕРЧИЛГЭЭ өөртөө анхаарал хандуулах трансформаторууд

Дараа хүртэл

Халаасны хэмжээтэй цахилгаан станц: Таны утсанд тохирох хэлний загвар болох Microsoft-ын Phi-3-ийг танилцуулж байна.

Бүү саад бол

Mini-Gemini: Олон төрлийн алсын харааны хэлний загваруудын боломжуудыг олборлох

Аюуш Миттал

Би сүүлийн таван жилийг Machine Learning болон Deep Learning хэмээх гайхалтай ертөнцөд шимтэн өнгөрүүлэхэд зарцуулсан. Миний хүсэл тэмүүлэл, туршлага намайг AI/ML-д онцгойлон анхаарч, 50 гаруй төрлийн програм хангамжийн инженерийн төсөлд хувь нэмрээ оруулахад хүргэсэн. Миний байнгын сониуч зан намайг цаашид судлахыг хүсч буй Байгалийн хэлний боловсруулалт руу татсан.