Хиймэл оюун
Декодер дээр суурилсан том хэлний загварууд: Бүрэн гарын авлага
Том хэлний загварууд (LLMs) нь хүнтэй төстэй текст үүсгэх, асуултанд хариулах, хэлтэй холбоотой өргөн хүрээний ажлуудад туслах гайхалтай чадварыг харуулж, байгалийн хэл боловсруулах (NLP) салбарт хувьсгал хийсэн. Эдгээр хүчирхэг загваруудын цөм нь юм зөвхөн декодчилогчтой трансформаторын бүтэц, үндсэн нийтлэлд санал болгосон анхны трансформаторын архитектурын хувилбар "Анхаарал л танд хэрэгтэй” Васвани нар.
Энэхүү иж бүрэн гарын авлагад бид декодчилогч дээр суурилсан LLM-ийн дотоод үйл ажиллагааг судалж, эдгээр загваруудыг NLP судалгаа, хэрэглээний тэргүүн эгнээнд гаргахад түлхэц болсон үндсэн барилгын блокууд, архитектурын шинэчлэл, хэрэгжилтийн нарийн ширийнийг судлах болно.
Трансформаторын архитектур: Сэргээгч
Декодер дээр суурилсан LLM-ийн онцлог шинж чанаруудыг судлахын өмнө эдгээр загваруудыг бий болгосон трансформаторын архитектурыг эргэн харах нь чухал юм. Трансформатор нь өгөгдлийн урт хугацааны хамаарлыг давтагдах болон эргэлтийн давхарга шаардлагагүйгээр олж авахын тулд зөвхөн анхаарлын механизмд тулгуурласан дарааллын загварчлалын шинэ аргыг нэвтрүүлсэн.
Трансформаторын анхны бүтэц нь кодлогч ба декодер гэсэн хоёр үндсэн хэсгээс бүрдэнэ. Кодлогч нь оролтын дарааллыг боловсруулж, контекстчилсэн дүрслэлийг үүсгэдэг бөгөөд дараа нь гаралтын дарааллыг гаргахын тулд декодер ашигладаг. Энэхүү архитектур нь эхлээд машин орчуулгын даалгаварт зориулагдсан бөгөөд кодлогч нь эх хэл дээрх оролтын өгүүлбэрийг боловсруулдаг бөгөөд декодлогч нь зорилтот хэл дээр харгалзах өгүүлбэрийг үүсгэдэг.
Өөртөө анхаарал хандуулах: Трансформаторын амжилтын түлхүүр
Зүрхнийхээ зүрхэнд трансформаторын Өөртөө анхаарал хандуулах механизм нь загварт оруулах дарааллын янз бүрийн байрлалаас мэдээллийг жинлэх, нэгтгэх боломжийг олгодог хүчирхэг техник юм. Оролтын жетоныг дараалан боловсруулдаг уламжлалт дарааллын загваруудаас ялгаатай нь өөртөө анхаарал хандуулах нь загварт дараалал дахь байрлалаас үл хамааран дурын хос жетонуудын хоорондын хамаарлыг олж авах боломжийг олгодог.
Өөртөө анхаарал хандуулах үйл ажиллагааг гурван үндсэн үе шатанд хувааж болно.
- Асуулга, Түлхүүр, Утгын төсөөлөл: Оролтын дарааллыг гурван тусдаа дүрслэлд тусгасан болно: асуултууд (Q), түлхүүрүүд (K), ба утгууд (V). Эдгээр проекцуудыг сурсан жингийн матрицаар оролтыг үржүүлэх замаар олж авна.
- Анхаарлын онооны тооцоолол: Оролтын дарааллын байрлал бүрийн хувьд харгалзах асуулгын вектор болон бүх гол векторуудын хоорондох цэгийн үржвэрийг авч анхаарлын оноог тооцдог. Эдгээр оноо нь одоо ажиллаж буй албан тушаалд албан тушаал тус бүрийн хамаарлыг илэрхийлдэг.
- Утгын жинлэсэн нийлбэр: Анхаарлын оноог softmax функцийг ашиглан хэвийн болгож, үүссэн анхаарлын жинг утгын векторуудын жигнэсэн нийлбэрийг тооцоолоход ашиглан одоогийн байрлалын гаралтын дүрслэлийг гаргадаг.
Өөртөө анхаарал хандуулах механизмын нэг хувилбар болох олон толгойн анхаарал нь загварт олон тооны анхаарлын оноог тооцоолох замаар янз бүрийн төрлийн харилцааг олж авах боломжийг олгодог.дарга” зэрэг нь тус бүр өөрийн гэсэн асуулга, түлхүүр, утгын төсөөлөлтэй.
Архитектурын хувилбарууд ба тохиргоо
Декодер дээр суурилсан LLM-ийн үндсэн зарчмууд тогтвортой хэвээр байгаа ч судлаачид гүйцэтгэл, үр ашиг, ерөнхий ойлголтыг сайжруулахын тулд янз бүрийн архитектурын хувилбарууд болон тохиргоонуудыг судалж үзсэн. Энэ хэсэгт бид янз бүрийн архитектурын сонголтууд болон тэдгээрийн үр нөлөөг судлах болно.
Архитектурын төрлүүд
Декодерт суурилсан LLM-ийг ерөнхийд нь кодлогч-декодер, учир шалтгааны декодер, угтвар декодлогч гэсэн гурван үндсэн төрөлд ангилж болно. Архитектурын төрөл бүр өөр өөр анхаарлын хэв маягийг харуулдаг.
Encoder-Decoder Architecture
Ванилийн трансформаторын загвар дээр тулгуурлан кодлогч-декодерийн архитектур нь кодлогч ба декодер гэсэн хоёр стекээс бүрдэнэ. Кодлогч нь оролтын дарааллыг кодчилох, далд дүрслэл үүсгэхийн тулд давхарласан олон толгойтой өөртөө анхаарал хандуулах давхаргыг ашигладаг. Дараа нь декодер нь зорилтот дарааллыг үүсгэхийн тулд эдгээр дүрслэлд хөндлөнгийн анхаарал хандуулдаг. Төрөл бүрийн NLP даалгавруудад үр дүнтэй боловч цөөн тооны LLM, тухайлбал Flan-T5, энэ архитектурыг нэвтрүүлэх.
Шалтгаан декодерийн архитектур
Шалтгаан декодчилогчийн архитектур нь нэг чиглэлтэй анхаарлын маск агуулсан бөгөөд оролтын жетон бүр зөвхөн өмнөх жетонууд болон өөртөө оролцох боломжийг олгодог. Оролтын болон гаралтын жетон хоёулаа ижил декодер дотор боловсруулагдана. алдартай загварууд дуртай GPT-1, GPT-2 болон GPT-3 нь энэхүү архитектур дээр бүтээгдсэн бөгөөд GPT-3 нь контекстэд суралцах гайхалтай чадварыг харуулдаг. OPT, BLOOM, Gopher зэрэг олон LLM-үүд учир шалтгааны декодлогчийг өргөнөөр нэвтрүүлсэн.
Угтвар декодчилогчийн архитектур
Шалтгаан бус декодер гэж нэрлэгддэг угтвар декодлогчийн архитектур нь угтвар токенууд дээр хоёр чиглэлтэй, үүсгэсэн жетон дээр нэг чиглэлтэй анхаарал хандуулахын тулд учир шалтгааны декодлогчдын далдлах механизмыг өөрчилдөг. Кодлогч-декодерийн архитектурын нэгэн адил угтвар декодлогч нь угтварын дарааллыг хоёр чиглэлтэй кодлож, хуваалцсан параметрүүдийг ашиглан гаралтын жетоныг авторегрессээр урьдчилан таамаглах боломжтой. Угтвар декодлогч дээр суурилсан LLM-д GLM130B болон U-PaLM орно.
Бүх гурван архитектурын төрлийг ашиглан өргөтгөж болно мэргэжилтнүүдийн холимог (МЭ) оролт бүрт мэдрэлийн сүлжээний жингийн дэд багцыг сийрэг идэвхжүүлдэг масштабын техник. Энэ аргыг Switch Transformer болон GLaM зэрэг загваруудад ашигласан бөгөөд шинжээчдийн тоо нэмэгдэж эсвэл параметрийн нийт хэмжээ нь гүйцэтгэлийн мэдэгдэхүйц сайжруулалтыг харуулж байна.
Зөвхөн декодчилогч-Трансформатор: Авторегрессийн мөн чанарыг хүлээн зөвшөөрөх
Трансформаторын анхны архитектур нь машин орчуулга гэх мэт дараалсан ажлуудад зориулагдсан байсан бол хэлний загварчлал, текст үүсгэх гэх мэт NLP-ийн олон даалгавруудыг авторегресс бодлого болгон тодорхойлж болох бөгөөд загвар нь нэг удаад нэг жетон үүсгэдэг. өмнө нь үүсгэсэн жетон.
Зөвхөн декодчилогчийн бүрэлдэхүүн хэсгийг хадгалсан трансформаторын архитектурын хялбаршуулсан хувилбар болох зөвхөн декодчилогч трансформаторыг оруулна уу. Энэхүү архитектур нь гаралтын жетонуудыг нэг нэгээр нь үүсгэж, оролтын контекст болгон өмнө нь үүсгэсэн жетонуудыг ашигладаг тул авторегрессив ажлуудад маш тохиромжтой.
Зөвхөн декодчилогчтой трансформатор ба анхны трансформаторын декодер хоёрын гол ялгаа нь өөртөө анхаарал хандуулах механизмд оршдог. Зөвхөн декодчилогчийн тохиргоонд загвар нь учир шалтгааны холбоо гэж нэрлэгддэг ирээдүйн жетонд оролцохоос сэргийлж өөртөө анхаарал хандуулах үйлдлийг өөрчилдөг. Энэ нь "масклагдсан өөртөө анхаарал хандуулах" арга техникээр хэрэгждэг бөгөөд ирээдүйн байрлалд тохирох анхаарлын оноог сөрөг хязгааргүй болгож, зөөлөн максыг хэвийн болгох үе шатанд үр дүнтэйгээр далдалдаг.
Декодерт суурилсан LLM-ийн архитектурын бүрэлдэхүүн хэсгүүд
Өөртөө анхаарал хандуулах, өөрийгөө далдлах үндсэн зарчмууд хэвээр байгаа ч орчин үеийн декодчилогч дээр суурилсан LLM нь гүйцэтгэл, үр ашиг, ерөнхий ойлголтыг сайжруулахын тулд архитектурын хэд хэдэн шинэчлэлийг нэвтрүүлсэн. Орчин үеийн LLM-д ашигладаг зарим гол бүрэлдэхүүн хэсэг, техникийг авч үзье.
Оролтын төлөөлөл
Оролтын дарааллыг боловсруулахын өмнө декодчилогч дээр суурилсан LLM нь түүхий текстийг загварт тохирсон тоон дүрслэл болгон хөрвүүлэхийн тулд токенизаци, оруулах аргыг ашигладаг.
Токенизаци: Токенжуулалтын үйл явц нь оруулсан текстийг токенжуулалтын стратегиас хамааран үг, дэд үг эсвэл бүр бие даасан тэмдэгтүүд байж болох дараалсан жетон болгон хувиргадаг. LLM-д зориулсан алдартай токенжуулалтын аргууд нь Byte-Pair Encoding (BPE), SentencePiece, WordPiece юм. Эдгээр аргууд нь үгсийн сангийн хэмжээ болон дүрслэлийн нарийн ширийн байдлын хоорондын тэнцвэрийг бий болгоход чиглэгдэж, загварт ховор эсвэл үгсийн сангаас хэтэрсэн үгсийг үр дүнтэй зохицуулах боломжийг олгодог.
Токен оруулах: Токенжуулалтын дараа токен бүрийг токен оруулах гэж нэрлэдэг нягт вектор дүрслэлд буулгана. Эдгээр оруулга нь сургалтын явцад суралцаж, жетон хоорондын утга санаа, синтаксийн харилцааг олж авдаг.
Байршил оруулах: Трансформаторын загварууд нь бүх оролтын дарааллыг нэгэн зэрэг боловсруулдаг бөгөөд давтагдах загваруудад тэмдэгтийн байрлалын тухай ойлголт байхгүй. Байршлын мэдээллийг оруулахын тулд жетон шигтгээнд байршлын суулгацыг нэмснээр загварт жетонуудыг дарааллаар нь ялгах боломжийг олгодог. Эртний LLM-үүд синусоид функц дээр суурилсан суурин байрлалын суулгацыг ашигладаг байсан бол сүүлийн үеийн загварууд нь сурах боломжтой байрлалын суулгац эсвэл эргэлтэт байрлалын шигтгээ гэх мэт өөр байрлалын кодчилолын аргуудыг судалжээ.
Олон толгойн анхаарлыг татах блокууд
Декодерт суурилсан LLM-ийн үндсэн барилгын блокууд нь өмнө дурдсан далдлагдсан өөртөө анхаарал хандуулах үйлдлийг гүйцэтгэдэг олон толгойн анхаарлын давхаргууд юм. Эдгээр давхаргууд нь хэд хэдэн удаа давхарласан бөгөөд давхарга бүр нь өмнөх давхаргын гаралтад оролцдог бөгөөд энэ нь загварт улам бүр төвөгтэй хамаарал, дүрслэлийг авах боломжийг олгодог.
Анхаарал хандуулах дарга нар: Олон толгойн анхаарлын давхарга бүр нь олон тооны "анхаарал төвлөрсөн толгой"-оос бүрдэх ба тус бүр өөрийн гэсэн асуулга, түлхүүр, үнэ цэнийн төсөөлөлтэй. Энэ нь загварт оролтын янз бүрийн талуудад нэгэн зэрэг оролцож, янз бүрийн харилцаа, хэв маягийг олж авах боломжийг олгодог.
Үлдэгдэл холболт ба давхаргыг хэвийн болгох: Гүн сүлжээг сургах ажлыг хөнгөвчлөх, алга болж буй градиент асуудлыг багасгахын тулд декодчилогч дээр суурилсан LLM-ууд үлдэгдэл холболт болон давхаргыг хэвийн болгох аргыг ашигладаг. Үлдэгдэл холболтууд нь давхаргын оролтыг түүний гаралтад нэмж, буцаан тархалтын үед градиент илүү хялбар урсахыг зөвшөөрдөг. Давхаргыг хэвийн болгох нь идэвхжүүлэлт, градиентийг тогтворжуулахад тусалдаг бөгөөд цаашлаад сургалтын тогтвортой байдал, гүйцэтгэлийг сайжруулдаг.
Дамжуулах давхаргууд
Олон толгойн анхаарлын давхаргуудаас гадна декодчилогч дээр суурилсан LLM нь урагш дамжуулах давхаргуудыг агуулдаг бөгөөд эдгээр нь дарааллын байрлал бүрт энгийн дамжуулагч мэдрэлийн сүлжээг ашигладаг. Эдгээр давхарга нь шугаман бус байдлыг нэвтрүүлж, загварт илүү төвөгтэй дүрслэлийг сурах боломжийг олгодог.
Идэвхжүүлэх функцууд: Урагш дамжуулах давхаргууд дахь идэвхжүүлэх функцийг сонгох нь загварын гүйцэтгэлд ихээхэн нөлөөлдөг. Өмнө нь LLM-ууд өргөн хэрэглэгддэг ReLU идэвхжүүлэлт дээр тулгуурладаг байсан бол сүүлийн үеийн загварууд нь Гауссын алдааны шугаман нэгж (GELU) эсвэл SwiGLU идэвхжүүлэлт зэрэг илүү боловсронгуй идэвхжүүлэлтийн функцуудыг нэвтрүүлсэн нь гүйцэтгэл сайжирсан.
Анхаарал багатай, үр ашигтай трансформаторууд
Өөртөө анхаарал хандуулах механизм нь хүчирхэг хэдий ч дарааллын урттай холбоотой квадрат тооцооллын нарийн төвөгтэй байдаг тул урт дарааллын хувьд тооцоолоход үнэтэй болгодог. Энэхүү сорилтыг шийдвэрлэхийн тулд өөртөө анхаарал хандуулахын тулд тооцоолох болон санах ойн хэрэгцээг багасгах хэд хэдэн аргыг санал болгож, урт дарааллыг үр дүнтэй боловсруулах боломжийг олгодог.
Анхаарал багатай: GPT-3 загварт ашигласан шиг анхаарал татахуйц сийрэг арга техникүүд нь бүх байрлалд анхаарал хандуулах оноог тооцоолохоос илүүтэйгээр оролтын дарааллын зарим байрлалыг сонгон авч үздэг. Энэ нь боломжийн гүйцэтгэлийг хадгалахын зэрэгцээ тооцооллын нарийн төвөгтэй байдлыг мэдэгдэхүйц бууруулж чадна.
Гулгадаг цонх Анхаар: Mistral 7B загварт нэвтрүүлсэн гүйдэг цонхны анхаарал (SWA) нь энгийн боловч үр дүнтэй арга бөгөөд токен бүрийн анхаарлыг тогтсон цонхны хэмжээгээр хязгаарладаг. Энэ арга нь трансформаторын давхаргын мэдээллийг олон давхаргаар дамжуулах чадварыг дээшлүүлж, өөрийгөө бүрэн анхаарч үзэх квадратын нарийн төвөгтэй байдалгүйгээр анхаарлын хугацааг үр дүнтэйгээр нэмэгдүүлдэг.
Rolling Buffer Cache: Санах ойн хэрэгцээг цаашид багасгахын тулд, ялангуяа урт дарааллын хувьд Mistral 7B загвар нь өнхрөх буфер кэшийг ашигладаг. Энэ техник нь тогтсон цонхны хэмжээтэй тооцоолсон түлхүүр болон утгын векторуудыг хадгалж, дахин ашигладаг бөгөөд илүүдэл тооцооллоос зайлсхийж, санах ойн хэрэглээг багасгадаг.
Бүлэглэсэн асуулгын анхаарал: LLaMA 2 загварт нэвтрүүлсэн бүлэг асуулгын анхаарал (GQA) нь анхаарлын толгойг бүлгүүдэд хуваадаг, бүлэг бүр нийтлэг түлхүүр болон утгын матрицтай байдаг олон асуулгын анхаарлын механизмын хувилбар юм. Энэхүү арга нь олон асуултын анхаарлын үр ашиг болон стандарт бие даасан анхаарлын гүйцэтгэлийн хоорондох тэнцвэрийг бий болгож, өндөр чанартай үр дүнг хадгалахын зэрэгцээ дүгнэлт гаргах хугацааг сайжруулдаг.