Kacerdasan buatan

LoRa, QLoRA sareng QA-LoRA: Adaptasi Éfisién dina Modél Basa Gedé Ngaliwatan Faktorisasi Matriks Rengking Rendah

dimuat

bulan 2 ago

Oktober 24, 2023

LoRA : Adaptasi Rengking Rendah tina Modél Basa Gedé

Modél Basa Besar (LLMs) parantos ngukir ceruk unik, nawiskeun kamampuan anu teu aya tandinganana dina ngartos sareng ngahasilkeun téks sapertos manusa. Kakuatan LLM tiasa dilacak deui kana ukuranana anu ageung, sering gaduh milyaran parameter. Bari skala badag ieu suluh kinerja maranéhanana, éta sakaligus ngalahirkeun tantangan, utamana lamun datang ka model adaptasi pikeun tugas husus atawa domain. Jalur konvensional ngatur LLMs, kayaning fine-tuning sadaya parameter, nampilkeun tol komputasi jeung finansial beurat, sahingga posing hiji halangan signifikan pikeun nyoko maranéhanana nyebar dina aplikasi dunya nyata.

dina artikel saméméhna, urang delve kana fine-tuning Modél Basa Besar (LLMs) pikeun ngaropea aranjeunna ka sarat husus. Kami ngajalajah rupa-rupa metodologi fine-tuning sapertos Instruction-Based Fine-Tuning, Single-Task Fine-Tuning, sareng Parameter Efficient Fine-Tuning (PEFT), masing-masing kalayan pendekatan unikna pikeun ngaoptimalkeun LLM pikeun tugas anu béda. Puseur kana diskusi nyaéta arsitektur trafo, tulang tonggong LLM, sareng tantangan anu ditimbulkeun ku tungtutan komputasi sareng mémori pikeun nanganan sajumlah ageung parameter salami tuning.

https://huggingface.co/blog/hf-bitsandbytes-integration

Gambar di luhur ngagambarkeun skala rupa-rupa model basa badag, disusun dumasar jumlah parameter maranéhanana. Utamana: PaLM, MEKAR, jsb

Taun ieu, aya kamajuan anu ngarah kana modél anu langkung ageung. Nanging, nyaluyukeun modél open-source sapertos kitu dina sistem standar teu tiasa dilaksanakeun tanpa téknik optimasi khusus.

Lebetkeun Low-Rank Adaptation (LoRA) diwanohkeun ku Microsoft dina ieu keretas, Tujuan pikeun ngirangan tantangan ieu sareng ngajantenkeun LLM langkung diaksés sareng tiasa diadaptasi.

Inti tina LoRA perenahna dina pendekatanna kana adaptasi modél tanpa ngagali kana seluk-beluk ngalatih deui sadayana modél. Teu kawas fine-tuning tradisional, dimana unggal parameter bisa dirobah, LoRA adopts jalur smarter. Éta ngabekukeun beurat modél anu tos dilatih sareng ngenalkeun matriks dékomposisi pangkat anu tiasa dilatih kana unggal lapisan arsitektur Transformer. Pendekatan ieu sacara drastis ngirangan jumlah parameter anu tiasa dilatih, mastikeun prosés adaptasi anu langkung éfisién.

Évolusi Strategi tuning LLM

Ngeunteung kana perjalanan tuning LLM, urang tiasa ngaidentipikasi sababaraha strategi anu dianggo ku praktisi salami mangtaun-taun. Dina awalna, sorotan éta dina fine-tuning model nu tos dilatih, strategi nu merlukeun parobahan komprehensif parameter model pikeun nyocogkeun ka tugas husus di leungeun. Sanajan kitu, sakumaha model tumuwuh dina ukuran sarta pajeulitna, jadi ogé tungtutan komputasi pendekatan ieu.

Strategi salajengna anu kéngingkeun daya tarik nyaéta subset fine-tuning, versi anu langkung kaampeuh tina miheulaan na. Di dieu, ngan sawaréh tina parameter modél anu disaluyukeun, ngirangan beban komputasi kana sababaraha tingkat. Sanajan kaunggulan na, subset fine-tuning masih teu bisa nuturkeun laju tumuwuhna ukuran LLMs.

Salaku praktisi ventured ngajajah jalan leuwih efisien, pinuh fine-tuning mecenghul salaku pendekatan rigorous acan rewarding.

Bubuka pikeun LoRA

Rengking matriks masihan urang katingal kana dimensi anu diciptakeun ku kolomna, ditangtukeun ku jumlah baris atanapi kolom anu unik.

Matriks Rengking Pinuh: Rengkingna cocog sareng jumlah pangleutikna antara barisan atanapi kolom na.
Matriks Rengking Rendah: Kalayan pangkat anu langkung alit tibatan jumlah baris sareng kolom, éta nyandak langkung seueur fitur.

Ayeuna, model badag nangkep pamahaman lega domain maranéhanana, kawas basa dina model basa. Tapi, fine-tuning aranjeunna keur tugas husus mindeng ukur perlu nyorot bagian leutik tina pamahaman ieu. Di dieu dimana LoRA bersinar. Éta nunjukkeun yén matriks anu nunjukkeun panyesuaian beurat ieu tiasa janten réngking rendah, sahingga nyandak langkung seueur fitur.

LoRA pinter ngabatesan pangkat matriks pembaruan ieu ku ngabagi kana dua matriks pangkat anu langkung alit. Janten tibatan ngarobih sadayana matriks beurat, éta ngan ukur robih sabagéan tina éta, ngajantenkeun tugas ngepaskeun langkung éfisién.

Nerapkeun LoRA ka Transformers

LoRA mantuan ngaleutikan beban latihan dina jaringan saraf ku fokus kana matriks beurat husus. Dina arsitéktur Transformer, matriks beurat tangtu dihubungkeun jeung mékanisme perhatian diri, nyaéta Wq, Wk, Wv, jeung Wo, salian ti dua deui dina modul Multi-Layer Perceptron (MLP).

Arsitéktur Transformers

Transformer Perhatian Huluna

Penjelasan Matematika Behing LoRA

Hayu urang ngarecah maths balik LoRA:

Pra-dilatih Beurat Matrix $W_{0}$ :
- Dimimitian ku matriks beurat anu tos dilatih $W_{0}$ tina dimensi $d \times k$ . Ieu ngandung harti matrix ngabogaan $d$ jajaran sareng $k$ kolom.
Low-rank dékomposisi:
- Gantina langsung ngamutahirkeun sakabéh matrix $W_{0}$ , nu bisa jadi mahal komputasi, métode proposes pendekatan dékomposisi low-rank.
- Pembaruan $Δ W$ ka $W_{0}$ bisa digambarkeun salaku hasil tina dua matriks: $B$ jeung $A$ .
  - $B$ ngabogaan dimensi $d \times r$
  - $A$ ngabogaan dimensi $r \times k$
- Titik konci di dieu nyaéta pangkat $r$ jauh leuwih leutik ti duanana $d$ jeung $k$ , nu ngamungkinkeun pikeun ngagambarkeun leuwih efisien komputasi.
palatihan:
- Salila prosés latihan, $W_{0}$ tetep unchanged. Ieu disebut "katirisan" beurat.
- Di sisi anu sanésna, $A$ jeung $B$ mangrupakeun parameter trainable. Ieu ngandung harti yén, nalika latihan, panyesuaian dilakukeun pikeun matriks $A$ jeung $B$ pikeun ngaronjatkeun kinerja model urang.
Multiplikasi jeung Panambahan:
- boh $W_{0}$ jeung apdet $Δ W$ (anu mangrupa produk ti $B$ jeung $A$ ) dikalikeun ku input anu sarua (dilambangkeun salaku $x$ ).
- Kaluaran tina multiplications ieu lajeng ditambahkeun babarengan.
- Prosés ieu diringkeskeun dina persamaan: $h = W_{0} x + Δ W x = W_{0} x + B A x.$ Ieuh, $h$ ngagambarkeun kaluaran ahir sanggeus nerapkeun apdet kana input $x$ .

Pondokna, metodeu ieu ngamungkinkeun pikeun cara anu langkung éfisién pikeun ngapdet matriks beurat anu ageung ku ngawakilan apdet nganggo dékomposisi peringkat rendah, anu tiasa mangpaat dina hal efisiensi komputasi sareng pamakean mémori.

LORA

Initialization sareng Skala:

Nalika model latihan, kumaha urang initialize parameter bisa nyata mangaruhan efisiensi jeung efektivitas prosés diajar. Dina konteks update matrix beurat urang ngagunakeun $A$ jeung $B$ :

Initialization of Matrices $A$ jeung $B$ :
- matrix $A$ : Matriks ieu diinisialisasi ku nilai Gaussian acak, ogé katelah sebaran normal. Alesan pikeun ngagunakeun inisialisasi Gaussian nyaéta pikeun ngarobih simétri: neuron anu béda dina lapisan anu sami bakal diajar fitur anu béda nalika aranjeunna gaduh beurat awal anu béda.
- matrix $B$ : matrix ieu initialized kalawan nol. Ku ngalakukeun ieu, apdet $Δ W = B A$ dimimitian salaku nol dina awal latihan. Éta mastikeun yén teu aya parobahan anu ngadadak dina paripolah modél dina mimiti, ngamungkinkeun modél laun-laun adaptasi salaku $B$ diajar niléy-niléy anu luyu salila latihan.
Skala kaluaran ti $Δ W$ :
- Saatos ngitung apdet $Δ W$ , output na diskalakeun ku faktor tina $r α$ di mana $α$ mangrupa konstanta. Ku skala, gedéna apdet dikontrol.
- Skala hususna penting nalika pangkat $r$ parobahan. Salaku conto, upami anjeun mutuskeun pikeun ningkatkeun pangkat pikeun langkung akurat (dina biaya komputasi), skalana mastikeun yén anjeun henteu kedah nyaluyukeun seueur hiperparameter sanés dina prosésna. Éta nyayogikeun tingkat stabilitas pikeun modél.

Dampak Praktis LoRA

LoRA parantos nunjukkeun poténsina pikeun nyaluyukeun LLM kana gaya artistik khusus sacara éfisién ku jalma-jalma ti komunitas AI. Ieu utamana ditembongkeun dina adaptasi model pikeun meniru gaya artistik Greg Rutkowski.

Salaku disorot dina kertas jeung GPT-3 175B sabagé conto. Mibanda instansi individu model fine-tuned kalawan parameter 175B unggal rada ongkosna mahal. Tapi, sareng LoRA, parameter anu tiasa dilatih turun ku 10,000 kali, sareng pamakean memori GPU dipangkas dugi ka sapertilu.

Dampak LoRa kana GPT-3 Fine Tuning

Métodologi LoRA henteu ngan ukur ngawujudkeun léngkah anu penting pikeun ngajantenkeun LLM langkung diaksés tapi ogé negeskeun poténsial pikeun ngaitkeun jurang antara kamajuan téoritis sareng aplikasi praktis dina domain AI. Ku ngaleungitkeun halangan komputasi sareng ngabina prosés adaptasi modél anu langkung éfisién, LoRA siap maénkeun peran pivotal dina nyoko sareng nyebarkeun LLM anu langkung lega dina skenario dunya nyata.

QLoRA (Kuantasi)

Nalika LoRA mangrupikeun panyusun kaulinan pikeun ngirangan kabutuhan panyimpen, éta masih meryogikeun GPU anu ageung pikeun ngamuat modél latihan. Ieu dimana QLoRA, atanapi Quantized LoRA, ngaléngkah, nyampur LoRA sareng Quantization pikeun pendekatan anu langkung pinter.

Kuantisasi

Biasana, parameter beurat disimpen dina format 32-bit (FP32), hartina unggal unsur dina matriks nyokot 32 bit spasi. Bayangkeun lamun urang bisa squeeze info sarua kana ngan 8 atawa malah 4 bit. Éta pamanggih inti balik QLoRA. Kuantisasi nujul kana prosés pemetaan nilai takterhingga kontinyu kana set leutik nilai terhingga diskrit. Dina konteks LLMs, éta nujul kana prosés ngarobah beurat modél tina tipe data precision luhur ka leuwih-precision leuwih handap.

Kuantisasi dina LLM

Ieu ngarecahna QLoRA anu langkung saderhana:

Kuantisasi Awal: Kahiji, Modél Basa Besar (LLM) dikuantisasi nepi ka 4 bit, sacara signifikan ngurangan tapak suku mémori.
Pelatihan LoRA: Lajeng, latihan LoRA dipigawé, tapi dina precision 32-bit baku (FP32).

Ayeuna, Anjeun meureun heran, naha balik deui ka 32 bit pikeun latihan sanggeus ngaleutikan handap ka 4 bit? Nya, pikeun ngalatih adaptor LoRA sacara efektif dina FP32, beurat modél kedah dibalikkeun deui ka FP32 ogé. Saklar ieu bulak-balik dilakukeun sacara pinter, léngkah-léngkah pikeun ngahindarkeun mémori GPU anu ageung.

LoRA mendakan aplikasi praktis na dina Hugging Face Parameter Éfisién Fine-Tuning (PEFT) perpustakaan, nyederhanakeun utilization na. Pikeun maranéhanana pilari pamakéan QLoRA, éta diaksés ngaliwatan kombinasi tina bitsandbytes jeung perpustakaan PEFT. Salaku tambahan, HuggingFace Perpustakaan Panguatan Transformer (TRL). mempermudah diawasan fine-tuning kalawan rojongan terpadu pikeun LoRA. Kalawan babarengan, tilu perpustakaan ieu nyadiakeun toolkit penting pikeun fine-tuning model tos dilatih dipilih, ngamungkinkeun generasi déskripsi produk persuasif tur koheren lamun ditanya ku parentah atribut husus.

Pos fine-tuning ti QLoRA, beurat kudu dibalikkeun deui ka format precision tinggi, nu bisa ngakibatkeun leungitna akurasi sarta lacks optimasi pikeun ngagancangkeun prosés.

Solusi anu diusulkeun nyaéta ngagolongkeun matriks beurat kana bagéan-bagéan anu langkung alit sareng nerapkeun kuantisasi sareng adaptasi réngking rendah ka unggal kelompok masing-masing. Hiji métode anyar, ngaranna QA-LoRA, nyoba nyampur mangpaat kuantisasi jeung adaptasi low-rank bari tetep prosés efisien sarta modél éféktif pikeun tugas nu dipikahoyong.

kacindekan

Dina artikel ieu kami keuna kana tantangan anu ditimbulkeun ku ukuran parameter anu ageung. Urang delve kana prakték fine-tuning tradisional jeung tungtutan komputasi jeung finansial pakait maranéhanana. Inti tina LoRA perenahna dina kamampuanna pikeun ngarobih modél anu tos dilatih tanpa ngalatih deui sadayana, ku kituna ngirangan parameter anu tiasa dilatih sareng ngajantenkeun prosés adaptasi langkung efektif.

Urang ogé delved sakeudeung kana Quantized LoRA (QLoRA), a adun of LoRA na Quantization nu ngurangan tapak suku memori model bari tetep precision penting pikeun latihan. Kalayan téknik canggih ieu, praktisi ayeuna dilengkepan ku perpustakaan anu kuat, ngagampangkeun nyoko sareng nyebarkeun LLM anu langkung gampang dina spéktrum skenario dunya nyata.

matrix

Strategi ieu didamel pikeun nyaimbangkeun antara ngajantenkeun LLM tiasa diadaptasi pikeun tugas-tugas khusus sareng mastikeun prosés panyetelan sareng panyebaran henteu kaleuleuwihi dina hal komputasi sareng sumber panyimpen.

nepi salajengna

LlamaIndex: Ngaronjatkeun Aplikasi LLM anjeun sareng Data Adat Gampang

Ulah Cik

MiniGPT-5: Interleaved Visi-Sareng-Basa Generasi via Generative Vokens

Aayush Mittal

Kuring parantos nyéépkeun lima taun ka pengker dina dunya Mesin Pembelajaran sareng Pembelajaran Jero anu pikaresepeun. Gairah sareng kaahlian kuring nyababkeun kuring nyumbang kana langkung ti 50 rupa-rupa proyék rékayasa software, kalayan fokus khusus dina AI / ML. Rasa panasaran kuring anu terus-terusan ogé parantos narik kuring kana Pangolahan Basa Alam, hiji widang anu kuring hoyong pisan pikeun ngajajah salajengna.