Bendrasis dirbtinis intelektas

Domenui būdingų kalbų modelių augimas

Atnaujinta on Balandis 23, 2024

Įvadas

Natūralios kalbos apdorojimo (NLP) ir kalbos modelių sritis pastaraisiais metais patyrė nepaprastą transformaciją, kurią paskatino galingų didelių kalbos modelių (LLM), tokių kaip GPT-4, PaLM ir Llama, atsiradimas. Šie modeliai, parengti naudojant didžiulius duomenų rinkinius, parodė įspūdingą gebėjimą suprasti ir generuoti į žmogų panašų tekstą, atverdami naujas galimybes įvairiose srityse.

Tačiau AI taikomosios programos ir toliau skverbiasi į įvairias pramonės šakas, todėl išaugo kalbos modelių, pritaikytų konkrečioms sritims ir jų unikaliems kalbiniams niuansams, poreikis. Įveskite konkrečios srities kalbų modelius – naują AI sistemų rūšį, skirtą suprasti ir generuoti kalbą tam tikrose pramonės šakose ar žinių srityse. Šis specializuotas metodas žada pakeisti AI sąveiką su įvairiais sektoriais ir aptarnavimą įvairiuose sektoriuose, padidindamas kalbos modelių tikslumą, tinkamumą ir praktinį pritaikymą.

Toliau išnagrinėsime konkrečiam domenui būdingų kalbos modelių atsiradimą, jų reikšmę, pagrindinę mechaniką ir realaus pasaulio taikomąsias programas įvairiose pramonės šakose. Taip pat kalbėsime apie iššūkius ir geriausios praktikos pavyzdžius, susijusius su šių specializuotų modelių kūrimu ir diegimu, suteikdami jums žinių, kaip panaudoti visą jų potencialą.

Kas yra domenui būdingi kalbos modeliai?

Domenui būdingi kalbos modeliai (DSLM) yra AI sistemų klasė, kurios specializacija yra kalbos supratimas ir generavimas tam tikros srities ar pramonės kontekste. Skirtingai nuo bendrosios paskirties kalbų modelių, parengtų naudojant įvairius duomenų rinkinius, DSLM yra tiksliai sureguliuojami arba mokomi nuo nulio, naudojant konkrečios srities duomenis, todėl jie gali suprasti ir sukurti kalbą, pritaikytą pagal unikalią toje srityje vyraujančią terminologiją, žargoną ir kalbinius modelius.

Šie modeliai skirti užpildyti atotrūkį tarp bendrosios kalbos modelių ir įvairių pramonės šakų, pavyzdžiui, teisės, finansų, sveikatos priežiūros ir mokslinių tyrimų, specializuotų kalbos reikalavimų. Naudodami konkrečioms sritims būdingas žinias ir kontekstinį supratimą, DSLM gali pateikti tikslesnius ir aktualesnius rezultatus, padidindami AI pagrįstų sprendimų efektyvumą ir pritaikomumą šiose srityse.

DSLM pagrindas ir reikšmė

DSLM ištakos gali būti siejamos su bendrosios paskirties kalbų modelių apribojimais, kai jie taikomi konkrečioms srities užduotims. Nors šie modeliai puikiai supranta ir kuria natūralią kalbą plačiąja prasme, jie dažnai kovoja su specializuotų sričių niuansais ir sudėtingumu, todėl gali atsirasti netikslumų ar klaidingų interpretacijų.

Dirbtinio intelekto programoms vis labiau įsiskverbus į įvairias pramonės šakas, pritaikytų kalbos modelių, kurie galėtų veiksmingai suprasti ir bendrauti konkrečiose srityse, paklausa išaugo eksponentiškai. Šis poreikis kartu su didelių konkrečiam domenui skirtų duomenų rinkinių prieinamumu ir natūralios kalbos apdorojimo metodų pažanga atvėrė kelią DSLM plėtrai.

DSLM reikšmė slypi jų gebėjime padidinti AI pagrįstų sprendimų tikslumą, tinkamumą ir praktinį pritaikymą specializuotose srityse. Tiksliai interpretuodami ir generuodami konkrečiai domenui skirtą kalbą, šie modeliai gali palengvinti veiksmingesnius bendravimo, analizės ir sprendimų priėmimo procesus, galiausiai padidindami efektyvumą ir produktyvumą įvairiose pramonės šakose.

Kaip veikia domenui būdingi kalbų modeliai

DSLM paprastai yra sukurti remiantis dideliais kalbų modeliais, kurie yra iš anksto parengti remiantis didžiuliu bendrųjų tekstinių duomenų kiekiu. Tačiau pagrindinis skirtumas slypi koregavimo arba perkvalifikavimo procese, kai šie modeliai yra toliau mokomi su domeno specifiniais duomenų rinkiniais, leidžiančiais jiems specializuotis kalbų modeliuose, terminijoje ir tam tikrų pramonės šakų kontekste.

Yra du pagrindiniai DSLM kūrimo būdai:

Esamų kalbų modelių tobulinimas: Taikant šį metodą, iš anksto parengtas bendrosios paskirties kalbos modelis yra tiksliai suderinamas pagal domeno duomenis. Modelio svoriai koreguojami ir optimizuojami, kad užfiksuotų tikslinio domeno kalbinius modelius ir niuansus. Šis metodas išnaudoja turimas bazinio modelio žinias ir galimybes, pritaikant jį konkrečiai sričiai.
Treniruotės nuo nulio: Arba DSLM gali būti mokomi visiškai nuo nulio, naudojant konkrečiam domenui būdingus duomenų rinkinius. Šis metodas apima kalbos modelio architektūros kūrimą ir jos mokymą pagal didžiulį domeno specifinio teksto korpusą, leidžiantį modeliui išmokti domeno kalbos subtilybes tiesiai iš duomenų.

Nepriklausomai nuo požiūrio, DSLM mokymo procesas apima modelio eksponavimą dideliam konkrečiam domenui būdingų tekstinių duomenų kiekiui, pvz., akademiniams dokumentams, teisiniams dokumentams, finansinėms ataskaitoms ar medicininiams įrašams. Siekiant pagerinti modelio veikimą ir pritaikyti jį tikslinei domenui, dažnai naudojami pažangūs metodai, tokie kaip mokymosi perkėlimas, patobulinta generacija ir greita inžinerija.

Domenui būdingų kalbų modelių taikymas realiame pasaulyje

DSLM atsiradimas atvėrė daugybę taikomųjų programų įvairiose pramonės šakose ir pakeitė AI sąveiką su specializuotais domenais ir jų aptarnavimą. Štai keletas svarbių pavyzdžių:

Teisinis domenas

Teisės LLM padėjėjas SaulLM-7B

Lygiai.ai AI įmonė neseniai pristatė SaulLM-7B, pirmasis atvirojo kodo didelės kalbos modelis, specialiai pritaikytas teisinei sričiai.

Teisės sritis yra unikalus iššūkis kalbos modeliams dėl sudėtingos sintaksės, specializuoto žodyno ir specifinių sričių niuansų. Teisės tekstai, tokie kaip sutartys, teismo sprendimai ir įstatai, pasižymi išskirtiniu kalbiniu sudėtingumu, reikalaujančiu gilaus teisinio konteksto ir terminijos supratimo.

SaulLM-7B yra 7 milijardų parametrų kalbos modelis, sukurtas siekiant įveikti teisinį kalbos barjerą. Modelio kūrimo procesą sudaro du kritiniai etapai: teisinis tęstinis parengimas ir teisinių nurodymų patikslinimas.

Teisinis tęstinis parengimas: SaulLM-7B pagrindas yra Mistral 7B architektūra, galingas atvirojo kodo kalbos modelis. Tačiau Equall.ai komanda pripažino, kad norint sustiprinti modelio teisines galimybes, reikia specializuotų mokymų. Norėdami tai pasiekti, jie sukūrė platų teisinių tekstų rinkinį, apimantį daugiau nei 30 milijardų žetonų iš įvairių jurisdikcijų, įskaitant JAV, Kanadą, Jungtinę Karalystę, Europą ir Australiją.

Išankstinio mokymo etapo metu pateikdamas modelį šiam didžiuliam ir įvairiam teisinių duomenų rinkiniui, SaulLM-7B puikiai suprato teisinės kalbos niuansus ir sudėtingumą. Šis metodas leido modeliui užfiksuoti unikalius lingvistinius modelius, terminus ir kontekstus, vyraujančius teisinėje srityje, taip sukurdamas pagrindą išskirtiniam jo atlikimui atliekant teisines užduotis.

Teisinė instrukcija Tikslus derinimas: Nors išankstinis mokymas dėl teisinių duomenų yra labai svarbus, dažnai to nepakanka, kad kalbos modeliai galėtų sklandžiai sąveikauti ir atlikti užduotis. Siekdama išspręsti šį iššūkį, Equall.ai komanda panaudojo naują mokomąjį koregavimo metodą, kuris pasitelkia teisinius duomenų rinkinius, kad dar labiau patobulintų SaulLM-7B galimybes.

Instrukcijų patikslinimo procesas apėmė du pagrindinius komponentus: bendruosius nurodymus ir teisinius nurodymus.

Vertinant pagal LegalBench-Instruct etaloną, išsamų teisinių užduočių rinkinį, SaulLM-7B-Instruct (instrukcijomis suderintas variantas) sukūrė naują pažangiausią, ženkliai pranokstančią geriausią atvirojo kodo instrukcijų modelį. 11% santykinis pagerėjimas.

Be to, detali „SaulLM-7B-Instruct“ veiklos analizė atskleidė jos pranašumus, susijusius su keturiais pagrindiniais teisiniais gebėjimais: problemų nustatymu, taisyklių atšaukimu, interpretavimu ir retorikos supratimu. Šios sritys reikalauja gilaus teisinės patirties supratimo, o SaulLM-7B-Instruct dominavimas šiose srityse liudija jos specializuoto mokymo galią.

SaulLM-7B sėkmės pasekmės yra toli už akademinių etalonų. Pašalindamas atotrūkį tarp natūralios kalbos apdorojimo ir teisės srities, šis novatoriškas modelis gali pakeisti teisės specialistų naršymą ir sudėtingos teisinės medžiagos interpretavimą.

Biomedicina ir sveikatos priežiūra

GatorTron, Codex-Med, Galactica ir Med-PaLM LLM

Nors bendrosios paskirties LLM pademonstravo puikius gebėjimus suprasti ir kurti natūralią kalbą, medicininės terminijos, klinikinių pastabų ir su sveikatos priežiūra susijusio turinio sudėtingumas ir niuansai reikalauja specializuotų modelių, parengtų remiantis atitinkamais duomenimis.

Priešakyje yra tokios iniciatyvos kaip GatorTron, Codex-Med, Galactica ir Med-PaLM, kurių kiekviena daro didelę pažangą kuriant LLM, specialiai sukurtas sveikatos priežiūros programoms.

GatorTron: Parengti kelią klinikiniams LLM GatorTron, ankstyvas sveikatos priežiūros LLM srities dalyvis, buvo sukurtas siekiant ištirti, kaip sistemos, naudojančios nestruktūrizuotus elektroninius sveikatos įrašus (EHR), galėtų gauti naudos iš klinikinių LLM su milijardais parametrų. Išmokęs nuo nulio naudoti daugiau nei 90 milijardų žetonų, įskaitant daugiau nei 82 milijardus žodžių klinikinio teksto, kurio tapatybė buvo panaikinta, GatorTron pademonstravo reikšmingus įvairių klinikinių natūralios kalbos apdorojimo (NLP) užduočių patobulinimų, tokių kaip klinikinės koncepcijos išskyrimas, medicininių ryšių ištraukimas, semantinis teksto panašumas. , medicininės natūralios kalbos išvada ir medicininių klausimų atsakymas.

Codex-Med: GPT-3 tyrinėjimas sveikatos priežiūros kokybei Nepristatant naujo LLM, Codex-Med tyrime buvo tiriamas GPT-3.5 modelių, ypač Codex ir InstructGPT, veiksmingumas atsakant į realaus pasaulio medicinos klausimus ir samprotaujant. Naudodama tokius metodus kaip minties skatinimas ir paieškos papildymas, Codex-Med pasiekė žmogaus lygio našumą pagal tokius etalonus kaip USMLE, MedMCQA ir PubMedQA. Šiame tyrime buvo pabrėžtas bendrųjų LLM potencialas sveikatos priežiūros kokybės užtikrinimo užduotims tinkamai paskatinti ir papildyti.

Galactica: Tikslingai sukurta LLM mokslo žinioms Galactica, sukurta Anthropic, išsiskiria kaip tikslingai sukurta LLM, skirta saugoti, derinti ir pagrįsti mokslines žinias, įskaitant sveikatos priežiūrą. Skirtingai nuo kitų LLM, apmokytų nekurtų žiniatinklio duomenų, „Galactica“ mokymo korpusą sudaro 106 milijardai žetonų iš aukštos kokybės šaltinių, tokių kaip dokumentai, informacinės medžiagos ir enciklopedijos. Įvertinta atliekant tokias užduotis kaip PubMedQA, MedMCQA ir USMLE, „Galactica“ parodė įspūdingus rezultatus, pranokdama pažangiausius rezultatus pagal kelis etalonus.

Med-PaLM: Kalbos modelių suderinimas su medicinos sritimi Med-PaLM, galingo PaLM LLM variantas, taiko naują metodą, vadinamą instrukcijų derinimu, kad kalbos modeliai būtų suderinti su medicinos sritimi. Naudodama minkštąjį raginimą kaip pradinį priešdėlį, o po to konkrečias užduotis žmogaus sukurtus raginimus ir pavyzdžius, Med-PaLM pasiekė įspūdingų rezultatų, susijusių su tokiais etalonais kaip MultiMedQA, į kurį įeina tokie duomenų rinkiniai kaip LiveQA TREC 2017, MedicationQA, PubMedQA, MMLU, MedMCQA, USMLE ir HealthSearchQA.

Nors šios pastangos padarė didelę pažangą, sveikatos priežiūros LLM kūrimas ir diegimas susiduria su keliais iššūkiais. Didžiausią susirūpinimą kelia duomenų kokybės užtikrinimas, galimų paklaidų pašalinimas ir griežtų privatumo bei saugumo standartų laikymasis jautriems medicininiams duomenims.

Be to, dėl medicininių žinių sudėtingumo ir didelės su sveikatos priežiūros programomis susijusių investicijų reikalingos griežtos vertinimo sistemos ir žmogaus vertinimo procesai. „Med-PaLM“ tyrime buvo įdiegta išsami žmonių vertinimo sistema, kurioje vertinami tokie aspektai kaip mokslinis sutarimas, teisingo samprotavimo įrodymai ir žalos galimybė, pabrėžiant tokių sistemų svarbą kuriant saugius ir patikimus LLM.

Finansai ir bankininkystė

Finansai LLM

Finansų pasaulyje, kur tikslumas ir informuotas sprendimų priėmimas yra labai svarbūs, finansų didelių kalbų modelių (LLM) atsiradimas skelbia transformacijos erą. Šie modeliai, skirti suprasti ir generuoti specifinį finansų turinį, yra pritaikyti užduotims nuo nuotaikų analizės iki sudėtingų finansinių ataskaitų teikimo.

Finansų LLM, pvz., BloombergGPT, FinBERT ir FinGPT, pasitelkia specializuotus mokymus apie didelius su finansais susijusius duomenų rinkinius, kad pasiektų nepaprastą tikslumą analizuojant finansinius tekstus, apdorojant duomenis ir pateikiant įžvalgas, atspindinčias ekspertų žmonių analizę. Pavyzdžiui, BloombergGPT, kurio parametrų dydis yra 50 milijardų, yra tiksliai suderintas pagal patentuotų finansinių duomenų derinį, įkūnijantį finansinių NLP užduočių viršūnę.

Šie modeliai yra labai svarbūs ne tik automatizuojant įprastą finansinę analizę ir ataskaitų teikimą, bet ir atliekant sudėtingas užduotis, tokias kaip sukčiavimo aptikimas, rizikos valdymas ir algoritminė prekyba. Integracija Atkūrimo papildyta karta (RAG) su šiais modeliais praturtina juos galimybe gauti papildomų finansinių duomenų šaltinių, o tai pagerina jų analitines galimybes.

Tačiau šių finansinių LLM sukūrimas ir tobulinimas, siekiant įgyti konkrečios srities kompetencijos, reikalauja didelių investicijų, o tai rodo, kad rinkoje tokių modelių yra gana nedaug. Nepaisant išlaidų ir trūkumo, visuomenei prieinami modeliai, tokie kaip FinBERT ir FinGPT, yra esminiai žingsniai siekiant demokratizuoti AI finansų srityje.

Taikydami koreguojančias strategijas, tokias kaip standartiniai ir mokymo metodai, finansų LLM vis labiau geba teikti tikslius, kontekstui svarbius rezultatus, kurie gali pakeisti finansinius patarimus, nuspėjamąją analizę ir atitikties stebėjimą. Tiksliai sureguliuotų modelių našumas pranoksta bendruosius modelius, o tai rodo neprilygstamą jų naudingumą konkrečiai domenui.

Norėdami išsamiai apžvelgti transformuojantį generatyvaus AI vaidmenį finansuose, įskaitant įžvalgas apie FinGPT, BloombergGPT ir jų poveikį pramonei, apsvarstykite galimybę išnagrinėti išsamią analizę, pateiktą straipsnyje "Generatyvusis AI finansuose: „FinGPT“, „BloombergGPT“ ir „Beyond“.".

Programinės įrangos inžinerija ir programavimas

Programinė įranga ir programavimas LLM

Programinės įrangos kūrimo ir programavimo srityje patinka didelių kalbų modeliai (LLM). OpenAI Codex ir tabinas atsirado kaip transformuojantys įrankiai. Šie modeliai suteikia kūrėjams natūralios kalbos sąsają ir kelių kalbų mokėjimą, todėl jie gali rašyti ir versti kodą beprecedente efektyvumu.

„OpenAI Codex“ išsiskiria natūralios kalbos sąsaja ir kelių kalbų mokėjimu įvairiose programavimo kalbose, o tai leidžia geriau suprasti kodą. Jo prenumeratos modelis leidžia lanksčiai naudoti.

„Tabnine“ pagerina kodavimo procesą išmaniuoju kodo užbaigimu, siūlydama nemokamą versiją individualiems vartotojams ir keičiamo dydžio prenumeratos parinktis profesionaliems ir įmonės poreikiams.

Naudojant neprisijungus, „Mistral AI“ modelis pasižymi geresniu kodavimo užduočių našumu, palyginti su „Llama“ modeliais, todėl yra optimalus pasirinkimas vietiniam LLM diegimui, ypač vartotojams, turintiems specifinių našumo ir aparatinės įrangos išteklių.

Debesis pagrįstiems LLM patinka „Gemini Pro“ ir GPT-4 suteikia platų galimybių spektrą Dvyniai Pro, siūlantis daugiarūšes funkcijas ir GPT-4, puikiai tinkantis sudėtingoms užduotims. Pasirinkimas tarp vietinio ir debesies diegimo priklauso nuo tokių veiksnių kaip mastelio poreikiai, duomenų privatumo reikalavimai, sąnaudų apribojimai ir naudojimo paprastumas.

„Pieces Copilot“ apima šį lankstumą, suteikdama prieigą prie įvairių LLM vykdymo laiko, tiek debesyje, tiek vietinių, užtikrinant, kad kūrėjai turėtų tinkamus įrankius, reikalingus jų kodavimo užduotims palaikyti, nepaisant projekto reikalavimų. Tai apima naujausius „OpenAI“ ir „Google“ „Gemini“ modelių pasiūlymus, kurių kiekvienas yra pritaikytas konkretiems programinės įrangos kūrimo ir programavimo aspektams.

Iššūkiai ir geriausia praktika

Nors DSLM potencialas yra didžiulis, jų kūrimas ir diegimas susiduria su unikaliais iššūkiais, kuriuos reikia spręsti siekiant užtikrinti sėkmingą ir atsakingą jų įgyvendinimą.

Duomenų prieinamumas ir kokybė: norint išmokyti tikslius ir patikimus DSLM, labai svarbu gauti aukštos kokybės konkrečiam domenui būdingus duomenų rinkinius. Tokios problemos kaip duomenų trūkumas, šališkumas ir triukšmas gali labai paveikti modelio veikimą.
Skaičiavimo ištekliai: didelių kalbų modelių mokymas, ypač nuo nulio, gali būti intensyvus skaičiavimas, reikalaujantis didelių skaičiavimo išteklių ir specializuotos aparatinės įrangos.
Domenų ekspertizė: Kuriant DSLM reikalingas dirbtinio intelekto ekspertų ir domenų specialistų bendradarbiavimas, siekiant užtikrinti tikslų domenui būdingų žinių ir kalbinių modelių atvaizdavimą.
Etiniai samprotavimai: kaip ir bet kuri AI sistema, DSLM turi būti kuriami ir naudojami laikantis griežtų etikos gairių, sprendžiant tokias problemas kaip šališkumas, privatumas ir skaidrumas.

Norint sušvelninti šiuos iššūkius ir užtikrinti atsakingą DSLM kūrimą ir diegimą, labai svarbu taikyti geriausią praktiką, įskaitant:

Kuriant aukštos kokybės domenui būdingus duomenų rinkinius ir naudojant tokius metodus kaip duomenų papildymas ir mokymosi perkėlimas, siekiant įveikti duomenų trūkumą.
Išskirkite paskirstytus skaičiavimo ir debesies išteklius, kad būtų galima patenkinti didelių kalbų modelių mokymo poreikius.
Skatinti tarpdisciplininį dirbtinio intelekto tyrinėtojų, srities ekspertų ir suinteresuotųjų šalių bendradarbiavimą, kad būtų užtikrintas tikslus srities žinių pateikimas ir atitikimas pramonės poreikiams.
Diegiant patikimas vertinimo sistemas ir nuolatinę stebėseną, siekiant įvertinti modelio veikimą, nustatyti šališkumą ir užtikrinti etišką bei atsakingą diegimą.
Laikytis konkrečios pramonės šakos taisyklių ir gairių, pvz., sveikatos priežiūros HIPAA arba duomenų privatumo BDAR, siekiant užtikrinti atitiktį ir apsaugoti neskelbtiną informaciją.

Išvada

Domenui būdingų kalbų modelių atsiradimas žymi reikšmingą AI raidos ir jos integravimo į specializuotas sritis gairę. Pritaikydami kalbų modelius prie unikalių kalbinių modelių ir įvairių pramonės šakų kontekstų, DSLM gali pakeisti AI sąveiką su šiomis sritimis ir jų aptarnavimą, padidindami tikslumą, aktualumą ir praktinį pritaikymą.

Kadangi dirbtinis intelektas ir toliau skverbiasi į įvairius sektorius, DSLM paklausa tik augs, o tai paskatins tolesnę pažangą ir naujoves šioje srityje. Spręsdami iššūkius ir pritaikydami geriausią praktiką, organizacijos ir mokslininkai gali išnaudoti visą šių specializuotų kalbų modelių potencialą, atverdami naujas sritis konkrečioms AI taikomoms programoms.

DI ateitis slypi gebėjime suprasti ir bendrauti pagal specializuotų sričių niuansus, o konkrečiai domenui pritaikyti kalbos modeliai atveria kelią labiau kontekstualizuotam, tikslesniam ir veiksmingesniam AI integravimui įvairiose pramonės šakose.

Kitas

Inflection-2.5: The Powerhouse LLM konkuruoja su GPT-4 ir Dvyniais

Nepraleiskite

Ar galėtume pasiekti AGI per 5 metus? NVIDIA generalinis direktorius Jensenas Huangas mano, kad tai įmanoma

Aayush Mittal

Pastaruosius penkerius metus praleidau pasinerdamas į žavų mašininio mokymosi ir giluminio mokymosi pasaulį. Mano aistra ir patirtis paskatino mane prisidėti prie daugiau nei 50 įvairių programinės įrangos inžinerijos projektų, ypatingą dėmesį skiriant AI/ML. Mano nuolatinis smalsumas taip pat patraukė mane į natūralios kalbos apdorojimą – sritį, kurią noriu tyrinėti toliau.