Umelá inteligencia

Vnútri DBRX: Databricks uvoľňuje výkonnú LLM s otvoreným zdrojom

Aktualizované on Apríla 16, 2024

V rýchlo sa rozvíjajúcej oblasti veľkých jazykových modelov (LLM) sa objavil nový výkonný model – DBRX, open source model vytvorený Databricks. Tento LLM robí vlny svojim špičkovým výkonom v širokej škále benchmarkov, dokonca konkuruje schopnostiam priemyselných gigantov, ako je OpenAI GPT-4.

DBRX predstavuje významný míľnik v demokratizácii umelej inteligencie a poskytuje výskumníkom, vývojárom a podnikom otvorený prístup k špičkovému jazykovému modelu. Ale čo presne je DBRX a čím je taký výnimočný? V tomto technickom hĺbkovom ponore preskúmame inovatívnu architektúru, tréningový proces a kľúčové schopnosti, ktoré posunuli DBRX do popredia otvoreného prostredia LLM.

Zrodenie DBRX Vytvorenie DBRX bolo poháňané poslaním Databricks sprístupniť dátovú inteligenciu všetkým podnikom. Ako líder v platformách na analýzu údajov spoločnosť Databricks rozpoznala obrovský potenciál LLM a rozhodla sa vyvinúť model, ktorý by mohol zodpovedať alebo dokonca prekonať výkon vlastných ponúk.

Po mesiacoch intenzívneho výskumu, vývoja a investícii vo výške niekoľkých miliónov dolárov dosiahol tím Databricks prelom s DBRX. Pôsobivý výkon modelu v širokom spektre benchmarkov, vrátane jazykového porozumenia, programovania a matematiky, ho pevne etabloval ako nový stav-of-the-art v otvorených LLM.

Inovatívna architektúra

Sila mixu expertov Jadrom výnimočného výkonu DBRX je jeho inovatívna architektúra mix-of-experts (MoE). Tento špičkový dizajn predstavuje odklon od tradičných hustých modelov a využíva riedky prístup, ktorý zvyšuje efektivitu predtréningu a rýchlosť odvodzovania.

V rámci MŽP sa pre každý vstup aktivuje iba vybraná skupina komponentov, nazývaná „experti“. Táto špecializácia umožňuje modelu riešiť širšiu škálu úloh s väčšou obratnosťou a zároveň optimalizovať výpočtové zdroje.

DBRX posúva tento koncept ešte ďalej vďaka svojej jemnozrnnej architektúre MoE. Na rozdiel od niektorých iných modelov MŽP, ktoré využívajú menší počet väčších expertov, DBRX zamestnáva 16 expertov, pričom štyria experti sú aktívni pre akýkoľvek daný vstup. Tento dizajn poskytuje ohromujúcich 65-krát viac možných odborných kombinácií, čo priamo prispieva k vynikajúcemu výkonu DBRX.

DBRX sa odlišuje niekoľkými inovatívnymi funkciami:

Kódovanie rotačnej polohy (RoPE): Zlepšuje pochopenie pozícií tokenov, čo je kľúčové pre generovanie kontextovo presného textu.
Gated Linear Units (GLU): Zavádza mechanizmus hradlovania, ktorý zvyšuje schopnosť modelu efektívnejšie sa učiť zložité vzory.
Grouped Query Attention (GQA): Zlepšuje efektivitu modelu optimalizáciou mechanizmu pozornosti.
Pokročilá tokenizácia: Využíva tokenizér GPT-4 na efektívnejšie spracovanie vstupov.

Architektúra MŽP je vhodná najmä pre rozsiahle jazykové modely, pretože umožňuje efektívnejšie škálovanie a lepšie využitie výpočtových zdrojov. Vďaka distribúcii procesu učenia do viacerých špecializovaných podsietí môže DBRX efektívne prideľovať údaje a výpočtový výkon pre každú úlohu, čím sa zabezpečí vysokokvalitný výstup a optimálna účinnosť.

Rozsiahle školiace údaje a efektívna optimalizácia Aj keď je architektúra DBRX nepochybne pôsobivá, jej skutočná sila spočíva v precíznom tréningovom procese a obrovskom množstve údajov, ktorým bola vystavená. DBRX bol vopred pripravený na ohromujúcich 12 biliónoch tokenov textových a kódových údajov, starostlivo upravených, aby bola zabezpečená vysoká kvalita a rozmanitosť.

Tréningové dáta boli spracované pomocou sady nástrojov Databricks, vrátane Apache Spark na spracovanie dát, Unity Catalog na správu a riadenie dát a MLflow na sledovanie experimentov. Táto komplexná sada nástrojov umožnila tímu Databricks efektívne spravovať, skúmať a zdokonaľovať rozsiahly súbor údajov, čím položili základ pre výnimočný výkon DBRX.

Aby sa ešte viac zlepšili možnosti modelu, Databricks použila dynamické predškolské osnovy, ktoré inovatívne zmenili mix údajov počas školenia. Táto stratégia umožnila efektívne spracovať každý token pomocou aktívnych 36 miliárd parametrov, výsledkom čoho je komplexnejší a prispôsobivejší model.

Okrem toho bol tréningový proces DBRX optimalizovaný pre efektívnosť s využitím balíka proprietárnych nástrojov a knižníc Databricks, vrátane Composer, LLM Foundry, MegaBlocks a Streaming. Využitím techník, ako je učenie sa učebných osnov a optimalizované optimalizačné stratégie, tím dosiahol takmer štvornásobné zlepšenie výpočtovej efektivity v porovnaní s ich predchádzajúcimi modelmi.

Školenie a architektúra

DBRX bol trénovaný pomocou modelu predikcie ďalšieho tokenu na kolosálnom súbore údajov s 12 biliónmi tokenov s dôrazom na text aj kód. Predpokladá sa, že táto školiaca súprava je podstatne účinnejšia ako tie, ktoré sa používali v predchádzajúcich modeloch, pričom zaisťuje bohaté porozumenie a schopnosť reagovať na rôzne výzvy.

Architektúra DBRX nie je len dôkazom technickej zdatnosti Databricks, ale tiež zdôrazňuje jej uplatnenie vo viacerých sektoroch. Od vylepšovania interakcií chatbotov až po napájanie komplexných úloh analýzy údajov, DBRX možno integrovať do rôznych oblastí, ktoré si vyžadujú jemné porozumenie jazyka.

Je pozoruhodné, že DBRX Instruct dokonca konkuruje niektorým z najpokročilejších uzavretých modelov na trhu. Podľa meraní Databricks prekonáva GPT-3.5 a je konkurencieschopný s Gemini 1.0 Pro a Mistral Medium v rôznych benchmarkoch, vrátane všeobecných znalostí, zdravého uvažovania, programovania a matematického uvažovania.

Napríklad v benchmarku MMLU, ktorý meria porozumenie jazyka, DBRX Instruct dosiahol skóre 73.7 %, čím prekonal skóre GPT-3.5 70.0 %. V benchmarku HellaSwag zdravého rozumu dosiahol DBRX Instruct pôsobivých 89.0 %, čím prekonal GPT-3.5 85.5 %.

DBRX Instruct skutočne žiari a dosahuje pozoruhodnú presnosť 70.1 % v benchmarku HumanEval, čím prekonáva nielen GPT-3.5 (48.1 %), ale aj špecializovaný model CodeLLaMA-70B Instruct (67.8 %).

Tieto výnimočné výsledky zvýrazňujú všestrannosť DBRX a jeho schopnosť vynikať v rozmanitej škále úloh, od porozumenia prirodzenému jazyku až po komplexné programovanie a riešenie matematických problémov.

Efektívna inferencia a škálovateľnosť Jednou z kľúčových výhod architektúry MoE DBRX je jej efektívnosť počas inferencie. Vďaka riedkej aktivácii parametrov môže DBRX dosiahnuť priepustnosť odvodenia, ktorá je až dvakrát až trikrát rýchlejšia ako husté modely s rovnakým celkovým počtom parametrov.

V porovnaní s LLaMA2-70B, populárnym open source LLM, DBRX nielenže demonštruje vyššiu kvalitu, ale môže sa pochváliť aj takmer dvojnásobnou rýchlosťou odvodenia, a to aj napriek tomu, že má približne o polovicu menej aktívnych parametrov. Vďaka tejto efektívnosti je DBRX atraktívnou voľbou pre nasadenie v širokej škále aplikácií, od vytvárania obsahu až po analýzu údajov a ďalej.

Okrem toho spoločnosť Databricks vyvinula robustný tréningový balík, ktorý umožňuje podnikom trénovať svoje vlastné modely triedy DBRX od nuly alebo pokračovať v školení na poskytnutých kontrolných bodoch. Táto schopnosť umožňuje podnikom využiť plný potenciál DBRX a prispôsobiť ho ich špecifickým potrebám, čím sa ďalej demokratizuje prístup k špičkovej technológii LLM.

Vývoj modelu DBRX spoločnosťou Databricks predstavuje významný pokrok v oblasti strojového učenia, najmä prostredníctvom využitia inovatívnych nástrojov z komunity open source. Táto vývojová cesta je výrazne ovplyvnená dvoma kľúčovými technológiami: knižnicou MegaBlocks a systémom PyTorch Fully Sharded Data Parallel (FSDP).

MegaBlocks: Zvýšenie efektivity MoE

MegaBloky knižnica rieši výzvy spojené s dynamickým smerovaním vo vrstvách Mixture-of-Experts (MoEs), čo je spoločná prekážka pri škálovaní neurónových sietí. Tradičné rámce často ukladajú obmedzenia, ktoré buď znižujú efektivitu modelu, alebo znižujú kvalitu modelu. MegaBlocks však nanovo definuje výpočet MŽP prostredníctvom operácií s riedkymi blokmi, ktoré vhodne riadia vnútornú dynamiku v MŽP, čím sa vyhýbajú týmto kompromisom.

Tento prístup nielenže zachováva integritu tokenu, ale je tiež v súlade s modernými možnosťami GPU, čím umožňuje až o 40 % rýchlejšie tréningové časy v porovnaní s tradičnými metódami. Takáto účinnosť je rozhodujúca pre trénovanie modelov ako DBRX, ktoré sa vo veľkej miere spoliehajú na pokročilé architektúry MŽP, aby efektívne spravovali svoje rozsiahle sady parametrov.

PyTorch FSDP: Škálovanie veľkých modelov

Plne zdieľaná dátová paralela PyTorch (FSDP) predstavuje robustné riešenie na trénovanie mimoriadne veľkých modelov pomocou optimalizácie zdieľania parametrov a distribúcie medzi viacerými výpočtovými zariadeniami. FSDP, navrhnutý v spolupráci s kľúčovými komponentmi PyTorch, sa bezproblémovo integruje a ponúka intuitívny používateľský zážitok podobný miestnym nastaveniam školenia, ale v oveľa väčšom rozsahu.

Dizajn FSDP šikovne rieši niekoľko kritických problémov:

User Experience: Zjednodušuje používateľské rozhranie, a to aj napriek zložitým backendovým procesom, čím sa stáva dostupnejším pre širšie použitie.
Heterogenita hardvéru: Prispôsobuje sa rôznym hardvérovým prostrediam s cieľom efektívne optimalizovať využitie zdrojov.
Využitie zdrojov a plánovanie pamäte: FSDP zlepšuje využitie výpočtových zdrojov a zároveň minimalizuje réžiu pamäte, čo je nevyhnutné pre tréningové modely, ktoré fungujú v rozsahu DBRX.

FSDP nielenže podporuje väčšie modely, ako bolo predtým možné v rámci distribuovaného dátového paralelného rámca, ale tiež zachováva takmer lineárnu škálovateľnosť, pokiaľ ide o priepustnosť a efektivitu. Táto schopnosť sa ukázala ako nevyhnutná pre DBRX od Databricks, ktorá jej umožňuje škálovať na viacerých GPU a zároveň efektívne spravovať obrovské množstvo parametrov.

Dostupnosť a integrácia

V súlade so svojím poslaním podporovať otvorený prístup k AI, Databricks sprístupnil DBRX prostredníctvom viacerých kanálov. Váhy základného modelu (DBRX Base) aj doladeného modelu (DBRX Instruct) sú umiestnené na populárnej platforme Hugging Face, čo umožňuje výskumníkom a vývojárom jednoducho stiahnuť a pracovať s modelom.

ďalej, Úložisko modelov DBRX je k dispozícii na GitHub, poskytuje transparentnosť a umožňuje ďalšie skúmanie a prispôsobenie kódu modelu.

Pre zákazníkov Databricks sú DBRX Base a DBRX Instruct pohodlne prístupné cez API Databricks Foundation Model, čo umožňuje bezproblémovú integráciu do existujúcich pracovných postupov a aplikácií. To nielen zjednodušuje proces nasadenia, ale zabezpečuje aj správu údajov a bezpečnosť pre citlivé prípady použitia.

Okrem toho už bol DBRX integrovaný do niekoľkých platforiem a služieb tretích strán, ako sú You.com a Perplexity Labs, čím sa rozšíril jeho dosah a potenciálne aplikácie. Tieto integrácie demonštrujú rastúci záujem o DBRX a jeho schopnosti, ako aj rastúce prijímanie otvorených LLM v rôznych odvetviach a prípadoch použitia.

Možnosti dlhého kontextu a rozšírené generovanie získavania Jednou z výnimočných funkcií DBRX je jeho schopnosť spracovať vstupy z dlhého kontextu s maximálnou dĺžkou kontextu 32,768 XNUMX tokenov. Táto schopnosť umožňuje modelu spracovávať a generovať text na základe rozsiahlych kontextových informácií, vďaka čomu je vhodný pre úlohy, ako je sumarizácia dokumentov, odpovedanie na otázky a vyhľadávanie informácií.

V benchmarkoch hodnotiacich výkon v dlhom kontexte, ako sú KV-Pairs a HotpotQAXL, DBRX Instruct prekonal GPT-3.5 Turbo v rôznych dĺžkach sekvencií a pozíciách kontextu.

DBRX prekonáva zavedené modely s otvoreným zdrojovým kódom v oblasti porozumenia jazyku (MMLU), programovania (HumanEval) a matematiky (GSM8K).

Obmedzenia a budúca práca

Zatiaľ čo DBRX predstavuje významný úspech v oblasti otvorených LLM, je nevyhnutné uznať jeho obmedzenia a oblasti pre budúce zlepšenie. Ako každý model AI, aj DBRX môže produkovať nepresné alebo skreslené reakcie v závislosti od kvality a rozmanitosti svojich tréningových údajov.

Okrem toho, zatiaľ čo DBRX vyniká vo všeobecných úlohách, určité aplikácie špecifické pre doménu môžu vyžadovať ďalšie dolaďovanie alebo špecializované školenie na dosiahnutie optimálneho výkonu. Napríklad v scenároch, kde sú presnosť a vernosť nanajvýš dôležité, spoločnosť Databricks odporúča použiť techniky rozšírenej generácie vyhľadávania (RAG) na zlepšenie výstupu modelu.

Okrem toho aktuálny súbor údajov o školení DBRX pozostáva predovšetkým z obsahu v anglickom jazyku, čo potenciálne obmedzuje jeho výkon pri úlohách, ktoré nie sú v angličtine. Budúce iterácie modelu môžu zahŕňať rozšírenie tréningových údajov tak, aby zahŕňali rozmanitejší rozsah jazykov a kultúrnych kontextov.

Databricks sa zaviazala neustále zlepšovať možnosti DBRX a riešiť jeho obmedzenia. Budúca práca sa zameria na zlepšenie výkonu, škálovateľnosti a použiteľnosti modelu v rôznych aplikáciách a prípadoch použitia, ako aj na skúmanie techník na zmiernenie potenciálnych predsudkov a podporu etického používania AI.

Okrem toho spoločnosť plánuje ďalej zdokonaľovať školiaci proces s využitím pokročilých techník, ako je napríklad federatívne učenie a metódy na ochranu súkromia, aby sa zabezpečilo súkromie a bezpečnosť údajov.

The Road Ahead

DBRX predstavuje významný krok vpred v demokratizácii vývoja AI. Predstavuje si budúcnosť, v ktorej bude mať každý podnik možnosť kontrolovať svoje údaje a svoj osud v rozvíjajúcom sa svete generatívnej AI.

Prostredníctvom open-sourcingu DBRX a poskytovania prístupu k rovnakým nástrojom a infraštruktúre, ktoré sa použili na jeho vybudovanie, Databricks umožňuje podnikom a výskumníkom vyvíjať svoje vlastné špičkové Databricks prispôsobené ich špecifickým potrebám.

Prostredníctvom platformy Databricks môžu zákazníci využiť sadu nástrojov spoločnosti na spracovanie údajov, vrátane Apache Spark, Unity Catalog a MLflow, na spravovanie a správu svojich tréningových údajov. Potom môžu využiť optimalizované školiace knižnice Databricks, ako napríklad Composer, LLM Foundry, MegaBlocks a Streaming, na efektívne a rozsiahle trénovanie vlastných modelov triedy DBRX.

Táto demokratizácia vývoja AI má potenciál odomknúť novú vlnu inovácií, keďže podniky získajú schopnosť využiť silu veľkých jazykových modelov pre širokú škálu aplikácií, od vytvárania obsahu a analýzy údajov až po podporu rozhodovania a ďalšie.

Okrem toho podporovaním otvoreného a kolaboratívneho ekosystému okolo DBRX sa Databricks zameriava na zrýchlenie tempa výskumu a vývoja v oblasti veľkých jazykových modelov. Keďže viac organizácií a jednotlivcov prispieva svojimi odbornými znalosťami a postrehmi, kolektívne znalosti a chápanie týchto výkonných systémov umelej inteligencie budú naďalej rásť, čím sa pripraví pôda pre ešte pokročilejšie a schopnejšie modely v budúcnosti.

záver

DBRX je priekopníkom vo svete open source veľkých jazykových modelov. Vďaka svojej inovatívnej architektúre zmesi expertov, rozsiahlym školiacim údajom a najmodernejšiemu výkonu nastavil nový štandard pre to, čo je možné s otvorenými LLM.

Demokratizáciou prístupu k špičkovej technológii AI umožňuje DBRX výskumníkom, vývojárom a podnikom objavovať nové hranice v spracovaní prirodzeného jazyka, tvorbe obsahu, analýze údajov a ďalších. Keďže Databricks neustále zdokonaľuje a vylepšuje DBRX, potenciálne aplikácie a vplyv tohto výkonného modelu sú skutočne neobmedzené.

Súvisiace témy:Databricky DBRX GPT-3.5 LLM MegaBloky mistral Zmes odborníkov MMLU

Nasledujúci

Arlington, VA: Vzniká ako nová sila v inováciách AI

Nenechajte si ujsť

Adobe zobrazuje ukážku nových generatívnych nástrojov AI pre pracovné toky videa

Aayush Mittal

Posledných päť rokov som strávil ponorením sa do fascinujúceho sveta strojového učenia a hlbokého učenia. Moja vášeň a odborné znalosti ma viedli k tomu, že som prispel k viac ako 50 rôznym projektom softvérového inžinierstva s osobitným zameraním na AI/ML. Moja neustála zvedavosť ma tiež priviedla k spracovaniu prirodzeného jazyka, oblasti, ktorú by som chcel ďalej skúmať.