V rychle se rozvíjející oblasti velkých jazykových modelů (LLM) se objevil nový výkonný model – DBRX, open source model vytvořený DatabricksTento LLM program ohromuje svým špičkovým výkonem v široké škále benchmarků a dokonce konkuruje schopnostem gigantů v oboru, jako je GPT-4 od OpenAI.
DBRX představuje významný milník v demokratizaci umělé inteligence, protože poskytuje výzkumníkům, vývojářům a podnikům otevřený přístup k špičkovému jazykovému modelu. Co ale DBRX přesně je a co ho dělá tak výjimečným? V tomto podrobném technickém ponoru prozkoumáme inovativní architekturu, školicí proces a klíčové funkce, které DBRX posunuly do popředí otevřené krajiny LLM.
Zrození DBRX Vznik DBRX byl poháněn posláním společnosti Databricks zpřístupnit datovou inteligenci všem podnikům. Jakožto lídr v oblasti platforem pro datovou analýzu si společnost Databricks uvědomila obrovský potenciál LLM a rozhodla se vyvinout model, který by se mohl vyrovnat nebo dokonce překonat výkon proprietárních nabídek.
Po měsících intenzivního výzkumu, vývoje a investicích v řádu milionů dolarů dosáhl týmu Databricks průlomu s modelem DBRX. Působivý výkon modelu v široké škále benchmarků, včetně porozumění jazykům, programování a matematiky, jej pevně etabloval jako nový špičkový model v oblasti otevřených LLM.
Inovativní architektura
Síla kombinace expertů Jádrem výjimečného výkonu DBRX je jeho inovativní architektura kombinace expertů (MoE). Tento špičkový design představuje odklon od tradičních hustých modelů a zavádí řídký přístup, který zvyšuje jak efektivitu předtrénování, tak rychlost inference.
V rámci MŽP je pro každý vstup aktivována pouze vybraná skupina komponent, nazývaná „experti“. Tato specializace umožňuje modelu řešit širší škálu úkolů s větší obratností a zároveň optimalizovat výpočetní zdroje.
DBRX posouvá tento koncept ještě dále díky své jemně odstupňované architektuře MoE. Na rozdíl od některých jiných modelů MoE, které používají menší počet větších expertů, DBRX využívá 16 expertů, přičemž pro každý daný vstup jsou aktivní čtyři experti. Tato konstrukce nabízí ohromujících 65krát více možných kombinací expertů, což přímo přispívá k vynikajícímu výkonu DBRX.
DBRX se odlišuje několika inovativními funkcemi:
Kódování rotační polohy (RoPE): Zlepšuje porozumění pozicím tokenů, což je klíčové pro generování kontextově přesného textu.
Gated Linear Units (GLU): Zavádí mechanismus hradlování, který vylepšuje schopnost modelu efektivněji se učit složité vzory.
Grouped Query Attention (GQA): Zlepšuje efektivitu modelu optimalizací mechanismu pozornosti.
Pokročilá tokenizace: Využívá tokenizátor GPT-4 k efektivnějšímu zpracování vstupů.
Architektura MŽP je vhodná zejména pro rozsáhlé jazykové modely, protože umožňuje efektivnější škálování a lepší využití výpočetních zdrojů. Díky distribuci procesu učení do více specializovaných podsítí může DBRX efektivně alokovat data a výpočetní výkon pro každý úkol, což zajišťuje jak vysoce kvalitní výstup, tak optimální efektivitu.
Rozsáhlá trénovací data a efektivní optimalizace Architektura DBRX je sice nepochybně působivá, ale její skutečná síla spočívá v pečlivém trénovacím procesu a obrovském množství dat, kterým byl vystaven. DBRX byl předtrénován na ohromujících 12 bilionech tokenů textových a kódových dat, pečlivě vybraných pro zajištění vysoké kvality a rozmanitosti.
Trénovací data byla zpracována pomocí sady nástrojů Databricks, včetně Apache Spark pro zpracování dat, Unity Catalog pro správu a řízení dat a MLflow pro sledování experimentů. Tato komplexní sada nástrojů umožnila týmu Databricks efektivně spravovat, prozkoumávat a zdokonalovat rozsáhlou datovou sadu, čímž položil základ pro výjimečný výkon DBRX.
Pro další vylepšení možností modelu použila společnost Databricks dynamické předtréninkové kurikulum, které inovativně měnilo datový mix během trénování. Tato strategie umožnila efektivní zpracování každého tokenu s využitím aktivních 36 miliard parametrů, což vedlo k komplexnějšímu a přizpůsobivějšímu modelu.
Tréninkový proces DBRX byl navíc optimalizován pro efektivitu s využitím sady proprietárních nástrojů a knihoven od Databricks, včetně Composer, LLM Foundry, MegaBlocks a Streaming. Využitím technik, jako je učení se podle kurikula a optimalizované optimalizační strategie, tým dosáhl téměř čtyřnásobného zlepšení výpočetní efektivity ve srovnání s předchozími modely.
Školení a architektura
DBRX byl trénován pomocí modelu predikce dalšího tokenu na kolosálním souboru dat 12 bilionů tokenů, s důrazem na text i kód. Předpokládá se, že tato tréninková sada je výrazně účinnější než ty, které byly použity v předchozích modelech, a zajišťuje bohaté porozumění a schopnost reagovat na různé výzvy.
Architektura DBRX není jen důkazem technické zdatnosti Databricks, ale také zdůrazňuje jeho uplatnění v mnoha odvětvích. Od vylepšení interakcí chatbotů až po zvládání složitých úkolů analýzy dat lze DBRX integrovat do rozmanitých oblastí vyžadujících detailní porozumění jazyku.
Je pozoruhodné, že DBRX Instruct dokonce konkuruje některým z nejmodernějších uzavřených modelů na trhu. Podle měření společnosti Databricks překonává GPT-3.5 a je konkurenceschopný s Gemini 1.0 Pro a Mistral Medium v různých benchmarkech, včetně všeobecných znalostí, zdravého rozumu, programování a matematického uvažování.
Například v benchmarku MMLU, který měří porozumění jazyku, dosáhl DBRX Instruct skóre 73.7 %, čímž překonal hlášené skóre 3.5 % v testu GPT-70.0. V benchmarku HellaSwag pro logické uvažování dosáhl DBRX Instruct působivých 89.0 %, čímž překonal 3.5 % v testu GPT-85.5.
DBRX Instruct skutečně září, dosahuje pozoruhodné přesnosti 70.1 % v benchmarku HumanEval, čímž překonává nejen GPT-3.5 (48.1 %), ale také specializovaný model CodeLLaMA-70B Instruct (67.8 %).
Tyto výjimečné výsledky zdůrazňují všestrannost DBRX a jeho schopnost vyniknout v široké škále úkolů, od porozumění přirozenému jazyku až po komplexní programování a řešení matematických problémů.
Efektivní inference a škálovatelnost Jednou z klíčových výhod architektury MoE v DBRX je její efektivita během inference. Díky řídké aktivaci parametrů může DBRX dosáhnout propustnosti inference, která je až dvakrát až třikrát rychlejší než u hustých modelů se stejným celkovým počtem parametrů.
Ve srovnání s LLaMA2-70B, populárním open source LLM, DBRX nejen demonstruje vyšší kvalitu, ale také se může pochlubit téměř dvojnásobnou rychlostí inference, přestože má přibližně o polovinu méně aktivních parametrů. Díky této efektivitě je DBRX atraktivní volbou pro nasazení v široké řadě aplikací, od vytváření obsahu po analýzu dat a dále.
Databricks navíc vyvinula robustní školicí sadu, která podnikům umožňuje trénovat své vlastní modely třídy DBRX od nuly nebo pokračovat ve školení nad poskytnutými kontrolními body. Tato schopnost umožňuje podnikům využít plný potenciál DBRX a přizpůsobit jej svým konkrétním potřebám, což dále demokratizuje přístup k nejmodernější technologii LLM.
Vývoj modelu DBRX společností Databricks představuje významný pokrok v oblasti strojového učení, zejména díky využití inovativních nástrojů z komunity open source. Tuto vývojovou cestu významně ovlivnily dvě klíčové technologie: knihovna MegaBlocks a systém Fully Shared Data Parallel (FSDP) od PyTorch.
MegaBlocks: Zvýšení účinnosti MoE
Jedno MegaBloky Knihovna řeší problémy spojené s dynamickým směrováním ve vrstvách Mixture-of-Experts (MoEs), což je běžná překážka při škálování neuronových sítí. Tradiční rámce často ukládají omezení, která buď snižují efektivitu modelu, nebo snižují kvalitu modelu. MegaBlocks však nově definuje výpočet MŽP prostřednictvím operací s řídkými bloky, které obratně řídí vnitřní dynamiku v rámci MŽP, čímž se těmto kompromisům vyhýbají.
Tento přístup nejen zachovává integritu tokenu, ale také se dobře hodí k moderním schopnostem GPU, což umožňuje až o 40 % rychlejší tréninkové časy ve srovnání s tradičními metodami. Taková účinnost je zásadní pro trénování modelů, jako je DBRX, které při efektivní správě svých rozsáhlých sad parametrů silně spoléhají na pokročilé architektury MoE.
PyTorch FSDP: Škálování velkých modelů
Plně sdílená datová paralela PyTorch (FSDP) představuje robustní řešení pro trénování výjimečně velkých modelů pomocí optimalizace sdílení parametrů a distribuce mezi více výpočetními zařízeními. FSDP, navržený společně s klíčovými komponenty PyTorch, se hladce integruje a nabízí intuitivní uživatelskou zkušenost podobnou místním školicím nastavením, ale v mnohem větším měřítku.
Návrh FSDP chytře řeší několik kritických problémů:
User Experience: Zjednodušuje uživatelské rozhraní, navzdory složitým backendovým procesům, a činí jej přístupnějším pro širší použití.
Heterogenita hardwaru: Přizpůsobuje se různým hardwarovým prostředím a efektivně optimalizuje využití zdrojů.
Využití zdrojů a plánování paměti: FSDP zlepšuje využití výpočetních zdrojů a zároveň minimalizuje režii paměti, což je nezbytné pro tréninkové modely, které fungují v měřítku DBRX.
FSDP nejenže podporuje větší modely, než bylo dříve možné v rámci frameworku Distributed Data Parallel, ale také si zachovává téměř lineární škálovatelnost z hlediska propustnosti a efektivity. Tato schopnost se ukázala jako zásadní pro DBRX od Databricks, což mu umožňuje škálovat napříč více GPU a zároveň efektivně spravovat obrovské množství parametrů.
Dostupnost a integrace
V souladu se svým posláním propagovat otevřený přístup k AI, Databricks zpřístupnil DBRX prostřednictvím více kanálů. Hmotnosti základního modelu (DBRX Base) i vyladěného modelu (DBRX Instruct) jsou hostovány na oblíbené platformě Hugging Face, což umožňuje výzkumníkům a vývojářům snadno stáhnout a pracovat s modelem.
Kromě toho Úložiště modelů DBRX je k dispozici na GitHubu, což poskytuje transparentnost a umožňuje další zkoumání a přizpůsobení kódu modelu.
Pro zákazníky Databricks jsou DBRX Base a DBRX Instruct pohodlně dostupné prostřednictvím rozhraní Databricks Foundation Model API, což umožňuje bezproblémovou integraci do stávajících pracovních postupů a aplikací. To nejen zjednodušuje proces nasazení, ale také zajišťuje správu dat a zabezpečení pro citlivé případy použití.
Kromě toho již bylo DBRX integrováno do několika platforem a služeb třetích stran, jako je You.com a Perplexity Labs, čímž se rozšířil jeho dosah a potenciální aplikace. Tyto integrace demonstrují rostoucí zájem o DBRX a jeho schopnosti, stejně jako rostoucí přijetí otevřených LLM napříč různými průmyslovými odvětvími a případy použití.
Možnosti dlouhého kontextu a rozšířené generování získávání Jednou z mimořádných funkcí DBRX je jeho schopnost zpracovávat vstupy s dlouhým kontextem s maximální délkou kontextu 32,768 XNUMX tokenů. Tato schopnost umožňuje modelu zpracovávat a generovat text na základě rozsáhlých kontextových informací, díky čemuž je vhodný pro úkoly, jako je sumarizace dokumentů, odpovídání na otázky a vyhledávání informací.
V benchmarcích hodnotících výkon v dlouhém kontextu, jako jsou KV-Pairs a HotpotQAXL, DBRX Instruct překonal GPT-3.5 Turbo v různých délkách sekvencí a pozicích kontextu.
DBRX překonává zavedené modely s otevřeným zdrojovým kódem v porozumění jazyku (MMLU), programování (HumanEval) a matematice (GSM8K).
Omezení a budoucí práce
Zatímco DBRX představuje významný úspěch na poli otevřených LLM, je nezbytné uznat jeho omezení a oblasti pro budoucí zlepšení. Jako každý model AI může DBRX produkovat nepřesné nebo zkreslené reakce v závislosti na kvalitě a rozmanitosti svých tréninkových dat.
Ačkoliv DBRX vyniká v obecných úlohách, některé aplikace specifické pro danou oblast mohou vyžadovat další doladění nebo specializované školení pro dosažení optimálního výkonu. Například v situacích, kde je přesnost a věrnost nanejvýš důležitá, Databricks doporučuje použití technik generování rozšířeného vyhledávání (RAG) pro zlepšení výstupu modelu.
Současná trénovací data DBRX se navíc skládají převážně z anglického jazyka, což potenciálně omezuje její výkon u úloh v jiných jazycích. Budoucí iterace modelu mohou zahrnovat rozšíření trénovacích dat tak, aby zahrnovala pestřejší škálu jazyků a kulturních kontextů.
Společnost Databricks se zavázala k neustálému zlepšování možností modelu DBRX a řešení jeho omezení. Budoucí práce se zaměří na zlepšení výkonu, škálovatelnosti a použitelnosti modelu v různých aplikacích a případech užití a také na zkoumání technik ke zmírnění potenciálních zkreslení a podpoře etického používání umělé inteligence.
Kromě toho společnost plánuje dále zdokonalit školicí proces a využít pokročilé techniky, jako je federované učení a metody ochrany soukromí, aby byla zajištěna soukromí a bezpečnost dat.
Cesta vpřed
DBRX představuje významný krok vpřed v demokratizaci vývoje AI. Představuje si budoucnost, kde bude mít každý podnik možnost řídit svá data a svůj osud v rozvíjejícím se světě generativní umělé inteligence.
Prostřednictvím open-sourcingu DBRX a poskytování přístupu ke stejným nástrojům a infrastruktuře, které byly použity k jeho vybudování, dává Databricks firmám a výzkumníkům možnost vyvíjet vlastní špičkové Databricks přizpůsobené jejich specifickým potřebám.
Prostřednictvím platformy Databricks mohou zákazníci využívat sadu nástrojů pro zpracování dat této společnosti, včetně Apache Spark, Unity Catalog a MLflow, k ukládání a správě svých trénovacích dat. Poté mohou využít optimalizované trénovací knihovny Databricks, jako jsou Composer, LLM Foundry, MegaBlocks a Streaming, k efektivnímu a škálovatelnému trénování vlastních modelů třídy DBRX.
Tato demokratizace vývoje AI má potenciál odemknout novou vlnu inovací, protože podniky získají schopnost využít sílu velkých jazykových modelů pro širokou škálu aplikací, od tvorby obsahu a analýzy dat až po podporu rozhodování a ještě dál.
Kromě toho, podporou otevřeného a kolaborativního ekosystému kolem DBRX se Databricks snaží urychlit tempo výzkumu a vývoje v oblasti velkých jazykových modelů. S tím, jak více organizací a jednotlivců přispívá svými odbornými znalostmi a poznatky, bude kolektivní znalost a porozumění těmto výkonným systémům umělé inteligence nadále narůstat, což v budoucnu připraví cestu pro ještě pokročilejší a schopnější modely.
Proč investovat do čističky vzduchu?
DBRX je zásadní změnou ve světě open source velkých jazykových modelů. Díky své inovativní architektuře směsi odborníků, rozsáhlým školicím datům a nejmodernějšímu výkonu nastavil nový standard pro to, co je možné s otevřenými LLM.
Demokratizací přístupu k nejmodernější technologii AI umožňuje DBRX výzkumníkům, vývojářům a podnikům objevovat nové hranice ve zpracování přirozeného jazyka, vytváření obsahu, analýze dat a dalších. Jak Databricks pokračuje ve zdokonalování a vylepšování DBRX, potenciální aplikace a dopad tohoto výkonného modelu jsou skutečně neomezené.
Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.