stub Wewnątrz DBRX: Databricks uwalnia potężne oprogramowanie LLM typu open source — Unite.AI
Kontakt z nami

Artificial Intelligence

Wewnątrz DBRX: Databricks uwalnia potężne oprogramowanie LLM typu open source

mm
Zaktualizowano on
DBRX: nowy, najnowocześniejszy Open LLM

W szybko rozwijającej się dziedzinie dużych modeli językowych (LLM) pojawił się nowy, potężny model – DBRX, model open source stworzony przez Databricks. Ten LLM robi furorę dzięki swojej najnowocześniejszej wydajności w szerokiej gamie testów porównawczych, rywalizując nawet z możliwościami gigantów branżowych, takich jak GPT-4 OpenAI.

DBRX stanowi znaczący kamień milowy w demokratyzacji sztucznej inteligencji, zapewniając badaczom, programistom i przedsiębiorstwom otwarty dostęp do najwyższej klasy modelu językowego. Ale czym właściwie jest DBRX i co czyni go tak wyjątkowym? Podczas tej technicznej analizy przyjrzymy się innowacyjnej architekturze, procesowi szkoleniowemu i kluczowym możliwościom, które wywindowały DBRX na czoło otwartego krajobrazu LLM.

Narodziny DBRX Stworzenie DBRX wynikało z misji Databricks, polegającej na udostępnianiu analityki danych wszystkim przedsiębiorstwom. Jako lider platform analizy danych, firma Databricks dostrzegła ogromny potencjał LLM i postanowiła opracować model, który mógłby dorównać lub nawet przewyższyć wydajność zastrzeżonych ofert.

Po miesiącach intensywnych badań, rozwoju i wielomilionowych inwestycji zespół Databricks osiągnął przełom dzięki DBRX. Imponujące wyniki modelu w szerokim zakresie testów porównawczych, w tym w rozumieniu języka, programowaniu i matematyce, ugruntowały jego pozycję jako nowego, najnowocześniejszego w otwartych programach LLM.

Innowacyjna Architektura

Siła mieszanki ekspertów U podstaw wyjątkowej wydajności DBRX leży jego innowacyjna architektura będąca połączeniem ekspertów (MoE). Ten nowatorski projekt stanowi odejście od tradycyjnych gęstych modeli i przyjęcie rzadkiego podejścia, które zwiększa zarówno wydajność przedtreningową, jak i szybkość wnioskowania.

W ramach Ministerstwa Środowiska dla każdego wejścia aktywowana jest tylko wybrana grupa komponentów, zwana „ekspertami”. Ta specjalizacja umożliwia modelowi radzenie sobie z szerszym zakresem zadań z większą biegłością, przy jednoczesnej optymalizacji zasobów obliczeniowych.

DBRX rozwija tę koncepcję jeszcze dalej dzięki swojej drobnoziarnistej architekturze MoE. W przeciwieństwie do innych modeli Ministerstwa Środowiska, które wykorzystują mniejszą liczbę większych ekspertów, DBRX zatrudnia 16 ekspertów, przy czym czterech ekspertów zajmuje się danym wkładem. Konstrukcja ta zapewnia zdumiewającą 65 razy więcej możliwych kombinacji specjalistycznych, bezpośrednio przyczyniając się do doskonałej wydajności DBRX.

DBRX wyróżnia się kilkoma innowacyjnymi funkcjami:

  • Kodowanie pozycji obrotowej (RoPE): Poprawia zrozumienie pozycji tokenów, kluczowych dla generowania tekstu dokładnego kontekstowo.
  • Bramkowane jednostki liniowe (GLU): Wprowadza mechanizm bramkujący, który zwiększa zdolność modelu do efektywniejszego uczenia się złożonych wzorców.
  • Uwaga na zapytania grupowe (GQA): Poprawia efektywność modelu poprzez optymalizację mechanizmu uwagi.
  • Zaawansowana tokenizacja: Wykorzystuje tokenizer GPT-4 do efektywniejszego przetwarzania danych wejściowych.

Architektura MoE szczególnie dobrze nadaje się do modeli językowych o dużej skali, ponieważ pozwala na bardziej efektywne skalowanie i lepsze wykorzystanie zasobów obliczeniowych. Dystrybuując proces uczenia się na wiele wyspecjalizowanych podsieci, DBRX może skutecznie przydzielać dane i moc obliczeniową do każdego zadania, zapewniając zarówno wysoką jakość wyników, jak i optymalną wydajność.

Obszerne dane szkoleniowe i wydajna optymalizacja Chociaż architektura DBRX jest niewątpliwie imponująca, jej prawdziwa siła leży w skrupulatnym procesie szkolenia i ogromnej ilości danych, na które był narażony. DBRX został wstępnie przeszkolony na zdumiewających 12 bilionach tokenów danych tekstowych i kodowych, starannie wybranych, aby zapewnić wysoką jakość i różnorodność.

Dane szkoleniowe zostały przetworzone przy użyciu pakietu narzędzi Databricks, w tym Apache Spark do przetwarzania danych, Unity Catalog do zarządzania danymi i zarządzania nimi oraz MLflow do śledzenia eksperymentów. Ten kompleksowy zestaw narzędzi umożliwił zespołowi Databricks skuteczne zarządzanie, eksplorowanie i udoskonalanie ogromnego zbioru danych, kładąc podwaliny pod wyjątkową wydajność DBRX.

Aby jeszcze bardziej zwiększyć możliwości modelu, w firmie Databricks zastosowano dynamiczny program szkolenia wstępnego, w innowacyjny sposób zmieniając zestaw danych podczas szkolenia. Strategia ta umożliwiła efektywne przetwarzanie każdego tokena przy użyciu 36 miliardów aktywnych parametrów, co dało bardziej wszechstronny i elastyczny model.

Co więcej, proces szkoleniowy DBRX został zoptymalizowany pod kątem wydajności, wykorzystując pakiet zastrzeżonych narzędzi i bibliotek Databricks, w tym Composer, LLM Foundry, MegaBlocks i Streaming. Stosując techniki takie jak nauczanie programu nauczania i zoptymalizowane strategie optymalizacji, zespół osiągnął prawie czterokrotną poprawę wydajności obliczeniowej w porównaniu z poprzednimi modelami.

Szkolenie i architektura

DBRX został przeszkolony przy użyciu modelu przewidywania następnego tokenu na kolosalnym zestawie danych składającym się z 12 bilionów tokenów, ze szczególnym uwzględnieniem tekstu i kodu. Uważa się, że ten zestaw szkoleniowy jest znacznie bardziej skuteczny niż te stosowane w poprzednich modelach, zapewniając bogate zrozumienie i możliwości reagowania na różne podpowiedzi.

Architektura DBRX jest nie tylko świadectwem technicznych możliwości Databricks, ale także podkreśla jego zastosowanie w wielu sektorach. Od usprawniania interakcji chatbota po realizację złożonych zadań analizy danych, DBRX można zintegrować z różnymi dziedzinami wymagającymi szczegółowego zrozumienia języka.

Co ciekawe, DBRX Instruct może nawet konkurować z niektórymi z najbardziej zaawansowanych modeli zamkniętych na rynku. Według pomiarów Databricks przewyższa on GPT-3.5 i jest konkurencyjny w stosunku do Gemini 1.0 Pro i Mistral Medium w różnych testach porównawczych, w tym w zakresie wiedzy ogólnej, zdroworozsądkowego rozumowania, programowania i rozumowania matematycznego.

Na przykład w teście MMLU, który mierzy zrozumienie języka, DBRX Instruct uzyskał wynik 73.7%, przewyższając wynik GPT-3.5 wynoszący 70.0%. W teście zdrowego rozsądku HellaSwag firma DBRX Instruct uzyskała imponujące 89.0%, przewyższając 3.5% uzyskane w GPT-85.5.

DBRX Instruct naprawdę błyszczy, osiągając niezwykłą dokładność 70.1% w teście porównawczym HumanEval, przewyższając nie tylko GPT-3.5 (48.1%), ale także specjalistyczny model CodeLLaMA-70B Instruct (67.8%).

Te wyjątkowe wyniki podkreślają wszechstronność DBRX i jego zdolność do wyróżniania się w różnorodnych zadaniach, od zrozumienia języka naturalnego po złożone programowanie i rozwiązywanie problemów matematycznych.

Efektywne wnioskowanie i skalowalność Jedną z kluczowych zalet architektury MoE DBRX jest jej wydajność podczas wnioskowania. Dzięki rzadkiej aktywacji parametrów, DBRX może osiągnąć przepustowość wnioskowania nawet dwa do trzech razy większą niż gęste modele z tą samą całkowitą liczbą parametrów.

W porównaniu do LLaMA2-70B, popularnego oprogramowania LLM o otwartym kodzie źródłowym, DBRX nie tylko charakteryzuje się wyższą jakością, ale także może pochwalić się prawie dwukrotnie większą szybkością wnioskowania, pomimo posiadania o połowę mniejszej liczby aktywnych parametrów. Ta wydajność sprawia, że ​​DBRX jest atrakcyjnym wyborem do wdrożenia w szerokim zakresie zastosowań, od tworzenia treści po analizę danych i nie tylko.

Co więcej, firma Databricks opracowała solidny stos szkoleniowy, który umożliwia przedsiębiorstwom trenowanie od podstaw własnych modeli klasy DBRX lub kontynuowanie szkolenia w oparciu o dostarczone punkty kontrolne. Ta funkcja umożliwia przedsiębiorstwom wykorzystanie pełnego potencjału DBRX i dostosowanie go do swoich konkretnych potrzeb, jeszcze bardziej demokratyzując dostęp do najnowocześniejszych technologii LLM.

Rozwój modelu DBRX przez Databricks oznacza znaczący postęp w dziedzinie uczenia maszynowego, szczególnie poprzez wykorzystanie innowacyjnych narzędzi społeczności open source. Na tę podróż rozwojową znaczący wpływ mają dwie kluczowe technologie: biblioteka MegaBlocks i system Fully Sharded Data Parallel (FSDP) firmy PyTorch.

MegaBlocks: Zwiększanie wydajności MoE

Połączenia MegaBloki Biblioteka rozwiązuje problemy związane z dynamicznym routingiem w warstwach Mixture-of-Experts (MoE), które są częstą przeszkodą w skalowaniu sieci neuronowych. Tradycyjne struktury często nakładają ograniczenia, które albo zmniejszają wydajność modelu, albo pogarszają jakość modelu. Jednakże MegaBlocks na nowo definiuje obliczenia MoE poprzez operacje rzadkie w blokach, które umiejętnie zarządzają wewnętrzną dynamiką w MoE, unikając w ten sposób tych kompromisów.

Takie podejście nie tylko pozwala zachować integralność tokena, ale także dobrze dopasowuje się do możliwości nowoczesnych procesorów graficznych, umożliwiając nawet o 40% krótsze czasy szkolenia w porównaniu z tradycyjnymi metodami. Taka wydajność jest kluczowa dla uczenia modeli takich jak DBRX, które w dużym stopniu opierają się na zaawansowanych architekturach MoE w celu efektywnego zarządzania rozbudowanymi zestawami parametrów.

PyTorch FSDP: skalowanie dużych modeli

W pełni podzielone dane równoległe PyTorch (FSDP) to solidne rozwiązanie do uczenia wyjątkowo dużych modeli poprzez optymalizację dzielenia parametrów i dystrybucji na wiele urządzeń komputerowych. Zaprojektowany wspólnie z kluczowymi komponentami PyTorch, FSDP integruje się bezproblemowo, oferując intuicyjne doświadczenie użytkownika podobne do lokalnych konfiguracji szkoleniowych, ale na znacznie większą skalę.

Projekt FSDP sprytnie rozwiązuje kilka kluczowych problemów:

  • Doświadczenie użytkownika: Upraszcza interfejs użytkownika pomimo złożonych procesów zaplecza, czyniąc go bardziej dostępnym dla szerszego użycia.
  • Heterogeniczność sprzętu: Dostosowuje się do różnych środowisk sprzętowych, aby efektywnie optymalizować wykorzystanie zasobów.
  • Wykorzystanie zasobów i planowanie pamięci: FSDP zwiększa wykorzystanie zasobów obliczeniowych, minimalizując jednocześnie obciążenie pamięci, co jest niezbędne w modelach szkoleniowych działających w skali DBRX.

FSDP nie tylko obsługuje większe modele, niż było to wcześniej możliwe w ramach platformy Distributed Data Parallel, ale także utrzymuje niemal liniową skalowalność pod względem przepustowości i wydajności. Ta funkcja okazała się niezbędna w przypadku DBRX firmy Databricks, umożliwiając skalowanie w obrębie wielu procesorów graficznych przy jednoczesnym efektywnym zarządzaniu ogromną liczbą parametrów.

Dostępność i integracje

Zgodnie ze swoją misją promowania otwartego dostępu do sztucznej inteligencji firma Databricks udostępniła DBRX za pośrednictwem wielu kanałów. Wagi zarówno modelu podstawowego (DBRX Base), jak i modelu dopracowanego (DBRX Instruct) są przechowywane na popularnej platformie Hugging Face, umożliwiając badaczom i programistom łatwe pobieranie modelu i pracę z nim.

Dodatkowo Repozytorium modeli DBRX jest dostępny w serwisie GitHub, zapewniając przejrzystość i umożliwiając dalszą eksplorację i dostosowywanie kodu modelu.

przepustowość wnioskowania dla różnych konfiguracji modelu w naszej zoptymalizowanej infrastrukturze obsługującej przy użyciu NVIDIA TensorRT-LLM z 16-bitową precyzją i najlepszymi flagami optymalizacji, jakie mogliśmy znaleźć.

Klienci Databricks mają wygodny dostęp do DBRX Base i DBRX Instruct za pośrednictwem interfejsów API Databricks Foundation Model, umożliwiając bezproblemową integrację z istniejącymi przepływami pracy i aplikacjami. To nie tylko upraszcza proces wdrażania, ale także zapewnia zarządzanie danymi i bezpieczeństwo w przypadku wrażliwych przypadków użycia.

Co więcej, DBRX został już zintegrowany z kilkoma platformami i usługami stron trzecich, takimi jak You.com i Perplexity Labs, rozszerzając jego zasięg i potencjalne zastosowania. Integracje te pokazują rosnące zainteresowanie DBRX i jego możliwościami, a także rosnące wykorzystanie otwartych LLM w różnych branżach i przypadkach użycia.

Możliwości długiego kontekstu i generowanie rozszerzone wyszukiwania Jedną z wyróżniających się cech DBRX jest jego zdolność do obsługi danych wejściowych o długim kontekście, przy maksymalnej długości kontekstu wynoszącej 32,768 XNUMX tokenów. Ta funkcja umożliwia modelowi przetwarzanie i generowanie tekstu w oparciu o obszerne informacje kontekstowe, dzięki czemu dobrze nadaje się do zadań takich jak podsumowywanie dokumentów, odpowiadanie na pytania i wyszukiwanie informacji.

W testach porównawczych oceniających wydajność w długim kontekście, takich jak KV-Pairs i HotpotQAXL, DBRX Instruct uzyskał lepsze wyniki niż GPT-3.5 Turbo w przypadku różnych długości sekwencji i pozycji kontekstu.

DBRX przewyższa ustalone modele open source w zakresie rozumienia języka (MMLU), programowania (HumanEval) i matematyki (GSM8K).

DBRX przewyższa ustalone modele open source w zakresie rozumienia języka (MMLU), programowania (HumanEval) i matematyki (GSM8K).

Ograniczenia i przyszła praca

Chociaż DBRX stanowi znaczące osiągnięcie w dziedzinie otwartych LLM, konieczne jest uznanie jego ograniczeń i obszarów przyszłych ulepszeń. Jak każdy model sztucznej inteligencji, DBRX może generować niedokładne lub stronnicze odpowiedzi, w zależności od jakości i różnorodności danych szkoleniowych.

Ponadto, chociaż DBRX doskonale radzi sobie z zadaniami ogólnego przeznaczenia, niektóre aplikacje specyficzne dla domeny mogą wymagać dalszego dostrajania lub specjalistycznego szkolenia w celu osiągnięcia optymalnej wydajności. Na przykład w scenariuszach, w których dokładność i wierność mają ogromne znaczenie, firma Databricks zaleca stosowanie technik generowania rozszerzonego wyszukiwania (RAG) w celu zwiększenia wydajności modelu.

Co więcej, bieżący zbiór danych szkoleniowych DBRX składa się głównie z treści w języku angielskim, co potencjalnie ogranicza jego wydajność w przypadku zadań w języku innym niż angielski. Przyszłe iteracje modelu mogą obejmować rozszerzenie danych szkoleniowych w celu uwzględnienia bardziej zróżnicowanego zakresu języków i kontekstów kulturowych.

Databricks angażuje się w ciągłe zwiększanie możliwości DBRX i eliminowanie jego ograniczeń. Przyszłe prace będą skupiać się na poprawie wydajności, skalowalności i użyteczności modelu w różnych aplikacjach i przypadkach użycia, a także na badaniu technik łagodzenia potencjalnych błędów uprzedzeń i promowania etycznego wykorzystania sztucznej inteligencji.

Ponadto firma planuje dalsze udoskonalanie procesu szkoleniowego, wykorzystując zaawansowane techniki, takie jak stowarzyszone uczenie się i metody ochrony prywatności, aby zapewnić prywatność i bezpieczeństwo danych.

Droga przed nami

DBRX stanowi znaczący krok naprzód w demokratyzacji rozwoju sztucznej inteligencji. Przewiduje przyszłość, w której każde przedsiębiorstwo będzie miało możliwość kontrolowania swoich danych i swojego losu w wyłaniającym się świecie generatywnej sztucznej inteligencji.

Dzięki otwartemu pozyskiwaniu DBRX i zapewnieniu dostępu do tych samych narzędzi i infrastruktury, które zostały użyte do jego zbudowania, Databricks umożliwia przedsiębiorstwom i badaczom opracowywanie własnych, najnowocześniejszych Databricków dostosowanych do ich konkretnych potrzeb.

Za pośrednictwem platformy Databricks klienci mogą korzystać z pakietu narzędzi do przetwarzania danych firmy, w tym Apache Spark, Unity Catalog i MLflow, do zarządzania swoimi danymi szkoleniowymi i zarządzania nimi. Następnie mogą korzystać ze zoptymalizowanych bibliotek szkoleniowych Databricks, takich jak Composer, LLM Foundry, MegaBlocks i Streaming, aby efektywnie i na dużą skalę szkolić własne modele klasy DBRX.

Ta demokratyzacja rozwoju sztucznej inteligencji może potencjalnie uwolnić nową falę innowacji, ponieważ przedsiębiorstwa zyskają możliwość wykorzystania mocy dużych modeli językowych do szerokiego zakresu zastosowań, od tworzenia treści i analizy danych po wspomaganie decyzji i nie tylko.

Co więcej, wspierając otwarty i oparty na współpracy ekosystem wokół DBRX, Databricks ma na celu przyspieszenie tempa badań i rozwoju w dziedzinie dużych modeli językowych. W miarę jak coraz więcej organizacji i osób wnosi swoją wiedzę i spostrzeżenia, zbiorowa wiedza i zrozumienie tych potężnych systemów sztucznej inteligencji będzie nadal rosła, torując drogę dla jeszcze bardziej zaawansowanych i wydajnych modeli w przyszłości.

Wnioski

DBRX zmienia zasady gry w świecie dużych modeli językowych typu open source. Dzięki innowacyjnej architekturze złożonej z ekspertów, obszernym danym szkoleniowym i najnowocześniejszej wydajności wyznaczył nowy punkt odniesienia dla tego, co jest możliwe w otwartych LLM.

Demokratyzując dostęp do najnowocześniejszej technologii sztucznej inteligencji, DBRX umożliwia badaczom, programistom i przedsiębiorstwom odkrywanie nowych granic w przetwarzaniu języka naturalnego, tworzeniu treści, analizie danych i nie tylko. Ponieważ Databricks stale udoskonala i ulepsza DBRX, potencjalne zastosowania i wpływ tego potężnego modelu są naprawdę nieograniczone.

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.