никулец Внатре во DBRX: Databricks ослободува моќен софтвер со отворен код LLM - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Внатре во DBRX: Databricks ослободува моќен LLM со отворен код

mm
Ажурирани on
DBRX: Нов најсовремен отворен LLM

Во брзо напредувачкото поле на големи јазични модели (LLMs), се појави нов моќен модел - DBRX, модел со отворен код создаден од Databricks. Овој LLM прави бранови со своите најсовремени перформанси низ широк спектар на одредници, дури и се спротивставува на можностите на индустриските гиганти како што е GPT-4 на OpenAI.

DBRX претставува значајна пресвртница во демократизацијата на вештачката интелигенција, обезбедувајќи им на истражувачите, програмерите и претпријатијата отворен пристап до јазичен модел од највисокото ниво. Но, што точно е DBRX, и што го прави толку посебен? Во ова техничко длабоко нуркање, ќе ја истражиме иновативната архитектура, процесот на обука и клучните способности што го поттикнаа DBRX на првите редови на отворениот LLM пејзаж.

Раѓањето на DBRX Создавањето на DBRX беше поттикнато од мисијата на Databricks да ја направи интелигенцијата на податоците достапна за сите претпријатија. Како лидер во платформите за анализа на податоци, Databricks го препозна огромниот потенцијал на LLM и тргна да развие модел кој би можел да одговара или дури и да ги надмине перформансите на сопственичките понуди.

По неколку месеци интензивно истражување, развој и инвестиција од повеќе милиони долари, тимот на Databricks постигна пробив со DBRX. Импресивните перформанси на моделот на широк спектар на одредници, вклучително и разбирање јазик, програмирање и математика, цврсто го воспоставија како нова најсовремена технологија во отворените LLM.

Иновативна архитектура

Моќта на мешавината на експерти Во суштината на исклучителните перформанси на DBRX лежи неговата иновативна архитектура на мешавина од експерти (МО). Овој врвен дизајн претставува отстапување од традиционалните густи модели, усвојувајќи редок пристап кој ја подобрува и ефикасноста на предобука и брзината на заклучоци.

Во рамката на Министерството за економија, само одредена група компоненти, наречени „експерти“, се активираат за секој влез. Оваа специјализација му овозможува на моделот да се справи со поширок спектар на задачи со поголема умешност, истовремено оптимизирајќи ги пресметковните ресурси.

DBRX го носи овој концепт уште подалеку со својата фино-грануларна архитектура MoE. За разлика од некои други модели на Министерството за економија кои користат помал број поголеми експерти, DBRX вработува 16 експерти, со четири експерти активни за секој даден влез. Овој дизајн обезбедува неверојатни 65 пати повеќе можни стручни комбинации, директно придонесувајќи за супериорните перформанси на DBRX.

DBRX се разликува со неколку иновативни карактеристики:

  • Кодирање на ротациона позиција (RoPE): Го подобрува разбирањето на позициите на токен, од клучно значење за генерирање контекстуално точен текст.
  • Затворени линеарни единици (GLU): Воведува механизам за влез кој ја подобрува способноста на моделот поефикасно да учи сложени обрасци.
  • Внимание на групирано барање (GQA): Ја подобрува ефикасноста на моделот со оптимизирање на механизмот за внимание.
  • Напредна токенизација: Го користи токенизаторот на GPT-4 за поефикасно обработување на влезовите.

Архитектурата на Министерството за економија е особено добро прилагодена за јазични модели од големи размери, бидејќи овозможува поефикасно скалирање и подобро искористување на пресметковните ресурси. Со дистрибуција на процесот на учење низ повеќе специјализирани подмрежи, DBRX може ефективно да распределува податоци и пресметковна моќ за секоја задача, обезбедувајќи и висококвалитетен излез и оптимална ефикасност.

Опсежни податоци за обука и ефикасна оптимизација Иако архитектурата на DBRX е несомнено импресивна, неговата вистинска моќ лежи во прецизниот процес на обука и огромното количество податоци на кои беше изложен. DBRX беше претходно обучен за неверојатни 12 трилиони токени на податоци за текст и код, внимателно подредени за да се обезбеди висок квалитет и разновидност.

Податоците за обуката беа обработени со помош на пакетот алатки на Databricks, вклучувајќи Apache Spark за обработка на податоци, Unity Catalog за управување и управување со податоци и MLflow за следење на експерименти. Овој сеопфатен сет на алатки му овозможи на тимот на Databricks ефикасно да управува, истражува и да ја усовршува огромната база на податоци, поставувајќи ја основата за исклучителните перформанси на DBRX.

За дополнително подобрување на можностите на моделот, Databricks употреби динамична наставна програма за предобука, иновативно менувајќи ја мешавината на податоци за време на обуката. Оваа стратегија овозможи секој токен ефикасно да се обработи со користење на активните 36 милијарди параметри, што резултираше во повеќе добро заокружен и прилагодлив модел.

Покрај тоа, процесот на обука на DBRX беше оптимизиран за ефикасност, користејќи го пакетот на сопствени алатки и библиотеки на Databricks, вклучувајќи ги Composer, LLM Foundry, MegaBlocks и Streaming. Со примена на техники како учење на наставната програма и оптимизирани стратегии за оптимизација, тимот постигна речиси четирикратно подобрување во пресметковната ефикасност во споредба со нивните претходни модели.

Обука и архитектура

DBRX беше обучен со користење на модел за предвидување следен знак на колосална база на податоци од 12 трилиони токени, нагласувајќи ги и текстот и кодот. Се верува дека овој сет за обука е значително поефективен од оние што се користат во претходните модели, обезбедувајќи богато разбирање и способност за одговор преку различни инструкции.

Архитектурата на DBRX не е само доказ за техничката моќ на Databricks, туку и ја истакнува нејзината примена во повеќе сектори. Од подобрување на интеракциите со четботови до напојување сложени задачи за анализа на податоци, DBRX може да се интегрира во различни полиња за кои е потребно различно разбирање на јазикот.

Извонредно, DBRX Instruct дури и ривали на некои од најнапредните затворени модели на пазарот. Според мерењата на Databricks, тој го надминува GPT-3.5 и е конкурентен со Gemini 1.0 Pro и Mistral Medium во различни одредници, вклучувајќи општо знаење, разумно размислување, програмирање и математичко расудување.

На пример, на реперот MMLU, кој го мери разбирањето на јазикот, DBRX Instruct постигна резултат од 73.7%, надминувајќи го пријавениот резултат на GPT-3.5 од 70.0%. На реперот за расудување HellaSwag commonsense, DBRX Instruct постигна импресивни 89.0%, надминувајќи ги 3.5% на GPT-85.5.

DBRX Instruct навистина блеска, постигнувајќи извонредна прецизност од 70.1% на реперот HumanEval, надминувајќи ги не само GPT-3.5 (48.1%), туку и специјализираниот модел CodeLLaMA-70B Instruct (67.8%).

Овие исклучителни резултати ја истакнуваат разновидноста на DBRX и неговата способност да се истакне во различни задачи, од разбирање природен јазик до сложено програмирање и математичко решавање проблеми.

Ефикасно заклучување и приспособливост Една од клучните предности на ME архитектурата на DBRX е нејзината ефикасност при заклучување. Благодарение на реткото активирање на параметрите, DBRX може да постигне проток на заклучоци што е до два до три пати побрз од густите модели со ист вкупен број на параметри.

Во споредба со LLaMA2-70B, популарен LLM со отворен код, DBRX не само што демонстрира повисок квалитет, туку може да се пофали и со речиси двојно поголема брзина на заклучување, и покрај тоа што има околу половина повеќе активни параметри. Оваа ефикасност го прави DBRX атрактивен избор за распоредување во широк опсег на апликации, од создавање содржина до анализа на податоци и пошироко.

Покрај тоа, Databricks разви робустен оџак за обука што им овозможува на претпријатијата да ги обучуваат сопствените модели од класата DBRX од почеток или да продолжат со обуката над обезбедените контролни пунктови. Оваа способност им дава овластување на бизнисите да го искористат целосниот потенцијал на DBRX и да го приспособат на нивните специфични потреби, дополнително демократизирајќи го пристапот до врвната LLM технологија.

Развојот на моделот DBRX од страна на Databricks означува значителен напредок во областа на машинското учење, особено преку неговата употреба на иновативни алатки од заедницата со отворен код. Ова развојно патување е значително под влијание на две клучни технологии: библиотеката MegaBlocks и системот на PyTorch's Fully Sharded Data Parallel (FSDP).

MegaBlocks: Подобрување на ефикасноста на Министерството за економија

на МегаБлокови библиотеката се занимава со предизвиците поврзани со динамичкото рутирање во слоевите Mixture-of-Experts (MoEs), вообичаена пречка во скалирањето на невронските мрежи. Традиционалните рамки често наметнуваат ограничувања кои или ја намалуваат ефикасноста на моделот или го компромитираат квалитетот на моделот. Меѓутоа, MegaBlocks го редефинира пресметувањето на Министерството за економија преку операции со ретки блокови кои вешто управуваат со внатрешната динамика во рамките на Министерството за економија, со што се избегнуваат овие компромиси.

Овој пристап не само што го зачувува интегритетот на токенот, туку и добро се усогласува со современите можности на графичкиот процесор, што овозможува до 40% побрзо време за обука во споредба со традиционалните методи. Таквата ефикасност е клучна за обука на модели како DBRX, кои во голема мера се потпираат на напредни архитектури на Министерството за економија за ефикасно да управуваат со нивните обемни множества на параметри.

PyTorch FSDP: Скалирање на големи модели

Паралелата на целосно распарчени податоци на PyTorch (FSDP) претставува робусно решение за обука на исклучително големи модели со оптимизирање на поделбата и дистрибуцијата на параметрите низ повеќе компјутерски уреди. Ко-дизајниран со клучните компоненти на PyTorch, FSDP се интегрира беспрекорно, нудејќи интуитивно корисничко искуство слично на локалните поставки за обука, но во многу поголем обем.

Дизајнот на FSDP умно решава неколку критични прашања:

  • Корисникот Искуство: Го поедноставува корисничкиот интерфејс, и покрај сложените задни процеси, што го прави попристапен за поширока употреба.
  • Хетерогеност на хардверот: Се прилагодува на различни хардверски средини за ефикасно да го оптимизира користењето на ресурсите.
  • Искористување на ресурсите и планирање на меморијата: FSDP го подобрува користењето на пресметковните ресурси додека ги минимизира трошоците за меморија, што е од суштинско значење за моделите за обука кои работат на скалата на DBRX.

FSDP не само што поддржува поголеми модели од претходно можните според рамката за паралелни дистрибуирани податоци, туку и одржува речиси линеарна приспособливост во однос на пропусната моќ и ефикасноста. Оваа способност се покажа како суштинска за DBRX на Databricks, овозможувајќи му да се скалира низ повеќе графички процесори додека ефикасно управува со својот огромен број параметри.

Пристапност и интеграции

Во согласност со својата мисија да промовира отворен пристап до ВИ, Databricks го направи DBRX достапен преку повеќе канали. Тежините и на основниот модел (DBRX Base) и на фино подесениот модел (DBRX Instruct) се сместени на популарната платформа Hugging Face, што им овозможува на истражувачите и програмерите лесно да го преземаат и да работат со моделот.

Покрај тоа, Складиште за модел DBRX е достапен на GitHub, обезбедувајќи транспарентност и овозможувајќи понатамошно истражување и прилагодување на кодот на моделот.

пропусната моќ на заклучоци за различни конфигурации на модели на нашата оптимизирана инфраструктура за сервисирање користејќи NVIDIA TensorRT-LLM со 16-битна прецизност со најдобрите знаменца за оптимизација што можевме да ги најдеме.

За клиентите на Databricks, DBRX Base и DBRX Instruct се практично достапни преку Databricks Foundation Model API, овозможувајќи беспрекорна интеграција во постоечките работни текови и апликации. Ова не само што го поедноставува процесот на распоредување, туку и обезбедува управување со податоците и безбедност за чувствителни случаи на употреба.

Понатаму, DBRX веќе е интегриран во неколку платформи и услуги од трети страни, како што се You.com и Perplexity Labs, проширувајќи го својот дофат и потенцијалните апликации. Овие интеграции го покажуваат зголемениот интерес за DBRX и неговите способности, како и зголеменото усвојување на отворени LLM во различни индустрии и случаи на употреба.

Способности за долг контекст и пронаоѓање зголемена генерација Една од истакнатите карактеристики на DBRX е неговата способност да ракува со долги контекстуални влезови, со максимална должина на контекстот од 32,768 токени. Оваа способност му овозможува на моделот да обработува и генерира текст врз основа на обемни контекстуални информации, што го прави добро прилагоден за задачи како што се сумирање на документи, одговарање на прашања и пронаоѓање информации.

Во одредниците кои ги оценуваат перформансите во долг контекст, како што се KV-Pairs и HotpotQAXL, DBRX Instruct го надмина GPT-3.5 Turbo во различни должини на секвенци и позиции на контекстот.

DBRX ги надминува воспоставените модели со отворен код за разбирање јазик (MMLU), програмирање (HumanEval) и математика (GSM8K).

DBRX ги надминува воспоставените модели со отворен код за разбирање јазик (MMLU), програмирање (HumanEval) и математика (GSM8K).

Ограничувања и идна работа

Додека DBRX претставува значајно достигнување во областа на отворените LLM, од суштинско значење е да се признаат неговите ограничувања и области за идно подобрување. Како и секој модел со вештачка интелигенција, DBRX може да произведе неточни или пристрасни одговори, во зависност од квалитетот и разновидноста на неговите податоци за обука.

Дополнително, додека DBRX се истакнува во задачите за општа намена, одредени апликации специфични за домен може да бараат дополнително дотерување или специјализирана обука за да се постигнат оптимални перформанси. На пример, во сценарија каде точноста и верноста се од најголема важност, Databricks препорачува користење на техники за пронаоѓање зголемена генерација (RAG) за подобрување на излезот на моделот.

Понатаму, тековната база на податоци за обука на DBRX првенствено се состои од содржина на англиски јазик, потенцијално ограничувајќи ја неговата изведба на неанглиски задачи. Идните повторувања на моделот може да вклучат проширување на податоците за обуката за да вклучи поразновиден опсег на јазици и културни контексти.

Databricks е посветена на постојано подобрување на можностите на DBRX и решавање на неговите ограничувања. Идната работа ќе се фокусира на подобрување на перформансите, приспособливоста и употребливоста на моделот во различни апликации и случаи на употреба, како и истражување на техники за ублажување на потенцијалните предрасуди и промовирање на етичка употреба на вештачка интелигенција.

Дополнително, компанијата планира дополнително да го усоврши процесот на обука, користејќи напредни техники како што се федеративно учење и методи за зачувување на приватноста за да се обезбеди приватност и безбедност на податоците.

Патот напред

DBRX претставува значаен чекор напред во демократизацијата на развојот на вештачката интелигенција. Тој предвидува иднина во која секое претпријатие ќе има способност да ги контролира своите податоци и својата судбина во светот на генеративната вештачка интелигенција во подем.

Со користење на DBRX со отворени извори и обезбедување пристап до истите алатки и инфраструктура што се користат за негово градење, Databricks им дава овластување на бизнисите и истражувачите да развијат свои најсовремени Databricks прилагодени на нивните специфични потреби.

Преку платформата Databricks, клиентите можат да го искористат пакетот алатки за обработка на податоци на компанијата, вклучувајќи ги Apache Spark, Unity Catalog и MLflow, за да курираат и да управуваат со нивните податоци за обука. Тие потоа можат да ги користат оптимизираните библиотеки за обука на Databricks, како што се Composer, LLM Foundry, MegaBlocks и Streaming, за да ги обучуваат своите модели од класата DBRX ефикасно и во обем.

Оваа демократизација на развојот на вештачката интелигенција има потенцијал да отклучи нов бран на иновации, бидејќи претпријатијата добиваат способност да ја искористат моќта на големите јазични модели за широк опсег на апликации, од создавање содржина и анализа на податоци до поддршка на одлуки и пошироко.

Покрај тоа, со поттикнување на отворен и колаборативен екосистем околу DBRX, Databricks има за цел да го забрза темпото на истражување и развој на полето на големи јазични модели. Како што повеќе организации и поединци придонесуваат со својата експертиза и согледувања, колективното знаење и разбирање на овие моќни системи за вештачка интелигенција ќе продолжи да расте, отворајќи го патот за уште понапредни и способни модели во иднина.

Заклучок

DBRX е менувач на играта во светот на моделите на големи јазици со отворен код. Со својата иновативна архитектура од мешавина на експерти, обемни податоци за обука и најсовремени перформанси, тој постави нов репер за она што е можно со отворените LLM.

Со демократизирање на пристапот до врвна технологија за вештачка интелигенција, DBRX им дава овластување на истражувачите, програмерите и претпријатијата да истражуваат нови граници во обработката на природниот јазик, создавањето содржина, анализата на податоци и пошироко. Бидејќи Databricks продолжува да го усовршува и подобрува DBRX, потенцијалните апликации и влијанието на овој моќен модел се навистина неограничени.

Изминатите пет години ги поминав потопувајќи се во фасцинантниот свет на машинското учење и длабокото учење. Мојата страст и експертиза ме наведоа да придонесам за над 50 различни проекти за софтверско инженерство, со посебен фокус на AI/ML. Мојата постојана љубопитност, исто така, ме привлече кон Обработка на природни јазици, поле кое јас сум желен да го истражам понатаму.