با ما در تماس باشید

هوش مصنوعی

داخل DBRX: Databricks قدرتمند LLM منبع باز را آزاد می کند

mm
به روز رسانی on
DBRX: یک LLM جدید پیشرفته

در زمینه به سرعت در حال پیشرفت مدل های زبان بزرگ (LLM)، یک مدل قدرتمند جدید ظهور کرده است - DBRX، مدل منبع باز ایجاد شده توسط Databricks. این LLM با عملکرد پیشرفته خود در طیف گسترده ای از معیارها موج می زند، حتی با قابلیت های غول های صنعتی مانند GPT-4 OpenAI رقابت می کند.

DBRX نشان‌دهنده نقطه عطف مهمی در دموکراسی‌سازی هوش مصنوعی است که به محققان، توسعه‌دهندگان و شرکت‌ها دسترسی آزاد به مدل زبانی سطح بالا را ارائه می‌دهد. اما DBRX دقیقا چیست و چه چیزی آن را تا این حد خاص می کند؟ در این غواصی عمیق فنی، معماری نوآورانه، فرآیند آموزشی و قابلیت‌های کلیدی را که DBRX را به خط مقدم چشم‌انداز LLM باز سوق داده است، بررسی خواهیم کرد.

تولد DBRX ایجاد DBRX توسط ماموریت Databricks برای دسترسی به اطلاعات اطلاعاتی برای همه شرکت ها انجام شد. Databricks به‌عنوان پیشرو در پلت‌فرم‌های تجزیه و تحلیل داده‌ها، پتانسیل عظیم LLM را تشخیص داد و به دنبال توسعه مدلی شد که می‌تواند با عملکرد پیشنهادات اختصاصی مطابقت داشته باشد یا حتی از آن فراتر رود.

پس از ماه‌ها تحقیق، توسعه و سرمایه‌گذاری چند میلیون دلاری، تیم Databricks با DBRX به پیشرفتی دست یافت. عملکرد چشمگیر این مدل در طیف گسترده‌ای از معیارها، از جمله درک زبان، برنامه‌نویسی و ریاضیات، آن را به‌عنوان یک پیشرفته‌ترین حالت جدید در LLM‌های باز ثابت کرد.

معماری نوآورانه

قدرت ترکیبی از متخصصان در هسته عملکرد استثنایی DBRX معماری خلاقانه ترکیبی از متخصصان (MoE) آن نهفته است. این طراحی پیشرفته نشان‌دهنده انحراف از مدل‌های متراکم سنتی، اتخاذ رویکردی پراکنده است که هم کارایی پیش‌آموزش و هم سرعت استنتاج را افزایش می‌دهد.

در چارچوب MOE، تنها یک گروه منتخب از مؤلفه‌ها به نام «متخصصان» برای هر ورودی فعال می‌شوند. این تخصص به مدل این امکان را می‌دهد که مجموعه وسیع‌تری از وظایف را با مهارت بیشتر انجام دهد، در حالی که منابع محاسباتی را نیز بهینه می‌کند.

DBRX با معماری ریزدانه MoE خود این مفهوم را حتی فراتر می برد. برخلاف برخی دیگر از مدل‌های MOE که از تعداد کمتری متخصص بزرگتر استفاده می‌کنند، DBRX از 16 کارشناس استفاده می‌کند که چهار کارشناس برای هر ورودی فعال هستند. این طراحی ترکیبات تخصصی حیرت آور 65 برابر ممکن را فراهم می کند که مستقیماً به عملکرد برتر DBRX کمک می کند.

DBRX خود را با چندین ویژگی نوآورانه متمایز می کند:

  • رمزگذاری موقعیت چرخشی (RoPE): درک موقعیت های نشانه را افزایش می دهد، که برای تولید متن دقیق متنی بسیار مهم است.
  • واحدهای خطی دروازه ای (GLU): مکانیزم دروازه ای را معرفی می کند که توانایی مدل را برای یادگیری موثرتر الگوهای پیچیده افزایش می دهد.
  • توجه به پرسش گروهی (GQA): با بهینه سازی مکانیسم توجه، کارایی مدل را بهبود می بخشد.
  • توکن سازی پیشرفته: از توکنایزر GPT-4 برای پردازش موثرتر ورودی ها استفاده می کند.

معماری MoE به ویژه برای مدل‌های زبانی در مقیاس بزرگ مناسب است، زیرا امکان مقیاس‌بندی کارآمدتر و استفاده بهتر از منابع محاسباتی را فراهم می‌کند. با توزیع فرآیند یادگیری در چندین زیرشبکه تخصصی، DBRX می تواند به طور موثر داده ها و توان محاسباتی را برای هر کار تخصیص دهد و از خروجی با کیفیت بالا و کارایی مطلوب اطمینان حاصل کند.

داده های آموزشی گسترده و بهینه سازی کارآمد در حالی که معماری DBRX بدون شک چشمگیر است، قدرت واقعی آن در فرآیند آموزش دقیق و حجم عظیمی از داده ها نهفته است که در معرض آن قرار گرفته است. DBRX بر روی 12 تریلیون توکن داده های متنی و کد از قبل آموزش داده شده بود که به دقت تنظیم شده بود تا کیفیت و تنوع بالا تضمین شود.

داده های آموزشی با استفاده از مجموعه ابزارهای Databricks، از جمله Apache Spark برای پردازش داده، Unity Catalog برای مدیریت و حاکمیت داده، و MLflow برای ردیابی آزمایش، پردازش شدند. این مجموعه ابزار جامع به تیم Databricks اجازه داد تا به طور مؤثر مجموعه داده عظیم را مدیریت، کاوش و اصلاح کند و پایه و اساس عملکرد استثنایی DBRX را ایجاد کند.

برای افزایش بیشتر قابلیت‌های مدل، Databricks از یک برنامه درسی پیش‌آموزشی پویا استفاده کرد که ترکیب داده‌ها را در طول آموزش به‌طور خلاقانه تغییر داد. این استراتژی به هر توکن اجازه می دهد تا با استفاده از 36 میلیارد پارامتر فعال به طور موثر پردازش شود و در نتیجه یک مدل جامع تر و سازگارتر ایجاد شود.

علاوه بر این، فرآیند آموزش DBRX برای کارایی بهینه‌سازی شد و از مجموعه ابزارها و کتابخانه‌های اختصاصی Databricks از جمله Composer، LLM Foundry، MegaBlocks و Streaming استفاده کرد. این تیم با استفاده از تکنیک هایی مانند یادگیری برنامه درسی و استراتژی های بهینه سازی بهینه، تقریباً چهار برابر بهبود راندمان محاسباتی را در مقایسه با مدل های قبلی خود به دست آورد.

آموزش و معماری

DBRX با استفاده از یک مدل پیش‌بینی نشانه بعدی بر روی مجموعه داده عظیمی از 12 تریلیون توکن، با تأکید بر متن و کد آموزش داده شد. اعتقاد بر این است که این مجموعه آموزشی به طور قابل توجهی مؤثرتر از موارد استفاده شده در مدل‌های قبلی است، و از درک و توانایی پاسخگویی غنی در پیام‌های مختلف اطمینان می‌دهد.

معماری DBRX نه تنها گواهی بر مهارت فنی Databricks است، بلکه کاربرد آن را در چندین بخش برجسته می کند. از تقویت تعاملات چت بات گرفته تا تقویت وظایف پیچیده تجزیه و تحلیل داده ها، DBRX را می توان در زمینه های مختلفی که نیاز به درک دقیق زبان دارند ادغام کرد.

قابل توجه است که DBRX Instruct حتی با برخی از پیشرفته ترین مدل های بسته موجود در بازار رقابت می کند. طبق اندازه‌گیری‌های Databricks، GPT-3.5 پیشی گرفته و با Gemini 1.0 Pro و Mistral Medium در معیارهای مختلف، از جمله دانش عمومی، استدلال عقلانی، برنامه‌نویسی و استدلال ریاضی قابل رقابت است.

برای مثال، در معیار MMLU، که درک زبان را اندازه‌گیری می‌کند، DBRX Instruct به امتیاز 73.7% رسید که از امتیاز گزارش شده GPT-3.5 70.0% بهتر بود. در معیار استدلال مشترک HellaSwag، DBRX Instruct امتیاز چشمگیر 89.0% را کسب کرد که از 3.5% GPT-85.5 پیشی گرفت.

DBRX Instruct واقعاً می درخشد و به دقت قابل توجه 70.1٪ در معیار HumanEval دست می یابد و نه تنها GPT-3.5 (48.1٪) بلکه از مدل تخصصی CodeLLaMA-70B Instruct (67.8٪) بهتر عمل می کند.

این نتایج استثنایی تطبیق پذیری DBRX و توانایی آن برای برتری در طیف متنوعی از وظایف، از درک زبان طبیعی گرفته تا برنامه نویسی پیچیده و حل مسائل ریاضی را برجسته می کند.

استنتاج و مقیاس پذیری کارآمد یکی از مزایای کلیدی معماری MOE DBRX کارایی آن در حین استنتاج است. به لطف فعال‌سازی پراکنده پارامترها، DBRX می‌تواند به خروجی استنتاجی دست یابد که تا دو تا سه برابر سریع‌تر از مدل‌های متراکم با تعداد کل پارامترهای یکسان است.

در مقایسه با LLaMA2-70B، یک LLM منبع باز محبوب، DBRX نه تنها کیفیت بالاتری را نشان می‌دهد، بلکه با وجود داشتن حدود نیمی از پارامترهای فعال، تقریباً دو برابر سرعت استنتاج دارد. این کارایی DBRX را به انتخابی جذاب برای استقرار در طیف گسترده ای از برنامه ها، از تولید محتوا گرفته تا تجزیه و تحلیل داده ها و فراتر از آن تبدیل می کند.

علاوه بر این، Databricks یک پشته آموزشی قوی ایجاد کرده است که به شرکت‌ها اجازه می‌دهد مدل‌های کلاس DBRX خود را از ابتدا آموزش دهند یا آموزش را در بالای نقاط بازرسی ارائه شده ادامه دهند. این قابلیت به کسب‌وکارها این امکان را می‌دهد تا از پتانسیل کامل DBRX استفاده کنند و آن را با نیازهای خاص خود تطبیق دهند و دسترسی به فناوری پیشرفته LLM را دموکراتیک‌تر کنند.

توسعه مدل DBRX توسط Databricks نشان دهنده پیشرفت قابل توجهی در زمینه یادگیری ماشین است، به ویژه از طریق استفاده از ابزارهای نوآورانه از جامعه منبع باز. این سفر توسعه به طور قابل توجهی تحت تأثیر دو فناوری محوری است: کتابخانه MegaBlocks و سیستم کاملاً خرد شده داده موازی PyTorch (FSDP).

MegaBlocks: افزایش کارایی وزارت انرژی

La مگابلاک ها این کتابخانه به چالش‌های مرتبط با مسیریابی پویا در لایه‌های Mixture-of-Experts (MoEs) می‌پردازد، که یک مانع رایج در مقیاس‌بندی شبکه‌های عصبی است. چارچوب های سنتی اغلب محدودیت هایی را تحمیل می کنند که یا کارایی مدل را کاهش می دهد یا کیفیت مدل را به خطر می اندازد. با این حال، MegaBlocks محاسبات MoE را از طریق عملیات‌های پراکنده بلاک‌ها تعریف می‌کند که به طرز ماهرانه‌ای پویایی ذاتی را در MoEs مدیریت می‌کند، بنابراین از این مصالحه‌ها اجتناب می‌کند.

این رویکرد نه تنها یکپارچگی توکن را حفظ می‌کند، بلکه به خوبی با قابلیت‌های GPU مدرن همسو می‌شود و زمان‌های آموزشی را تا 40 درصد در مقایسه با روش‌های سنتی تسهیل می‌کند. چنین کارایی برای آموزش مدل هایی مانند DBRX که به شدت به معماری های پیشرفته MoE برای مدیریت کارآمد مجموعه پارامترهای گسترده خود متکی هستند، بسیار مهم است.

PyTorch FSDP: Scaling Large Models

موازی داده کاملاً خرد شده PyTorch (FSDP) یک راه حل قوی برای آموزش مدل های فوق العاده بزرگ با بهینه سازی تقسیم بندی و توزیع پارامترها در چندین دستگاه محاسباتی ارائه می دهد. FSDP که با اجزای کلیدی PyTorch طراحی شده است، به طور یکپارچه ادغام می شود و تجربه کاربری بصری مشابه تنظیمات آموزشی محلی اما در مقیاس بسیار بزرگتر را ارائه می دهد.

طراحی FSDP به طور هوشمندانه به چندین مسئله حیاتی می پردازد:

  • سابقه کاربر: این رابط کاربری را علیرغم فرآیندهای پیچیده پشتیبان ساده می کند و آن را برای استفاده گسترده تر در دسترس تر می کند.
  • ناهمگونی سخت افزار: با محیط‌های سخت‌افزاری متنوع سازگار می‌شود تا استفاده کارآمد از منابع را بهینه کند.
  • استفاده از منابع و برنامه ریزی حافظه: FSDP استفاده از منابع محاسباتی را افزایش می‌دهد و در عین حال سربار حافظه را به حداقل می‌رساند، که برای مدل‌های آموزشی که در مقیاس DBRX عمل می‌کنند ضروری است.

FSDP نه تنها از مدل‌های بزرگ‌تر از آنچه قبلاً در چارچوب موازی داده‌های توزیع شده امکان‌پذیر بود، پشتیبانی می‌کند، بلکه مقیاس‌پذیری تقریباً خطی را از نظر توان عملیاتی و کارایی حفظ می‌کند. ثابت شده است که این قابلیت برای DBRX Databricks ضروری است و به آن اجازه می‌دهد تا در چند پردازنده گرافیکی مقیاس‌بندی شود و در عین حال تعداد زیادی از پارامترهای خود را به طور موثر مدیریت کند.

دسترسی و ادغام

Databricks در راستای ماموریت خود برای ارتقای دسترسی باز به هوش مصنوعی، DBRX را از طریق کانال های متعدد در دسترس قرار داده است. وزن هر دو مدل پایه (DBRX Base) و مدل دقیق (DBRX Instruct) بر روی پلتفرم محبوب Hugging Face میزبانی می شود و به محققان و توسعه دهندگان این امکان را می دهد تا به راحتی مدل را دانلود کرده و با آن کار کنند.

علاوه بر این، مخزن مدل DBRX در GitHub موجود است، شفافیت را ارائه می دهد و امکان کاوش بیشتر و سفارشی سازی کد مدل را فراهم می کند.

توان استنتاج برای پیکربندی‌های مدل مختلف در زیرساخت سرویس‌دهی بهینه‌شده ما با استفاده از NVIDIA TensorRT-LLM با دقت 16 بیتی با بهترین پرچم‌های بهینه‌سازی که می‌توانیم پیدا کنیم.

برای مشتریان Databricks، DBRX Base و DBRX Instruct به راحتی از طریق APIهای Databricks Foundation Model قابل دسترسی هستند و امکان ادغام یکپارچه در جریان های کاری و برنامه های کاربردی موجود را فراهم می کنند. این نه تنها فرآیند استقرار را ساده می کند، بلکه حاکمیت داده و امنیت را برای موارد استفاده حساس تضمین می کند.

علاوه بر این، DBRX قبلاً در چندین پلتفرم و سرویس شخص ثالث مانند You.com و Perplexity Labs ادغام شده است و دامنه و کاربردهای بالقوه خود را گسترش می دهد. این ادغام ها نشان دهنده علاقه روزافزون به DBRX و قابلیت های آن و همچنین پذیرش فزاینده LLM های باز در صنایع مختلف و موارد استفاده است.

قابلیت‌های Long-Context و Retrieval Augmented Generation یکی از ویژگی‌های برجسته DBRX توانایی آن در مدیریت ورودی‌های متن طولانی با حداکثر طول زمینه 32,768 توکن است. این قابلیت به مدل اجازه می‌دهد تا متن را بر اساس اطلاعات زمینه‌ای گسترده پردازش و تولید کند و آن را برای کارهایی مانند خلاصه‌سازی اسناد، پاسخ به سؤال و بازیابی اطلاعات مناسب می‌سازد.

در معیارهایی که عملکرد متن طولانی را ارزیابی می‌کنند، مانند KV-Pairs و HotpotQAXL، DBRX Instruct از GPT-3.5 Turbo در طول‌های توالی و موقعیت‌های متنی مختلف بهتر عمل کرد.

DBRX از مدل های منبع باز ایجاد شده در درک زبان (MMLU)، برنامه نویسی (HumanEval) و ریاضی (GSM8K) بهتر عمل می کند.

DBRX از مدل های منبع باز ایجاد شده در درک زبان (MMLU)، برنامه نویسی (HumanEval) و ریاضی (GSM8K) بهتر عمل می کند.

محدودیت ها و کار آینده

در حالی که DBRX نشان دهنده یک دستاورد قابل توجه در زمینه LLM های باز است، ضروری است که محدودیت ها و زمینه های آن را برای بهبود آینده بپذیریم. مانند هر مدل هوش مصنوعی، DBRX ممکن است بسته به کیفیت و تنوع داده‌های آموزشی خود، پاسخ‌های نادرست یا مغرضانه ایجاد کند.

علاوه بر این، در حالی که DBRX در کارهای همه منظوره برتر است، برخی از برنامه های کاربردی خاص دامنه ممکن است برای دستیابی به عملکرد بهینه نیاز به تنظیم دقیق یا آموزش تخصصی بیشتری داشته باشند. برای مثال، در سناریوهایی که دقت و وفاداری از اهمیت بالایی برخوردار است، Databricks استفاده از تکنیک‌های بازیابی تولید افزوده (RAG) را برای افزایش خروجی مدل توصیه می‌کند.

علاوه بر این، مجموعه داده آموزشی فعلی DBRX عمدتاً شامل محتوای زبان انگلیسی است که به طور بالقوه عملکرد آن را در کارهای غیر انگلیسی محدود می کند. تکرارهای آینده مدل ممکن است شامل گسترش داده‌های آموزشی باشد تا طیف متنوع‌تری از زبان‌ها و زمینه‌های فرهنگی را شامل شود.

Databricks متعهد است که به طور مداوم قابلیت های DBRX را افزایش دهد و محدودیت های آن را برطرف کند. کار آینده بر بهبود عملکرد، مقیاس‌پذیری و قابلیت استفاده مدل در برنامه‌های مختلف و موارد استفاده، و همچنین بررسی تکنیک‌هایی برای کاهش تعصبات بالقوه و ترویج استفاده اخلاقی از هوش مصنوعی متمرکز خواهد بود.

علاوه بر این، این شرکت قصد دارد فرآیند آموزشی را بیشتر اصلاح کند و از تکنیک‌های پیشرفته مانند روش‌های یادگیری فدرال و حفظ حریم خصوصی برای اطمینان از حفظ حریم خصوصی و امنیت داده‌ها استفاده کند.

راه پیش رو

DBRX نشان دهنده یک گام مهم به جلو در دموکراتیزه کردن توسعه هوش مصنوعی است. آینده ای را متصور است که در آن هر شرکتی توانایی کنترل داده ها و سرنوشت خود را در دنیای نوظهور هوش مصنوعی مولد دارد.

Databricks با منبع باز DBRX و دسترسی به همان ابزارها و زیرساخت های مورد استفاده برای ساخت آن، به کسب و کارها و محققان این امکان را می دهد تا Databricks پیشرفته خود را متناسب با نیازهای خاص خود توسعه دهند.

از طریق پلتفرم Databricks، مشتریان می توانند از مجموعه ابزارهای پردازش داده شرکت، از جمله Apache Spark، Unity Catalog و MLflow برای مدیریت و مدیریت داده های آموزشی خود استفاده کنند. سپس می‌توانند از کتابخانه‌های آموزشی بهینه‌شده Databricks، مانند Composer، LLM Foundry، MegaBlocks و Streaming برای آموزش مدل‌های کلاس DBRX خود به طور کارآمد و در مقیاس استفاده کنند.

این دموکراسی‌سازی توسعه هوش مصنوعی پتانسیل بازگشایی موج جدیدی از نوآوری را دارد، زیرا شرکت‌ها توانایی استفاده از قدرت مدل‌های زبان بزرگ را برای طیف گسترده‌ای از برنامه‌ها، از ایجاد محتوا و تجزیه و تحلیل داده‌ها تا پشتیبانی تصمیم‌گیری و فراتر از آن، به دست می‌آورند.

علاوه بر این، با تقویت یک اکوسیستم باز و مشارکتی در اطراف DBRX، Databricks قصد دارد سرعت تحقیق و توسعه در زمینه مدل‌های زبان بزرگ را تسریع بخشد. همانطور که سازمان‌ها و افراد بیشتری تخصص و بینش خود را به اشتراک می‌گذارند، دانش و درک جمعی از این سیستم‌های هوش مصنوعی قدرتمند همچنان رشد می‌کند و راه را برای مدل‌های پیشرفته‌تر و توانمندتر در آینده هموار می‌کند.

نتیجه

DBRX یک تغییر دهنده بازی در دنیای مدل های متن باز زبان بزرگ است. با معماری خلاقانه ترکیبی از متخصصان، داده های آموزشی گسترده، و عملکرد پیشرفته، معیار جدیدی را برای آنچه با LLM های باز امکان پذیر است تعیین کرده است.

با دموکراتیک کردن دسترسی به فناوری پیشرفته هوش مصنوعی، DBRX به محققان، توسعه‌دهندگان و شرکت‌ها اجازه می‌دهد تا مرزهای جدیدی را در پردازش زبان طبیعی، ایجاد محتوا، تجزیه و تحلیل داده‌ها و فراتر از آن کشف کنند. از آنجایی که Databricks به اصلاح و بهبود DBRX ادامه می دهد، کاربردهای بالقوه و تأثیر این مدل قدرتمند واقعاً بی حد و حصر است.

من پنج سال گذشته را صرف غوطه ور شدن در دنیای جذاب یادگیری ماشینی و یادگیری عمیق کرده ام. اشتیاق و تخصص من باعث شده تا در بیش از 50 پروژه مهندسی نرم افزار متنوع با تمرکز ویژه بر AI/ML مشارکت کنم. کنجکاوی مداوم من نیز مرا به سمت پردازش زبان طبیعی کشانده است، زمینه ای که مشتاق کشف بیشتر هستم.