Изкуствен интелект
Всичко, което трябва да знаете за Llama 3 | Най-мощният модел с отворен код досега | Концепции за използване
Meta беше пусната наскоро Лама 3, следващото поколение на неговия най-съвременен голям езиков модел (LLM) с отворен код. Надграждайки основите, поставени от своя предшественик, Llama 3 има за цел да подобри възможностите, които позиционират Llama 2 като значителен конкурент с отворен код на ChatGPT, както е посочено в изчерпателния преглед в статията Llama 2: Задълбочено потапяне в Challenger с отворен код към ChatGPT.
В тази статия ще обсъдим основните концепции зад Llama 3, ще проучим нейната иновативна архитектура и процес на обучение и ще предоставим практически насоки за това как да получите достъп, да използвате и внедрите отговорно този новаторски модел. Независимо дали сте изследовател, разработчик или ентусиаст на AI, тази публикация ще ви предостави необходимите знания и ресурси, за да използвате силата на Llama 3 за вашите проекти и приложения.
Еволюцията на ламата: от лама 2 до лама 3
Изпълнителният директор на Meta, Марк Зукърбърг, оповестен дебютът на Llama 3, най-новият AI модел, разработен от Meta AI. Този най-съвременен модел, вече с отворен код, е настроен да подобри различните продукти на Meta, включително Messenger и Instagram. Зукърбърг подчерта, че Llama 3 позиционира Meta AI като най-напредналия свободно достъпен AI помощник.
Преди да говорим за спецификата на Llama 3, нека се върнем накратко към неговия предшественик, Llama 2. Представен през 2022 г., Llama 2 беше важен крайъгълен камък в пейзажа на LLM с отворен код, предлагайки мощен и ефективен модел, който може да се изпълнява на потребителски хардуер .
Въпреки това, докато Llama 2 беше забележително постижение, имаше своите ограничения. Потребителите съобщават за проблеми с фалшиви откази (моделът, който отказва да отговори на добронамерени подкани), ограничена полезност и възможност за подобрение в области като разсъждения и генериране на код.
Въведете Llama 3: Отговорът на Meta на тези предизвикателства и обратната връзка на общността. С Llama 3 Meta се зае да изгради най-добрите модели с отворен код наравно с най-добрите патентовани модели, налични днес, като същевременно дава приоритет на отговорните практики за разработка и внедряване.
Лама 3: Архитектура и обучение
Едно от ключовите нововъведения в Llama 3 е неговият токенизатор, който включва значително разширен речник на 128,256 символи (от 32,000 2 в Llama XNUMX). Този по-голям речник позволява по-ефективно кодиране на текст, както за въвеждане, така и за изход, което потенциално води до по-силно многоезичие и цялостни подобрения на производителността.
Llama 3 също включва Групирана заявка внимание (GQA), ефективна техника за представяне, която подобрява скалируемостта и помага на модела да обработва по-ефективно по-дълги контексти. The 8B версията на Llama 3 използва GQA, докато и двете 8B намлява 70B моделите могат да обработват последователности до 8,192 символи.
Данни за обучение и мащабиране
Данните за обучение, използвани за Llama 3, са решаващ фактор за подобрената му производителност. Meta курира огромен набор от данни от над 15 трилиона токени от публично достъпни онлайн източници, седем пъти по-големи от набора от данни, използван за Llama 2. Този набор от данни включва също значителна част (над 5%) от висококачествени неанглийски данни, обхващащи повече от 30 езици, в подготовка за бъдещи многоезични приложения.
За да гарантира качеството на данните, Meta използва усъвършенствани техники за филтриране, включително евристични филтри, NSFW филтри, семантична дедупликация и текстови класификатори, обучени на Llama 2 за прогнозиране на качеството на данните. Екипът също така проведе обширни експерименти, за да определи оптималната комбинация от източници на данни за предварително обучение, като гарантира, че Llama 3 се представя добре в широк диапазон от случаи на употреба, включително любопитни факти, STEM, кодиране и исторически познания.
Увеличаването на предварителното обучение беше друг критичен аспект от развитието на Llama 3. Meta разработи закони за мащабиране, които им позволиха да предвидят ефективността на най-големите си модели за ключови задачи, като например генериране на код, преди действително да ги обучат. Това информира решенията за смесване на данни и разпределение на изчисления, което в крайна сметка води до по-ефективно и ефективно обучение.
Най-големите модели на Llama 3 бяха обучени на два специално изградени 24,000 2 GPU клъстера, като се използва комбинация от техники за паралелизиране на данни, паралелизиране на модели и техники за паралелизиране на конвейер. Усъвършенстваният стек за обучение на Meta автоматизира откриването, обработката и поддръжката на грешки, като увеличава максимално времето за работа на GPU и увеличава ефективността на обучението приблизително три пъти в сравнение с Llama XNUMX.
Инструкция за фина настройка и производителност
За да отключи пълния потенциал на Llama 3 за приложения за чат и диалог, Meta обнови своя подход към фината настройка на инструкциите. Неговият метод съчетава контролирана фина настройка (SFT), вземане на проби за отхвърляне, оптимизация на проксималната политика (PPO), и директна оптимизация на предпочитанията (DPO).
Качеството на подканите, използвани в SFT, и класирането на предпочитанията, използвани в PPO и DPO, изиграха решаваща роля в представянето на съгласуваните модели. Екипът на Meta внимателно подреди тези данни и извърши множество кръгове за осигуряване на качеството на анотациите, предоставени от човешки анотатори.
Обучението за класиране на предпочитанията чрез PPO и DPO също значително подобри представянето на Llama 3 при задачи за разсъждение и кодиране. Мета установи, че дори когато един модел се бори да отговори директно на въпрос за разсъждение, той все още може да произведе правилната следа за разсъждение. Обучението за класирането на предпочитанията позволи на модела да научи как да избере правилния отговор от тези следи.
Резултатите говорят сами за себе си: Llama 3 превъзхожда много налични модели за чат с отворен код на общи стандарти за индустрията, установявайки нова най-съвременна производителност за LLM при скали на параметри 8B и 70B.
Съображения за отговорно развитие и безопасност
Докато се стреми към авангардна производителност, Meta също даде приоритет на отговорните практики за разработка и внедряване за Llama 3. Компанията възприе подход на системно ниво, предвиждайки моделите Llama 3 като част от по-широка екосистема, която поставя разработчиците на мястото на водача, позволявайки им да проектират и персонализирайте моделите за техните специфични случаи на употреба и изисквания за безопасност.
Meta проведе обширни учения за екипиране, извърши състезателни оценки и внедри техники за смекчаване на безопасността, за да намали остатъчните рискове в своите модели, настроени с инструкции. Компанията обаче признава, че остатъчните рискове вероятно ще останат и препоръчва разработчиците да оценят тези рискове в контекста на техните специфични случаи на употреба.
За да подпомогне отговорното внедряване, Meta актуализира своето Ръководство за отговорна употреба, предоставяйки изчерпателен ресурс за разработчиците за прилагане на най-добрите практики за безопасност на ниво система и модел за техните приложения. Ръководството обхваща теми като модериране на съдържание, оценка на риска и използване на инструменти за безопасност като Llama Guard 2 и Code Shield.
Llama Guard 2, изграден върху таксономията на MLCommons, е проектиран да класифицира LLM входове (подкани) и отговори, откривайки съдържание, което може да се счита за опасно или вредно. CyberSecEval 2 разширява своя предшественик, като добавя мерки за предотвратяване на злоупотреба с кодовия интерпретатор на модела, офанзивни възможности за киберсигурност и чувствителност към незабавни атаки с инжектиране.
Code Shield, ново въведение с Llama 3, добавя филтриране по време на извод на несигурен код, произведен от LLM, смекчавайки рисковете, свързани с предложения за несигурен код, злоупотреба с интерпретатор на код и сигурно изпълнение на команди.
Достъп и използване на Llama 3
След стартирането на Llama 3 на Meta AI, няколко инструмента с отворен код бяха предоставени за локално внедряване на различни операционни системи, включително Mac, Windows и Linux. Този раздел описва подробно три забележителни инструмента: Ollama, Open WebUI и LM Studio, всеки от които предлага уникални функции за използване на възможностите на Llama 3 на лични устройства.
Олама: Предлага се за Mac, Linux и Windows, Олама опростява работата на Llama 3 и други големи езикови модели на персонални компютри, дори и тези с по-малко здрав хардуер. Той включва мениджър на пакети за лесно управление на модели и поддържа команди в различни платформи за изтегляне и стартиране на модели.
Отворете WebUI с Docker: Този инструмент предоставя удобен за потребителя, докер-базиран интерфейс, съвместим с Mac, Linux и Windows. Той се интегрира безпроблемно с модели от регистъра на Ollama, позволявайки на потребителите да разгръщат и взаимодействат с модели като Llama 3 в локален уеб интерфейс.
LM Studio: Насочване към потребители на Mac, Linux и Windows, LM Studio поддържа набор от модели и е изграден върху проекта llama.cpp. Той предоставя интерфейс за чат и улеснява директното взаимодействие с различни модели, включително модела Llama 3 8B Instruct.
Тези инструменти гарантират, че потребителите могат ефективно да използват Llama 3 на своите лични устройства, като отговарят на набор от технически умения и изисквания. Всяка платформа предлага процеси стъпка по стъпка за настройка и взаимодействие с модела, което прави усъвършенствания AI по-достъпен за разработчици и ентусиасти.