Изкуствен интелект

Всичко, което трябва да знаете за Llama 3 | Най-мощният модел с отворен код досега | Концепции за използване

Обновено on Април 24, 2024

Meta Llama 3 с отворен код LLM НАДМИНА GPT 4

Meta беше пусната наскоро Лама 3, следващото поколение на неговия най-съвременен голям езиков модел (LLM) с отворен код. Надграждайки основите, поставени от своя предшественик, Llama 3 има за цел да подобри възможностите, които позиционират Llama 2 като значителен конкурент с отворен код на ChatGPT, както е посочено в изчерпателния преглед в статията Llama 2: Задълбочено потапяне в Challenger с отворен код към ChatGPT.

В тази статия ще обсъдим основните концепции зад Llama 3, ще проучим нейната иновативна архитектура и процес на обучение и ще предоставим практически насоки за това как да получите достъп, да използвате и внедрите отговорно този новаторски модел. Независимо дали сте изследовател, разработчик или ентусиаст на AI, тази публикация ще ви предостави необходимите знания и ресурси, за да използвате силата на Llama 3 за вашите проекти и приложения.

Еволюцията на ламата: от лама 2 до лама 3

Изпълнителният директор на Meta, Марк Зукърбърг, оповестен дебютът на Llama 3, най-новият AI модел, разработен от Meta AI. Този най-съвременен модел, вече с отворен код, е настроен да подобри различните продукти на Meta, включително Messenger и Instagram. Зукърбърг подчерта, че Llama 3 позиционира Meta AI като най-напредналия свободно достъпен AI помощник.

Преди да говорим за спецификата на Llama 3, нека се върнем накратко към неговия предшественик, Llama 2. Представен през 2022 г., Llama 2 беше важен крайъгълен камък в пейзажа на LLM с отворен код, предлагайки мощен и ефективен модел, който може да се изпълнява на потребителски хардуер .

Въпреки това, докато Llama 2 беше забележително постижение, имаше своите ограничения. Потребителите съобщават за проблеми с фалшиви откази (моделът, който отказва да отговори на добронамерени подкани), ограничена полезност и възможност за подобрение в области като разсъждения и генериране на код.

Въведете Llama 3: Отговорът на Meta на тези предизвикателства и обратната връзка на общността. С Llama 3 Meta се зае да изгради най-добрите модели с отворен код наравно с най-добрите патентовани модели, налични днес, като същевременно дава приоритет на отговорните практики за разработка и внедряване.

Лама 3: Архитектура и обучение

Едно от ключовите нововъведения в Llama 3 е неговият токенизатор, който включва значително разширен речник на 128,256 символи (от 32,000 2 в Llama XNUMX). Този по-голям речник позволява по-ефективно кодиране на текст, както за въвеждане, така и за изход, което потенциално води до по-силно многоезичие и цялостни подобрения на производителността.

Llama 3 също включва Групирана заявка внимание (GQA), ефективна техника за представяне, която подобрява скалируемостта и помага на модела да обработва по-ефективно по-дълги контексти. The 8B версията на Llama 3 използва GQA, докато и двете 8B намлява 70B моделите могат да обработват последователности до 8,192 символи.

Данни за обучение и мащабиране

Данните за обучение, използвани за Llama 3, са решаващ фактор за подобрената му производителност. Meta курира огромен набор от данни от над 15 трилиона токени от публично достъпни онлайн източници, седем пъти по-големи от набора от данни, използван за Llama 2. Този набор от данни включва също значителна част (над 5%) от висококачествени неанглийски данни, обхващащи повече от 30 езици, в подготовка за бъдещи многоезични приложения.

За да гарантира качеството на данните, Meta използва усъвършенствани техники за филтриране, включително евристични филтри, NSFW филтри, семантична дедупликация и текстови класификатори, обучени на Llama 2 за прогнозиране на качеството на данните. Екипът също така проведе обширни експерименти, за да определи оптималната комбинация от източници на данни за предварително обучение, като гарантира, че Llama 3 се представя добре в широк диапазон от случаи на употреба, включително любопитни факти, STEM, кодиране и исторически познания.

Увеличаването на предварителното обучение беше друг критичен аспект от развитието на Llama 3. Meta разработи закони за мащабиране, които им позволиха да предвидят ефективността на най-големите си модели за ключови задачи, като например генериране на код, преди действително да ги обучат. Това информира решенията за смесване на данни и разпределение на изчисления, което в крайна сметка води до по-ефективно и ефективно обучение.

Най-големите модели на Llama 3 бяха обучени на два специално изградени 24,000 2 GPU клъстера, като се използва комбинация от техники за паралелизиране на данни, паралелизиране на модели и техники за паралелизиране на конвейер. Усъвършенстваният стек за обучение на Meta автоматизира откриването, обработката и поддръжката на грешки, като увеличава максимално времето за работа на GPU и увеличава ефективността на обучението приблизително три пъти в сравнение с Llama XNUMX.

Инструкция за фина настройка и производителност

За да отключи пълния потенциал на Llama 3 за приложения за чат и диалог, Meta обнови своя подход към фината настройка на инструкциите. Неговият метод съчетава контролирана фина настройка (SFT), вземане на проби за отхвърляне, оптимизация на проксималната политика (PPO), и директна оптимизация на предпочитанията (DPO).

Качеството на подканите, използвани в SFT, и класирането на предпочитанията, използвани в PPO и DPO, изиграха решаваща роля в представянето на съгласуваните модели. Екипът на Meta внимателно подреди тези данни и извърши множество кръгове за осигуряване на качеството на анотациите, предоставени от човешки анотатори.

Обучението за класиране на предпочитанията чрез PPO и DPO също значително подобри представянето на Llama 3 при задачи за разсъждение и кодиране. Мета установи, че дори когато един модел се бори да отговори директно на въпрос за разсъждение, той все още може да произведе правилната следа за разсъждение. Обучението за класирането на предпочитанията позволи на модела да научи как да избере правилния отговор от тези следи.

Резултатите говорят сами за себе си: Llama 3 превъзхожда много налични модели за чат с отворен код на общи стандарти за индустрията, установявайки нова най-съвременна производителност за LLM при скали на параметри 8B и 70B.

Съображения за отговорно развитие и безопасност

Докато се стреми към авангардна производителност, Meta също даде приоритет на отговорните практики за разработка и внедряване за Llama 3. Компанията възприе подход на системно ниво, предвиждайки моделите Llama 3 като част от по-широка екосистема, която поставя разработчиците на мястото на водача, позволявайки им да проектират и персонализирайте моделите за техните специфични случаи на употреба и изисквания за безопасност.

Meta проведе обширни учения за екипиране, извърши състезателни оценки и внедри техники за смекчаване на безопасността, за да намали остатъчните рискове в своите модели, настроени с инструкции. Компанията обаче признава, че остатъчните рискове вероятно ще останат и препоръчва разработчиците да оценят тези рискове в контекста на техните специфични случаи на употреба.

За да подпомогне отговорното внедряване, Meta актуализира своето Ръководство за отговорна употреба, предоставяйки изчерпателен ресурс за разработчиците за прилагане на най-добрите практики за безопасност на ниво система и модел за техните приложения. Ръководството обхваща теми като модериране на съдържание, оценка на риска и използване на инструменти за безопасност като Llama Guard 2 и Code Shield.

Llama Guard 2, изграден върху таксономията на MLCommons, е проектиран да класифицира LLM входове (подкани) и отговори, откривайки съдържание, което може да се счита за опасно или вредно. CyberSecEval 2 разширява своя предшественик, като добавя мерки за предотвратяване на злоупотреба с кодовия интерпретатор на модела, офанзивни възможности за киберсигурност и чувствителност към незабавни атаки с инжектиране.

Code Shield, ново въведение с Llama 3, добавя филтриране по време на извод на несигурен код, произведен от LLM, смекчавайки рисковете, свързани с предложения за несигурен код, злоупотреба с интерпретатор на код и сигурно изпълнение на команди.

Достъп и използване на Llama 3

След стартирането на Llama 3 на Meta AI, няколко инструмента с отворен код бяха предоставени за локално внедряване на различни операционни системи, включително Mac, Windows и Linux. Този раздел описва подробно три забележителни инструмента: Ollama, Open WebUI и LM Studio, всеки от които предлага уникални функции за използване на възможностите на Llama 3 на лични устройства.

Олама: Предлага се за Mac, Linux и Windows, Олама опростява работата на Llama 3 и други големи езикови модели на персонални компютри, дори и тези с по-малко здрав хардуер. Той включва мениджър на пакети за лесно управление на модели и поддържа команди в различни платформи за изтегляне и стартиране на модели.

Отворете WebUI с Docker: Този инструмент предоставя удобен за потребителя, докер-базиран интерфейс, съвместим с Mac, Linux и Windows. Той се интегрира безпроблемно с модели от регистъра на Ollama, позволявайки на потребителите да разгръщат и взаимодействат с модели като Llama 3 в локален уеб интерфейс.

LM Studio: Насочване към потребители на Mac, Linux и Windows, LM Studio поддържа набор от модели и е изграден върху проекта llama.cpp. Той предоставя интерфейс за чат и улеснява директното взаимодействие с различни модели, включително модела Llama 3 8B Instruct.

Тези инструменти гарантират, че потребителите могат ефективно да използват Llama 3 на своите лични устройства, като отговарят на набор от технически умения и изисквания. Всяка платформа предлага процеси стъпка по стъпка за настройка и взаимодействие с модела, което прави усъвършенствания AI по-достъпен за разработчици и ентусиасти.

Разгръщане на Llama 3 в мащаб

В допълнение към предоставянето на директен достъп до теглата на модела, Meta си партнира с различни облачни доставчици, API услуги на модели и хардуерни платформи, за да позволи безпроблемно внедряване на Llama 3 в мащаб.

Едно от ключовите предимства на Llama 3 е неговата подобрена ефективност на токени, благодарение на новия токенизатор. Бенчмарковете показват, че Llama 3 изисква до 15% по-малко токени в сравнение с Llama 2, което води до по-бързо и по-рентабилно заключение.

Интегрирането на Grouped Query Attention (GQA) във версия 8B на Llama 3 допринася за поддържане на ефективността на извода наравно с версията 7B на Llama 2, въпреки увеличаването на броя на параметрите.

За да опрости процеса на внедряване, Meta предостави хранилището на Llama Recipes, което съдържа код с отворен код и примери за фина настройка, внедряване, оценка на модела и др. Това хранилище служи като ценен ресурс за разработчиците, които искат да използват възможностите на Llama 3 в своите приложения.

За тези, които се интересуват от изследване на производителността на Llama 3, Meta интегрира най-новите си модели в Meta AI, водещ AI асистент, създаден с технологията Llama 3. Потребителите могат да взаимодействат с Meta AI чрез различни Meta приложения, като Facebook, Instagram, WhatsApp, Messenger и мрежата, за да вършат нещата, да учат, създават и да се свързват с нещата, които имат значение за тях.

Какво следва за Llama 3?

Докато моделите 8B и 70B бележат началото на пускането на Llama 3, Meta има амбициозни планове за бъдещето на този новаторски LLM.

През следващите месеци можем да очакваме да видим въвеждане на нови възможности, включително мултимодалност (възможност за обработка и генериране на различни модалности на данни, като изображения и видеоклипове), многоезичие (поддържане на множество езици) и много по-дълги контекстни прозорци за подобрена производителност на задачи, които изискват обширен контекст.

Освен това Meta планира да пусне по-големи размери на модели, включително модели с над 400 милиарда параметри, които в момента са в процес на обучение и показват обещаващи тенденции по отношение на производителност и възможности.

За по-нататъшен напредък в тази област Meta ще публикува и подробна изследователска статия за Llama 3, споделяйки своите открития и прозрения с по-широката общност на AI.

Като предварителен преглед на това, което предстои, Meta сподели някои ранни моментни снимки на представянето на най-големия си LLM модел при различни бенчмаркове. Въпреки че тези резултати се основават на ранна контролна точка и подлежат на промяна, те предоставят вълнуващ поглед към бъдещия потенциал на Llama 3.

Заключение

Llama 3 представлява важен крайъгълен камък в еволюцията на големите езикови модели с отворен код, разширявайки границите на производителността, възможностите и отговорните практики за разработка. Със своята новаторска архитектура, масивен набор от данни за обучение и авангардни техники за фина настройка, Llama 3 установява нови най-съвременни еталони за LLM при скали на параметри 8B и 70B.

Въпреки това, Llama 3 е нещо повече от мощен езиков модел; това е доказателство за ангажимента на Meta за насърчаване на отворена и отговорна AI екосистема. Като предоставя изчерпателни ресурси, инструменти за безопасност и най-добри практики, Meta дава възможност на разработчиците да използват пълния потенциал на Llama 3, като същевременно осигурява отговорно внедряване, съобразено с техните специфични случаи на употреба и аудитория.

Докато пътуването на Llama 3 продължава, с нови възможности, размери на модела и открития от изследвания на хоризонта, AI общността с нетърпение очаква иновативните приложения и пробивите, които несъмнено ще излязат от този новаторски LLM.

Независимо дали сте изследовател, разширяващ границите на обработката на естествен език, разработчик, изграждащ следващото поколение интелигентни приложения, или AI ентусиаст, любопитен за най-новите постижения, Llama 3 обещава да бъде мощен инструмент във вашия арсенал, отваряйки нови врати и отключване на свят от възможности.

Свързани теми:Лама лама 2 Лама 3 Магистър по право LLM мета

Следва

Microsoft разкрива Phi-3: Мощни отворени AI модели, осигуряващи най-добра производителност при малки размери

Не пропускайте

FrugalGPT: Промяна на парадигмата в оптимизирането на разходите за големи езикови модели

Аюш Митал

Прекарах последните пет години, потапяйки се в завладяващия свят на машинното обучение и дълбокото обучение. Моята страст и опит ме накараха да допринеса за над 50 различни проекта за софтуерно инженерство, със специален фокус върху AI/ML. Продължаващото ми любопитство също ме насочи към обработката на естествен език, област, която нямам търпение да проуча по-нататък.