Вештачка интелигенција

Све што треба да знате о Ллами 3 | Најмоћнији модел отвореног кода до сада | Концепти за употребу

Ажурирано on Април КСНУМКС, КСНУМКС

Мета Ллама 3 отвореног кода ЛЛМ ОУТПЕРФОРМ ГПТ 4

Мета је недавно објављена Лама 3, следећу генерацију свог најсавременијег модела великог језика отвореног кода (ЛЛМ). Надовезујући се на основе које је поставио његов претходник, Ллама 3 има за циљ да побољша могућности које су Лламу 2 позиционирале као значајног конкурента отвореног кода ЦхатГПТ-у, као што је наведено у свеобухватном прегледу у чланку Ллама 2: Дубоко уроњење у изазов отвореног кода за ЦхатГПТ.

У овом чланку ћемо разговарати о основним концептима иза Ллама 3, истражити његову иновативну архитектуру и процес обуке и пружити практичне смернице о томе како да приступите, користите и одговорно примените овај револуционарни модел. Било да сте истраживач, програмер или АИ ентузијаста, овај пост ће вас опремити знањем и ресурсима потребним да искористите моћ Лламе 3 за своје пројекте и апликације.

Еволуција ламе: од ламе 2 до ламе 3

Извршни директор компаније Мета, Марк Закерберг, најавила деби Лламе 3, најновијег АИ модела који је развио Мета АИ. Овај најсавременији модел, сада отвореног кода, постављен је да унапреди различите Мета производе, укључујући Мессенгер и Инстаграм. Закерберг је истакао да Ллама 3 позиционира Мета АИ као најнапреднију бесплатно доступан АИ асистент.

Пре него што разговарамо о специфичностима Лламе 3, хајде да се накратко вратимо његовом претходнику, Ллама 2. Представљен 2022. године, Ллама 2 је била значајна прекретница у ЛЛМ пејзажу отвореног кода, нудећи моћан и ефикасан модел који се може покренути на потрошачком хардверу .

Међутим, иако је Ллама 2 био значајно достигнуће, имао је своја ограничења. Корисници су пријавили проблеме са лажним одбијањем (модел одбија да одговори на бенигне упите), ограниченом помоћи и простором за побољшање у областима као што су резоновање и генерисање кода.

Унесите Ллама 3: Метин одговор на ове изазове и повратне информације заједнице. Са Ллама 3, Мета је кренуо да изгради најбоље моделе отвореног кода упоредо са врхунским власничким моделима који су данас доступни, а такође даје приоритет одговорним праксама развоја и примене.

Лама 3: Архитектура и обука

Једна од кључних иновација у Ллама 3 је његов токенизер, који има значајно проширен речник КСНУМКС токени (у односу на 32,000 у Ллама 2). Овај већи речник омогућава ефикасније кодирање текста, како за унос тако и за излаз, што потенцијално доводи до јачег вишејезичности и свеукупног побољшања перформанси.

Лама 3 такође укључује Груписани упити Пажња (ГКА), ефикасна техника представљања која побољшава скалабилност и помаже моделу да ефикасније управља дужим контекстима. Тхе 8B верзија Ллама 3 користи ГКА, док обе 8B КСНУМКСБ модели могу да обрађују секвенце до КСНУМКС токени.

Подаци о обуци и скалирање

Подаци о обуци који се користе за Ллама 3 су кључни фактор за његове побољшане перформансе. Мета је курирао огроман скуп података од преко КСНУМКС трилиона токени из јавно доступних онлајн извора, седам пута већи од скупа података који се користи за Ллама 2. Овај скуп података такође укључује значајан део (преко 5%) висококвалитетних података који нису на енглеском, који покривају више од КСНУМКС језици, у припреми за будуће вишејезичне апликације.

Да би обезбедио квалитет података, Мета је користио напредне технике филтрирања, укључујући хеуристичке филтере, НСФВ филтере, семантичку дедупликацију и класификаторе текста обучени на Ллама 2 да предвиде квалитет података. Тим је такође спровео опсежне експерименте како би одредио оптималну комбинацију извора података за претходну обуку, осигуравајући да Ллама 3 добро функционише у широком спектру случајева употребе, укључујући тривијалности, СТЕМ, кодирање и историјско знање.

Повећање нивоа предобуке био је још један критичан аспект развоја Лламе 3. Мета је развио законе скалирања који су им омогућили да предвиде перформансе својих највећих модела на кључним задацима, као што је генерисање кода, пре него што их стварно обуче. Ово је дало информације о одлукама о мешавини података и алокацији рачунара, што је на крају довело до ефикасније и ефективније обуке.

Највећи модели Лламе 3 су обучени на два прилагођена кластера од 24,000 ГПУ-а, користећи комбинацију техника паралелизације података, паралелизације модела и паралелизације цевовода. Мета напредни стек за обуку аутоматизује детекцију грешака, руковање и одржавање, максимизирајући рад ГПУ-а и повећавајући ефикасност обуке за приближно три пута у поређењу са Ллама 2.

Инструкције Фино подешавање и перформансе

Да би откључао пуни потенцијал Лламе 3 за апликације за ћаскање и дијалог, Мета је иновирао свој приступ фином подешавању инструкција. Његов метод комбинује надгледано фино подешавање (СФТ), узорковање одбијања, проксимална оптимизација политике (ППО), и директна оптимизација преференција (ДПО).

Квалитет одзива који се користе у СФТ-у и рангирање преференција које се користи у ППО и ДПО играо је кључну улогу у перформансама усклађених модела. Метин тим је пажљиво курирао ове податке и извршио више кругова осигурања квалитета на напоменама које су дали људски анотатори.

Обука о рангирању преференција преко ППО и ДПО такође је значајно побољшала перформансе Лламе 3 у задацима закључивања и кодирања. Мета је открио да чак и када се модел бори да директно одговори на питање образложења, он и даље може произвести исправан траг расуђивања. Обука о рангирању преференција омогућила је моделу да научи како да изабере тачан одговор из ових трагова.

Резултати говоре сами за себе: Ллама 3 надмашује многе доступне моделе ћаскања отвореног кода на уобичајеним индустријским мерилима, успостављајући нове врхунске перформансе за ЛЛМ на скали параметара 8Б и 70Б.

Разматрање одговорног развоја и безбедности

Тражећи врхунске перформансе, Мета је такође дао приоритет одговорним праксама развоја и примене за Ллама 3. Компанија је усвојила приступ на нивоу система, замишљајући Ллама 3 моделе као део ширег екосистема који програмере ставља на место возача, омогућавајући им да дизајнирају и прилагодити моделе за њихове специфичне случајеве употребе и безбедносне захтеве.

Мета је спровела опсежне вежбе црвеног тима, извршила супротстављене процене и применила технике ублажавања безбедности како би смањила преостале ризике у својим моделима прилагођеним инструкцијама. Међутим, компанија признаје да ће преостали ризици вероватно остати и препоручује програмерима да процене ове ризике у контексту њихових специфичних случајева употребе.

Да би подржала одговорно примену, Мета је ажурирала свој Водич за одговорно коришћење, пружајући свеобухватан ресурс за програмере за имплементацију најбољих безбедносних пракси на нивоу модела и система за своје апликације. Водич покрива теме као што су модерирање садржаја, процена ризика и употреба безбедносних алата као што су Ллама Гуард 2 и Цоде Схиелд.

Ллама Гуард 2, изграђен на таксономији МЛЦоммонс, дизајниран је да класификује ЛЛМ улазе (упите) и одговоре, откривајући садржај који се може сматрати небезбедним или штетним. ЦиберСецЕвал 2 проширује свој претходник додавањем мера за спречавање злоупотребе тумача кода модела, увредљивих могућности сајбер безбедности и подложности хитним нападима убризгавањем.

Цоде Схиелд, нови увод у Ллама 3, додаје филтрирање несигурног кода који производе ЛЛМ-ови у времену закључивања, ублажавајући ризике повезане са предлозима несигурног кода, злоупотребом тумача кода и безбедним извршавањем команди.

Приступ и коришћење Лламе 3

Након лансирања Ллама 3 компаније Мета АИ, неколико алата отвореног кода постало је доступно за локалну примену на различитим оперативним системима, укључујући Мац, Виндовс и Линук. Овај одељак детаљно описује три значајна алата: Оллама, Опен ВебУИ и ЛМ Студио, од којих сваки нуди јединствене функције за коришћење Ллама 3 могућности на личним уређајима.

Оллама: Доступно за Мац, Линук и Виндовс, Оллама поједностављује рад Ллама 3 и других великих језичких модела на персоналним рачунарима, чак и онима са мање робусним хардвером. Укључује менаџер пакета за једноставно управљање моделима и подржава команде на различитим платформама за преузимање и покретање модела.

Отворите ВебУИ помоћу Доцкер-а: Овај алат пружа једноставан за употребу, лучки радник-базирани интерфејс компатибилан са Мац, Линук и Виндовс. Беспрекорно се интегрише са моделима из Оллама регистра, омогућавајући корисницима да примењују и комуницирају са моделима као што је Ллама 3 у оквиру локалног веб интерфејса.

ЛМ Студио: Циљање корисника на Мац, Линук и Виндовс, ЛМ Студио подржава низ модела и изграђен је на пројекту ллама.цпп. Пружа интерфејс за ћаскање и олакшава директну интеракцију са различитим моделима, укључујући модел Ллама 3 8Б Инструцт.

Ови алати обезбеђују да корисници могу ефикасно да користе Ллама 3 на својим личним уређајима, испуњавајући низ техничких вештина и захтева. Свака платформа нуди корак по корак процесе за подешавање и интеракцију модела, чинећи напредну вештачку интелигенцију доступнијом програмерима и ентузијастима.

Примена Лламе 3 у размери

Поред пружања директног приступа тежинама модела, Мета се удружила са различитим добављачима облака, моделским АПИ услугама и хардверским платформама како би омогућила беспрекорну примену Ллама 3 у великим размерама.

Једна од кључних предности Лламе 3 је његова побољшана ефикасност токена, захваљујући новом токенизеру. Мерила показују да Ллама 3 захтева до 15% мање токена у поређењу са Ламом 2, што резултира бржим и исплативијим закључивањем.

Интеграција Гроупед Куери Аттентион (ГКА) у 8Б верзију Лламе 3 доприноси одржавању ефикасности закључивања на нивоу 7Б верзије Ллама 2, упркос повећању броја параметара.

Да би поједноставио процес имплементације, Мета је обезбедио Ллама Реципес репозиторијум, који садржи код отвореног кода и примере за фино подешавање, примену, процену модела и још много тога. Ово спремиште служи као вредан ресурс за програмере који желе да искористе Ллама 3 могућности у својим апликацијама.

За оне који су заинтересовани да истраже перформансе Лламе 3, Мета је интегрисала своје најновије моделе у Мета АИ, водећег АИ асистента направљеног помоћу Ллама 3 технологије. Корисници могу да комуницирају са Мета АИ преко различитих Мета апликација, као што су Фацебоок, Инстаграм, ВхатсАпп, Мессенгер и веб, како би обавили ствари, научили, креирали и повезали се са стварима које су им важне.

Шта је следеће за Лламу 3?

Док модели 8Б и 70Б означавају почетак издања Ллама 3, Мета има амбициозне планове за будућност овог револуционарног ЛЛМ-а.

У наредним месецима можемо очекивати увођење нових могућности, укључујући мултимодалност (способност обраде и генерисања различитих модалитета података, као што су слике и видео снимци), вишејезичност (подржава више језика) и много дуже контекстне прозоре за побољшане перформансе на задаци који захтевају обиман контекст.

Поред тога, Мета планира да објави веће величине модела, укључујући моделе са преко 400 милијарди параметара, који су тренутно у обуци и показују обећавајуће трендове у погледу перформанси и могућности.

Да би даље унапредио ову област, Мета ће такође објавити детаљан истраживачки рад о Ллами 3, делићи своје налазе и увиде са широм АИ заједницом.

Као кратак преглед онога што долази, Мета је поделила неколико раних снимака перформанси свог највећег ЛЛМ модела на различитим мерилима. Иако су ови резултати засновани на раној контролној тачки и подложни су променама, они пружају узбудљив увид у будући потенцијал Лламе 3.

Zakljucak

Ллама 3 представља значајну прекретницу у еволуцији великих језичких модела отвореног кода, померајући границе перформанси, могућности и одговорних развојних пракси. Са својом иновативном архитектуром, масивним скупом података за обуку и најсавременијим техникама финог подешавања, Ллама 3 успоставља нова најсавременија мерила за ЛЛМ на скали параметара 8Б и 70Б.

Међутим, Ллама 3 је више од моћног језичког модела; то је сведочанство о Мета-иној посвећености неговању отвореног и одговорног АИ екосистема. Пружајући свеобухватне ресурсе, безбедносне алате и најбоље праксе, Мета омогућава програмерима да искористе пуни потенцијал Лламе 3 истовремено обезбеђујући одговорну примену прилагођену њиховим специфичним случајевима коришћења и публици.

Како се путовање Ллама 3 наставља, са новим могућностима, величинама модела и налазима истраживања на хоризонту, АИ заједница жељно ишчекује иновативне апликације и открића која ће несумњиво произаћи из овог револуционарног ЛЛМ-а.

Било да сте истраживач који помера границе обраде природног језика, програмер који гради следећу генерацију интелигентних апликација или ентузијаста АИ који је радознао о најновијим достигнућима, Ллама 3 обећава да ће бити моћан алат у вашем арсеналу, отварајући нова врата и откључавање света могућности.

Повезане теме:Ллама лама 2 Лама 3 ЛЛМ ЛЛМс Мета

Уп Нект

Мицрософт представља Пхи-3: моћни отворени АИ модели који дају врхунске перформансе при малим величинама

Не пропустите

ФругалГПТ: Промена парадигме у оптимизацији трошкова за велике језичке моделе

Ааиусх Миттал

Провео сам последњих пет година урањајући се у фасцинантан свет машинског учења и дубоког учења. Моја страст и стручност довели су ме до тога да допринесем преко 50 различитих пројеката софтверског инжењеринга, са посебним фокусом на АИ/МЛ. Моја стална радозналост ме је такође привукла ка обради природног језика, пољу које желим даље да истражујем.