никулец Откривање на Мета Лама 3: Скок напред во големи јазични модели - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Откривање на Мета Лама 3: Скок напред во големи јазични модели

mm
Ажурирани on

На полето на генеративната вештачка интелигенција, Мета продолжува да води со својата посветеност на достапноста на софтвер со отворен код, дистрибуирајќи ја својата напредна серија Мета вештачка интелигенција со големи јазици (Llama) на глобално ниво до програмерите и истражувачите. Надоврзувајќи се на своите прогресивни иницијативи, Мета неодамна ја претстави третата итерација од оваа серија, Лама 3. Ова ново издание значително се подобрува Лама 2, нудејќи бројни подобрувања и поставување одредници што ги предизвикуваат конкурентите во индустријата како Google, Mistral и Anthropic. Оваа статија ги истражува значајните достигнувања на Лама 3 и како таа се споредува со нејзиниот претходник, Лама 2.

Серијата Лама на Мета: од ексклузивна до отворен пристап и подобрени перформанси

Мета ја започна својата серија Лама во 2022 година со лансирањето на Лама 1, модел ограничен на некомерцијална употреба и достапен само за избрани истражувачки институции поради огромните пресметковни барања и сопственичката природа што ги карактеризираше врвните LLM во тоа време. Во 2023 година, со лансирањето на Llama 2, Meta AI се префрли кон поголема отвореност, нудејќи го моделот слободно и за истражувачки и за комерцијални цели. Овој потег беше дизајниран да го демократизира пристапот до софистицирани технологии за генерирање на вештачка интелигенција, дозволувајќи им на поширок спектар на корисници, вклучително и стартапи и помали истражувачки тимови, да иновираат и развиваат апликации без големи трошоци кои обично се поврзани со моделите од големи размери. Продолжувајќи го овој тренд кон отвореност, Мета ја претстави Llama 3, која се фокусира на подобрување на перформансите на помалите модели низ различни индустриски одредници.

Ви ја претставуваме Лама 3

Llama 3 е втората генерација на големи јазични модели (LLM) на Meta со отворен код, кои се одликуваат со претходно обучени и фино подесени модели со инструкции со параметри 8B и 70B. Во согласност со своите претходници, Llama 3 користи a само за декодер трансформаторска архитектура и ја продолжува практиката на авторегресивно, само-надгледувана обука да се предвидат следните токени во текстуални секвенци. Llama 3 е претходно обучен на база на податоци што е седум пати поголема од онаа што се користи за Llama 2, која содржи над 15 трилиони токени извлечени од ново курирана мешавина на јавно достапни онлајн податоци. Оваа огромна база на податоци се обработува со користење на две кластери опремени со 24,000 графички процесори. За да се одржи високиот квалитет на овие податоци за обука, различни ВИ центрирана на податоци беа употребени техники, вклучувајќи хеуристички и NSFW филтри, семантичка дедупликација, и класификација на квалитетот на текстот. Приспособен за апликации за дијалози, моделот Llama 3 Instruct е значително подобрен, вклучувајќи над 10 милиони примероци на податоци означени со луѓе и користејќи софистицирана мешавина на методи за обука, како што се надгледувано дотерување (SFT), земање примероци за отфрлање, оптимизација на проксимална политика (PPO), и директна оптимизација на политики (DPO).

Лама 3 наспроти Лама 2: Клучни подобрувања

Llama 3 носи неколку подобрувања во однос на Llama 2, значително зголемувајќи ја неговата функционалност и перформанси:

  • Проширен речник: Лама 3 го зголеми својот вокабулар на 128,256 токени, што е повеќе од 2 токени на Лама 32,000. Ова подобрување поддржува поефикасно кодирање на текст и за влезови и за излези и ги зајакнува неговите повеќејазични способности.
  • Проширена должина на контекст: Моделите Llama 3 обезбедуваат должина на контекст од 8,000 токени, удвојувајќи ги 4,090 токени поддржани од Llama 2. Ова зголемување овозможува пообемно ракување со содржината, опфаќајќи ги и корисничките барања и одговорите на моделите.
  • Надградени податоци за обука: Податокот за обука за Llama 3 е седум пати поголем од оној на Llama 2, вклучувајќи четири пати повеќе код. Содржи над 5% висококвалитетни, неанглиски податоци кои опфаќаат повеќе од 30 јазици, што е од клучно значење за поддршка на повеќејазични апликации. Овие податоци се подложени на ригорозна контрола на квалитетот со користење на напредни техники како што се хеуристички и NSFW филтри, семантичко дедуплирање и класификатори на текст.
  • Рафинирана инструкција-подесување и евалуација: Разидувајќи се од Llama 2, Llama 3 користи напредни техники за подесување на инструкциите, вклучувајќи надгледувано фино подесување (SFT), земање примероци за отфрлање, оптимизација на проксимална политика (PPO) и директна оптимизација на политиката (DPO). За да се зголеми овој процес, воведен е нов висококвалитетен сет за вреднување на луѓето, кој се состои од 1,800 потсетници кои покриваат различни случаи на употреба, како што се совети, бура на идеи, класификација, кодирање и друго, обезбедувајќи сеопфатна проценка и дотерување на можностите на моделот.
  • Напредна безбедност на вештачка интелигенција: Llama 3, како и Llama 2, вклучува строги безбедносни мерки како што се дотерување на инструкциите и сеопфатно црвено-тимирање за да се ублажат ризиците, особено во критичните области како сајбер безбедноста и биолошките закани. Како поддршка на овие напори, Мета ја претстави и Llama Guard 2, фино подесена на верзијата 8B на Llama 3. Овој нов модел го подобрува Лама гарда серија со класифицирање на влезовите и одговорите на LLM за да се идентификуваат потенцијално небезбедните содржини, што го прави идеален за производствени средини.

Достапност на Лама 3

Моделите Llama 3 сега се интегрирани во Екосистем за гушкање лице, подобрување на пристапноста за програмерите. Моделите се достапни и преку платформи модел како услуга како што се Лаборатории за збунетост Огномет.ai, и на облак платформи како AWS SageMaker, AzureML, и Вертекс АИ. Мета планира дополнително да ја прошири достапноста на Llama 3, вклучувајќи ги и платформите како Google Cloud, Kaggle, IBM WatsonX, NVIDIA NIM и Snowflake. Дополнително, хардверската поддршка за Llama 3 ќе биде проширена за да вклучи платформи од AMD, AWS, Dell, Intel, NVIDIA и Qualcomm.

Претстојни подобрувања во Лама 3

Мета откри дека сегашното издание на Llama 3 е само почетна фаза во нивната поширока визија за целосната верзија на Llama 3. Тие развиваат напреден модел со над 400 милијарди параметри кој ќе воведе нови функции, вклучувајќи мултимодалност и капацитет за ракува со повеќе јазици. Оваа подобрена верзија ќе има и значително проширен контекстен прозорец и подобрени севкупни можности за изведба.

Во крајна линија

Llama 3 на Мета означува значајна еволуција во пејзажот на големите јазични модели, придвижувајќи ја серијата не само кон поголема пристапност со отворен код, туку и значително подобрување на нејзините способности за изведба. Со збирка податоци за обука седум пати поголема од својот претходник и карактеристики како што се проширен речник и зголемена должина на контекстот, Llama 3 поставува нови одредници што ги предизвикуваат дури и најсилните конкуренти во индустријата.

Оваа трета итерација не само што продолжува да ја демократизира технологијата на вештачката интелигенција со тоа што ги става на располагање способностите на високо ниво за поширок спектар на програмери, туку и воведува значителен напредок во безбедноста и прецизноста на обуката. Со интегрирање на овие модели во платформи како Hugging Face и проширување на достапноста преку главните облак услуги, Meta се погрижува Llama 3 да е сеприсутна толку и моќна.

Гледајќи напред, тековниот развој на Мета ветува уште поцврсти способности, вклучително мултимодалност и проширена јазична поддршка, поставувајќи ја основата за Llama 3 не само да се натпреварува, туку и потенцијално да ги надмине другите големи модели со вештачка интелигенција на пазарот. Лама 3 е доказ за посветеноста на Мета да ја води револуцијата на вештачката интелигенција, обезбедувајќи алатки кои не се само попристапни, туку и значително понапредни и побезбедни за глобалната корисничка база.

Д-р Техсен Зиа е вонреден професор на Универзитетот COMSATS во Исламабад, докторирајќи по вештачка интелигенција од Виенскиот универзитет за технологија, Австрија. Специјализиран за вештачка интелигенција, машинско учење, наука за податоци и компјутерска визија, тој има направено значителен придонес со публикации во реномирани научни списанија. Д-р Техсин, исто така, водеше различни индустриски проекти како главен истражувач и служеше како консултант за вештачка интелигенција.