Најдоброто од

5 најдобри LLM со отворен код (мај 2024)

Ажурирани on Може 1, 2024

Во светот на вештачката интелигенција (ВИ), кој брзо се развива, моделите на големи јазици (LLM) се појавија како камен-темелник, поттикнувајќи ги иновациите и преобликувајќи го начинот на кој комуницираме со технологијата.

Како што овие модели стануваат сè пософистицирани, се поголем е акцентот на демократизирање на пристапот до нив. Моделите со отворен код, особено, играат клучна улога во оваа демократизација, нудејќи им на истражувачите, програмерите и ентузијастите можност да навлезат длабоко во нивните сложености, да ги дотераат за конкретни задачи или дури и да се изградат врз нивните основи.

Во овој блог, ќе истражиме некои од најдобрите LLM со отворен код кои предизвикуваат бранови во заедницата за вештачка интелигенција, секој од нив ги носи своите уникатни предности и способности на масата.

1. Лама 2

Llama 2 на Мета е револуционерен додаток на нивната линија на модели со вештачка интелигенција. Ова не е само уште еден модел; тој е дизајниран да поттикне низа најсовремени апликации. Податоците за обука на Llama 2 се огромни и разновидни, што го прави значаен напредок во однос на неговиот претходник. Оваа разновидност во обуката гарантира дека Llama 2 не е само постепено подобрување, туку монументален чекор кон иднината на интеракциите водени од вештачката интелигенција.

Соработката помеѓу Мета и Мајкрософт ги прошири хоризонтите за Llama 2. Моделот со отворен код сега е поддржан на платформи како Azure и Windows, со цел да им обезбеди на програмерите и организациите алатки за создавање генеративни искуства управувани од вештачката интелигенција. Ова партнерство ја нагласува посветеноста на двете компании да ја направат вештачката интелигенција подостапна и отворена за сите.

Лама 2 не е само наследник на оригиналниот модел Лама; тоа претставува промена на парадигмата во арената за разговори. Додека првиот модел на Лама беше револуционерен во генерирањето текст и код, неговата достапност беше ограничена за да се спречи злоупотреба. Лама 2, од друга страна, треба да допре до поширока публика. Оптимизиран е за платформи како AWS, Azure и платформата за хостирање на модели со вештачка интелигенција на Hugging Face. Згора на тоа, со соработката на Мета со Мајкрософт, Llama 2 е подготвен да остави свој белег не само на Windows, туку и на уредите напојувани од Qualcomm Snapdragon системот-на-чип.

Безбедноста е во срцето на дизајнот на Llama 2. Препознавајќи ги предизвиците со кои се соочија претходните големи јазични модели како GPT, кои понекогаш произведуваа погрешна или штетна содржина, Мета презеде опсежни мерки за да ја обезбеди веродостојноста на Llama 2. Моделот помина низ ригорозен тренинг за да ги минимизира „халуцинациите“, дезинформациите и предрасудите.

Врвни карактеристики на LLaMa 2:

Различни податоци за обука: Податоците за обука на Llama 2 се обемни и разновидни, обезбедувајќи сеопфатно разбирање и перформанси.
Соработка со Мајкрософт: Llama 2 е поддржан на платформи како Azure и Windows, проширувајќи го својот опсег на примена.
Отворена достапност: За разлика од неговиот претходник, Llama 2 е достапен за поширока публика, подготвен за дотерување на повеќе платформи.
Безбедносно-центричен дизајн: Мета ја нагласи безбедноста, осигурувајќи дека Llama 2 произведува точни и сигурни резултати додека ги минимизира штетните резултати.
Оптимизирани верзии: Llama 2 доаѓа во две главни верзии - Llama 2 и Llama 2-Chat, при што оваа е специјално дизајнирана за двонасочни разговори. Овие верзии се движат во сложеност од 7 милијарди до 70 милијарди параметри.
Засилена обука: Лама 2 беше трениран на два милиони токени, што е значително зголемување од оригиналните 1.4 трилиони токени на Лама.

2. Блум

Во 2022 година, по глобален заеднички напор во кој беа вклучени волонтери од над 70 земји и експерти од Hugging Face, беше претставен проектот BLOOM. Овој голем јазичен модел (LLM), создаден преку едногодишна иницијатива, е дизајниран за авторегресивно генерирање на текст, способно да го прошири даденото текстуално барање. Беше обучен на огромен корпус на текстуални податоци користејќи значителна пресметковна моќ.

Дебито на BLOOM беше значаен чекор во правењето на генеративната вештачка интелигенција технологија подостапна. Како LLM со отворен код, може да се пофали со 176 милијарди параметри, што го прави еден од најзастрашувачките во својата класа. BLOOM има способност да генерира кохерентен и прецизен текст на 46 јазици и 13 програмски јазици.

Проектот ја нагласува транспарентноста, овозможувајќи пристап на јавноста до изворниот код и податоците за обуката. Оваа отвореност поканува тековно испитување, користење и подобрување на моделот.

Достапен без трошоци преку платформата Hugging Face, BLOOM е доказ за соработката на иновациите во вештачката интелигенција.

Главните карактеристики на Блум:

Повеќејазични способности: BLOOM е умешен во генерирање текст на 46 јазици и 13 програмски јазици, покажувајќи го својот широк јазичен опсег.
Пристап со отворен код: Изворниот код на моделот и податоците за обуката се јавно достапни, промовирајќи транспарентност и подобрување на соработката.
Авторегресивна генерација на текст: Дизајниран да го продолжува текстот од дадена порака, BLOOM се истакнува во проширувањето и пополнувањето на текстуалните секвенци.
Масовен број на параметри: Со 176 милијарди параметри, BLOOM е еден од најмоќните LLM со отворен код што постојат.
Глобална соработка: Развиено преку едногодишен проект со придонеси од волонтери од повеќе од 70 земји и истражувачи на Hugging Face.
Бесплатна пристапност: Корисниците можат бесплатно да пристапат и да го користат BLOOM преку екосистемот Hugging Face, подобрувајќи ја неговата демократизација на полето на вештачката интелигенција.
Обука во индустриски размери: Моделот беше обучен за огромни количини текстуални податоци користејќи значителни пресметковни ресурси, обезбедувајќи стабилни перформанси.

3. MPT-7B

MosaicML Foundations даде значаен придонес во овој простор со воведувањето на MPT-7B, нивниот најнов LLM со отворен код. MPT-7B, акроним за MosaicML Pretrained Transformer, е модел на трансформатор во стилот на GPT, само за декодер. Овој модел може да се пофали со неколку подобрувања, вклучувајќи имплементации на слоеви оптимизирани за перформанси и архитектонски промени кои обезбедуваат поголема стабилност на обуката.

Извонредна карактеристика на MPT-7B е неговата обука на обемна база на податоци што содржи 1 трилион токени текст и код. Овој ригорозен тренинг беше изведен на платформата MosaicML во период од 9.5 дена.

Природата со отворен код на MPT-7B го позиционира како вредна алатка за комерцијални апликации. Има потенцијал значително да влијае на предвидливата аналитика и процесите на донесување одлуки на бизнисите и организациите.

Покрај основниот модел, MosaicML Foundations објавува и специјализирани модели прилагодени за специфични задачи, како што се MPT-7B-Instruct за следење настава во кратки форми, MPT-7B-Chat за генерирање дијалози и MPT-7B-StoryWriter-65k+ за создавање приказна во долга форма.

Развојното патување на MPT-7B беше сеопфатно, при што тимот на MosaicML управуваше со сите фази од подготовка на податоци до распоредување во рок од неколку недели. Податоците беа добиени од различни складишта, а тимот користеше алатки како GPT-NeoX на EleutherAI и токенизаторот 20B за да обезбеди разновидна и сеопфатна мешавина за обука.

Преглед на клучни карактеристики на MPT-7B:

Комерцијално лиценцирање: MPT-7B е лиценциран за комерцијална употреба, што го прави вредно средство за бизнисите.
Опсежни податоци за обуката: Моделот може да се пофали со обука на огромна база на податоци од 1 трилион токени.
Долго ракување со внесување: MPT-7B е дизајниран да обработува екстремно долги влезови без компромис.
Брзина и ефикасност: Моделот е оптимизиран за брз тренинг и заклучување, обезбедувајќи навремени резултати.
Код со отворен код: MPT-7B доаѓа со ефикасен код за обука со отворен код, кој промовира транспарентност и леснотија на користење.
Компаративна извонредност: MPT-7B покажа супериорност во однос на другите модели со отворен код во опсегот 7B-20B, со неговиот квалитет што одговара на LLaMA-7B.

4. сокол

Falcon LLM, е модел кој брзо се искачи на врвот на хиерархијата на LLM. Falcon LLM, конкретно Falcon-40B, е основен LLM опремен со 40 милијарди параметри и е обучен на импресивни еден трилион токени. Работи како авторегресивен модел само за декодер, што во суштина значи дека го предвидува последователниот токен во секвенца заснована на претходните токени. Оваа архитектура потсетува на моделот GPT. Имено, архитектурата на Фалкон покажа супериорни перформанси во однос на GPT-3, постигнувајќи го овој подвиг со само 75% од буџетот за пресметување на обуката и барајќи значително помалку пресметки за време на заклучувањето.

Тимот од Институтот за технолошки иновации стави силен акцент на квалитетот на податоците за време на развојот на Falcon. Препознавајќи ја чувствителноста на LLM на квалитетот на податоците за обука, тие конструираа цевковод за податоци што се зголеми на десетици илјади јадра на процесорот. Ова овозможи брза обработка и извлекување на висококвалитетна содржина од веб, постигнато преку обемни процеси на филтрирање и дедупликација.

Покрај Falcon-40B, TII воведе и други верзии, вклучувајќи го и Falcon-7B, кој поседува 7 милијарди параметри и е обучен на 1,500 милијарди токени. Постојат и специјализирани модели како Falcon-40B-Instruct и Falcon-7B-Instruct, прилагодени за специфични задачи.

Обуката Фалкон-40Б беше обемен процес. Моделот беше обучен за базата на податоци RefinedWeb, огромна англиска веб-датотека конструирана од TII. Оваа база на податоци беше изградена врз CommonCrawl и беше подложена на ригорозно филтрирање за да се обезбеди квалитет. Откако беше подготвен моделот, тој беше потврден според неколку одредници со отворен код, вклучувајќи ги EAI Harness, HELM и BigBench.

Главни карактеристики Преглед на Falcon LLM:

Опсежни параметри: Falcon-40B е опремен со 40 милијарди параметри, обезбедувајќи сеопфатно учење и перформанси.
Модел само за авторегресивен декодер: Оваа архитектура му овозможува на Falcon да ги предвиди следните токени врз основа на претходните, слични на моделот GPT.
Супериорни перформанси: Фалкон го надминува GPT-3 додека користи само 75% од пресметаниот буџет за обука.
Висококвалитетен цевковод за податоци: Податоците на TII обезбедуваат екстракција на висококвалитетна содржина од мрежата, од клучно значење за обуката на моделот.
Разновидност на модели: Покрај Falcon-40B, TII нуди Falcon-7B и специјализирани модели како Falcon-40B-Instruct и Falcon-7B-Instruct.
Достапност со отворен код: Falcon LLM е со отворен код, промовирајќи пристапност и инклузивност во доменот на вештачката интелигенција.

5. Викуна-13Б

LMSYS ORG направи значаен белег во областа на LLM со отворен код со воведувањето на Vicuna-13B. Овој четбот со отворен код е прецизно обучен со дотерување на LLaMA на разговори споделени од корисници, извори од ShareGPT. Прелиминарните проценки, со GPT-4 како судија, покажуваат дека Vicuna-13B постигнува повеќе од 90% квалитет на реномираните модели како OpenAI ChatGPT и Google Bard.

Импресивно, Vicuna-13B ги надминува другите значајни модели како што се LLaMA и Stanford Alpaca во над 90% од случаите. Целиот процес на обука за Vicuna-13B беше извршен по цена од приближно 300 долари. За оние кои се заинтересирани да ги истражат неговите способности, кодот, тежините и онлајн демо се јавно достапни за некомерцијални цели.

Моделот Vicuna-13B е фино подесен со 70K разговори ChatGPT споделени од корисниците, овозможувајќи му да генерира подетални и добро структурирани одговори. Квалитетот на овие одговори е споредлив со ChatGPT. Меѓутоа, оценувањето на чет-ботови е сложен потфат. Со напредокот во GPT-4, постои зголемена љубопитност за неговиот потенцијал да служи како автоматизирана рамка за евалуација за генерирање репер и проценки на перформансите. Првичните наоди сугерираат дека GPT-4 може да произведе конзистентни рангови и детални проценки кога се споредуваат одговорите на четбот. Прелиминарните проценки базирани на GPT-4 покажуваат дека Vicuna постигнува 90% способност на модели како Bard/ChatGPT.

Преглед на клучните карактеристики на Vicuna-13B:

Природа со отворен код: Vicuna-13B е достапен за јавен пристап, промовирајќи транспарентност и вклучување на заедницата.
Опсежни податоци за обуката: Моделот е обучен за 70K разговори споделени од корисници, обезбедувајќи сеопфатно разбирање на различните интеракции.
Конкурентни перформанси: Перформансите на Vicuna-13B се на исто ниво со лидерите во индустријата како ChatGPT и Google Bard.
Ефективна обука: Целиот процес на обука за Vicuna-13B беше извршен по ниска цена од околу 300 долари.
Фино подесување на LLaMA: Моделот е фино подесен на LLaMA, обезбедувајќи подобри перформанси и квалитет на одговорот.
Достапност на онлајн демо: Достапно е интерактивно онлајн демо за корисниците да ги тестираат и искусат можностите на Vicuna-13B.

Проширување на царството на големи јазични модели

Царството на големи јазични модели е огромно и постојано се проширува, при што секој нов модел ги поместува границите на она што е можно. Природата со отворен код на LLM дискутирани во овој блог не само што го прикажува колаборативниот дух на заедницата за вештачка интелигенција, туку и го отвора патот за идни иновации.

Овие модели, од импресивните способности за четботи на Vicuna до супериорните метрики на перформанси на Falcon, го претставуваат врвот на тековната LLM технологија. Како што продолжуваме да бидеме сведоци на брз напредок на ова поле, јасно е дека моделите со отворен код ќе играат клучна улога во обликувањето на иднината на вештачката интелигенција.

Без разлика дали сте искусен истражувач, нов ентузијаст за вештачка интелигенција или некој љубопитен за потенцијалот на овие модели, нема подобро време да се нурнете и да ги истражите огромните можности што ги нудат.

Поврзани теми:Најдоброто од

Следно

10 најдобри алатки за вештачка интелигенција за партнерски маркетинг (мај 2024 година)

Не ја пропуштајте

10 најдобри медицински книжници за вештачка интелигенција (мај 2024)

Алекс Мекфарланд

Алекс Мекфарланд е новинар и писател за вештачка интелигенција кој ги истражува најновите случувања во вештачката интелигенција. Соработувал со бројни стартапи и публикации за вештачка интелигенција ширум светот.

Антоан Тардиф

Основачки партнер на unite.AI и член на Технолошкиот совет на Форбс, Антоан е а футуристички кој е страстен за иднината на вештачката интелигенција и роботиката.

Тој е и основач на Хартии од вредност.io, веб-страница која се фокусира на инвестирање во непушачка технологија.

Обединете се.AI

5 најдобри LLM со отворен код (мај 2024)

Најдоброто од

5 најдобри LLM со отворен код (мај 2024)

Содржина

1. Лама 2

2. Блум

3. MPT-7B

4. сокол

5. Викуна-13Б

Проширување на царството на големи јазични модели

Последни пораки

Обединете се.AI

5 најдобри LLM со отворен код (мај 2024)

Содржина

1. Лама 2

2. Блум

3. MPT-7B

4. сокол

5. Викуна-13Б

Проширување на царството на големи јазични модели

Можеби ви се допаѓа

Последни пораки