Најбоље од

5 најбољих мастер студија отвореног кода (мај 2024.)

Ажурирано on Може 1, 2024

У свету вештачке интелигенције (АИ), који се брзо развија, велики језички модели (ЛЛМ) су се појавили као камен темељац, подстичући иновације и преобликујући начин на који комуницирамо са технологијом.

Како ови модели постају све софистициранији, све је већи нагласак на демократизацији приступа њима. Модели отвореног кода, посебно, играју кључну улогу у овој демократизацији, нудећи истраживачима, програмерима и ентузијастима прилику да уђу дубоко у њихове замршености, фино их подесе за специфичне задатке или чак изграде на њиховим темељима.

У овом блогу ћемо истражити неке од најбољих ЛЛМ-ова отвореног кода који стварају таласе у заједници вештачке интелигенције, од којих сваки доноси своје јединствене снаге и могућности.

1. Лама 2

Мета'с Ллама 2 је револуционарни додатак њиховој линији АИ модела. Ово није само још један модел; дизајниран је да покреће низ најсавременијих апликација. Подаци о обуци Лламе 2 су огромни и разноврсни, што га чини значајним напретком у односу на свог претходника. Ова разноликост у обуци осигурава да Ллама 2 није само постепено побољшање већ монументални корак ка будућности интеракција вођених вештачком интелигенцијом.

Сарадња између Мета и Мицрософта проширила је хоризонте за Ллама 2. Модел отвореног кода је сада подржан на платформама као што су Азуре и Виндовс, са циљем да се програмерима и организацијама обезбеде алати за креирање генеративних искустава вођених вештачком интелигенцијом. Ово партнерство наглашава посвећеност обе компаније да АИ учини доступнијом и отворенијом за све.

Ллама 2 није само наследник оригиналног Ллама модела; представља промену парадигме у арени цхатбот-а. Док је први Ллама модел био револуционаран у генерисању текста и кода, његова доступност је била ограничена да би се спречила злоупотреба. Ллама 2, с друге стране, треба да допре до шире публике. Оптимизован је за платформе као што су АВС, Азуре и платформа за хостовање АИ модела Хуггинг Фаце. Штавише, са сарадњом Мета са Мицрософтом, Ллама 2 је спремна да остави свој траг не само на Виндовс-у већ и на уређајима које покреће Куалцомм-ов Снапдрагон систем на чипу.

Безбедност је у срцу дизајна Лламе 2. Препознајући изазове са којима су се суочавали ранији велики језички модели као што је ГПТ, који су понекад производили обмањујући или штетан садржај, Мета је предузео опсежне мере да обезбеди поузданост Лламе 2. Модел је прошао ригорозну обуку како би минимизирао 'халуцинације', дезинформације и предрасуде.

Главне карактеристике ЛЛаМа 2:

Различити подаци о обуци: Подаци о обуци Лламе 2 су и обимни и разноврсни, обезбеђујући свеобухватно разумевање и перформансе.
Сарадња са Мицрософтом: Ллама 2 је подржан на платформама као што су Азуре и Виндовс, што проширује обим примене.
Отворена доступност: За разлику од свог претходника, Ллама 2 је доступна широј публици, спремна за фино подешавање на више платформи.
Дизајн оријентисан на безбедност: Мета је нагласио безбедност, обезбеђујући да Ллама 2 даје тачне и поуздане резултате док минимизира штетне ефекте.
Оптимизоване верзије: Ллама 2 долази у две главне верзије – Ллама 2 и Ллама 2-Цхат, при чему је ова друга посебно дизајнирана за двосмерне разговоре. Ове верзије се крећу у сложености од 7 милијарди до 70 милијарди параметара.
Побољшана обука: Ллама 2 је обучен на два милиона токена, што је значајно повећање у односу на оригиналних Лламиних 1.4 трилиона жетона.

2. цвет

2022. године, након глобалне сарадње која укључује волонтере из преко 70 земаља и стручњаке из Хуггинг Фаце-а, БЛООМ пројекат је представљен. Овај велики језички модел (ЛЛМ), креиран кроз једногодишњу иницијативу, дизајниран је за ауторегресивно генерисање текста, способан да прошири дату текстуалну линију. Обучен је на огромном корпусу текстуалних података користећи значајну рачунарску снагу.

БЛООМ-ов деби био је значајан корак у томе да генеративна АИ технологија постане приступачнија. Као ЛЛМ отвореног кода, може се похвалити са 176 милијарди параметара, што га чини једним од најстрашнијих у својој класи. БЛООМ има вештину да генерише кохерентан и прецизан текст на 46 језика и 13 програмских језика.

Пројекат наглашава транспарентност, омогућавајући јавности приступ изворном коду и подацима о обуци. Ова отвореност позива на континуирано испитивање, коришћење и унапређење модела.

Доступан бесплатно преко Хуггинг Фаце платформе, БЛООМ представља сведочанство колаборативних иновација у АИ.

Главне карактеристике Блоом-а:

Вишејезичне могућности: БЛООМ је вешт у генерисању текста на 46 језика и 13 програмских језика, показујући свој широк лингвистички опсег.
Приступ отвореног кода: Изворни код модела и подаци о обуци су јавно доступни, промовишући транспарентност и унапређење сарадње.
Ауторегресивно генерисање текста: Дизајниран да настави текст из датог упита, БЛООМ се истиче у проширењу и довршавању текстуалних секвенци.
Огроман број параметара: Са 176 милијарди параметара, БЛООМ је један од најмоћнијих ЛЛМ-а отвореног кода који постоје.
Глобална сарадња: Развијен кроз једногодишњи пројекат уз доприносе волонтера из више од 70 земаља и истраживача Хуггинг Фаце.
Бесплатна доступност: Корисници могу да приступе и користе БЛООМ бесплатно преко екосистема Хуггинг Фаце, побољшавајући његову демократизацију у области вештачке интелигенције.
Индустријска обука: Модел је обучен на огромним количинама текстуалних података користећи значајне рачунарске ресурсе, обезбеђујући робусне перформансе.

3. МПТ-7Б

Фондације МосаицМЛ су дале значајан допринос овом простору увођењем МПТ-7Б, њиховог најновијег ЛЛМ отвореног кода. МПТ-7Б, акроним за МосаицМЛ Претраинед Трансформер, је модел трансформатора у ГПТ стилу, само за декодер. Овај модел се може похвалити неколико побољшања, укључујући имплементације слојева оптимизованих за перформансе и архитектонске промене које обезбеђују већу стабилност тренинга.

Изузетна карактеристика МПТ-7Б је његова обука на обимном скупу података који се састоји од 1 билион токена текста и кода. Ова ригорозна обука је спроведена на МосаицМЛ платформи у периоду од 9.5 дана.

Природа МПТ-7Б отвореног кода позиционира га као вредан алат за комерцијалне апликације. Има потенцијал да значајно утиче на предиктивну аналитику и процесе доношења одлука у предузећима и организацијама.

Поред основног модела, МосаицМЛ Фоундатионс такође објављује специјализоване моделе скројене за специфичне задатке, као што су МПТ-7Б-Инструцт за праћење кратких инструкција, МПТ-7Б-Цхат за генерисање дијалога и МПТ-7Б-СториВритер-65к+ за стварање дуге приче.

Развојни пут МПТ-7Б био је свеобухватан, са МосаицМЛ тимом који је управљао свим фазама од припреме података до примене у року од неколико недеља. Подаци су добијени из различитих репозиторија, а тим је користио алате као што су ЕлеутхерАИ-јев ГПТ-НеоКс и 20Б токенизер да би обезбедио разнолик и свеобухватан микс за обуку.

Преглед кључних карактеристика МПТ-7Б:

Комерцијално лиценцирање: МПТ-7Б је лиценциран за комерцијалну употребу, што га чини вредном имовином за предузећа.
Обимни подаци о обуци: Модел се може похвалити обуком на огромном скупу података од 1 билион токена.
Дуго руковање уносом: МПТ-7Б је дизајниран за обраду изузетно дугих улаза без компромиса.
Брзина и ефикасност: Модел је оптимизован за брзу обуку и закључивање, обезбеђујући правовремене резултате.
Отворени код: МПТ-7Б долази са ефикасним отвореним кодом за обуку, промовишући транспарентност и лакоћу коришћења.
Компаративна изврсност: МПТ-7Б је показао супериорност у односу на друге моделе отвореног кода у опсегу 7Б-20Б, са својим квалитетом који одговара оном ЛЛаМА-7Б.

4. Соко

Фалцон ЛЛМ, је модел који се брзо попео на врх ЛЛМ хијерархије. Фалцон ЛЛМ, посебно Фалцон-40Б, је основни ЛЛМ опремљен са 40 милијарди параметара и обучен је на импресивних трилион токена. Он функционише као модел само за ауторегресивни декодер, што у суштини значи да предвиђа следећи токен у низу на основу претходних токена. Ова архитектура подсећа на ГПТ модел. Значајно је да је Фалцонова архитектура показала супериорне перформансе у односу на ГПТ-3, постигавши овај подвиг са само 75% прорачунског буџета за обуку и захтевајући знатно мање израчунавања током закључивања.

Тим Института за технолошке иновације ставио је снажан нагласак на квалитет података током развоја Фалцон-а. Препознајући осетљивост ЛЛМ-а на квалитет података за обуку, они су конструисали цевовод података који се проширио на десетине хиљада ЦПУ језгара. Ово је омогућило брзу обраду и издвајање висококвалитетног садржаја са веба, постигнуто кроз опсежне процесе филтрирања и дедупликације.

Поред Фалцон-40Б, ТИИ је такође представио и друге верзије, укључујући Фалцон-7Б, који поседује 7 милијарди параметара и обучен је на 1,500 милијарди токена. Постоје и специјализовани модели попут Фалцон-40Б-Инструцт и Фалцон-7Б-Инструцт, прилагођени специфичним задацима.

Обука Фалцон-40Б је био обиман процес. Модел је обучен на скупу података РефинедВеб, огромном енглеском веб скупу података који је конструисао ТИИ. Овај скуп података је изграђен на врху ЦоммонЦравл-а и прошао је ригорозно филтрирање како би се осигурао квалитет. Када је модел припремљен, валидиран је у односу на неколико стандарда отвореног кода, укључујући ЕАИ Харнесс, ХЕЛМ и БигБенцх.

Преглед кључних карактеристика Фалцон ЛЛМ:

Екстензивни параметри: Фалцон-40Б је опремљен са 40 милијарди параметара, обезбеђујући свеобухватно учење и перформансе.
Модел само за ауторегресивни декодер: Ова архитектура омогућава Фалцону да предвиди следеће токене на основу претходних, слично ГПТ моделу.
Врхунске перформансе: Фалцон надмашује ГПТ-3 док користи само 75% буџета за обуку.
Водовод података високог квалитета: ТИИ-ов цевовод података обезбеђује екстракцију висококвалитетног садржаја са веба, кључног за обуку модела.
Разноврсност модела: Поред Фалцон-40Б, ТИИ нуди Фалцон-7Б и специјализоване моделе као што су Фалцон-40Б-Инструцт и Фалцон-7Б-Инструцт.
Доступност отвореног кода: Фалцон ЛЛМ је отвореног кода, промовишући приступачност и инклузивност у домену вештачке интелигенције.

5. Вицуна-13Б

ЛМСИС ОРГ је оставио значајан траг у домену ЛЛМ-ова отвореног кода увођењем Вицуна-13Б. Овај чет-бот отвореног кода је помно обучен финим подешавањем ЛЛаМА за разговоре које деле корисници који потичу из СхареГПТ-а. Прелиминарне процене, са ГПТ-4 као судија, показују да Вицуна-13Б постиже више од 90% квалитета реномираних модела као што су ОпенАИ ЦхатГПТ и Гоогле Бард.

Импресивно, Вицуна-13Б надмашује друге запажене моделе као што су ЛЛаМА и Станфорд Алпаца у преко 90% случајева. Цео процес обуке за Вицуна-13Б је изведен по цени од око 300 долара. За оне који су заинтересовани да истраже његове могућности, код, тежине и онлајн демо су јавно доступни у некомерцијалне сврхе.

Модел Вицуна-13Б је фино подешен са 70 ЦхатГПТ разговора које деле корисници, што му омогућава да генерише детаљније и добро структуриране одговоре. Квалитет ових одговора је упоредив са ЦхатГПТ. Међутим, процена цхатботова је сложен подухват. Са напретком у ГПТ-4, расте радозналост у вези са његовим потенцијалом да служи као аутоматизовани оквир за евалуацију за генерисање референтних вредности и процене перформанси. Иницијални налази сугеришу да ГПТ-4 може да произведе доследне рангове и детаљне процене када се упореде одговори цхатбот-а. Прелиминарне процене засноване на ГПТ-4 показују да Вицуна постиже 90% могућности модела као што је Бард/ЦхатГПТ.

Преглед кључних карактеристика Вицуна-13Б:

Природа отвореног кода: Вицуна-13Б је доступан за јавни приступ, промовишући транспарентност и учешће заједнице.
Обимни подаци о обуци: Модел је обучен за 70 разговора које деле корисници, обезбеђујући свеобухватно разумевање различитих интеракција.
Такмичарски учинак: Учинак Вицуна-13Б је у рангу са лидерима у индустрији као што су ЦхатГПТ и Гоогле Бард.
Исплатива обука: Цео процес обуке за Вицуна-13Б изведен је по ниској цени од око 300 долара.
Фино подешавање на ЛЛаМА: Модел је фино подешен на ЛЛаМА, обезбеђујући побољшане перформансе и квалитет одзива.
Доступност онлајн демо: Интерактивни онлајн демо је доступан корисницима да тестирају и искусе могућности Вицуна-13Б.

Проширујућа област модела великих језика

Подручје великих језичких модела је огромно и све се шири, а сваки нови модел помера границе могућег. Природа ЛЛМ-а отвореног кода о којој се расправља на овом блогу не само да показује дух сарадње заједнице АИ, већ и утире пут будућим иновацијама.

Ови модели, од Вицуниних импресивних могућности цхатбот-а до Фалцонових супериорних метрика перформанси, представљају врхунац тренутне ЛЛМ технологије. Како настављамо да присуствујемо брзом напретку у овој области, јасно је да ће модели отвореног кода играти кључну улогу у обликовању будућности вештачке интелигенције.

Без обзира да ли сте искусан истраживач, ентузијаста за вештачку интелигенцију или неко ко је знатижељан о потенцијалима ових модела, нема бољег времена да зароните и истражите огромне могућности које они нуде.

Повезане теме:најбоље од

Уп Нект

10 најбољих АИ алата за партнерски маркетинг (мај 2024.)

Не пропустите

10 најбољих медицинских писара АИ (мај 2024.)

Алек МцФарланд

Алекс МекФарленд је новинар и писац вештачке интелигенције који истражује најновија достигнућа у вештачкој интелигенцији. Сарађивао је са бројним АИ стартаповима и публикацијама широм света.

Антоан Тардиф

Оснивачки партнер уните.АИ и члан Форбсов технолошки савет, Антоан је а футуристички који је страствен за будућност вештачке интелигенције и роботике.

Такође је оснивач Сецуритиес.ио, веб локација која се фокусира на улагање у дисруптивну технологију.

Уните.АИ

5 најбољих мастер студија отвореног кода (мај 2024.)

Најбоље од

5 најбољих мастер студија отвореног кода (мај 2024.)

Преглед садржаја

1. Лама 2

2. цвет

3. МПТ-7Б

4. Соко

5. Вицуна-13Б

Проширујућа област модела великих језика

Последње објаве

Уните.АИ

5 најбољих мастер студија отвореног кода (мај 2024.)

Преглед садржаја

1. Лама 2

2. цвет

3. МПТ-7Б

4. Соко

5. Вицуна-13Б

Проширујућа област модела великих језика

Можда вам се свидја

Последње објаве