кочан 5 най-добри LLM с отворен код (май 2024 г.) - Unite.AI
Свържете се с нас
Array ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [nickname] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [имейл защитен]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Основател на unite.AI и член на Технологичен съвет на Forbes, Антоан е а футурист който е страстен за бъдещето на AI и роботиката. Той е и основател на Ценни книжа.io, уебсайт, който се фокусира върху инвестирането в революционни технологии. [user_avatar] => mm
)

Най-добър от

5 най-добри LLM с отворен код (май 2024 г.)

Обновено on
LLM с отворен код

В бързо развиващия се свят на изкуствения интелект (AI) Големите езикови модели (LLM) се очертаха като крайъгълен камък, движейки иновациите и променяйки начина, по който взаимодействаме с технологиите.

Тъй като тези модели стават все по-сложни, все повече се набляга на демократизирането на достъпа до тях. Моделите с отворен код, по-специално, играят централна роля в тази демократизация, предлагайки на изследователи, разработчици и ентусиасти еднакво възможността да навлязат дълбоко в техните тънкости, да ги прецизират за конкретни задачи или дори да надграждат върху техните основи.

В този блог ще проучим някои от най-добрите LLM с отворен код, които правят вълни в общността на AI, като всеки от тях представя своите уникални силни страни и възможности.

1. Лама 2

Llama 2 на Meta е новаторско допълнение към тяхната гама модели с изкуствен интелект. Това не е просто още един модел; той е проектиран да подхранва набор от най-съвременни приложения. Данните за обучение на Llama 2 са обширни и разнообразни, което го прави значителен напредък в сравнение с предшественика му. Това разнообразие в обучението гарантира, че Llama 2 не е просто постепенно подобрение, а монументална стъпка към бъдещето на взаимодействията, управлявани от AI.

Сътрудничеството между Meta и Microsoft разшири хоризонтите за Llama 2. Моделът с отворен код вече се поддържа на платформи като Azure и Windows, като целта е да предостави на разработчиците и организациите инструменти за създаване на генеративни преживявания, управлявани от AI. Това партньорство подчертава отдадеността на двете компании да направят AI по-достъпен и отворен за всички.

Llama 2 не е просто наследник на оригиналния модел Llama; това представлява промяна на парадигмата в арената на чатботовете. Въпреки че първият модел Llama беше революционен в генерирането на текст и код, неговата наличност беше ограничена, за да се предотврати злоупотреба. Llama 2, от друга страна, е настроен да достигне до по-широка аудитория. Оптимизиран е за платформи като AWS, Azure и хостинг платформата за AI модел на Hugging Face. Освен това, със сътрудничеството на Meta с Microsoft, Llama 2 е готов да остави своя отпечатък не само в Windows, но и на устройства, захранвани от системата-върху-чипа на Qualcomm Snapdragon.

Безопасността е в основата на дизайна на Llama 2. Признавайки предизвикателствата, пред които са изправени по-ранните големи езикови модели като GPT, които понякога създават подвеждащо или вредно съдържание, Meta предприе обширни мерки, за да гарантира надеждността на Llama 2. Моделът е преминал стриктно обучение за минимизиране на „халюцинациите“, дезинформацията и пристрастията.

Топ функции на LLaMa 2:

  • Разнообразни данни за обучение: Данните за обучение на Llama 2 са както обширни, така и разнообразни, осигурявайки цялостно разбиране и представяне.
  • Сътрудничество с Microsoft: Llama 2 се поддържа на платформи като Azure и Windows, разширявайки обхвата на приложението си.
  • Отворена наличност: За разлика от своя предшественик, Llama 2 е достъпен за по-широка аудитория, готов за фина настройка на множество платформи.
  • Дизайн, ориентиран към безопасността: Meta подчерта безопасността, като гарантира, че Llama 2 произвежда точни и надеждни резултати, като същевременно минимизира вредните резултати.
  • Оптимизирани версии: Llama 2 се предлага в две основни версии – Llama 2 и Llama 2-Chat, като последната е специално създадена за двупосочни разговори. Тези версии варират по сложност от 7 милиарда до 70 милиарда параметри.
  • Подобрено обучение: Llama 2 беше обучен на два милиона токена, значително увеличение от 1.4 трилиона токена на оригиналния Llama.

2. разцвет

През 2022 г., след глобални съвместни усилия, включващи доброволци от над 70 държави и експерти от Hugging Face, проектът BLOOM беше представен. Този голям езиков модел (LLM), създаден чрез целогодишна инициатива, е предназначен за авторегресивно генериране на текст, способен да разшири дадена текстова подкана. Той беше обучен върху масивен корпус от текстови данни, използвайки значителна изчислителна мощност.

Дебютът на BLOOM беше значителна стъпка в превръщането на генеративната AI технология в по-достъпна. Като LLM с отворен код, той може да се похвали със 176 милиарда параметъра, което го прави един от най-страхотните в своя клас. BLOOM има умението да генерира съгласуван и прецизен текст на 46 езика и 13 езика за програмиране.

Проектът набляга на прозрачността, позволявайки публичен достъп до своя изходен код и данни за обучение. Тази откритост приканва текущо изследване, използване и подобряване на модела.

Достъпен безплатно чрез платформата Hugging Face, BLOOM е доказателство за съвместна иновация в AI.

Топ функции на Bloom:

  • Многоезични възможности: BLOOM е опитен в генерирането на текст на 46 езика и 13 езика за програмиране, демонстрирайки своя широк езиков диапазон.
  • Достъп с отворен код: Изходният код на модела и данните за обучение са публично достъпни, което насърчава прозрачността и съвместното подобряване.
  • Авторегресивно генериране на текст: Проектиран да продължи текст от дадена подкана, BLOOM се отличава с разширяване и завършване на текстови последователности.
  • Огромен брой параметри: Със 176 милиарда параметри, BLOOM стои като един от най-мощните съществуващи LLM с отворен код.
  • Глобално сътрудничество: Разработен чрез едногодишен проект с участието на доброволци в повече от 70 държави и изследователи на Hugging Face.
  • Безплатна достъпност: Потребителите могат да имат достъп и да използват BLOOM безплатно чрез екосистемата Hugging Face, подобрявайки нейната демократизация в областта на AI.
  • Обучение в индустриален мащаб: Моделът беше обучен върху огромни количества текстови данни, използвайки значителни изчислителни ресурси, гарантирайки стабилна производителност.

3. MPT-7B

MosaicML Foundations има значителен принос в това пространство с въвеждането на MPT-7B, техния най-нов LLM с отворен код. MPT-7B, акроним на MosaicML Pretrained Transformer, е трансформаторен модел в стил GPT, само с декодер. Този модел може да се похвали с няколко подобрения, включително оптимизирани за производителност реализации на слоеве и архитектурни промени, които осигуряват по-голяма стабилност на обучението.

Отличителна характеристика на MPT-7B е обучението му върху обширен набор от данни, включващ 1 трилион токени текст и код. Това строго обучение беше проведено на платформата MosaicML за период от 9.5 дни.

Природата с отворен код на MPT-7B го позиционира като ценен инструмент за търговски приложения. Той притежава потенциала да повлияе значително на прогнозния анализ и процесите на вземане на решения в бизнеса и организациите.

В допълнение към базовия модел, MosaicML Foundations също пуска специализирани модели, пригодени за специфични задачи, като MPT-7B-Instruct за следване на кратки инструкции, MPT-7B-Chat за генериране на диалог и MPT-7B-StoryWriter-65k+ за създаване на история в дълга форма.

Пътуването на разработката на MPT-7B беше изчерпателно, като екипът на MosaicML управляваше всички етапи от подготовката на данните до внедряването в рамките на няколко седмици. Данните бяха получени от различни хранилища и екипът използва инструменти като GPT-NeoX на EleutherAI и токенизатора 20B, за да осигури разнообразен и изчерпателен микс за обучение.

Преглед на основните характеристики на MPT-7B:

  • Търговско лицензиране: MPT-7B е лицензиран за търговска употреба, което го прави ценен актив за бизнеса.
  • Обширни данни за обучение: Моделът може да се похвали с обучение върху огромен набор от данни от 1 трилион токена.
  • Дълга обработка на въвеждане: MPT-7B е проектиран да обработва изключително дълги входове без компромис.
  • Бързина и ефективност: Моделът е оптимизиран за бързо обучение и извод, осигурявайки навременни резултати.
  • Код с отворен код: MPT-7B идва с ефективен код за обучение с отворен код, насърчаващ прозрачност и лекота на използване.
  • Сравнително съвършенство: MPT-7B демонстрира превъзходство над други модели с отворен код в гамата 7B-20B, като качеството му съответства на това на LLaMA-7B.

4. сокол

Falcon LLM е модел, който бързо се изкачи до върха на йерархията на LLM. Falcon LLM, по-специално Falcon-40B, е основополагащ LLM, оборудван с 40 милиарда параметъра и е обучен на впечатляващите един трилион токени. Той работи като модел само с авторегресивен декодер, което по същество означава, че прогнозира последващия токен в последователност въз основа на предходните токени. Тази архитектура напомня на модела GPT. За отбелязване е, че архитектурата на Falcon демонстрира превъзходна производителност спрямо GPT-3, постигайки това постижение само със 75% от бюджета за изчисление за обучение и изисквайки значително по-малко изчисления по време на извод.

Екипът на Института за технологични иновации постави силен акцент върху качеството на данните по време на разработването на Falcon. Признавайки чувствителността на LLM към качеството на данните за обучение, те изградиха тръбопровод за данни, който мащабира до десетки хиляди CPU ядра. Това позволи бърза обработка и извличане на висококачествено съдържание от мрежата, постигнато чрез обширни процеси на филтриране и дедупликация.

В допълнение към Falcon-40B, TII представи и други версии, включително Falcon-7B, който притежава 7 милиарда параметри и е обучен на 1,500 милиарда токена. Има и специализирани модели като Falcon-40B-Instruct и Falcon-7B-Instruct, пригодени за конкретни задачи.

Обучението на Falcon-40B беше обширен процес. Моделът беше обучен върху набора от данни RefinedWeb, масивен английски уеб набор от данни, конструиран от TII. Този набор от данни е изграден върху CommonCrawl и е подложен на строго филтриране, за да се гарантира качество. След като моделът беше подготвен, той беше валидиран спрямо няколко бенчмарка с отворен код, включително EAI Harness, HELM и BigBench.

Преглед на основните характеристики на Falcon LLM:

  • Разширени параметри: Falcon-40B е оборудван с 40 милиарда параметри, осигуряващи цялостно обучение и производителност.
  • Модел само с авторегресивен декодер: Тази архитектура позволява на Falcon да прогнозира последващи токени въз основа на предходни, подобно на GPT модела.
  • Превъзходна производителност: Falcon превъзхожда GPT-3, като същевременно използва само 75% от бюджета за обучение.
  • Висококачествен тръбопровод за данни: Тръбопроводът за данни на TII осигурява извличането на висококачествено съдържание от мрежата, което е от решаващо значение за обучението на модела.
  • Разнообразие от модели: В допълнение към Falcon-40B, TII предлага Falcon-7B и специализирани модели като Falcon-40B-Instruct и Falcon-7B-Instruct.
  • Наличност с отворен код: Falcon LLM е с отворен код, насърчавайки достъпността и приобщаването в областта на ИИ.

5. Викуня-13Б

LMSYS ORG направи значителна следа в областта на LLM с отворен код с въвеждането на Vicuna-13B. Този чатбот с отворен код е щателно обучен чрез фина настройка на LLaMA върху споделени от потребители разговори, произхождащи от ShareGPT. Предварителните оценки, като GPT-4 действа като съдия, показват, че Vicuna-13B постига повече от 90% качество на реномирани модели като OpenAI ChatGPT и Google Bard.

Впечатляващо, Vicuna-13B превъзхожда други забележителни модели като LLaMA и Stanford Alpaca в над 90% от случаите. Целият процес на обучение за Vicuna-13B беше извършен на цена от приблизително $300. За тези, които се интересуват да проучат неговите възможности, кодът, теглата и онлайн демонстрацията са публично достъпни за некомерсиални цели.

Моделът Vicuna-13B е фино настроен със 70 4 споделени от потребители ChatGPT разговори, което му позволява да генерира по-подробни и добре структурирани отговори. Качеството на тези отговори е сравнимо с ChatGPT. Оценяването на чатботове обаче е сложно начинание. С напредъка в GPT-4 нараства любопитството относно неговия потенциал да служи като автоматизирана рамка за оценка за генериране на бенчмаркове и оценки на ефективността. Първоначалните констатации показват, че GPT-4 може да създаде последователни класации и подробни оценки при сравняване на отговорите на чатбот. Предварителните оценки, базирани на GPT-90, показват, че Vicuna постига XNUMX% капацитет на модели като Bard/ChatGPT.

Преглед на основните характеристики на Vicuna-13B:

  • Природа с отворен код: Vicuna-13B е достъпен за обществен достъп, насърчавайки прозрачността и участието на общността.
  • Обширни данни за обучение: Моделът е обучен на 70 XNUMX разговора, споделени от потребители, осигурявайки цялостно разбиране на различни взаимодействия.
  • Конкурентно представяне: Производителността на Vicuna-13B е равна на лидерите в индустрията като ChatGPT и Google Bard.
  • Рентабилно обучение: Целият процес на обучение за Vicuna-13B беше извършен на ниска цена от около $300.
  • Фина настройка на LLaMA: Моделът е фино настроен на LLaMA, осигурявайки подобрена производителност и качество на реакция.
  • Наличност на онлайн демо: Интерактивна онлайн демонстрация е достъпна за потребителите, за да тестват и изпитат възможностите на Vicuna-13B.

Разширяващото се царство на големите езикови модели

Сферата на големите езикови модели е обширна и непрекъснато разширяваща се, като всеки нов модел разширява границите на възможното. Природата с отворен код на LLMs, обсъждани в този блог, не само демонстрира духа на сътрудничество на AI общността, но също така проправя пътя за бъдещи иновации.

Тези модели, от впечатляващите възможности на чатбота на Vicuna до превъзходните показатели за производителност на Falcon, представляват върха на текущата LLM технология. Тъй като продължаваме да сме свидетели на бърз напредък в тази област, е ясно, че моделите с отворен код ще играят решаваща роля в оформянето на бъдещето на AI.

Независимо дали сте опитен изследовател, начинаещ AI ентусиаст или някой, който е любопитен за потенциала на тези модели, няма по-добро време да се потопите и да проучите огромните възможности, които предлагат.

Алекс Макфарланд е AI журналист и писател, изследващ най-новите разработки в областта на изкуствения интелект. Той е сътрудничил с множество стартиращи фирми и публикации в областта на изкуствения интелект по целия свят.

Основател на unite.AI и член на Технологичен съвет на Forbes, Антоан е а футурист който е страстен за бъдещето на AI и роботиката.

Той е и основател на Ценни книжа.io, уебсайт, който се фокусира върху инвестирането в революционни технологии.