заглушки 5 найкращих програм LLM з відкритим кодом (травень 2024) - Unite.AI
Зв'язатися з нами
Масив ( [ID] => 1 [user_firstname] => Antoine [user_lastname] => Tardif [нікнейм] => Antoine Tardif [user_nicename] => admin [display_name] => Antoine Tardif [user_email] => [захищено електронною поштою]
    [user_url] => [user_registered] => 2018-08-27 14:46:37 [user_description] => Партнер-засновник unite.AI і член Технологічна рада Forbes, Антуан - це а футурист який захоплений майбутнім ШІ та робототехніки. Він також є засновником Securities.io, веб-сайт, який зосереджується на інвестиціях у революційні технології. [user_avatar] => mm
)

Best Of

5 найкращих програм LLM з відкритим кодом (травень 2024 р.)

оновлений on
LLM з відкритим кодом

У світі штучного інтелекту (ШІ), що швидко розвивається, великі мовні моделі (LLM) стали наріжним каменем, що стимулює інновації та змінює спосіб взаємодії з технологіями.

Оскільки ці моделі стають все більш витонченими, все більше уваги приділяється демократизації доступу до них. Моделі з відкритим вихідним кодом, зокрема, відіграють ключову роль у цій демократизації, пропонуючи дослідникам, розробникам та ентузіастам можливість глибоко заглибитися в їх тонкощі, налаштувати їх для конкретних завдань або навіть побудувати на їхній основі.

У цьому блозі ми розглянемо деякі з найкращих LLM з відкритим кодом, які викликають хвилю в спільноті штучного інтелекту, кожна з яких демонструє свої унікальні переваги та можливості.

1. полум'я 2

Llama 2 від Meta є новаторським доповненням до лінійки моделей зі штучним інтелектом. Це не просто чергова модель; він розроблений для цілого ряду найсучасніших програм. Навчальні дані Llama 2 величезні та різноманітні, що робить його значним прогресом у порівнянні з попередником. Ця різноманітність у навчанні гарантує, що Llama 2 є не просто поступовим вдосконаленням, а монументальним кроком до майбутнього взаємодії на основі ШІ.

Співпраця між Meta та Microsoft розширила горизонти для Llama 2. Модель з відкритим вихідним кодом тепер підтримується на таких платформах, як Azure та Windows, щоб надати розробникам та організаціям інструменти для створення генеративного досвіду на основі ШІ. Це партнерство підкреслює прагнення обох компаній зробити штучний інтелект більш доступним і відкритим для всіх.

Llama 2 — це не просто наступник оригінальної моделі Llama; це являє собою зміну парадигми на арені чат-ботів. Хоча перша модель Llama була революційною у створенні тексту та коду, її доступність була обмежена, щоб запобігти неправильному використанню. З іншого боку, Llama 2 збирається охопити ширшу аудиторію. Його оптимізовано для таких платформ, як AWS, Azure та платформи хостингу моделі AI Hugging Face. Крім того, завдяки співпраці Meta з Microsoft, Llama 2 готова залишити свій слід не лише на Windows, але й на пристроях, що працюють на базі системи-на-чіпі Qualcomm Snapdragon.

В основі дизайну Llama 2 лежить безпека. Усвідомлюючи проблеми, з якими стикалися попередні великі мовні моделі, такі як GPT, які іноді створювали оманливий або шкідливий вміст, Meta вжила значних заходів для забезпечення надійності Llama 2. Модель пройшла суворе навчання, щоб звести до мінімуму «галюцинації», дезінформацію та упередження.

Головні особливості LLaMa 2:

  • Різноманітні навчальні дані: Навчальні дані Llama 2 є обширними та різноманітними, що забезпечує повне розуміння та продуктивність.
  • Співпраця з Microsoft: Llama 2 підтримується на таких платформах, як Azure та Windows, розширюючи сферу застосування.
  • Відкрита доступність: На відміну від свого попередника, Llama 2 доступна для ширшої аудиторії, готова до тонкого налаштування на багатьох платформах.
  • Дизайн, орієнтований на безпеку: Meta наголошує на безпеці, гарантуючи, що Llama 2 видає точні та надійні результати, мінімізуючи шкідливі результати.
  • Оптимізовані версії: Llama 2 доступний у двох основних версіях – Llama 2 і Llama 2-Chat, причому остання спеціально розроблена для двосторонніх розмов. Складність цих версій варіюється від 7 до 70 мільярдів параметрів.
  • Розширене навчання: Llama 2 був навчений на двох мільйонах токенів, що значно більше порівняно з 1.4 трлн токенів оригінального Llama.

2. Цвісти

У 2022 році після глобальної спільної роботи за участю волонтерів із понад 70 країн та експертів Hugging Face було представлено проект BLOOM. Ця велика мовна модель (LLM), створена в рамках річної ініціативи, призначена для авторегресійного генерування тексту, здатного розширити даний текстовий запит. Його було навчено на величезному масиві текстових даних із використанням значної обчислювальної потужності.

Дебют BLOOM став значним кроком у тому, щоб зробити технологію генеративного штучного інтелекту доступнішою. Як LLM з відкритим кодом, він може похвалитися 176 мільярдами параметрів, що робить його одним із найпотужніших у своєму класі. BLOOM має навички генерувати зв’язний і точний текст на 46 мовах і 13 мовах програмування.

Проект підкреслює прозорість, дозволяючи відкритий доступ до свого вихідного коду та навчальних даних. Ця відкритість запрошує до постійного вивчення, використання та вдосконалення моделі.

BLOOM, доступний безкоштовно через платформу Hugging Face, є свідченням спільних інновацій у ШІ.

Головні особливості Bloom:

  • Багатомовні можливості: BLOOM володіє досвідом створення тексту 46 мовами та 13 мовами програмування, демонструючи свій широкий мовний діапазон.
  • Доступ до відкритого коду: Вихідний код моделі та навчальні дані є загальнодоступними, що сприяє прозорості та спільному вдосконаленню.
  • Авторегресійна генерація тексту: Розроблений для продовження тексту з заданої підказки, BLOOM чудово розширює та завершує текстові послідовності.
  • Велика кількість параметрів: Завдяки 176 мільярдам параметрів BLOOM є однією з найпотужніших існуючих LLM з відкритим кодом.
  • Глобальна співпраця: Розроблено в рамках річного проекту за участю волонтерів із понад 70 країн і дослідників Hugging Face.
  • Безкоштовний доступ: Користувачі можуть безкоштовно отримати доступ і використовувати BLOOM через екосистему Hugging Face, підвищуючи її демократизацію в області ШІ.
  • Навчання в промислових масштабах: Модель була навчена на величезних обсягах текстових даних із використанням значних обчислювальних ресурсів, що забезпечувало надійну продуктивність.

3. МПТ-7Б

MosaicML Foundations зробили значний внесок у цей простір, представивши MPT-7B, їх останній LLM з відкритим кодом. MPT-7B, абревіатура від MosaicML Pretrained Transformer, — це модель трансформатора в стилі GPT, яка має лише декодер. Ця модель може похвалитися декількома вдосконаленнями, включно з оптимізованими для продуктивності реалізаціями рівня та архітектурними змінами, які забезпечують більшу стабільність навчання.

Визначною особливістю MPT-7B є його навчання на великому наборі даних, що містить 1 трильйон токенів тексту та коду. Це суворе навчання проводилося на платформі MosaicML протягом 9.5 днів.

Відкритий вихідний код MPT-7B позиціонує його як цінний інструмент для комерційних застосувань. Він має потенціал для значного впливу на прогнозну аналітику та процеси прийняття рішень підприємствами та організаціями.

На додаток до базової моделі MosaicML Foundations також випускає спеціалізовані моделі, призначені для конкретних завдань, наприклад MPT-7B-Instruct для виконання коротких інструкцій, MPT-7B-Chat для створення діалогів і MPT-7B-StoryWriter-65k+ для створення довгої історії.

Розробка MPT-7B була комплексною: команда MosaicML керувала всіма етапами від підготовки даних до розгортання протягом кількох тижнів. Дані були отримані з різних сховищ, і команда використовувала такі інструменти, як GPT-NeoX від EleutherAI і токенизатор 20B, щоб забезпечити різноманітну та комплексну навчальну суміш.

Огляд основних характеристик MPT-7B:

  • Комерційне ліцензування: MPT-7B має ліцензію на комерційне використання, що робить його цінним активом для бізнесу.
  • Великі навчальні дані: Модель може похвалитися навчанням на величезному наборі даних із 1 трильйона токенів.
  • Обробка тривалого введення: MPT-7B призначений для обробки надзвичайно довгих вхідних даних без компромісів.
  • Швидкість і ефективність: Модель оптимізовано для швидкого навчання та висновків, що забезпечує своєчасні результати.
  • Відкритий вихідний код: MPT-7B постачається з ефективним навчальним кодом з відкритим вихідним кодом, що сприяє прозорості та простоті використання.
  • Порівняльна досконалість: MPT-7B продемонстрував перевагу над іншими моделями з відкритим вихідним кодом у діапазоні 7B-20B, а його якість відповідає якості LLaMA-7B.

4. Falcon

Falcon LLM, це модель, яка швидко піднялася на вершину ієрархії LLM. Falcon LLM, зокрема Falcon-40B, є основоположним LLM, оснащеним 40 мільярдами параметрів і пройшов навчання на вражаючому одному трильйоні токенів. Він працює як модель лише авторегресійного декодера, що по суті означає, що він передбачає наступний маркер у послідовності на основі попередніх маркерів. Ця архітектура нагадує модель GPT. Примітно, що архітектура Falcon продемонструвала вищу продуктивність порівняно з GPT-3, досягнувши цього показника лише з 75% бюджету навчальних обчислень і вимагаючи значно менших обчислень під час висновку.

Під час розробки Falcon команда Інституту технологічних інновацій приділяла особливу увагу якості даних. Визнаючи чутливість LLM до якості навчальних даних, вони побудували конвеєр даних, який масштабується до десятків тисяч ядер ЦП. Це забезпечило швидку обробку та витяг високоякісного вмісту з Інтернету за допомогою розширених процесів фільтрації та дедуплікації.

Окрім Falcon-40B, TII також представив інші версії, включаючи Falcon-7B, який має 7 мільярдів параметрів і був навчений на 1,500 мільярдах токенів. Існують також спеціалізовані моделі, такі як Falcon-40B-Instruct і Falcon-7B-Instruct, призначені для конкретних завдань.

Навчання Falcon-40B було великим процесом. Модель було навчено на наборі даних RefinedWeb, великому наборі веб-даних англійською мовою, створеному TII. Цей набір даних створено на основі CommonCrawl і пройшов сувору фільтрацію для забезпечення якості. Коли модель була підготовлена, її перевірили на відповідність кількома тестами з відкритим кодом, зокрема EAI Harness, HELM і BigBench.

Огляд основних функцій Falcon LLM:

  • Розширені параметри: Falcon-40B оснащено 40 мільярдами параметрів, що забезпечує повне навчання та продуктивність.
  • Модель лише з авторегресивним декодером: Ця архітектура дозволяє Falcon передбачати наступні токени на основі попередніх, подібно до моделі GPT.
  • Чудова продуктивність: Falcon перевершує GPT-3, використовуючи лише 75% бюджету навчальних обчислень.
  • Високоякісний конвеєр даних: Конвеєр даних TII забезпечує отримання високоякісного вмісту з Інтернету, що має вирішальне значення для навчання моделі.
  • Різноманітність моделей: На додаток до Falcon-40B, TII пропонує Falcon-7B і спеціалізовані моделі, такі як Falcon-40B-Instruct і Falcon-7B-Instruct.
  • Наявність відкритого вихідного коду: Falcon LLM має відкритий вихідний код, що сприяє доступності та інклюзивності в області ШІ.

5. Вікунья-13Б

LMSYS ORG зробила значний слід у сфері LLM з відкритим кодом, представивши Vicuna-13B. Цей чат-бот із відкритим вихідним кодом був ретельно навчений шляхом тонкого налаштування LLaMA на розмови користувачів, отримані з ShareGPT. Попередні оцінки, у яких GPT-4 виступає як суддя, показують, що Vicuna-13B досягає більш ніж 90% якості таких відомих моделей, як OpenAI ChatGPT і Google Bard.

Вражаюче те, що Vicuna-13B перевершує інші відомі моделі, такі як LLaMA та Stanford Alpaca, у понад 90% випадків. Весь процес навчання Vicuna-13B був здійснений вартістю приблизно 300 доларів США. Для тих, хто зацікавлений у дослідженні його можливостей, код, ваги та онлайн-демо були загальнодоступними для некомерційних цілей.

Модель Vicuna-13B була налаштована за допомогою 70 тисяч розмов ChatGPT, що дають змогу генерувати детальніші та добре структуровані відповіді. Якість цих відповідей можна порівняти з ChatGPT. Однак оцінка чат-ботів є складною справою. З удосконаленнями в GPT-4 зростає цікавість щодо його потенціалу як автоматизованої системи оцінювання для створення еталонних показників і оцінки продуктивності. Початкові висновки свідчать про те, що GPT-4 може створювати узгоджені ранги та докладні оцінки при порівнянні відповідей чат-бота. Попередні оцінки на основі GPT-4 показують, що Vicuna досягає 90% можливостей таких моделей, як Bard/ChatGPT.

Огляд основних характеристик Vicuna-13B:

  • Відкритий вихідний код: Vicuna-13B доступний для загального доступу, що сприяє прозорості та залученню спільноти.
  • Великі навчальні дані: Модель навчена на 70 тисячах спільних розмов користувачів, що забезпечує повне розуміння різноманітних взаємодій.
  • Конкурентна продуктивність: Продуктивність Vicuna-13B відповідає таким лідерам галузі, як ChatGPT і Google Bard.
  • Економічне навчання: Весь навчальний процес для Vicuna-13B був виконаний за низькою ціною близько 300 доларів США.
  • Точне налаштування на LLaMA: Модель була налаштована на LLaMA, що забезпечує покращену продуктивність і якість відгуку.
  • Доступність демо онлайн: Для користувачів доступна інтерактивна онлайн-демонстрація, щоб перевірити та відчути можливості Vicuna-13B.

Розширення сфери великих мовних моделей

Сфера великих мовних моделей величезна і постійно розширюється, кожна нова модель розширює межі можливого. Природа магістратури з відкритим кодом, про яку йдеться в цьому блозі, не лише демонструє дух співпраці між спільнотою ШІ, але й прокладає шлях для майбутніх інновацій.

Ці моделі, від вражаючих можливостей чат-бота Vicuna до чудових показників продуктивності Falcon, представляють вершину поточної технології LLM. Оскільки ми продовжуємо спостерігати швидкий прогрес у цій галузі, стає зрозуміло, що моделі з відкритим кодом відіграватимуть вирішальну роль у формуванні майбутнього ШІ.

Незалежно від того, чи ви досвідчений дослідник, починаючий ентузіаст штучного інтелекту чи хтось, хто цікавиться потенціалом цих моделей, немає кращого часу, щоб зануритися та дослідити величезні можливості, які вони пропонують.

Алекс МакФарланд — журналіст і письменник, що займається штучним інтелектом, досліджує останні розробки в галузі штучного інтелекту. Він співпрацював з численними стартапами та публікаціями зі штучного інтелекту по всьому світу.

Партнер-засновник unite.AI і член Технологічна рада Forbes, Антуан - це а футурист який захоплений майбутнім ШІ та робототехніки.

Він також є засновником Securities.io, веб-сайт, який зосереджується на інвестиціях у революційні технології.