Штучний Інтелект

Джемма: Google надає розширені можливості штучного інтелекту за допомогою відкритого коду

опублікований

3 місяців тому

29 Лютого, 2024

За останні роки у галузі штучного інтелекту (ШІ) відбувся величезний прогрес, головним чином завдяки прогресу в глибоке навчання та обробка природного мови (НЛП). На передньому краї цих досягнень великі мовні моделі (LLM) – системи штучного інтелекту, навчені величезній кількості текстових даних, які можуть генерувати текст, схожий на людину, і виконувати розмовні завдання.

LLM, такі як PaLM від Google, Claude від Anthropic і Gopher від DeepMind, продемонстрували надзвичайні здібності, від кодування до міркувань здорового глузду. Однак більшість із цих моделей не були відкрито опубліковані, що обмежує їх доступ для досліджень, розробок і корисних застосувань.

Ситуація змінилася з нещодавнім відкритим вихідним кодом Gemma – сімейства LLM від Google DeepMind на основі їхніх потужних власних моделей Gemini. У цій публікації блогу ми зануримося в Gemma, проаналізувавши її архітектуру, процес навчання, продуктивність і відповідальний випуск.

Огляд Gemma

У лютому 2023 року DeepMind відкритий джерело два розміри моделей Gemma – версія з 2 мільярдами параметрів, оптимізована для розгортання на пристрої, і більша версія з 7 мільярдами параметрів, призначена для використання GPU/TPU.

Gemma використовує подібну трансформаторну архітектуру та методику навчання, що й провідні моделі Gemini від DeepMind. Його навчили до 6 трильйонів токенів тексту з веб-документів, математики та коду.

DeepMind випустив необроблені попередньо підготовлені контрольні точки Gemma, а також версії, налаштовані з контрольованим навчанням і зворотним зв’язком людини для покращених можливостей у таких сферах, як діалог, виконання інструкцій і кодування.

Початок роботи з Gemma

Відкритий випуск Gemma робить розширені можливості ШІ доступними для розробників, дослідників та ентузіастів. Ось короткий посібник із початку роботи:

Платформа Agnostic Deployment

Ключовою перевагою Gemma є її гнучкість – ви можете запускати її на центральних процесорах, графічних процесорах або TPU. Для ЦП використовуйте TensorFlow Lite або HuggingFace Transformers. Для прискореної продуктивності на GPU/TPU використовуйте TensorFlow. Хмарні сервіси, як-от Vertex AI від Google Cloud, також забезпечують плавне масштабування.

Доступ до попередньо навчених моделей

Gemma поставляється в різних попередньо підготовлених варіантах залежно від ваших потреб. Моделі 2B і 7B пропонують сильні генеративні здібності з коробки. Для індивідуального тонкого налаштування моделі 2B-FT і 7B-FT є ідеальною відправною точкою.

Створюйте захоплюючі програми

За допомогою Gemma ви можете створювати різноманітні додатки, як-от створення історій, мовний переклад, відповіді на запитання та створення творчого контенту. Головне — використовувати сильні сторони Gemma шляхом точного налаштування власних наборів даних.

архітектура

Gemma використовує трансформаторну архітектуру лише декодера, що базується на таких перевагах, як увага на кілька запитів і поворотні позиційні вбудовування:

трансформатори: Представлена в 2017 році трансформаторна архітектура, заснована виключно на механізмах уваги, стала повсюдною в НЛП. Gemma успадковує здатність трансформатора моделювати довгострокові залежності в тексті.
Лише декодер: Gemma використовує лише стек трансформаторного декодера, на відміну від моделей кодера-декодера, таких як BART або T5. Це забезпечує потужні генеративні можливості для таких завдань, як генерування тексту.
Увага на кілька запитів: Gemma використовує багатозапитову увагу у своїй більшій моделі, що дозволяє кожній концентраційній головці обробляти кілька запитів паралельно для швидшого висновку.
Поворотні позиційні вставки: Gemma представляє позиційну інформацію, використовуючи поворотні вбудовування замість кодування абсолютного положення. Ця техніка зменшує розмір моделі, зберігаючи інформацію про положення.

Використання таких методів, як багатозапитова увага та поворотне позиційне вбудовування, дозволяє моделям Gemma досягти оптимального компромісу між продуктивністю, швидкістю логічного висновку та розміром моделі.

Дані та процес навчання

Джемма була навчена на 6 трильйонах токенів текстових даних, переважно англійською мовою. Це включало веб-документи, математичний текст і вихідний код. DeepMind вклав значні зусилля у фільтрацію даних, видалення токсичного чи шкідливого вмісту за допомогою класифікаторів і евристик.

Навчання проводилося з використанням інфраструктури Google TPUv5 із використанням до 4096 TPU для навчання Gemma-7B. Ефективні методи паралелізму моделей і даних дозволили навчити масивні моделі стандартним обладнанням.

Було використано поетапне навчання, яке постійно коригувало розподіл даних, щоб зосередитися на високоякісному релевантному тексті. Останні етапи тонкого налаштування використовували суміш створених людиною прикладів і прикладів синтетичного виконання інструкцій для покращення можливостей.

Продуктивність моделі

DeepMind ретельно оцінив моделі Gemma за широким набором із понад 25 тестів, що охоплюють відповіді на запитання, міркування, математику, кодування, здоровий глузд і можливості діалогу.

Gemma досягає найсучасніших результатів у порівнянні з моделями з відкритим кодом такого ж розміру в більшості тестів. Деякі основні моменти:

математика: Gemma відмінно справляється з такими тестами на математичні міркування, як GSM8K і MATH, перевершуючи такі моделі, як Codex і Anthropic's Claude, більш ніж на 10 балів.
Кодування: Gemma відповідає або перевершує продуктивність Codex на тестах програмування, таких як MBPP, незважаючи на відсутність спеціального навчання коду.
Діалог: Джемма демонструє сильні здібності до розмови з коефіцієнтом перемоги над Mistral-51.7B компанії Anthropic на 7% у тестах на уподобання людей.
Обґрунтування: у завданнях, що вимагають висновків, як-от ARC і Winogrande, Gemma перевершує інші моделі 7B на 5-10 балів.

Універсальність Джемми в різних дисциплінах демонструє її потужні загальні інтелектуальні здібності. У той час як прогалини в продуктивності людського рівня залишаються, Джемма являє собою стрибок вперед у НЛП з відкритим кодом.

Безпека та відповідальність

Публікація ваг великих моделей із відкритим кодом створює проблеми, пов’язані з навмисним неправильним використанням і властивими упередженнями моделі. DeepMind вжив заходів для зменшення ризиків:

Фільтрування даних: Потенційно токсичний, незаконний або упереджений текст було видалено з навчальних даних за допомогою класифікаторів і евристик.
зворотний зв'язок: Gemma була протестована на більш ніж 30 тестах, підібраних для оцінки безпеки, справедливості та надійності. Він відповідав або перевершував інші моделі.
Тоне налаштування: Тонка настройка моделі зосереджена на покращенні можливостей безпеки, таких як фільтрація інформації та відповідна поведінка хеджування/відмови.
Умови використання: Умови використання забороняють образливе, незаконне чи неетичне застосування моделей Gemma. Проте забезпечення виконання залишається складним.
Моделі карток: Для підвищення прозорості було опубліковано картки з детальним описом можливостей моделі, обмежень і упереджень.

Незважаючи на існування ризиків, пов’язаних із відкритим кодом, DeepMind визначив, що випуск Gemma забезпечує чисті суспільні переваги на основі його профілю безпеки та можливості дослідження. Однак пильний моніторинг потенційної шкоди залишатиметься критичним.

Увімкнення наступної хвилі інновацій ШІ

Випуск Gemma як сімейства моделей з відкритим вихідним кодом має на меті розблокувати прогрес у спільноті ШІ:

доступність: Gemma зменшує бар’єри для організацій, які створюють найновіші NLP, які раніше стикалися з високими витратами на обчислення/дані для навчання власних LLM.
Нові програми: Завдяки відкритому коду попередньо підготовлених і налаштованих контрольних точок DeepMind дозволяє легше розробляти корисні програми в таких сферах, як освіта, наука та доступність.
Налаштування: Розробники можуть додатково налаштувати Gemma для галузевих або доменних додатків шляхом постійного навчання з використанням закритих даних.
Дослідження: Відкриті моделі, такі як Gemma, сприяють більшій прозорості та аудиту поточних систем НЛП, висвітлюючи майбутні напрямки досліджень.
Інновації: Наявність потужних базових моделей, таких як Gemma, прискорить прогрес у таких сферах, як пом’якшення упередженості, фактичність і безпека ШІ.

Надаючи можливості Gemma всім за допомогою відкритого коду, DeepMind сподівається стимулювати відповідальний розвиток штучного інтелекту для суспільного блага.

Дорога вперед

З кожним стрибком у ШІ ми наближаємося до моделей, які конкурують або перевершують людський інтелект у всіх сферах. Такі системи, як Gemma, підкреслюють, наскільки швидкий прогрес у моделях із самоконтролем відкриває все більш просунуті когнітивні можливості.

Тим не менш, ще залишається робота над покращенням надійності, інтерпретації та керованості штучного інтелекту – областей, де людський інтелект все ще панує. Такі сфери, як математика, підкреслюють ці постійні прогалини: Gemma набрала 64% балів за MMLU порівняно з приблизно 89% продуктивності людини.

Усунення цих прогалин, одночасно забезпечуючи безпеку та етику дедалі ефективніших систем штучного інтелекту, стане головним викликом у наступні роки. Встановлення правильного балансу між відкритістю та обережністю буде критично важливим, оскільки DeepMind прагне демократизувати доступ до переваг штучного інтелекту, одночасно керуючи виникаючими ризиками.

Ініціативи щодо сприяння безпеці штучного інтелекту, як-от ANC Даріо Амодея, команда Ethics & Society DeepMind і конституційний штучний інтелект Anthropic, свідчать про зростаюче визнання цієї потреби в нюансах. Значний прогрес вимагатиме відкритого, заснованого на фактах діалогу між дослідниками, розробниками, політиками та громадськістю.

Якщо керуватися відповідально, Gemma представляє не вершину штучного інтелекту, а базовий табір для наступного покоління дослідників штучного інтелекту, які йдуть по стопах DeepMind до справедливого, корисного штучного інтелекту.

Висновок

Випуск моделей Gemma компанією DeepMind знаменує нову еру штучного інтелекту з відкритим кодом, яка виходить за межі вузьких тестів у загальні можливості інтелекту. Джемма, яка пройшла широкі перевірки на безпеку та широко доступна, встановлює новий стандарт відповідального відкритого кодування в штучному інтелекті.

Керуючись духом змагання, пом’якшеним цінностями співпраці, обмін такими досягненнями, як Gemma, піднімає всі човни в екосистемі ШІ. Тепер уся спільнота має доступ до різноманітної сім’ї LLM, щоб стимулювати або підтримувати їхні ініціативи.

Незважаючи на те, що ризики залишаються, технічна та етична старанність DeepMind дає впевненість, що переваги Gemma переважають потенційну шкоду. Оскільки можливості штучного інтелекту стають все більш досконалими, дотримання цього нюансу між відкритістю та обережністю буде критично важливим.

Джемма робить нас на крок ближче до штучного інтелекту, який принесе користь всьому людству. Але на шляху до доброзичливого штучного інтелекту все ще чекає багато великих викликів. Якщо дослідники штучного інтелекту, розробники та суспільство загалом зможуть підтримувати прогрес у співпраці, Джемма одного разу може розглядатися як історичний базовий табір, а не останній саміт.

Схожі теми:Deepmind Гемма LLM

Вгору Далі

ШІ в маркетингу: аналіз конференції MWC

Не пропустіть

Вразливі місця та загрози безпеці, з якими стикаються великі мовні моделі

Ааюш Міттал

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.