Штучний інтелект

Gemma: Google привносить розширені можливості штучного інтелекту через відкритий код

Published February 29, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Область штучного інтелекту (AI) пережила величезний прогрес за останні роки, в основному завдяки досягненням у галузі глибокого навчання та обробки природної мови (NLP). На чолі цих досягнень стоять більші мовні моделі (LLM) – системи штучного інтелекту, навчені на величезних обсягах текстових даних, які можуть генерувати текст, подібний до людського, та виконувати завдання, пов’язані з діалогами.

Моделі LLM, такі як PaLM від Google, Claude від Anthropic та Gopher від DeepMind, продемонстрували вражаючі можливості, від програмування до повсякденного розуміння. Однак більшість цих моделей не були відкрито випущені, що обмежує доступ до них для досліджень, розробки та корисних застосунків.

Це змінилося з недавнім відкритим випуском Gemma – сім’ї моделей LLM від Google’s DeepMind, заснованих на їхніх потужних пропріетарних моделях Gemini. У цьому блог-пості ми зануримося у Gemma, аналізуючи її архітектуру, процес навчання, продуктивність та відповідальний випуск.

Огляд Gemma

У лютому 2023 року DeepMind відкрили код двох розмірів моделей Gemma – версію з 2 мільярдами параметрів, оптимізовану для розгортання на пристроях, та більшу версію з 7 мільярдами параметрів, призначену для використання на GPU/TPU.

Gemma використовує подібну архітектуру трансформера та методологію навчання, як і лідируючі моделі Gemini від DeepMind. Вона була навчена на до 6 трильйонів токенів текстових даних з веб-документів, математики та коду.

DeepMind випустили як сирі попередньо навчені чекпойнти Gemma, так і версії, донастроєні з допомогою нагляду та зворотного зв’язку людини для покращення можливостей у таких областях, як діалог, виконання інструкцій та програмування.

Початок роботи з Gemma

Відкритий випуск Gemma робить її розширені можливості штучного інтелекту доступними для розробників, дослідників та ентузіастів. Ось швидкий гід, щоб почати:

Платформо-незалежне розгортання

Ключовою силою Gemma є її гнучкість – ви можете запускати її на CPU, GPU або TPU. Для CPU використовуйте TensorFlow Lite або HuggingFace Transformers. Для прискореного виконання на GPU/TPU використовуйте TensorFlow. Хмарні сервіси, такі як Google Cloud’s Vertex AI, також забезпечують безшовне масштабування.

Доступ до попередньо навчених моделей

Gemma доступна у різних попередньо навчених варіантах, залежно від ваших потреб. Моделі 2B та 7B пропонують сильні генераційні можливості з коробки. Для настройки навчання використовуйте моделі 2B-FT та 7B-FT як ідеальні стартові точки.

Створення цікавих застосунків

Ви можете створювати різноманітні застосунки з Gemma, такі як генерація історій, переклад мови, відповіді на питання та виробництво творчого контенту. Ключем є використання можливостей Gemma через налаштування навчання на ваших власних наборах даних.

Архітектура

Gemma використовує архітектуру трансформера тільки для декодера, будуючи на досягненнях, таких як багатозапитний механізм уваги та роторні позиційні вкладення:

Трансформери: Введені у 2017 році, архітектура трансформера, заснована виключно на механізмах уваги, стала універсальною у NLP. Gemma успадковує здатність трансформера моделювати довгострокові залежності у тексті.
Тільки декодер: Gemma використовує тільки стек трансформера-декодера, на відміну від моделей типу BART або T5. Це забезпечує сильні генераційні можливості для завдань, таких як генерація тексту.
Багатозапитна увага: Gemma використовує багатозапитну увагу у своїй більшій моделі, що дозволяє кожній головці уваги обробляти кілька запитів паралельно для швидшого висновку.
Роторні позиційні вкладення: Gemma представляє позиційну інформацію за допомогою роторних вкладень замість абсолютних позиційних кодувань. Цей метод зменшує розмір моделі, зберігаючи при цьому позиційну інформацію.

Використання технік, таких як багатозапитна увага та роторні позиційні вкладення, дозволяє моделям Gemma досягти оптимального балансу між продуктивністю, швидкістю висновку та розміром моделі.

Дані та процес навчання

Gemma була навчена на до 6 трильйонів токенів текстових даних, в основному англійською мовою. Це включало веб-документи, математичні тексти та код. DeepMind вклав значні зусилля у фільтрацію даних, видаливши токсичні чи шкідливі вмісти з допомогою класифікаторів та евристичних методів.

Навчання проводилось за допомогою інфраструктури TPUv5 від Google, з використанням до 4096 TPU для навчання Gemma-7B. Ефективні техніки паралельності моделі та даних дозволили навчати величезні моделі з використанням стандартного обладнання.

Було використано стадійне навчання, безперервно коригуючи розподіл даних для фокусування на високоякісному, релевантному тексті. Фінальні стадії донастройки використовували суміш людських та синтетичних прикладів виконання інструкцій для покращення можливостей.

Продуктивність моделі

DeepMind ретельно оцінила моделі Gemma на широкому наборі з понад 25 бенчмарків, що охоплюють питання відповідей, розуміння, математику, програмування, повсякденне розуміння та діалогічні можливості.

Gemma досягає результатів на рівні стану мистецтва порівняно з подібними відкритими моделями у більшості бенчмарків. Деякі виділення:

Математика: Gemma виділяється на математичних тестах розуміння, таких як GSM8K та MATH, перевершуючи моделі, такі як Codex та Anthropic’s Claude, більш ніж на 10 пунктів.
Програмування: Gemma дорівнює або перевершує продуктивність Codex на програмних бенчмарках, таких як MBPP, незважаючи на те, що вона не була спеціально навчена на коді.
Діалог: Gemma демонструє сильні розмовні можливості з 51,7% рейтингом перемог над Anthropic’s Mistral-7B на людських тестах уподобання.
Розуміння: На завданнях, що вимагають висновку, таких як ARC та Winogrande, Gemma перевершує інші 7B-моделі на 5-10 пунктів.

Універсальність Gemma у різних галузях демонструє її сильні загальні інтелектуальні можливості. Хоча залишаються прогалини до людської продуктивності, Gemma представляє собою крок вперед у відкритих NLP.

Безпека та відповідальність

Випуск відкритих ваг моделей великих моделей вводить виклики щодо наміреного зловживання та вбудованих моделей упереджень. DeepMind вжили кроки для мінімізації ризиків:

Фільтрація даних: Потенційно токсичні, незаконні чи упереджені тексти були видалені з навчальних даних за допомогою класифікаторів та евристичних методів.
Оцінки: Gemma була протестована на 30+ бенчмарках, призначених для оцінки безпеки, справедливості та стійкості. Вона дорівнює або перевершує інші моделі.
Донастройка: Донастройка моделі була спрямована на покращення безпеки можливостей, таких як фільтрація інформації та відповідна поведінка відмови/відмови.
Умови використання: Умови використання забороняють використання моделей Gemma для образливих, незаконних чи аморальних застосунків. Однак забезпечення дотримання цих умов залишається складним.
Картки моделей: Були випущені картки, що містять інформацію про можливості моделі, обмеження та упередження, для сприяння прозорості.

Хоча існують ризики від відкритого випуску, DeepMind визначила, що випуск Gemma забезпечує чисту соціальну користь на основі її профілю безпеки та можливості сприяння дослідженням. Однак уважне моніторинг потенційних шкод буде критично важливим.

Забезпечення наступної хвилі інновацій штучного інтелекту

Випуск Gemma як сім’ї відкритих моделей означає нову еру для відкритого штучного інтелекту – одну, що переходить від вузьких бенчмарків до загальних інтелектуальних можливостей.

Доступність: Gemma зменшує бар’єри для організацій, які бажають будувати з використанням передових можливостей NLP, яким раніше доводилося стикатися з високими витратами на обчислення та дані для навчання своїх власних моделей LLM.
Нові застосунки: Відкритий випуск попередньо навчених та донастроєних чекпойнтів дозволяє DeepMind забезпечити легше розроблення корисних застосунків у таких областях, як освіта, наука та доступність.
Настройка: Розробники можуть进一步 налаштовувати Gemma для промислових або галузевих застосунків за допомогою подальшого навчання на власних даних.
Дослідження: Відкриті моделі, такі як Gemma, сприяють більшій прозорості та аудиту існуючих систем NLP, освітлюючи майбутні напрямки дослідження.
Інновації: Доступність сильних базових моделей, таких як Gemma, прискорить прогрес у таких областях, як мінімізація упереджень, фактичність та безпека штучного інтелекту.

Відкритий випуск Gemma забезпечує доступ до її можливостей для всіх, сподіваючись спонукати відповідальне розроблення штучного інтелекту для соціальної користі.

Дорога вперед

З кожним кроком у штучному інтелекті ми наближаємося до моделей, які дорівнюють або перевершують людський інтелект у всіх галузях. Системи, такі як Gemma, підкреслюють, як швидкі досягнення у самонавчанні розблоковують усе більш просунуті когнітивні можливості.

Однак залишається робота для покращення надійності, інтерпретації та керованості штучного інтелекту – областей, де людський інтелект усе ще панує. Галузі, такі як математика, підкреслюють ці тривалі прогалини, з Gemma, яка набирає 64% на MMLU порівняно з оцінкою людської продуктивності у 89%.

Закриття цих прогалин, забезпечуючи при цьому безпеку та етику усе більш здатних систем штучного інтелекту, буде центральним викликом у майбутньому. Знаходження правильного балансу між відкритістю та обережністю буде критично важливим, оскільки DeepMind спрямована на демократизацію доступу до вигод штучного інтелекту, керуючи при цьому появою ризиків.

Ініціативи з просування безпеки штучного інтелекту – такі, як ANC Dario Amodei, команда Етики та суспільства DeepMind та Конституційний штучний інтелект Anthropic – свідчать про зростаюче визнання цієї потреби у нюансах. Плідний прогрес буде вимагати відкритого, заснованого на доказах діалогу між дослідниками, розробниками, політиками та громадськістю.

Якщо Gemma буде пройдена відповідально, вона представляє не вершину штучного інтелекту, а базовий табір для наступного покоління дослідників штучного інтелекту, які слідують за кроками DeepMind до справедливого, корисного штучного загального інтелекту.

Висновок

Випуск моделей Gemma від DeepMind означає нову еру для відкритого штучного інтелекту – одну, що переходить від вузьких бенчмарків до загальних інтелектуальних можливостей. Тестована широко на безпеку та доступна широкому колу осіб, Gemma встановлює новий стандарт для відповідального відкритого випуску у штучному інтелекті.

Стимульована конкурентним духом, врівноваженим кооперативними цінностями, спільне використання проривів, таких як Gemma, підвищує рівень усієї екосистеми штучного інтелекту. Уся спільнота тепер має доступ до універсальної сім’ї моделей LLM для забезпечення своїх ініціатив.

Хоча ризики залишаються, технічна та етична ретельність DeepMind забезпечує впевненість, що вигоди Gemma переважують її потенційні шкоди. Коли можливості штучного інтелекту зростають усе більш просунутими, підтримання цього нюансу між відкритістю та обережністю буде критично важливим.

Gemma наближає нас на один крок до штучного інтелекту, який приносить користь усій людській спільноті. Однак залишаються великі виклики на шляху до благосклонного штучного загального інтелекту. Якщо дослідники штучного інтелекту, розробники та суспільство загалом зможуть підтримувати співпрацю, Gemma може бути колись розглянута як історичний базовий табір, а не кінцевий вершину.

Aayush Mittal

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.