Connect with us

Штучний інтелект

Google’s Multimodal AI Gemini – A Technical Deep Dive

mm
Google's First Multimodal Model: Gemini

Sundar Pichai, Google’s CEO, разом з Demis Hassabis з Google DeepMind, представили Gemini у грудні 2023 року. Ця нова великомасштабна мова модель інтегрована в широкий спектр продуктів Google, пропонуючи покращення, які поширюються на служби та інструменти, які використовують мільйони людей.

Gemini, просунута багатомодальна штучна інтелект Google, народжена з спільних зусиль об’єднаних лабораторій DeepMind і Brain AI. Gemini спирається на плечі своїх попередників, обіцяючи доставити більш взаємопов’язаний і розумний набір застосунків.

Оголошення про Google Gemini, розташоване близько після дебюту Bard, Duet AI і PaLM 2 LLM, свідчить про явну намір Google не тільки конкурувати, але й лідирувати в революції штучного інтелекту.

Незважаючи на будь-які припущення про штучну зиму, запуск Gemini свідчить про процвітання штучної весни, багату потенціалом і ростом. Коли ми відображаємо рік з моменту появи ChatGPT, який сам був революційним моментом для штучного інтелекту, крок Google свідчить про те, що розширення галузі далеко не закінчено; насправді, воно може тільки прискоритися.

Що таке Gemini?

Модель Gemini здатна обробляти різні типи даних, такі як текст, зображення, аудіо та відео. Вона існує у трьох версіях – Ultra, Pro і Nano – кожна з яких призначена для конкретних застосунків, від складних завдань до використання на пристрої. Ultra excels у багатограних завданнях і буде доступна на Bard Advanced, тоді як Pro пропонує баланс продуктивності та ефективності ресурсів, вже інтегрована в Bard для текстових запитів. Nano, оптимізована для розгортання на пристрої, існує у двох розмірах і має апаратні оптимізації, такі як 4-бітова квантзація для офлайн-використання на пристроях, таких як Pixel 8 Pro.

Архітектура Gemini унікальна своєю вбудованою багатомодальною вивідною можливістю, використовуючи дискретні зображенні токени для генерації зображень та інтегруючи аудіо-функції з Universal Speech Model для нюансів аудіо-розуміння. Її здатність обробляти відео-дані як послідовності зображень, вплетених з текстовими або аудіо-вхідними даними, демонструє її багатомодальну потужність.

Gemini підтримує послідовності тексту, зображення, аудіо та відео як вхідні дані

Gemini підтримує послідовності тексту, зображення, аудіо та відео як вхідні дані

Доступ до Gemini

Gemini 1.0 розгортається по всьому екосистемі Google, включно з Bard, який тепер користається розвиненими можливостями Gemini Pro. Google також інтегрувала Gemini у свої служби Пошуки, Реклами та Duet, підвищуючи досвід користувача швидшими та більш точними відповідями.

Для тих, хто бажає скористатися можливостями Gemini, Google AI Studio та Google Cloud Vertex пропонують доступ до Gemini Pro, причому останній забезпечує більшу налаштовуваність та функції безпеки.

Щоб досвідчувати покращені можливості Bard, що працює на Gemini Pro, користувачі можуть виконати наступні прості кроки:

  1. Перейти до Bard: Відкрийте свій улюблений веб-браузер та перейдіть на сайт Bard.
  2. Безпечний вхід: Доступитися до служби, ввівши свій обліковий запис Google, забезпечуючи безпеку та зручність.
  3. Інтерактивний чат: Тепер ви можете використовувати Bard, де можна вибрати просунуті функції Gemini Pro.

Потужність багатомодальності:

У своєму ядрі Gemini використовує архітектуру, засновану на трансформерах, подібну до тих, що використовуються в успішних моделях NLP, таких як GPT-3. Однак унікальність Gemini полягає в її здатності обробляти та інтегрувати інформацію з多чних модальностей, включаючи текст, зображення та код. Це досягається за допомогою нової техніки, званої багатомодальною увагою, яка дозволяє моделі вивчати відносини та залежності між різними типами даних.

Ось розбивка ключових компонентів Gemini:

  • Багатомодальний кодувач: Цей модуль обробляє вхідні дані з кожної модальності (напр., текст, зображення) незалежно, витягуючи відповідні функції та генеруючи індивідуальні представлення.
  • Багатомодальна мережа уваги: Ця мережа є серцем Gemini. Вона дозволяє моделі вивчати відносини та залежності між різними представленнями, дозволяючи їм “розмовляти” один з одним та збагачувати своє розуміння.
  • Багатомодальний декодувач: Цей модуль використовує збагачені представлення, згенеровані багатомодальною мережею уваги, для виконання різних завдань, таких як генерація підписів до зображень, генерація тексту до зображення та генерація коду.

Модель Gemini не тільки про розуміння тексту чи зображень – це про інтеграцію різних типів інформації таким чином, який набагато ближче до того, як ми, люди, сприймаємо світ. Наприклад, Gemini може подивитися на послідовність зображень та визначити логічний чи просторовий порядок об’єктів у них. Вона також може аналізувати дизайнерські особливості об’єктів, щоб зробити судження, наприклад, який із двох автомобілів має більш аеродинамічну форму.

Але таланти Gemini виходять за рамки простого візуального розуміння. Вона може перетворити набір інструкцій у код, створюючи практичні інструменти, такі як таймер відліку, який не тільки функціонує відповідно до інструкцій, але й включає творчі елементи, такі як мотиваційні емоджі, для поліпшення взаємодії з користувачем. Це свідчить про здатність обробляти завдання, які вимагають поєднання творчості та функціональності – навичок, які часто вважаються виразно людськими.

Варіанти Gemini : Просторове розуміння

Варіанти Gemini : Просторове розуміння (Джерело)

 

Варіанти Gemini розширюються до виконання програмних завдань

Варіанти Gemini розширюються до виконання програмних завдань(Джерело)

Софістікований дизайн Gemini заснований на багатій історії досліджень нейронних мереж та використовує передові технології TPU від Google для навчання. Gemini Ultra, зокрема, встановила нові стандарти в різних областях штучного інтелекту, демонструючи вражаючі підйоми продуктивності у багатомодальних завданнях.

З її здатністю розбирати та розуміти складні дані, Gemini пропонує рішення для реальних застосунків, особливо в освіті. Вона може аналізувати та виправляти рішення задач, наприклад у фізиці, розуміючи рукописні нотатки та забезпечуючи точне математичне форматування. Такі можливості свідчать про майбутнє, де штучний інтелект допомагає в освітніх середовищах, пропонуючи студентам та освітнім закладам просунуті інструменти для навчання та вирішення задач.

Gemini була використана для створення агентів, таких як AlphaCode 2, який excels у конкурентних програмних завданнях. Це свідчить про потенціал Gemini діяти як загального штучного інтелекту, здатного обробляти складні, багаторівневі завдання.

Gemini Nano приносить потужність штучного інтелекту до повсякденних пристроїв, зберігаючи вражаючі можливості у завданнях, таких як підсумовування та розуміння прочитаного, а також кодування та завдань, пов’язаних зі STEM. Ці менші моделі налаштовуються для пропозиції високоякісних функцій штучного інтелекту на пристроях з низькою пам’яттю, роблячи просунуті можливості штучного інтелекту більш доступними, ніж будь-коли.

Розробка Gemini передбачала інновації у навчальних алгоритмах та інфраструктурі, використовуючи останні TPUs від Google. Це дозволило ефективно масштабувати та забезпечити надійні процеси навчання, забезпечуючи, щоб навіть найменші моделі пропонували виняткову продуктивність.

Навчувальний набір даних для Gemini такий же різноманітний, як і її можливості, включаючи веб-документи, книги, код, зображення, аудіо та відео. Цей багатомодальний та багатомовний набір даних забезпечує, що моделі Gemini можуть розуміти та обробляти широкий спектр типів контенту ефективно.

Gemini та GPT-4

Незважаючи на появу інших моделей, питання на всіх устах – як Google’s Gemini порівнюється з OpenAI’s GPT-4, індустріальним стандартом для нових LLM. Дані Google свідчать про те, що хоча GPT-4 може excels у завданнях зі звичайним розумінням, Gemini Ultra має верхню руку майже у всіх інших областях.

Gemini VS GPT-4

Gemini VS GPT-4

Вище наведена таблиця порівняння демонструє вражаючу продуктивність штучного інтелекту Google Gemini у різних завданнях. Зокрема, Gemini Ultra досягла вражаючих результатів у бенчмарку MMLU з точністю 90,04%, вказуючи на її вищу здатність розуміння у питаннях з декількох варіантів答案 по 57 предметам.

У бенчмарку GSM8K, який оцінює питання математики для учнів початкової школи, Gemini Ultra набирає 94,4%, демонструючи її просунуті арифметичні можливості. У кодових бенчмарках Gemini Ultra набирає 74,4% у HumanEval для генерації коду Python, вказуючи на її сильне розуміння мови програмування.

Бенчмарк DROP, який тестує розуміння прочитаного, бачить Gemini Ultra знову лідером з результатом 82,4%. Тоді як у тесті на звичайне розуміння HellaSwag Gemini Ultra виконує себе гідно, хоча й не перевищує надзвичайно високий стандарт, встановлений GPT-4.

Висновок

Унікальна архітектура Gemini, підтримана передовими технологіями Google, позиціонує її як потужного гравця на полі штучного інтелекту, викликуючого існуючі стандарти, встановлені моделями, такими як GPT-4. Її версії – Ultra, Pro та Nano – кожна відповідає конкретним потребам, від складних завдань до ефективних застосунків на пристрої, демонструючи зобов’язання Google зробити просунуті можливості штучного інтелекту доступними на різних платформах та пристроях.

Інтеграція Gemini у екосистему Google, від Bard до Google Cloud Vertex, підкреслює її потенціал для поліпшення досвіду користувачів у широкому спектрі служб. Вона обіцяє не тільки вдосконалити існуючі застосунки, але й відкрити нові шляхи для рішень, керованих штучним інтелектом, чи то в персоналізованій допомозі, творчих заняттях чи бізнес-аналітиці.

Як ми дивимось вперед, безперервні вдосконалення моделей штучного інтелекту, таких як Gemini, підкреслюють важливість тривалого дослідження та розвитку. Виклики навчання таких складних моделей та забезпечення їхньої етичної та відповідальної використання залишаються на передньому плані обговорення.

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.