заглушки Generative AI: ідея CHATGPT, Dall-E, Midjourney тощо - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Generative AI: ідея CHATGPT, Dall-E, Midjourney тощо

mm
оновлений on
Generative AI - Midjourney Prompt

Світ мистецтва, спілкування та те, як ми сприймаємо реальність, швидко змінюється. Якщо ми озирнемося на історію людських інновацій, ми можемо вважати винайдення колеса чи відкриття електрики монументальними стрибками. Сьогодні відбувається нова революція — подолання розриву між людською творчістю та машинними обчисленнями. Це Generative AI.

Генеративні моделі стерли межу між людьми та машинами. З появою таких моделей, як GPT-4, які використовують трансформаторні модулі, ми підійшли ближче до створення природної та контекстно-насиченої мови. Ці досягнення сприяли створенню документів, діалоговим системам чат-ботів і навіть створенню синтетичної музики.

Останні рішення Big-Tech підкреслюють його важливість. Microsoft вже є припиняє роботу програми Cortana цього місяця, щоб віддати пріоритет новим інноваціям Generative AI, таким як Bing Chat. Apple також присвятила значну частину свого Бюджет на дослідження та розробки становить 22.6 мільярда доларів до генеративного ШІ, як зазначив генеральний директор Тім Кук.

Нова ера моделей: Generative Vs. Дискримінаційний

Історія Generative AI не лише про його застосування, але й про його внутрішню роботу. В екосистемі штучного інтелекту існують дві моделі: дискримінаційна та генеративна.

Дискримінаційні моделі – це те, з чим більшість людей стикається в повсякденному житті. Ці алгоритми беруть вхідні дані, як-от текст або зображення, і поєднують їх із цільовим виходом, як-от переклад слова чи медичний діагноз. Вони стосуються картографування та прогнозування.

Генеративні моделі, з іншого боку, є творцями. Вони не просто інтерпретують або передбачають; вони генерують нові складні результати з векторів чисел, які часто навіть не пов’язані з реальними значеннями.

 

Генеративні типи AI: Текст в текст, Текст в зображення (GPT, DALL-E, Midjourney)

Технології, що стоять за генеративними моделями

Генеративні моделі завдячують своїм існуванням глибоким нейронним мережам, складним структурам, створеним для імітації функціональності людського мозку. Збираючи та обробляючи багатогранні варіації даних, ці мережі служать основою багатьох генеративних моделей.

Як ці генеративні моделі оживають? Зазвичай вони побудовані за допомогою глибоких нейронних мереж, оптимізованих для захоплення багатогранних варіацій даних. Яскравим прикладом є Генеральна змагальна мережа (GAN), де дві нейронні мережі, генератор і дискримінатор, конкурують і навчаються одна в одної в унікальних стосунках викладач-учень. Від малюнків до передачі стилю, від композиції музики до гри, ці моделі розвиваються та розширюються способами, які раніше неможливо було уявити.

Це не закінчується GAN. Варіаційні автокодери (VAE), є ще одним ключовим гравцем у сфері генеративних моделей. VAE виділяються своєю здатністю створювати фотореалістичні зображення з, здавалося б, випадкових чисел. як? Обробка цих чисел через прихований вектор породжує мистецтво, яке відображає складність людської естетики.

Генеративні типи штучного інтелекту: текст у текст, текст у зображення

Трансформатори та магістра права

Папір, документ "Увага – це все, що вам потрібно» від Google Brain ознаменував зміну нашого погляду на моделювання тексту. Замість складних і послідовних архітектур, таких як повторювані нейронні мережі (RNN) або згорткові нейронні мережі (CNN), модель Transformer представила концепцію уваги, що, по суті, означало зосередження на різних частинах вхідного тексту залежно від контексту. Однією з головних переваг цього була легкість розпаралелювання. На відміну від RNN, які обробляють текст послідовно, що ускладнює масштабування, Transformers можуть обробляти частини тексту одночасно, що робить навчання швидшим і ефективнішим на великих наборах даних.

У довгому тексті не кожне слово чи речення, яке ви читаєте, має однакову важливість. Деякі частини вимагають більшої уваги залежно від контексту. Цю здатність зміщувати фокус на основі релевантності — це те, що імітує механізм уваги.

Щоб зрозуміти це, подумайте про речення: «Об’єднайте ШІ, опублікуйте новини про ШІ та робототехніку». Тепер передбачення наступного слова вимагає розуміння того, що є найважливішим у попередньому контексті. Термін «Робототехніка» може вказувати на те, що наступне слово може бути пов’язане з певним прогресом або подією в галузі робототехніки, тоді як «Опублікувати» може вказувати на те, що наступний контекст може стосуватися нещодавньої публікації чи статті.

Пояснення механізму самоуважності на деммо реченні
Ілюстрація самоуважності

Механізми уваги в Трансформерах розроблені для досягнення цього вибіркового фокусування. Вони оцінюють важливість різних частин вхідного тексту та вирішують, де «шукати» під час генерації відповіді. Це відхід від старих архітектур, таких як RNN, які намагалися втиснути суть усього вхідного тексту в єдиний «стан» або «пам’ять».

Роботу уваги можна порівняти з системою пошуку ключ-значення. Намагаючись передбачити наступне слово в реченні, кожне попереднє слово пропонує «ключ», який передбачає його потенційну релевантність, і залежно від того, наскільки ці ключі відповідають поточному контексту (чи запиту), вони вносять «цінність» або вагу до передбачення.

Ці просунуті моделі глибокого навчання штучного інтелекту бездоганно інтегровані в різні програми, від удосконалення пошукової системи Google за допомогою BERT до Copilot від GitHub, який використовує можливості великих мовних моделей (LLM) для перетворення простих фрагментів коду в повнофункціональні вихідні коди.

Великі мовні моделі (LLM), такі як GPT-4, Bard і LLaMA, є колосальними конструкціями, призначеними для дешифрування та створення людської мови, коду тощо. Їхні величезні розміри, що варіюються від мільярдів до трильйонів параметрів, є однією з визначальних особливостей. Ці магістратури живляться великою кількістю текстових даних, що дозволяє їм зрозуміти тонкощі людської мови. Яскравою характеристикою цих моделей є їх здатність до “малозарядний” навчання. На відміну від звичайних моделей, які потребують величезної кількості конкретних навчальних даних, LLM можуть узагальнювати на основі дуже обмеженої кількості прикладів (або «знімків»)

Стан великих мовних моделей (LLM) станом на середину 2023 року

Назва моделіРозробникпараметриДоступність та доступВідомі функції та зауваження
GPT-4OpenAI1.5 трильйонНе з відкритим кодом, лише доступ до APIВражаюча продуктивність у різноманітних завданнях може обробляти зображення та текст, максимальна довжина введення 32,768 XNUMX токенів
GPT-3OpenAI175 млрд штук.Не з відкритим кодом, лише доступ до APIПродемонстрував здатність до навчання з кількох і нульових спроб. Виконує доповнення тексту природною мовою.
BLOOMBigScience176 млрд штук.Модель, яку можна завантажити, доступний розміщений APIБагатомовний LLM, розроблений глобальною співпрацею. Підтримує 13 мов програмування.
TheMDAGoogle173 млрд штук.Без відкритого коду, без API або завантаженняНавчені діалогу можуть навчитися говорити практично про все
MT-NLGNvidia/Microsoft530 млрд штук.Доступ до API за програмоюВикористовує трансформаторну архітектуру Megatron для різних завдань НЛП.
LlaMAМета ШІ7B до 65B)Завантажується програмоюПризначений для демократизації штучного інтелекту, пропонуючи доступ дослідникам, урядовцям і науковцям.

Як використовуються LLM?

LLM можна використовувати кількома способами, зокрема:

  1. Пряме використання: просте використання попередньо навченого LLM для створення або обробки тексту. Наприклад, використання GPT-4 для написання публікації в блозі без додаткового тонкого налаштування.
  2. Точне налаштування: адаптація попередньо підготовленого LLM для конкретного завдання, метод, відомий як трансферне навчання. Прикладом може бути налаштування T5 для створення підсумків для документів у певній галузі.
  3. Інформаційний пошук: використання LLM, таких як BERT або GPT, як частини більших архітектур для розробки систем, які можуть отримувати та класифікувати інформацію.
Точне налаштування Generative AI ChatGPT
Точна настройка архітектури ChatGPT

Багатостороння увага: навіщо одна, якщо їх можна мати багато?

Однак покладатися на єдиний механізм уваги може бути обмеженим. Різні слова або послідовності в тексті можуть мати різні типи релевантності або асоціацій. Ось тут і з’являється увага кількох голов. Замість одного набору ваг уваги багатоголова увага використовує кілька наборів, що дозволяє моделі фіксувати більшу різноманітність зв’язків у вхідному тексті. Кожна «голова» уваги може зосереджуватися на різних частинах або аспектах вхідних даних, а їхні об’єднані знання використовуються для остаточного прогнозу.

ChatGPT: найпопулярніший генеративний інструмент ШІ

Починаючи з моменту створення GPT у 2018 році, модель, по суті, була побудована на основі 12 шарів, 12 головок уваги та 120 мільйонів параметрів, в основному навчених на наборі даних під назвою BookCorpus. Це був вражаючий початок, який запропонував зазирнути в майбутнє мовних моделей.

GPT-2, представлений у 2019 році, міг похвалитися чотириразовим збільшенням шарів і головок уваги. Показово, що кількість його параметрів різко зросла до 1.5 мільярда. Ця розширена версія отримала навчання з WebText, набору даних, збагаченого 40 ГБ тексту з різних посилань Reddit.

GPT-3, запущений у травні 2020 року, мав 96 шарів, 96 головок уваги та величезну кількість параметрів у 175 мільярдів. Що вирізняло GPT-3, так це різноманітні навчальні дані, які охоплювали CommonCrawl, WebText, англійську Вікіпедію, корпуси книг та інші джерела, що об’єднувало 570 ГБ.

Тонкощі роботи ChatGPT залишаються суворо охоронюваною таємницею. Однак відомо, що процес, який називається «навчання з підкріпленням на основі відгуків людини» (RLHF), є ключовим. Ця техніка, що походить від попереднього проекту ChatGPT, допомогла вдосконалити модель GPT-3.5, щоб вона була більш узгодженою з письмовими інструкціями.

Навчання ChatGPT включає трирівневий підхід:

  1. Контрольоване точне налаштування: включає кураторство написаних людиною розмовних вводів і виходів для вдосконалення основної моделі GPT-3.5.
  2. Моделювання винагороди: люди оцінюють різні результати моделі на основі якості, допомагаючи навчити модель винагороди, яка оцінює кожен результат з урахуванням контексту розмови.
  3. Навчання з підкріпленням: розмовний контекст служить тлом, де основна модель пропонує відповідь. Ця відповідь оцінюється за допомогою моделі винагороди, а процес оптимізується за допомогою алгоритму під назвою проксимальна оптимізація політики (PPO).

Для тих, хто тільки занурюється в ChatGPT, можна знайти вичерпний початковий посібник тут. Якщо ви хочете глибше заглибитися в розробку підказок за допомогою ChatGPT, у нас також є розширений посібник, який висвітлює найновіші та найсучасніші методи підказок, доступний за адресою 'ChatGPT & Advanced Prompt Engineering: стимулювання еволюції ШІ».

Дифузійні та мультимодальні моделі

У той час як моделі, такі як VAE та GAN, генерують свої результати за один прохід, отже, заблоковані в будь-якому продукті, дифузійні моделі ввели концепцію "ітераційне уточнення'. За допомогою цього методу вони повертаються назад, уточнюючи помилки з попередніх кроків і поступово створюючи більш відшліфований результат.

Центральне місце в дифузійних моделях займає мистецтво «корупція» і «доопрацювання». На етапі навчання типове зображення поступово спотворюється шляхом додавання різних рівнів шуму. Ця зашумлена версія потім передається в модель, яка намагається «приглушити» або «пошкодити» її. Завдяки численним раундам цього модель стає вмілою у відновленні, розуміючи як тонкі, так і значні аберації.

Generative AI - Midjourney Prompt
Зображення створено з Midjourney

Процес генерації нових зображень після тренування інтригує. Починаючи з повністю рандомізованих вхідних даних, вони постійно вдосконалюються за допомогою передбачень моделі. Мета полягає в тому, щоб отримати незаймане зображення за допомогою мінімальної кількості кроків. Контроль рівня корупції здійснюється за допомогою «розкладу шуму», механізму, який визначає, скільки шуму застосовується на різних етапах. Планувальник, як це видно в бібліотеках на зразок «дифузори“, визначає характер цих шумних відтворень на основі встановлених алгоритмів.

Важливою архітектурною основою для багатьох дифузійних моделей є UNet—згорточна нейронна мережа, розроблена для завдань, що вимагають, щоб результати відображали просторовий вимір входів. Це поєднання рівнів зменшення та підвищення роздільної здатності, складно поєднаних для збереження даних високої роздільної здатності, ключових для вихідних даних, пов’язаних із зображеннями.

Заглиблюючись у сферу генеративних моделей, OpenAI ВІД-Є 2 постає як яскравий приклад поєднання текстових і візуальних можливостей ШІ. Він має трирівневу структуру:

DALL-E 2 демонструє потрійну архітектуру:

  1. Текстовий кодувальник: він перетворює текстову підказку на концептуальне вбудовування в прихований простір. Ця модель не починається з нуля. Він базується на попередньому навчанні OpenAI Contrastive Language–Image (CLIP) набір даних як його основа. CLIP служить мостом між візуальними та текстовими даними, вивчаючи візуальні поняття за допомогою природної мови. За допомогою механізму, відомого як контрастне навчання, він ідентифікує та зіставляє зображення з їхніми відповідними текстовими описами.
  2. Попередній: вбудований текст, отриманий від кодера, потім перетворюється на вбудоване зображення. DALL-E 2 протестував як авторегресійний, так і дифузійний методи для цього завдання, причому останній продемонстрував кращі результати. Авторегресійні моделі, як це видно в Transformers і PixelCNN, генерують результати в послідовності. З іншого боку, дифузійні моделі, подібні до тієї, що використовується в DALL-E 2, перетворюють випадковий шум у передбачені вбудовані зображення за допомогою текстових вбудованих зображень.
  3. Декодер: кульмінація процесу, ця частина генерує остаточний візуальний результат на основі текстової підказки та вбудовування зображення з попереднього етапу. Декодер DALL.E 2 завдячує своєю архітектурою іншій моделі, ГЛИД, який також може створювати реалістичні зображення з текстових підказок.
Архітектура моделі DALL-E (дифузійна мультимодель)
Спрощена архітектура моделі DALL-E

Зацікавлені користувачі Python Лангчейн варто ознайомитися з нашим докладним посібником, який охоплює все, від основ до складних методів.

Застосування Generative AI

Текстові домени

Починаючи з тексту, Generative AI був фундаментально змінений такими чат-ботами, як ChatGPT. Завдяки значній основі обробки природної мови (NLP) і великих мовних моделей (LLM) ці об’єкти мають повноваження виконувати завдання, починаючи від генерації коду та перекладу мови до підсумовування та аналізу настроїв. ChatGPT, наприклад, отримав широке поширення, став основним продуктом для мільйонів. Це ще більше доповнюється розмовними платформами штучного інтелекту, заснованими на LLM, таких як GPT-4, PaLM та BLOOM, які легко створюють текст, допомагають у програмуванні та навіть пропонують математичні міркування.

З комерційної точки зору ці моделі стають безцінними. Компанії використовують їх для безлічі операцій, включаючи управління ризиками, оптимізацію запасів і прогнозування потреб. Деякі відомі приклади включають Bing AI, Google BARD і ChatGPT API.

Art

Світ зображень зазнав драматичних трансформацій завдяки Generative AI, особливо після появи DALL-E 2 у 2022 році. Ця технологія, яка може генерувати зображення з текстових підказок, має як мистецьке, так і професійне значення. Наприклад, midjourney використала цю технологію для створення вражаюче реалістичних зображень. Цей останній пост демістифікує Midjourney у детальному посібнику, що пояснює як платформу, так і її оперативні інженерні тонкощі. Крім того, такі платформи, як Alpaca AI і Photoroom AI, використовують Generative AI для розширених функцій редагування зображень, таких як видалення фону, видалення об’єктів і навіть відновлення обличчя.

Відеопродукція

Відеовиробництво, яке все ще перебуває на стадії зародження у сфері Generative AI, демонструє багатообіцяючі досягнення. Такі платформи, як Imagen Video, Meta Make A Video та Runway Gen-2, розширюють межі можливого, навіть якщо справді реалістичні результати все ще є на горизонті. Ці моделі пропонують суттєву корисність для створення цифрових людських відеороликів, серед яких такі програми, як Synthesia та SuperCreator, лідирують у цьому. Зокрема, Tavus AI пропонує унікальну торгову пропозицію, персоналізуючи відео для окремих членів аудиторії, що є благом для компаній.

Створення коду

Генеративний штучний інтелект не залишився осторонь кодування, незамінного аспекту нашого цифрового світу. Незважаючи на те, що ChatGPT є улюбленим інструментом, для кодування було розроблено кілька інших програм ШІ. Ці платформи, такі як GitHub Copilot, Alphacode і CodeComplete, служать помічниками в кодуванні і навіть можуть створювати код із текстових підказок. Що інтригує, так це адаптивність цих інструментів. Codex, рушійну силу GitHub Copilot, можна адаптувати до індивідуального стилю кодування, підкреслюючи потенціал персоналізації Generative AI.

Висновок

Поєднуючи людську творчість із машинними обчисленнями, він перетворився на безцінний інструмент, завдяки таким платформам, як ChatGPT і DALL-E 2, які розширюють межі можливого. Від створення текстового вмісту до ліплення візуальних шедеврів, їх застосування величезне та різноманітне.

Як і у випадку з будь-якою технологією, етичні наслідки є найважливішими. Хоча Generative AI обіцяє безмежну креативність, надзвичайно важливо використовувати його відповідально, усвідомлюючи потенційні упередження та силу маніпулювання даними.

З огляду на те, що такі інструменти, як ChatGPT, стають доступнішими, настав ідеальний час для випробувань і експериментів. Незалежно від того, чи ви художник, програміст чи технічний ентузіаст, царство Generative AI рясніє можливостями, які чекають на вивчення. Революція не на горизонті; це тут і зараз. Отже, занурюйтесь!

Останні п’ять років я провів, занурюючись у захоплюючий світ машинного та глибокого навчання. Моя пристрасть і досвід допомогли мені внести свій внесок у понад 50 різноманітних проектів розробки програмного забезпечення, зосередивши особливу увагу на ШІ/ML. Моя постійна цікавість також привела мене до обробки природної мови, галузі, яку я хочу досліджувати далі.