Штучний інтелект

Генеративний AI: Ідея за CHATGPT, Dall-E, Midjourney та більше

Published August 8, 2023

Updated April 28, 2026

Aayush Mittal Mittal

Світ мистецтва, спілкування та сприйняття реальності швидко трансформується. Якщо ми оглянемося на історію людських інновацій, ми можемо вважати винахід колеса або відкриття електрики монументальними стрибками. Сьогодні відбувається нова революція — будівництво мосту між людською креативністю та обчислювальними можливостями машин. Це Генеративний AI.

Генеративні моделі розмитили межу між людьми та машинами. З появою моделей, таких як GPT-4, які використовують модулі трансформерів, ми зробили крок ближче до природної та контекстно-багатої генерації мови. Ці досягнення сприяли застосункам у створенні документів, системах діалогу чат-ботів та навіть синтезі музики.

Нещодавні рішення великих технологічних компаній підкреслюють його значення. Microsoft вже припиняє роботу свого додатка Cortana цього місяця, щоб пріоритезувати нові інновації Генеративного AI, такі як Bing Chat. Apple також виділила значну частку свого бюджету на дослідження та розробку в розмірі 22,6 мільярдів доларів на Генеративний AI, як зазначив генеральний директор Тім Кук.

Нова ера моделей: Генеративні проти дискримінативних

Історія Генеративного AI не лише про його застосування, а фундаментально про його внутрішню роботу. У екосистемі штучного інтелекту існують два типи моделей: дискримінативні та генеративні.

Дискримінативні моделі — це те, з чим більшість людей зустрічається в повсякденному житті. Ці алгоритми приймають вхідні дані, такі як текст або зображення, та поєднують їх з цільовим виходом, наприклад, перекладом слова або медичною діагнозою. Вони займаються відображенням та передбаченням.

Генеративні моделі, з іншого боку, — це творці. Вони не лише інтерпретують чи передбачають; вони генерують нові, складні виходи з векторів чисел, які часто не пов’язані з реальними значеннями.

Технології за Генеративними моделями

Генеративні моделі зобов’язані своєю існуванням глибоким нейронним мережам, складним структурам, розробленим для імітації функціональності людського мозку. Захоплюючи та обробляючи багатоманітні варіації даних, ці мережі служать хребтом численних генеративних моделей.

Як ці генеративні моделі стають живими? Зазвичай їх будують з глибоких нейронних мереж, оптимізованих для захоплення багатоманітних варіацій даних. Прикладом є Генеративна суперницька мережа (GAN), де дві нейронні мережі, генератор і дискримінатор, змагаються та вчаться одна в одній у унікальних вчителі-учень відносинах. Від картин до стилістичної трансформації, від музичної композиції до гри, ці моделі еволюціонують та розширюються способами, раніше неможливими.

Це не зупиняється на GAN. Варіаційні автоенкодери (VAE), ще один ключовий гравець у сфері генеративних моделей. VAE виділяються своєю здатністю створювати фотореалістичні зображення з випадкових чисел. Як? Обробляючи ці числа через латентний вектор, народжується мистецтво, яке віддзеркалює складності людської естетики.

Типи Генеративного AI: Текст у текст, текст у зображення

Трансформери та LLM

Стаття «Увага — це все, що вам потрібно» від Google Brain позначила зміну у способі нашого мислення про текстову модель. Замість складних та послідовних архітектур, таких як рекурентні нейронні мережі (RNN) або конволюційні нейронні мережі (CNN), модель Трансформера ввела концепцію уваги, яка суттєво означала фокусування на різних частинах вхідного тексту залежно від контексту. Одним з основних переваг було полегшення паралелізму. На відміну від RNN, які обробляють текст послідовно, що робить їх важчими для масштабування, Трансформери можуть обробляти частини тексту одночасно, роблячи навчання швидшим та ефективнішим на великих наборах даних.

: Архітектура Трансформера

У довгому тексті не кожне слово чи речення, яке ви читаєте, має однакову важливість. Деякі частини вимагають більшої уваги залежно від контексту. Це здатність змінювати наш фокус залежно від актуальності — це те, що механізм уваги імітує.

Щоб зрозуміти це, подумайте про речення: “Unite AI публікує новини про AI та робототехніку”. Тепер передбачення наступного слова вимагає розуміння того, що найважливіше в попередньому контексті. Термін ‘робототехніка’ може вказувати на те, що наступне слово може бути пов’язане з певним досягненням або подією в галузі робототехніки, тоді як ‘публікує’ може вказувати на те, що наступний контекст може бути пов’язаний з недавньою публікацією або статтею.

: Ілюстрація самої уваги

Механізми уваги в Трансформерах розроблені для досягнення цього селективного фокусу. Вони оцінюють важливість різних частин вхідного тексту та вирішують, куди «дивитися», коли генерують відповідь. Це відхід від старих архітектур, таких як RNN, які намагалися втиснути суть всього вхідного тексту в один «стан» або «пам’ять».

Принцип роботи уваги можна порівняти з системою отримання ключа-значення. При спробі передбачити наступне слово в реченні кожне попереднє слово пропонує «ключ», який свідчить про його потенційну актуальність, і залежно від того, наскільки добре ці ключі збігаються з поточним контекстом (або запитом), вони внесли б «значення» або вагу до передбачення.

Ці просунуті моделі глибокого навчання AI безшовно інтегрувалися в різні застосунки, від покращень пошукової системи Google з BERT до GitHub’s Copilot, який використовує здатність великих мовних моделей (LLM) перетворювати прості кодові фрагменти в повністю функціональні джерельні коди.

Великі мовні моделі (LLM), такі як GPT-4, Bard та LLaMA, — це колосальні конструкції, розроблені для розшифрування та генерації людської мови, коду та більше. Їх величезний розмір, який варіюється від мільярдів до тріліонів параметрів, — одна з визначальних ознак. Ці LLM годуються великими обсягами текстових даних, що дозволяє їм охопити тонкощі людської мови. Вражаюча характеристика цих моделей — їхня здатність до «фews-шот» навчання. На відміну від традиційних моделей, яким потрібні величезні обсяги конкретних навчальних даних, LLM можуть узагальнювати з дуже обмеженої кількості прикладів (або «шотів»).

Стан великих мовних моделей (LLM) станом на середину 2023 року

Назва моделі	Розробник	Параметри	Доступність та доступ	Відмінні особливості та зауваження
GPT-4	OpenAI	1,5 трильйона	Не відкритий вихідний код, доступ лише через API	Вражаючі результати на різних завданнях, може обробляти зображення та текст, максимальна довжина вхідного тексту — 32 768 токенів
GPT-3	OpenAI	175 мільярдів	Не відкритий вихідний код, доступ лише через API	Демонструвала здатність до фью-шот та зеро-шот навчання. Виконує завершення тексту в природній мові.
BLOOM	BigScience	176 мільярдів	Модель можна завантажити, доступна хостована API	Багатомовна LLM, розроблена глобальною спільнотою. Підтримує 13 мов програмування.
LaMDA	Google	173 мільярда	Не відкритий вихідний код, немає API чи завантаження	Навчена на діалогах, може вивчити розмовляти практично про все.
MT-NLG	Nvidia/Microsoft	530 мільярдів	Доступ через API за заявкою	Використовує архітектуру Megatron на основі трансформерів для різних завдань NLP.
LLaMA	Meta AI	7 мільярдів — 65 мільярдів)	Модель можна завантажити за заявкою	Призначена для демократизації AI, пропонуючи доступ тим, хто займається дослідженнями, державними установами та академією.

Як використовуються LLM?

LLM можна використовувати різними способами, включаючи:

Прямий використовування: Просто використання попередньо навченої LLM для генерації тексту або обробки. Наприклад, використання GPT-4 для написання блог-посту без додаткової настройки.
Настройка: Адаптація попередньо навченої LLM для конкретного завдання, метод відомий як перенос навчання. Прикладом може бути налаштування T5 для генерації резюме документів у певній галузі.
Пошук інформації: Використання LLM, таких як BERT або GPT, як частини більших архітектур для розробки систем, які можуть пошукати та категоризувати інформацію.

: Архітектура настройки ChatGPT

Багатоголова увага: Чому одна, коли можна мати багато?

Однак, залежність від одного механізму уваги може бути обмежувальною. Різні слова чи послідовності в тексті можуть мати різні типи актуальності або асоціацій. Саме тут вступає в дію багатоголова увага. Замість одного набору ваг уваги багатоголова увага використовує кілька наборів, що дозволяє моделі захопити більш багату різноманітність відносин у вхідному тексті. Кожна «голова» уваги може фокусуватися на різних частинах або аспектах вхідного тексту, а їхнє спільне знання використовується для остаточного передбачення.

ChatGPT: Найпопулярніший інструмент Генеративного AI

Починаючи з появи GPT у 2018 році, модель була суттєво побудована на основі 12 шарів, 12 голів уваги та 120 мільйонів параметрів, в основному навчених на наборі даних BookCorpus. Це був вражаючий старт, який пропонував погляд у майбутнє мовних моделей.

GPT-2, представлений у 2019 році, мав чотирикратне збільшення шарів та голів уваги. Значущо, кількість його параметрів зросла до 1,5 мільярда. Ця покращена версія походила зі тренувального набору даних WebText, збагаченого 40 ГБ тексту з різних посилань Reddit.

GPT-3, запущений у травні 2020 року, мав 96 шарів, 96 голів уваги та величезну кількість параметрів у 175 мільярдів. Що відрізняло GPT-3, так це його різноманітний тренувальний набір даних, який включав CommonCrawl, WebText, англійську Вікіпедію, корпуси книг та інші джерела, що складалися з загального обсягу 570 ГБ.

Деталі роботи ChatGPT залишаються добре охоронюваною таємницею. Однак процес, відомий як «зміцнення навчання з людською обратною зв’язкою» (RLHF), відомий як ключовий у вдосконаленні моделі GPT-3.5 для того, щоб вона краще відповідала написаним інструкціям.

Навчання ChatGPT складається з трирівневого підходу:

Навчання з учителем: Включає створення людських розмовних вхідних та вихідних даних для уточнення основної моделі GPT-3.5.
Моделювання нагород: Люди ранжують різні виходи моделі за якістю, допомагаючи тренувати модель нагород, яка оцінює кожен вихід, враховуючи контекст розмови.
Зміцнення навчання: Контекст розмови служить фоном, де основна модель пропонує відповідь. Ця відповідь оцінюється моделлю нагород, а процес оптимізується за допомогою алгоритму, відомого як проксимальна політика оптимізації (PPO).

Для тих, хто тільки починає знайомство з ChatGPT, повний вступний посібник можна знайти тут. Якщо ви хочете глибше зануритися у інженерію промптів з ChatGPT, у нас також є розширений посібник, який освітлює останні та найкращі техніки промптів, доступний на ‘ChatGPT та розширена інженерія промптів: рух AI-еволюції‘.

Дифузія та мультимодальні моделі

Хоча моделі, подібні до VAE та GAN, генерують свої виходи через один прохід, а отже, закріплені в тому, що вони виробляють, дифузійні моделі ввели концепцію «ітеративного уточнення». За допомогою цього методу вони повертаються, уточнюючи помилки з попередніх кроків, і поступово виробляють більш полішований результат.

Центральним для дифузійних моделей є мистецтво «корупції» та «уточнення». На етапі навчання типове зображення поступово корумпується шляхом додавання різних рівнів шуму. Ця шумова версія подається до моделі, яка намагається «денойзити» або «декорумпувати» її. Через кілька раундів цього процесу модель стає майстром у відновленні, розуміючи як тонкі, так і суттєві відхилення.

: Зображення, згенероване Midjourney

Процес генерації нових зображень після навчання інтригуючий. Починаючи з абсолютно випадкового вхідного сигналу, його постійно уточнюють за допомогою передбачень моделі. Мета — досягти ідеального зображення за мінімальну кількість кроків. Контроль рівня корупції здійснюється через «графік шуму», механізм, який керує тим, скільки шуму застосовується на різних етапах. Планувальник, як видно з бібліотек, таких як «diffusers», диктує характер цих шумових версій на основі встановлених алгоритмів.

Есенційна архітектурна основа для багатьох дифузійних моделей — це U-Net — конволюційна нейронна мережа, адаптована для завдань, які вимагають виходів, що дзеркально відображають просторові розміри вхідних даних. Це поєднання шарів дownsampling та upsampling, тісно пов’язаних для збереження високої роздільної здатності даних, що є важливим для виходів, пов’язаних із зображеннями.

Глибше в сфері генеративних моделей виділяється DALL-E 2 від OpenAI як яскравий приклад злиття текстових та візуальних можливостей AI. Вона використовує трирівневу структуру:

DALL-E 2 демонструє трирівневу архітектуру:

Текстовий кодувальник: Він перетворює текстовий промпт у концептуальне вкладення у латентному просторі. Ця модель не починається з нуля. Вона спирається на набір даних Contrastive Language–Image Pre-training (CLIP) від OpenAI як свою основу. CLIP служить мостом між візуальними та текстовими даними, вивчаючи візуальні концепції за допомогою природної мови. Через механізм, відомий як контрастне навчання, він ідентифікує та поєднує зображення з відповідними текстовими описами.
Приор: Текстове вкладення, отримане з кодувальника, потім перетворюється в зображеннєве вкладення. DALL-E 2 тестувала автoregresивні та дифузійні методи для цього завдання, причому останній показав кращі результати. Авторегресивні моделі, як видно в Трансформерах та PixelCNN, генерують виходи послідовно. З іншого боку, дифузійні моделі, як ті, що використовуються в DALL-E 2, перетворюють випадковий шум у передбачувані зображеннєві вкладення за допомогою текстових вкладень.
Декодувальник: Кульмінація процесу, цей етап генерує остаточний візуальний вихід на основі текстового промпту та зображеннєвого вкладення з попередньої фази. Декодувальник DALL-E 2 зобов’язаний своєю архітектурою іншій моделі, GLIDE, яка також може генерувати реалістичні зображення з текстових підказок.

: Упрощена архітектура моделі DALL-E

Користувачі Python, зацікавлені в Langchain, повинні переглянути наш детальний туторіал, який охоплює все, від основ до просунутих технік.

Застосування Генеративного AI

Текстові області

Починаючи з тексту, Генеративний AI суттєво змінився завдяки чат-ботам, таким як ChatGPT. Спираючись на обробку природної мови (NLP) та великі мовні моделі (LLM), ці сутності здатні виконувати завдання, що варіюються від генерації коду та перекладу мови до підсумовування та аналізу настроїв. ChatGPT, наприклад, став широко прийнятим, ставши основою для мільйонів. Це доповнюється платформами конверсаційного AI, заснованими на LLM, таких як GPT-4, PaLM та BLOOM, які без зусиль генерують текст, допомагають у програмуванні та навіть пропонують математичне міркування.

З комерційної точки зору ці моделі стають безцінними. Бізнес використовує їх для різноманітних операцій, включаючи управління ризиками, оптимізацію запасів та прогнозування попиту. Низка відомих прикладів включає Bing AI, Google’s BARD та ChatGPT API.

Мистецтво

Світ зображень зазнав драматичних трансформацій завдяки Генеративному AI, особливо з моменту появи DALL-E 2 у 2022 році. Ця технологія, яка може генерувати зображення з текстових промптів, має як художні, так і професійні наслідки. Наприклад, midjourney використала цю технологію для створення вражаюче реалістичних зображень. Ця недавня публікація роз’яснює midjourney у детальному посібнику, висвітлюючи як платформу, так і її інженерію промптів. Крім того, платформи, такі як Alpaca AI та Photoroom AI, використовують Генеративний AI для просунутих функцій редагування зображень, таких як видалення фону, видалення об’єктів та навіть відновлення обличчя.

Виробництво відео

Виробництво відео, хоча ще в зародковому стані в сфері Генеративного AI, демонструє перспективні досягнення. Платформи, такі як Imagen Video, Meta Make A Video та Runway Gen-2, розширюють межі того, що можливо, хоча真正і реалістичні виходи ще на горизонті. Ці моделі пропонують суттєву користь для створення цифрових відео з людьми, з застосунками, такими як Synthesia та SuperCreator, на чолі. Значущо, Tavus AI пропонує унікальну пропозицію, персоналізуючи відео для окремих членів аудиторії, що є благом для бізнесу.

Створення коду

Кодування, невід’ємна частина нашого цифрового світу, не залишилося поза впливом Генеративного AI. Хоча ChatGPT є улюбленим інструментом, кілька інших застосунків AI були розроблені для цілей кодування. Ці платформи, такі як GitHub Copilot, Alphacode та CodeComplete, служать помічниками з кодування та можуть навіть генерувати код з текстових промптів. Що цікаво, так це адаптивність цих інструментів. Codex, рухова сила за GitHub Copilot, може бути адаптований до індивідуального стилю кодування, підкреслюючи потенціал персоналізації Генеративного AI.

Висновок

З’єднуючи людську креативність з обчислювальними можливостями машин, Генеративний AI еволюціонував у безцінний інструмент, з платформами, такими як ChatGPT та DALL-E 2, які розширюють межі того, що можна уявити. Від створення текстового вмісту до створення візуальних шедеврів, їхнє застосування різноманітне та широке.

Як і з будь-якою технологією, етичні наслідки мають першорядне значення. Хоча Генеративний AI обіцяє безмежну креативність, важливо використовувати його відповідально, бути обізнаним про потенційні упередження та силу маніпулювання даними.

З появою інструментів, таких як ChatGPT, зараз ідеальний час, щоб ознайомитися та експериментувати. Чи ви художник, кодер чи ентузіаст технологій, сфера Генеративного AI наповнена можливостями, які чекають на дослідження. Революція не на горизонті; вона вже тут. Тому, пірнайте!

Related Topics:chatgpt DALL-E deep learning generative ai LLM Midjourney

Aayush Mittal

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.