Изкуствен интелект

Generative AI: Идеята зад CHATGPT, Dall-E, Midjourney и други

Обновено on Август 8, 2023

Светът на изкуството, комуникацията и начина, по който възприемаме реалността, бързо се трансформира. Ако погледнем назад към историята на човешките иновации, можем да приемем изобретяването на колелото или откриването на електричеството като монументални скокове. Днес се извършва нова революция – преодоляване на разделението между човешката креативност и машинните изчисления. Това е Generative AI.

Генеративните модели са размили границата между хората и машините. С появата на модели като GPT-4, който използва трансформаторни модули, ние се доближихме до генерирането на естествен и богат на контекст език. Тези постижения са подхранвали приложения за създаване на документи, диалогови системи за чатбот и дори синтетична музикална композиция.

Последните решения на Big-Tech подчертават значението му. Microsoft вече е преустановява приложението Cortana този месец, за да дадем приоритет на по-новите Generative AI иновации, като Bing Chat. Apple също е посветила значителна част от своите 22.6 милиарда долара бюджет за научноизследователска и развойна дейност към генеративния AI, както посочи изпълнителният директор Тим Кук.

Нова ера от модели: Generative Vs. Дискриминиращ

Историята на Generative AI не е само за неговите приложения, но основно за неговата вътрешна работа. В екосистемата на изкуствения интелект съществуват два модела: дискриминационен и генеративен.

Дискриминиращите модели са това, с което повечето хора се сблъскват в ежедневието. Тези алгоритми приемат входни данни, като текст или изображение, и ги свързват с целеви изход, като превод на дума или медицинска диагноза. Те са за картографиране и прогнозиране.

Генеративните модели, от друга страна, са творци. Те не просто интерпретират или предвиждат; те генерират нови, сложни резултати от вектори на числа, които често дори не са свързани със стойности от реалния свят.

Технологиите зад генеративните модели

Генеративните модели дължат съществуването си на дълбоки невронни мрежи, сложни структури, предназначени да имитират функционалността на човешкия мозък. Чрез улавяне и обработка на многостранни вариации в данните, тези мрежи служат като гръбнак на множество генеративни модели.

Как тези генеративни модели оживяват? Обикновено те са изградени с дълбоки невронни мрежи, оптимизирани за улавяне на многостранните вариации в данните. Ярък пример е Генеративна състезателна мрежа (GAN), където две невронни мрежи, генераторът и дискриминаторът, се конкурират и се учат една от друга в уникална връзка учител-ученик. От картини до трансфер на стил, от музикална композиция до игра на игри, тези модели се развиват и разширяват по начини, немислими преди.

Това не спира с GAN. Вариационни автоенкодери (VAE), са друг основен играч в областта на генеративните модели. VAE се открояват със способността си да създават фотореалистични изображения от привидно произволни числа. как? Обработката на тези числа чрез латентен вектор ражда изкуство, което отразява сложността на човешката естетика.

Генеративни типове AI: текст към текст, текст към изображение

Трансформърс & LLM

Хартията "Вниманието е всичко, от което се нуждаете” от Google Brain отбеляза промяна в начина, по който мислим за моделирането на текст. Вместо сложни и последователни архитектури като повтарящи се невронни мрежи (RNNs) или конволюционни невронни мрежи (CNNs), моделът Transformer въвежда концепцията за внимание, което по същество означава фокусиране върху различни части от входния текст в зависимост от контекста. Едно от основните предимства на това беше лекотата на паралелизиране. За разлика от RNN, които обработват текст последователно, което ги прави по-трудни за мащабиране, Transformers могат да обработват части от текста едновременно, което прави обучението по-бързо и по-ефективно при големи набори от данни.

: Трансформатор-модел архитектура

В дълъг текст не всяка дума или изречение, което четете, има еднаква важност. Някои части изискват повече внимание въз основа на контекста. Тази способност да изместваме фокуса си въз основа на уместността е това, което механизмът на вниманието имитира.

За да разберете това, помислете за изречение: „Обединете AI, публикувайте новини за AI и роботика“. Сега предвиждането на следващата дума изисква разбиране на това, което е най-важно в предишния контекст. Терминът „Роботика“ може да предполага, че следващата дума може да е свързана с конкретен напредък или събитие в областта на роботиката, докато „Публикуване“ може да означава, че следният контекст може да се задълбочи в скорошна публикация или статия.

: Илюстрация за самовнимание

Механизмите за внимание в Transformers са предназначени да постигнат този селективен фокус. Те преценяват важността на различни части от въведения текст и решават къде да „търсят“, когато генерират отговор. Това е отклонение от по-старите архитектури като RNN, които се опитват да натъпчат същността на целия въведен текст в едно „състояние“ или „памет“.

Работата на вниманието може да се оприличи на система за извличане на ключ-стойност. При опит да се предскаже следващата дума в изречение, всяка предходна дума предлага „ключ“, предполагащ нейната потенциална уместност, и въз основа на това колко добре тези ключове съответстват на текущия контекст (или заявка), те допринасят със „стойност“ или тежест към прогноза.

Тези усъвършенствани модели за задълбочено обучение на AI са безпроблемно интегрирани в различни приложения, от подобренията на търсачката на Google с BERT до Copilot на GitHub, който използва способността на големите езикови модели (LLM) за конвертиране на прости кодови фрагменти в напълно функционални изходни кодове.

Големите езикови модели (LLM) като GPT-4, Bard и LLaMA са колосални конструкции, предназначени да дешифрират и генерират човешки език, код и др. Техният огромен размер, вариращ от милиарди до трилиони параметри, е една от определящите характеристики. Тези LLMs се захранват с обилни количества текстови данни, което им позволява да схванат тънкостите на човешкия език. Удивителна характеристика на тези модели е тяхната способност за „малко изстрел" изучаване на. За разлика от конвенционалните модели, които се нуждаят от огромно количество специфични данни за обучение, LLM могат да обобщават от много ограничен брой примери (или „изстрели“)

Състояние на големите езикови модели (LLM) след средата на 2023 г

Наименование на модела	Софтуерен Инженер	параметри	Наличност и достъп	Забележителни характеристики и забележки
GPT-4	OpenAI	1.5 трилиона	Не е с отворен код, само API достъп	Впечатляващата производителност при различни задачи може да обработва изображения и текст, максимална дължина на въвеждане 32,768 XNUMX токена
GPT-3	OpenAI	175 милиарда	Не е с отворен код, само API достъп	Демонстрирани способности за учене с няколко и нулеви изстрела. Извършва довършване на текст на естествен език.
BLOOM	BigScience	176 милиарда	Модел за изтегляне, наличен хостван API	Многоезичен LLM, разработен чрез глобално сътрудничество. Поддържа 13 езика за програмиране.
TheMDA	Google	173 милиарда	Не е с отворен код, няма API или изтегляне	Обучен на диалог може да се научи да говори за почти всичко
MT-NLG	Nvidia/Microsoft	530 милиарда	API достъп по приложение	Използва базирана на трансформатор Megatron архитектура за различни NLP задачи.
Обаждания	Мета AI	7B до 65B)	Може да се изтегли чрез приложение	Предназначен за демократизиране на AI чрез предлагане на достъп до изследователите, правителството и академичните среди.

Как се използват LLM?

LLM могат да се използват по много начини, включително:

Директно използване: Просто използване на предварително обучен LLM за генериране или обработка на текст. Например, използване на GPT-4 за писане на публикация в блог без допълнителна фина настройка.
Фина настройка: Адаптиране на предварително обучен LLM за конкретна задача, метод, известен като трансферно обучение. Пример би бил персонализирането на T5 за генериране на резюмета за документи в конкретна индустрия.
Извличане на информация: Използване на LLM, като BERT или GPT, като част от по-големи архитектури за разработване на системи, които могат да извличат и категоризират информация.

: Архитектура за фина настройка на ChatGPT

Внимание с няколко глави: Защо едно, когато можете да имате много?

Въпреки това, разчитането на един единствен механизъм за внимание може да бъде ограничаващо. Различните думи или последователности в даден текст могат да имат различни видове уместност или асоциации. Тук се намесва вниманието на няколко глави. Вместо един набор от тежести на вниманието, вниманието на няколко глави използва множество набори, което позволява на модела да улови по-богато разнообразие от връзки във входния текст. Всяка „глава“ на вниманието може да се съсредоточи върху различни части или аспекти на входа и техните комбинирани знания се използват за окончателното прогнозиране.

ChatGPT: Най-популярният генериращ AI инструмент

Започвайки със създаването на GPT през 2018 г., моделът по същество е изграден върху основата на 12 слоя, 12 глави за внимание и 120 милиона параметъра, основно обучени върху набор от данни, наречен BookCorpus. Това беше впечатляващо начало, предлагащо поглед към бъдещето на езиковите модели.

GPT-2, представен през 2019 г., се похвали с четирикратно увеличение на слоевете и главите за внимание. Показателно е, че броят на параметрите му скочи до 1.5 милиарда. Тази подобрена версия получи своето обучение от WebText, набор от данни, обогатен с 40 GB текст от различни връзки на Reddit.

GPT-3, пуснат през май 2020 г., имаше 96 слоя, 96 глави за внимание и огромен брой параметри от 175 милиарда. Това, което отличава GPT-3, са неговите разнообразни данни за обучение, обхващащи CommonCrawl, WebText, английска Wikipedia, корпуси от книги и други източници, комбинирани за общо 570 GB.

Тънкостите на работата на ChatGPT остават строго пазена тайна. Известно е обаче, че процесът, наречен „обучение с подсилване от човешка обратна връзка“ (RLHF), е основен. Произхождайки от по-ранен проект ChatGPT, тази техника беше инструмент за усъвършенстване на модела GPT-3.5, за да бъде по-съобразен с писмените инструкции.

Обучението на ChatGPT включва тристепенен подход:

Контролирана фина настройка: Включва куриране на входове и изходи, написани от хора, за да се усъвършенства основният модел GPT-3.5.
Моделиране на възнаграждение: Хората класират различни изходи на модела въз основа на качеството, като помагат за обучението на модел на възнаграждение, който оценява всеки изход, като взема предвид контекста на разговора.
Обучение с подсилване: Контекстът на разговора служи като фон, където основният модел предлага отговор. Този отговор се оценява от модела на възнаграждението и процесът се оптимизира с помощта на алгоритъм, наречен оптимизация на проксималната политика (PPO).

За тези, които тепърва навлизат в ChatGPT, може да се намери изчерпателно начално ръководство тук. Ако искате да навлезете по-дълбоко в бързото инженерство с ChatGPT, ние също имаме усъвършенствано ръководство, което осветява най-новите и най-съвременни техники за подсказки, достъпно на „ChatGPT & Advanced Prompt Engineering: Задвижване на еволюцията на AI'.

Дифузионни и мултимодални модели

Докато модели като VAE и GAN генерират своите изходи чрез едно преминаване, следователно заключени във всичко, което произвеждат, дифузионните модели въведоха концепцията за "итеративно усъвършенстване'. Чрез този метод те се връщат назад, прецизирайки грешките от предишни стъпки и постепенно произвеждайки по-полиран резултат.

В центъра на дифузионните модели е изкуството на „корупция” и „усъвършенстване”. В тяхната фаза на обучение типичното изображение постепенно се поврежда чрез добавяне на различни нива на шум. След това тази шумна версия се подава към модела, който се опитва да я „демонизира“ или „декорумпира“. Чрез множество кръгове на това моделът става опитен в възстановяването, разбирайки както фините, така и значителните аберации.

: Изображението е генерирано от Midjourney

Процесът на генериране на нови изображения след обучението е интригуващ. Започвайки с напълно рандомизиран вход, той непрекъснато се усъвършенства с помощта на прогнозите на модела. Целта е да се постигне чист образ с минимален брой стъпки. Контролът на нивото на корупция се извършва чрез „график на шума“, механизъм, който управлява колко шум се прилага на различни етапи. Планировчик, както се вижда в библиотеки като „дифузори“, диктува естеството на тези шумни предавания, базирани на установени алгоритми.

Основен архитектурен гръбнак за много дифузионни модели е UNet— конволюционна невронна мрежа, пригодена за задачи, изискващи изходи, отразяващи пространственото измерение на входовете. Това е смесица от слоеве за понижаване и повишаване на семплирането, сложно свързани за запазване на данни с висока разделителна способност, основни за изходи, свързани с изображения.

Навлизайки по-дълбоко в областта на генеративните модели, OpenAI's DALL-E2 се очертава като блестящ пример за сливането на текстови и визуални възможности на AI. Той използва тристепенна структура:

DALL-E 2 демонстрира тройна архитектура:

Текстов енкодер: Той трансформира текстовата подкана в концептуално вграждане в латентно пространство. Този модел не започва от нулата. Той се основава на Предварителното обучение за контрастен език – изображение на OpenAI (CLIP) набор от данни като негова основа. CLIP служи като мост между визуални и текстови данни чрез изучаване на визуални концепции с помощта на естествен език. Чрез механизъм, известен като контрастно обучение, той идентифицира и съпоставя изображения със съответните им текстови описания.
Предишното: Вграждането на текст, получено от енкодера, след това се преобразува във вграждане на изображение. DALL-E 2 тества както авторегресивен, така и дифузионен метод за тази задача, като последният показва превъзходни резултати. Авторегресивните модели, както се вижда в Transformers и PixelCNN, генерират резултати в последователности. От друга страна, моделите на дифузия, като този, използван в DALL-E 2, трансформират случаен шум в предвидени вграждания на изображения с помощта на вграждания на текст.
Декодерът: Кулминацията на процеса, тази част генерира крайния визуален изход въз основа на текстовата подкана и вграждането на изображение от предходната фаза. Декодерът на DALL.E 2 дължи своята архитектура на друг модел, ГЛИД, който също може да създаде реалистични изображения от текстови знаци.

: Опростена архитектура на модела DALL-E

Потребителите на Python се интересуват от Langchain трябва да разгледате нашия подробен урок, обхващащ всичко от основите до напредналите техники.

Приложения на Generative AI

Текстови домейни

Започвайки с текста, Generative AI е фундаментално променен от чатботове като ChatGPT. Разчитайки в голяма степен на обработката на естествен език (NLP) и големите езикови модели (LLM), тези субекти са упълномощени да изпълняват задачи, вариращи от генериране на код и превод на език до обобщаване и анализ на настроението. ChatGPT, например, получи широко разпространение, превръщайки се в основен продукт за милиони. Това е допълнително подсилено от разговорни AI платформи, базирани на LLM като GPT-4, ДЛАН, и BLOOM, които създават без усилие текст, помагат при програмирането и дори предлагат математически разсъждения.

От търговска гледна точка тези модели стават безценни. Бизнесът ги наема за безброй операции, включително управление на риска, оптимизиране на инвентара и прогнозиране на изискванията. Някои забележителни примери включват Bing AI, BARD на Google и ChatGPT API.

Изкуство / КАРТИНИ

Светът на изображенията претърпя драматични трансформации с Generative AI, особено след представянето на DALL-E 2 през 2022 г. Тази технология, която може да генерира изображения от текстови подкани, има както артистични, така и професионални последици. Например, midjourney използва тази технология, за да създаде впечатляващо реалистични изображения. Тази скорошна публикация демистифицира Midjourney в подробно ръководство, изясняващо както платформата, така и нейните бързи инженерни тънкости. Освен това платформи като Alpaca AI и Photoroom AI използват Generative AI за усъвършенствани функции за редактиране на изображения, като премахване на фон, изтриване на обекти и дори възстановяване на лица.

Видео продукция

Видео продукцията, макар и все още в начален стадий в сферата на Generative AI, демонстрира обещаващи постижения. Платформи като Imagen Video, Meta Make A Video и Runway Gen-2 разширяват границите на възможното, дори ако наистина реалистични резултати все още са на хоризонта. Тези модели предлагат значителна полезност за създаване на цифрови човешки видеоклипове, като приложения като Synthesia и SuperCreator са водещи. По-специално, Tavus AI предлага уникално предложение за продажба чрез персонализиране на видеоклипове за отделни членове на аудиторията, благодат за бизнеса.

Създаване на код

Кодирането, незаменим аспект на нашия дигитален свят, не остана незасегнато от Generative AI. Въпреки че ChatGPT е предпочитан инструмент, няколко други AI приложения са разработени за целите на кодирането. Тези платформи, като GitHub Copilot, Alphacode и CodeComplete, служат като помощници за кодиране и дори могат да произвеждат код от текстови подкани. Това, което е интригуващо, е адаптивността на тези инструменти. Codex, движещата сила зад GitHub Copilot, може да бъде съобразен с индивидуалния стил на кодиране, подчертавайки потенциала за персонализиране на Generative AI.

Заключение

Смесвайки човешката креативност с машинните изчисления, той се превърна в безценен инструмент с платформи като ChatGPT и DALL-E 2, които разширяват границите на това, което е възможно. От изработване на текстово съдържание до извайване на визуални шедьоври, техните приложения са обширни и разнообразни.

Както при всяка технология, етичните последици са от първостепенно значение. Въпреки че Generative AI обещава безгранична креативност, изключително важно е да го използвате отговорно, като сте наясно с потенциалните пристрастия и силата на манипулирането на данни.

Тъй като инструменти като ChatGPT стават все по-достъпни, сега е идеалният момент да тествате водите и да експериментирате. Независимо дали сте художник, програмист или технологичен ентусиаст, царството на Generative AI е пълно с възможности, които чакат да бъдат изследвани. Революцията не е на хоризонта; това е тук и сега. Така че, гмурнете се!

Свързани теми:чат gpt DALL-E дълбоко учене генеративен ai Магистър по право По средата на пътуването

Следва

Generative AI заема централно място на конференцията Ai2023 през 4 г

Не пропускайте

Способностите на AI за аналогово разсъждение: Предизвикателство за човешкия интелект?

Аюш Митал

Прекарах последните пет години, потапяйки се в завладяващия свят на машинното обучение и дълбокото обучение. Моята страст и опит ме накараха да допринеса за над 50 различни проекта за софтуерно инженерство, със специален фокус върху AI/ML. Продължаващото ми любопитство също ме насочи към обработката на естествен език, област, която нямам търпение да проуча по-нататък.