никулец Генеративна вештачка интелигенција: Идејата зад CHATGPT, Dall-E, Midjourney и повеќе - Unite.AI
Поврзете се со нас

Вештачка интелигенција

Генеративна вештачка интелигенција: Идејата зад CHATGPT, Dall-E, Midjourney и повеќе

mm
Ажурирани on
Генеративна вештачка интелигенција - Промпт за средно патување

Светот на уметноста, комуникацијата и начинот на кој ја перципираме реалноста брзо се трансформира. Ако погледнеме наназад во историјата на човековите иновации, би можеле да го сметаме изумот на тркалото или откривањето на електричната енергија како монументални скокови. Денес се случува нова револуција - премостување на јазот помеѓу човечката креативност и машинското пресметување. Тоа е генеративна вештачка интелигенција.

Генеративните модели ја заматија границата меѓу луѓето и машините. Со доаѓањето на модели како GPT-4, кои користат трансформаторски модули, се приближивме до генерирање на природни јазици и богати со контекст. Овие достигнувања ги поттикнаа апликациите во креирањето документи, системите за дијалози за четботи, па дури и синтетичката композиција на музика.

Неодамнешните одлуки за Big-Tech го нагласуваат нејзиното значење. Мајкрософт е веќе прекинување на својата апликација Cortana овој месец да се даде приоритет на поновите иновации за генеративна вештачка интелигенција, како што е Bing Chat. Apple исто така посвети значителен дел од своите Буџет за истражување и развој од 22.6 милијарди долари на генеративната вештачка интелигенција, како што посочи извршниот директор Тим Кук.

Нова ера на модели: Generative Vs. Дискриминативен

Приказната за Generative AI не е само за нејзините апликации, туку фундаментално за нејзината внатрешна работа. Во екосистемот за вештачка интелигенција постојат два модели: дискриминативен и генеративен.

Дискриминативните модели се она со што повеќето луѓе се среќаваат во секојдневниот живот. Овие алгоритми земаат влезни податоци, како што се текст или слика, и ги поврзуваат со целниот излез, како превод на збор или медицинска дијагноза. Тие се за мапирање и предвидување.

Генеративните модели, од друга страна, се креатори. Тие не само толкуваат или предвидуваат; тие генерираат нови, сложени излези од вектори на броеви кои често не се ни поврзани со реалните вредности.

 

Генеративни типови на вештачка интелигенција: текст во текст, текст во слика (GPT, DALL-E, Midjourney)

Технологиите зад генеративните модели

Генеративните модели своето постоење го должат на длабоките невронски мрежи, софистицирани структури дизајнирани да ја имитираат функционалноста на човечкиот мозок. Со снимање и обработка на повеќеслојни варијации во податоците, овие мрежи служат како столб на бројни генеративни модели.

Како оживуваат овие генеративни модели? Обично, тие се изградени со длабоки невронски мрежи, оптимизирани да ги доловат повеќеслојните варијации во податоците. Главен пример е Генеративна мрежа на непријателство (ГАН), каде што две невронски мрежи, генератор и дискриминатор, се натпреваруваат и учат едни од други во единствен однос наставник-ученик. Од слики до трансфер на стилови, од музичка композиција до играње игри, овие модели се развиваат и се прошируваат на начини до сега незамисливи.

Ова не запира со GAN. Варијацијални автоенкодери (VAEs), се уште еден клучен играч во полето на генеративниот модел. VAE се издвојуваат по нивната способност да создаваат фотореалистични слики од навидум случајни броеви. Како? Обработката на овие бројки преку латентен вектор раѓа уметност која ги отсликува сложеноста на човековата естетика.

Генеративни типови на вештачка интелигенција: Текст во текст, Текст во слика

Трансформатори и LLM

Хартијата "Вниманието е се што ви треба“ од Google Brain означи промена во начинот на кој размислуваме за моделирање на текст. Наместо сложени и последователни архитектури како што се повторливи невронски мрежи (RNN) или конволутивни невронски мрежи (CNN), моделот Transformer го воведе концептот на внимание, што во суштина значеше фокусирање на различни делови од влезниот текст во зависност од контекстот. Една од главните придобивки од ова беше леснотијата на паралелизација. За разлика од RNN кои го обработуваат текстот последователно, што го отежнува скалирањето, трансформаторите можат да обработуваат делови од текстот истовремено, со што обуката е побрза и поефикасна за големи збирки податоци.

Во долг текст, не секој збор или реченица што ќе ја прочитате има иста важност. Некои делови бараат повеќе внимание врз основа на контекстот. Оваа способност да го смениме нашиот фокус врз основа на релевантноста е она што го имитира механизмот за внимание.

За да го разберете ова, размислете за реченицата: „Обединете вештачка интелигенција, објавувајте вести за вештачката интелигенција и роботиката“. Сега, предвидувањето на следниот збор бара разбирање на она што е најважно во претходниот контекст. Терминот „Роботика“ може да сугерира дека следниот збор би можел да биде поврзан со одреден напредок или настан во полето на роботиката, додека „Објави“ може да укаже дека следниов контекст може да навлезе во неодамнешна публикација или статија.

Објаснување на механизмот за самовнимание на демо реченица
Илустрација за самовнимание

Механизмите за внимание во трансформаторите се дизајнирани да го постигнат овој селективен фокус. Тие ја проценуваат важноста на различните делови од влезниот текст и одлучуваат каде да „изгледаат“ кога генерираат одговор. Ова е отстапување од постарите архитектури како RNN кои се обидоа да ја натрупаат суштината на целиот внесен текст во една единствена „состојба“ или „меморија“.

Работата на вниманието може да се спореди со систем за пронаоѓање клуч-вредност. Во обидот да се предвиди следниот збор во реченицата, секој претходен збор нуди „клуч“ што укажува на неговата потенцијална релевантност, и врз основа на тоа колку добро овие клучеви се совпаѓаат со тековниот контекст (или барање), тие придонесуваат со „вредност“ или тежина на предвидување.

Овие напредни модели за длабоко учење со вештачка интелигенција се беспрекорно интегрирани во различни апликации, од подобрувања на пребарувачот на Google со BERT до GitHub's Copilot, кој ја користи способноста на моделите на големи јазици (LLM) да конвертира едноставни фрагменти од код во целосно функционални изворни кодови.

Големите јазични модели (LLM) како GPT-4, Bard и LLaMA, се колосални конструкции дизајнирани да дешифрираат и генерираат човечки јазик, код и многу повеќе. Нивната огромна големина, која се движи од милијарди до трилиони параметри, е една од дефинирачките карактеристики. Овие LLM се хранат со обилни количини на текстуални податоци, овозможувајќи им да ја сфатат сложеноста на човечкиот јазик. Впечатлива карактеристика на овие модели е нивната способност за „неколку-шут“ учење. За разлика од конвенционалните модели на кои им требаат огромни количини на специфични податоци за обука, LLM може да генерализираат од многу ограничен број примери (или „снимки“)

Состојба на големи јазични модели (LLMs) од по средината на 2023 година

Име на моделСоздавачпараметриДостапност и пристапЗабележителни карактеристики и забелешки
GPT-4OpenAI1.5 ТрилионНе со отворен код, само пристап до APIИмпресивните перформанси на различни задачи можат да обработуваат слики и текст, максимална должина на внесување 32,768 токени
GPT-3OpenAI175 милијардиНе со отворен код, само пристап до APIПокажани способности за учење со неколку и нула снимки. Врши пополнување текст на природен јазик.
БЛУМBigScience176 милијардиМодел што може да се преземе, достапно е хостиран APIПовеќејазичен LLM развиен од глобална соработка. Поддржува 13 програмски јазици.
TheMDAGoogle173 милијардиНе со отворен код, без API или преземањеОбучени за дијалог би можеле да научат да зборуваат буквално за сè
МТ-НЛГNvidia/Microsoft530 милијардиAPI Пристап преку апликацијаКористи Megatron архитектура базирана на трансформатор за различни NLP задачи.
ПовициМета вештачка интелигенција7B до 65B)Може да се преземе по апликацијаНаменет да ја демократизира вештачката интелигенција нудејќи им пристап на оние во истражувањето, владата и академијата.

Како се користат LLMs?

LLM може да се користат на повеќе начини, вклучувајќи:

  1. Директна употреба: Едноставно користење на претходно обучен LLM за генерирање или обработка на текст. На пример, користење на GPT-4 за пишување блог пост без дополнително дотерување.
  2. Фино подесување: Приспособување на претходно обучен LLM за одредена задача, метод познат како учење за пренос. Пример би бил прилагодувањето на T5 за генерирање резимеа за документи во одредена индустрија.
  3. Враќање информации: Користење LLM, како што се BERT или GPT, како дел од поголемите архитектури за развој на системи кои можат да преземат и категоризираат информации.
Генеративно фино подесување на AI ChatGPT
Архитектура за фино подесување на ChatGPT

Внимание со повеќе глави: Зошто еден кога може да имате многу?

Сепак, потпирањето на единствен механизам за внимание може да биде ограничувачко. Различни зборови или секвенци во текстот може да имаат различни типови на релевантност или асоцијации. Ова е местото каде што доаѓа вниманието на повеќе глави. Наместо една група тежини за внимание, вниманието со повеќе глави користи повеќе групи, дозволувајќи му на моделот да долови побогата разновидност на односи во влезниот текст. Секоја „глава“ на внимание може да се фокусира на различни делови или аспекти на влезот, а нивното комбинирано знаење се користи за конечно предвидување.

ChatGPT: Најпопуларната генеративна алатка за вештачка интелигенција

Почнувајќи од почетокот на GPT во 2018 година, моделот во суштина беше изграден врз основа на 12 слоеви, 12 глави за внимание и 120 милиони параметри, првенствено обучени на базата на податоци наречена BookCorpus. Ова беше импресивен почеток, нудејќи поглед во иднината на јазичните модели.

GPT-2, претставен во 2019 година, се пофали со четирикратно зголемување на слоевите и главите за внимание. Значајно, неговиот број на параметри се искачи на 1.5 милијарди. Оваа подобрена верзија ја изведе својата обука од WebText, база на податоци збогатена со 40 GB текст од различни врски на Reddit.

GPT-3, лансиран во мај 2020 година, имаше 96 слоеви, 96 глави за внимание и огромен број параметри од 175 милијарди. Она што го издвојуваше GPT-3 беа неговите разновидни податоци за обука, кои опфаќаат CommonCrawl, WebText, англиска Википедија, корпуси на книги и други извори, комбинирајќи вкупно 570 GB.

Сложеноста на работата на ChatGPT останува строго чувана тајна. Сепак, процесот наречен „засилување учење од човечки повратни информации“ (RLHF) е познато дека е клучен. Потекнувајќи од претходен проект ChatGPT, оваа техника беше инструментална во усовршувањето на моделот GPT-3.5 за да биде повеќе усогласен со пишаните инструкции.

Обуката на ChatGPT се состои од пристап од три нивоа:

  1. Надгледувано дотерување: вклучува курирање на разговорни влезови и излези напишани од човек за да се усоврши основниот модел GPT-3.5.
  2. Моделирање на награди: Луѓето ги рангираат различните резултати од моделот врз основа на квалитетот, помагајќи да се обучи модел на награда што го постигнува секој резултат имајќи го предвид контекстот на разговорот.
  3. Засилено учење: Контекстот за разговор служи како позадина каде што основниот модел предлага одговор. Овој одговор се оценува со моделот на награда, а процесот е оптимизиран со користење на алгоритам наречен оптимизација на проксимална политика (PPO).

За оние што само ги потопуваат прстите во ChatGPT, може да се најде сеопфатен водич за почеток овде. Ако сакате да навлезете подлабоко во брзото инженерство со ChatGPT, имаме и напреден водич кој ги осветлува најновите и најсовремените брзи техники, достапен на 'ChatGPT и напредно брзо инженерство: Возење на еволуцијата на вештачката интелигенција".

Дифузија и мултимодални модели

Додека моделите како VAE и GAN ги генерираат своите резултати преку едно поминување, па оттука и затворени во што и да произведуваат, моделите за дифузија го воведоа концептот на 'итеративно префинетост'. Преку овој метод, тие кружат наназад, усовршувајќи ги грешките од претходните чекори и постепено создавајќи поисполиран резултат.

Централно место за моделите за дифузија е уметноста на „корупцијата“ и „префинетост“. Во фазата на обука, типичната слика постепено се расипува со додавање на различни нивоа на шум. Оваа бучна верзија потоа се напојува на моделот, кој се обидува да го „открие“ или „декорумпира“. Преку повеќе кругови на ова, моделот станува вешт во реставрацијата, разбирајќи ги и суптилните и значајните аберации.

Генеративна вештачка интелигенција - Промпт за средно патување
Слика генерирана од Midjourney

Процесот на генерирање нови слики после тренинг е интригантен. Почнувајќи со целосно рандомизиран влез, тој континуирано се рафинира со помош на предвидувањата на моделот. Целта е да се постигне чиста слика со минимален број чекори. Контролирањето на нивото на корупција се врши преку „распоред на бучава“, механизам кој регулира колку бучава се применува во различни фази. Распоредувач, како што се гледа во библиотеките како „дифузери“, ја диктира природата на овие бучни изведби врз основа на воспоставени алгоритми.

Суштински архитектонски столб за многу модели на дифузија е УНЕТ— конволутивна невронска мрежа приспособена за задачи кои бараат излези кои ја пресликуваат просторната димензија на влезовите. Тоа е спој на слоеви за намалување и зголемување на примерокот, сложено поврзани за задржување на податоци со висока резолуција, клучна за излезите поврзани со сликата.

Навлегувајќи подлабоко во доменот на генеративните модели, OpenAI's ДАЛ-Е2 се појавува како светол пример за спојување на текстуалните и визуелните способности за вештачка интелигенција. Таа користи тристепена структура:

DALL-E 2 прикажува трикратна архитектура:

  1. Текст енкодер: го трансформира текстуалното барање во концептуално вметнување во латентен простор. Овој модел не започнува од нула. Се потпира на пред-тренингот за контрастни јазици-слика на OpenAI (CLIP) база на податоци како нејзина основа. CLIP служи како мост помеѓу визуелните и текстуалните податоци преку учење визуелни концепти користејќи природен јазик. Преку механизам познат како контрастивно учење, тој ги идентификува и усогласува сликите со нивните соодветни текстуални описи.
  2. The Prior: Вградувањето на текстот добиено од енкодерот потоа се претвора во вградување слика. DALL-E 2 ги тестираше и авторегресивните и дифузните методи за оваа задача, при што вториот покажа супериорни резултати. Авторегресивните модели, како што се гледа во Transformers и PixelCNN, генерираат излези во секвенци. Од друга страна, моделите за дифузија, како оној што се користи во DALL-E 2, го трансформираат случајниот шум во предвидени вградувања на слики со помош на вградување текст.
  3. Декодер: Врвот на процесот, овој дел го генерира конечниот визуелен излез врз основа на текстуалната порака и вметнувањето на сликата од претходната фаза. Декодерот на DALL.E 2 ја должи својата архитектура на друг модел, ГЛИДА, кој исто така може да произведе реални слики од текстуални знаци.
Архитектура на моделот DALL-E (дифузен мултимодел)
Поедноставена архитектура на моделот DALL-E

Корисниците на Python заинтересирани за Лангчејн треба да го проверите нашето детално упатство кое опфаќа сè, од основите до напредните техники.

Апликации на генеративна вештачка интелигенција

Текстуални домени

Почнувајќи со текст, Генеративната вештачка интелигенција е фундаментално изменета од чет-ботови како Разговор GPT. Потпирајќи се во голема мера на обработката на природниот јазик (NLP) и големите јазични модели (LLMs), овие ентитети се овластени да извршуваат задачи кои се движат од генерирање код и превод на јазик до сумирање и анализа на чувствата. ChatGPT, на пример, доживеа широко усвојување, станувајќи главен производ за милиони. Ова е дополнително зголемено со разговорни платформи за вештачка интелигенција, втемелени во LLM како GPT-4, дланка, и БЛУМ, кои без напор произведуваат текст, помагаат во програмирањето, па дури и нудат математичко расудување.

Од комерцијална перспектива, овие модели стануваат непроценливи. Бизнисите ги вработуваат за огромен број операции, вклучувајќи управување со ризик, оптимизација на залихите и предвидување на барањата. Некои значајни примери вклучуваат Bing AI, BARD на Google и ChatGPT API.

Уметност

Светот на слики доживеа драматични трансформации со Generative AI, особено од воведувањето на DALL-E 2 во 2022 година. Оваа технологија, која може да генерира слики од текстуални инструкции, има и уметнички и професионални импликации. На пример, Midjourney ја искористи оваа технологија за да произведе импресивно реални слики. Оваа неодамнешна објава го демистифицира Midjourney во детален водич, разјаснувајќи ја и платформата и нејзините брзи инженерски сложености. Понатаму, платформите како Alpaca AI и Photoroom AI користат Generative AI за напредни функционалности за уредување слики, како што се отстранување на позадината, бришење предмети, па дури и реставрација на лицето.

Видео продукција

Видео продукцијата, додека сè уште е во зародиш во доменот на Generative AI, покажува ветувачки напредок. Платформите како Imagen Video, Meta Make A Video и Runway Gen-2 ги поместуваат границите на она што е можно, дури и ако навистина реалните резултати се сè уште на хоризонтот. Овие модели нудат значителна корисност за создавање дигитални човечки видеа, а апликациите како Synthesia и SuperCreator предничат. Имено, Tavus AI нуди уникатен предлог за продажба преку персонализирање видеа за поединечни членови на публиката, благодет за бизнисите.

Создавање код

Кодирањето, незаменлив аспект на нашиот дигитален свет, не остана недопрен од Generative AI. Иако ChatGPT е омилена алатка, неколку други апликации за вештачка интелигенција се развиени за цели на кодирање. Овие платформи, како што се GitHub Copilot, Alphacode и CodeComplete, служат како асистенти за кодирање и дури можат да произведуваат код од текстуални барања. Она што е интригантно е приспособливоста на овие алатки. Codex, движечката сила зад GitHub Copilot, може да се прилагоди на стилот на кодирање на поединецот, нагласувајќи го потенцијалот за персонализација на Generative AI.

Заклучок

Спојувајќи ја човечката креативност со машинско пресметување, таа еволуираше во непроценлива алатка, со платформи како ChatGPT и DALL-E 2 кои ги поместуваат границите на она што е замисливо. Од изработка на текстуална содржина до изработка на визуелни ремек-дела, нивните апликации се огромни и разновидни.

Како и со секоја технологија, етичките импликации се најважни. Додека Generative AI ветува безгранична креативност, од клучно значење е да се користи одговорно, да се знае за потенцијалните предрасуди и моќта на манипулација со податоците.

Бидејќи алатките како ChatGPT стануваат подостапни, сега е совршено време да ги тестирате водите и да експериментирате. Без разлика дали сте уметник, кодер или технолошки ентузијаст, царството на Generative AI е преполно со можности кои чекаат да се истражат. Револуцијата не е на хоризонтот; тука е и сега. Значи, нурнете!

Изминатите пет години ги поминав потопувајќи се во фасцинантниот свет на машинското учење и длабокото учење. Мојата страст и експертиза ме наведоа да придонесам за над 50 различни проекти за софтверско инженерство, со посебен фокус на AI/ML. Мојата постојана љубопитност, исто така, ме привлече кон Обработка на природни јазици, поле кое јас сум желен да го истражам понатаму.