Вештачка интелигенција

Генеративна АИ: идеја иза ЦХАТГПТ, Далл-Е, Мидјоурнеи и још много тога

Ажурирано on Август КСНУМКС, КСНУМКС

Свет уметности, комуникације и начина на који доживљавамо стварност убрзано се мења. Ако се осврнемо на историју људских иновација, могли бисмо сматрати проналазак точка или откриће електричне енергије као монументалне скокове. Данас се дешава нова револуција — премошћивање јаза између људске креативности и машинског рачунања. То је генеративна АИ.

Генеративни модели су замаглили границу између људи и машина. Са појавом модела као што је ГПТ-4, који користи трансформаторске модуле, приближили смо се природном и контекстуално богатом генерисању језика. Овај напредак је покренуо апликације у креирању докумената, системима за дијалог цхатбот, па чак и синтетичкој музичкој композицији.

Недавне Биг-Тецх одлуке наглашавају њен значај. Мицрософт већ јесте укидање апликације Цортана овог месеца да дате приоритет новијим генеративним АИ иновацијама, као што је Бинг Цхат. Аппле је такође посветио значајан део свог Буџет за истраживање и развој од 22.6 милијарди долара на генеративну вештачку интелигенцију, како је указао извршни директор Тим Кук.

Нова ера модела: генеративна вс. Дискриминативно

Прича о генеративној вештачкој интелигенцији није само о њеним применама, већ у суштини о њеном унутрашњем раду. У екосистему вештачке интелигенције постоје два модела: дискриминативни и генеративни.

Дискриминативни модели су оно са чиме се већина људи сусреће у свакодневном животу. Ови алгоритми узимају улазне податке, као што су текст или слика, и упарују их са циљним излазом, као што је превод речи или медицинска дијагноза. Они се односе на мапирање и предвиђање.

Генеративни модели су, с друге стране, креатори. Они не само тумаче нити предвиђају; они генеришу нове, сложене излазе из вектора бројева који често нису ни повезани са вредностима из стварног света.

Технологије иза генеративних модела

Генеративни модели дугују своје постојање дубоким неуронским мрежама, софистицираним структурама дизајнираним да опонашају функционалност људског мозга. Снимањем и обрадом вишеструких варијација у подацима, ове мреже служе као окосница бројних генеративних модела.

Како оживљавају ови генеративни модели? Обично су изграђени са дубоким неуронским мрежама, оптимизованим за хватање вишеструких варијација у подацима. Одличан пример је Генеративе Адверсариал Нетворк (ГАН), где се две неуронске мреже, генератор и дискриминатор, такмиче и уче једна од друге у јединственом односу наставник-ученик. Од слика до преноса стила, од композиције музике до играња игрица, ови модели се развијају и шире на начине који су раније били незамисливи.

Ово не престаје са ГАН-овима. Вариацијски аутоенцодерс (ВАЕ), су још један кључни играч у пољу генеративног модела. ВАЕ се истичу по својој способности да креирају фотореалистичне слике од наизглед случајних бројева. Како? Обрада ових бројева кроз латентни вектор рађа уметност која одражава сложеност људске естетике.

Генеративни АИ типови: текст у текст, текст у слику

Трансформерс & ЛЛМ

Папир "Пажња је све што вам треба” од Гоогле Браин-а означио је промену у начину на који размишљамо о моделовању текста. Уместо сложених и секвенцијалних архитектура као што су рекурентне неуронске мреже (РНН) или конволуционе неуронске мреже (ЦНН), модел трансформатора је увео концепт пажње, што је у суштини значило фокусирање на различите делове улазног текста у зависности од контекста. Једна од главних предности овога била је лакоћа паралелизације. За разлику од РНН-а који обрађују текст секвенцијално, што га чини тежим за скалирање, Трансформери могу да обрађују делове текста истовремено, чинећи обуку бржом и ефикаснијом на великим скуповима података.

: Трансформер-модел архитектура

У дугом тексту, свака реч или реченица коју прочитате немају исту важност. Неки делови захтевају више пажње на основу контекста. Ова способност да померимо фокус на основу релевантности је оно што механизам пажње опонаша.

Да бисте ово разумели, замислите реченицу: „Уједините АИ објавите вести о вештачкој интелигенцији и роботици.“ Сада, предвиђање следеће речи захтева разумевање онога што је најважније у претходном контексту. Термин „Роботика“ може да сугерише да би следећа реч могла да буде повезана са одређеним напретком или догађајем у области роботике, док „Објави“ може указивати да би следећи контекст могао да задуби у недавну публикацију или чланак.

: Илустрација самопажње

Механизми пажње у Трансформерсима су дизајнирани да постигну овај селективни фокус. Они процењују важност различитих делова улазног текста и одлучују где да „траже“ када генеришу одговор. Ово је одмак од старијих архитектура као што су РНН-ови који су покушавали да угурају суштину читавог улазног текста у једно „стање“ или „меморију“.

Функционисање пажње може се упоредити са системом за проналажење кључ-вредност. Покушавајући да предвиди следећу реч у реченици, свака претходна реч нуди „кључ“ који сугерише њену потенцијалну релевантност, а на основу тога колико добро ови кључеви одговарају тренутном контексту (или упиту), они доприносе „вредности“ или тежини предвиђање.

Ови напредни АИ модели дубоког учења су неприметно интегрисани у различите апликације, од побољшања Гоогле претраживача са БЕРТ-ом до ГитХубовог Цопилот-а, који користи способност великих језичких модела (ЛЛМ) за претварање једноставних исечака кода у потпуно функционалне изворне кодове.

Велики језички модели (ЛЛМ) као што су ГПТ-4, Бард и ЛЛаМА, колосалне су конструкције дизајниране да дешифрују и генеришу људски језик, код и још много тога. Њихова огромна величина, која се креће од милијарди до трилиона параметара, једна је од кључних карактеристика. Ови ЛЛМ се напајају обилним количинама текстуалних података, што им омогућава да схвате замршености људског језика. Упадљива карактеристика ових модела је њихова способност за „неколико пуцања” учење. За разлику од конвенционалних модела којима су потребне огромне количине специфичних података о обуци, ЛЛМ могу генерализовати на основу веома ограниченог броја примера (или „фотографија“)

Стање великих језичких модела (ЛЛМ) од средине 2023

Име модела	Девелопер	parametri	Доступност и приступ	Значајне карактеристике и напомене
РУЦЕНТЕР-КСНУМКС	ОпенАИ	1.5 билиона	Није отвореног кода, само АПИ приступ	Импресивне перформансе на различитим задацима могу да обрађују слике и текст, максимална дужина уноса 32,768 токена
РУЦЕНТЕР-КСНУМКС	ОпенАИ	КСНУМКС милијарди	Није отвореног кода, само АПИ приступ	Демонстриране могућности учења са неколико и нула снимака. Обавља довршавање текста на природном језику.
БЛООМ	БигСциенце	КСНУМКС милијарди	Модел који се може преузети, доступан је хостовани АПИ	Вишејезични ЛЛМ развијен глобалном сарадњом. Подржава 13 програмских језика.
ЛаМДА	гоогле	КСНУМКС милијарди	Није отвореног кода, нема АПИ-ја или преузимања	Обучени за дијалог могли би да науче да причају практично о било чему
МТ-НЛГ	Нвидиа/Мицрософт	КСНУМКС милијарди	АПИ приступ путем апликације	Користи Мегатрон архитектуру засновану на трансформатору за различите НЛП задатке.
ЛЛаМА	Мета АИ	7Б до 65Б)	Може се преузети путем апликације	Намењен је демократизацији вештачке интелигенције нудећи приступ онима у истраживању, влади и академској заједници.

Како се користе ЛЛМ?

ЛЛМ се могу користити на више начина, укључујући:

Директно коришћење: Једноставно коришћење унапред обученог ЛЛМ за генерисање или обраду текста. На пример, коришћење ГПТ-4 за писање блог поста без икаквог додатног финог подешавања.
Фино подешавање: Прилагођавање унапред обученог ЛЛМ за одређени задатак, метод познат као трансферно учење. Пример би био прилагођавање Т5 за генерисање резимеа за документе у одређеној индустрији.
Добијање информација: Коришћење ЛЛМ-ова, као што су БЕРТ или ГПТ, као део већих архитектура за развој система који могу да дохвате и категоришу информације.

: ЦхатГПТ фино подешавање архитектуре

Пажња са више глава: Зашто један када можете имати много?

Међутим, ослањање на један механизам пажње може бити ограничавајуће. Различите речи или низови у тексту могу имати различите типове релевантности или асоцијација. Овде долази пажња са више глава. Уместо једног скупа пондера пажње, пажња са више глава користи више скупова, омогућавајући моделу да ухвати богатији низ односа у улазном тексту. Свака „глава“ пажње може да се фокусира на различите делове или аспекте инпута, а њихово комбиновано знање се користи за коначно предвиђање.

ЦхатГПТ: Најпопуларнија генеративна АИ алатка

Почевши од почетка ГПТ-а 2018. године, модел је у суштини изграђен на темељу 12 слојева, 12 глава пажње и 120 милиона параметара, првенствено обучених на скупу података под називом БоокЦорпус. Ово је био импресиван почетак, који је понудио увид у будућност језичких модела.

ГПТ-2, представљен 2019. године, похвалио се четвороструким повећањем слојева и глава пажње. Значајно је да је број његових параметара нагло порастао на 1.5 милијарди. Ова побољшана верзија је своју обуку извела из ВебТект-а, скупа података обогаћеног са 40 ГБ текста са разних Реддит веза.

ГПТ-3, лансиран у мају 2020. године, имао је 96 слојева, 96 глава за пажњу и огроман број параметара од 175 милијарди. Оно што је разликовало ГПТ-3 јесу његови различити подаци о обуци, који обухватају ЦоммонЦравл, ВебТект, енглеску Википедију, корпусе књига и друге изворе, који комбинују укупно 570 ГБ.

Замршености рада ЦхатГПТ-а остају строго чувана тајна. Међутим, познато је да је процес који се назива „учење појачања из повратних информација од људи“ (РЛХФ) кључан. Потичући из ранијег ЦхатГПТ пројекта, ова техника је била кључна у усавршавању ГПТ-3.5 модела како би био више усклађен са писаним упутствима.

ЦхатГПТ-ова обука се састоји од три нивоа:

Надзирано фино подешавање: Укључује курирање конверзацијских улаза и излаза писаних од стране људи како би се побољшао основни ГПТ-3.5 модел.
Моделирање награђивања: Људи рангирају различите резултате модела на основу квалитета, помажући у обуци модела награђивања који оцењује сваки резултат узимајући у обзир контекст разговора.
Учење са појачањем: Конверзацијски контекст служи као позадина у којој основни модел предлаже одговор. Овај одговор се процењује моделом награђивања, а процес се оптимизује коришћењем алгоритма названог проксимална оптимизација политике (ППО).

За оне који само увлаче прсте у ЦхатГПТ, може се пронаћи свеобухватан почетни водич ovde. Ако желите да се дубље задубите у брзи инжењеринг са ЦхатГПТ-ом, имамо и напредни водич који осветљава најновије и најсавременије технике брзе обраде, доступан на 'ЦхатГПТ и напредни брзи инжењеринг: Покретање АИ еволуције'.

Дифузиони и мултимодални модели

Док модели као што су ВАЕ и ГАН генеришу своје излазе кроз један пролаз, дакле закључани у шта год да производе, дифузиони модели су увели концепт 'итеративно усавршавање'. Овим методом они круже уназад, рафинишући грешке из претходних корака и постепено дајући углађенији резултат.

Централно за моделе дифузије је уметност „корупција” и „пречишћавање”. У њиховој фази обуке, типична слика се прогресивно квари додавањем различитих нивоа шума. Ова бучна верзија се затим шаље моделу, који покушава да је 'уништи' или 'поквари'. Кроз више кругова овога, модел постаје вешт у рестаурацији, разумевајући и суптилне и значајне аберације.

: Слика генерисана од Мидјоурнеи

Процес генерисања нових слика након тренинга је интригантан. Почевши од потпуно рандомизованог уноса, он се континуирано усавршава коришћењем предвиђања модела. Намера је да се постигне нетакнута слика са минималним бројем корака. Контрола нивоа корупције се врши путем „распореда буке“, механизма који регулише количину буке која се примењује у различитим фазама. Планер, као што се види у библиотекама попут „дифузори“, диктира природу ових бучних извођења заснованих на утврђеним алгоритмима.

Суштинска архитектонска окосница за многе дифузионе моделе је УНет—конволуциона неуронска мрежа прилагођена задацима који захтевају излазе који одражавају просторну димензију улаза. То је мешавина слојева за смањење и повећање узорковања, замршено повезаних да би задржали податке високе резолуције, што је кључно за излазе везане за слику.

Удубљивање у област генеративних модела, ОпенАИ ДАЛЛ-Е2 појављује се као сјајан пример фузије текстуалних и визуелних АИ способности. Користи трослојну структуру:

ДАЛЛ-Е 2 приказује троструку архитектуру:

Тект Енцодер: Трансформише текстуални промпт у концептуално уграђивање унутар латентног простора. Овај модел не почиње од нуле. Ослања се на ОпенАИ-јев Цонтрастиве Лангуаге–Имаге Пре-тренинг (ЦЛИП) скуп података као његов темељ. ЦЛИП служи као мост између визуелних и текстуалних података учењем визуелних концепата коришћењем природног језика. Преко механизма познатог као контрастивно учење, он идентификује и упарује слике са њиховим одговарајућим текстуалним описима.
Претходно: Уграђивање текста изведено из кодера се затим претвара у уграђивање слике. ДАЛЛ-Е 2 је тестирао и ауторегресивне и дифузионе методе за овај задатак, при чему је последњи показао супериорне резултате. Ауторегресивни модели, као што се види у Трансформерсима и ПикелЦНН-у, генеришу излазе у секвенцама. С друге стране, модели дифузије, попут оног који се користи у ДАЛЛ-Е 2, трансформишу насумични шум у предвиђене уградње слике уз помоћ уграђивања текста.
Декодер: Врхунац процеса, овај део генерише коначни визуелни резултат на основу текстуалног одзива и уградње слике из претходне фазе. Декодер ДАЛЛ.Е 2 дугује своју архитектуру другом моделу, ГЛИДЕ, који такође може произвести реалистичне слике из текстуалних знакова.

: Поједностављена архитектура ДАЛЛ-Е модела

Корисници Питхон-а заинтересовани за Лангцһаин требало би да погледате наш детаљни водич који покрива све, од основа до напредних техника.

Примене генеративне АИ

Текстуални домени

Почевши од текста, генеративна АИ је фундаментално измењена од стране цхатботова попут ЦхатГПТ. У великој мери ослањајући се на обраду природног језика (НЛП) и моделе великих језика (ЛЛМ), ови ентитети су овлашћени да обављају задатке у распону од генерисања кода и превода језика до сумирања и анализе осећања. ЦхатГПТ је, на пример, доживео широко усвајање, постајући главна тема за милионе. Ово је додатно проширено конверзацијским АИ платформама, заснованим на ЛЛМ-има као што је ГПТ-4, Палма, и БЛООМ, који без напора производе текст, помажу у програмирању, па чак и нуде математичко резоновање.

Из комерцијалне перспективе, ови модели постају непроцењиви. Предузећа их запошљавају за безброј операција, укључујући управљање ризиком, оптимизацију залиха и предвиђање захтева. Неки значајни примери укључују Бинг АИ, Гоогле-ов БАРД и ЦхатГПТ АПИ.

Уметност

Свет слика је доживео драматичне трансформације са генеративном вештачком интелигенцијом, посебно од увођења ДАЛЛ-Е 2 2022. Ова технологија, која може да генерише слике из текстуалних упита, има и уметничке и професионалне импликације. На пример, мидјоурнеи је искористио ову технологију за производњу импресивно реалистичних слика. Овај недавни пост демистификује Мидјоурнеи у детаљном водичу, који објашњава и платформу и њене брзе инжењерске замршености. Штавише, платформе попут Алпаца АИ и Пхотороом АИ користе генеративну вештачку интелигенцију за напредне функције уређивања слика као што су уклањање позадине, брисање објеката, па чак и рестаурација лица.

Видео продукција

Продукција видео записа, док је још увек у почетној фази у домену генеративне вештачке интелигенције, показује обећавајући напредак. Платформе као што су Имаген Видео, Мета Маке А Видео и Рунваи Ген-2 померају границе онога што је могуће, чак и ако су заиста реални резултати још увек на хоризонту. Ови модели нуде значајну корисност за креирање дигиталних људских видео записа, а апликације као што су Синтхесиа и СуперЦреатор предњаче. Посебно, Тавус АИ нуди јединствену продајну понуду персонализацијом видео записа за појединачне чланове публике, што је благодат за предузећа.

Креирање кода

Кодирање, незаменљиви аспект нашег дигиталног света, није остало нетакнуто генеративном вештачком интелигенцијом. Иако је ЦхатГПТ омиљен алат, развијено је неколико других АИ апликација за потребе кодирања. Ове платформе, као што су ГитХуб Цопилот, Алпхацоде и ЦодеЦомплете, служе као помоћници за кодирање и чак могу произвести код из текстуалних упита. Оно што је интригантно је прилагодљивост ових алата. Цодек, покретачка снага иза ГитХуб Цопилот-а, може се прилагодити индивидуалном стилу кодирања, наглашавајући потенцијал персонализације Генеративне АИ.

Zakljucak

Комбинујући људску креативност са машинским рачунањем, еволуирао је у непроцењив алат, са платформама као што су ЦхатГПТ и ДАЛЛ-Е 2 које померају границе онога што је могуће. Од прављења текстуалног садржаја до вајања визуелних ремек-дела, њихове примене су огромне и разноврсне.

Као и код сваке технологије, етичке импликације су најважније. Иако генеративна АИ обећава безграничну креативност, кључно је да је користите одговорно, свесни потенцијалних пристрасности и моћи манипулације подацима.

Како алати као што је ЦхатГПТ постају доступнији, сада је савршено време за тестирање воде и експериментисање. Без обзира да ли сте уметник, програмер или технолошки ентузијаста, област генеративне вештачке интелигенције препуна је могућности које чекају да буде истражено. Револуција није на видику; то је овде и сада. Дакле, зароните!

Повезане теме:цхатгпт ДАЛЛ-Е дубоко учење генеративни аи ЛЛМ Мидјоурнеи

Уп Нект

Генеративна АИ заузима централно место на Аи2023 конференцији 4

Не пропустите

Способности аналогног расуђивања АИ: изазивање људске интелигенције?

Ааиусх Миттал

Провео сам последњих пет година урањајући се у фасцинантан свет машинског учења и дубоког учења. Моја страст и стручност довели су ме до тога да допринесем преко 50 различитих пројеката софтверског инжењеринга, са посебним фокусом на АИ/МЛ. Моја стална радозналост ме је такође привукла ка обради природног језика, пољу које желим даље да истражујем.