stub Generatyvusis AI: idėja už CHATGPT, Dall-E, Midjourney ir daugiau – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Generatyvusis AI: idėja už CHATGPT, Dall-E, Midjourney ir kt.

mm
Atnaujinta on
Generative AI – Midjourney Prompt

Meno pasaulis, komunikacija ir tai, kaip mes suvokiame tikrovę, sparčiai keičiasi. Jei pažvelgtume atgal į žmogaus naujovių istoriją, rato išradimą ar elektros atradimą galėtume laikyti monumentaliais šuoliais. Šiandien vyksta nauja revoliucija – perjungiama takoskyra tarp žmogaus kūrybiškumo ir mašininio skaičiavimo. Tai yra generatyvusis AI.

Generatyvūs modeliai sutrynė ribą tarp žmonių ir mašinų. Atsiradus tokiems modeliams kaip GPT-4, kuriame naudojami transformatorių moduliai, priartėjome prie natūralios ir daug konteksto turinčios kalbų kartos. Ši pažanga paskatino dokumentų kūrimo, pokalbių robotų dialogų sistemų ir net sintetinės muzikos kūrimo programas.

Naujausi Big-Tech sprendimai pabrėžia jo svarbą. „Microsoft“ jau yra nutraukia savo „Cortana“ programą šį mėnesį teikti pirmenybę naujesnėms generatyvaus AI naujovėms, tokioms kaip „Bing Chat“. „Apple“ taip pat skyrė didelę dalį savo 22.6 milijardo dolerių MTEP biudžetas generatyviniam AI, kaip nurodė generalinis direktorius Timas Cookas.

Nauja modelių era: „Generative vs. Diskriminacinis

„Generative AI“ istorija yra ne tik apie jos programas, bet iš esmės apie jos vidinį veikimą. Dirbtinio intelekto ekosistemoje egzistuoja du modeliai: diskriminacinis ir generatyvinis.

Diskriminaciniai modeliai yra tai, su kuo dauguma žmonių susiduria kasdieniame gyvenime. Šie algoritmai paima įvesties duomenis, pvz., tekstą arba vaizdą, ir suporuoja juos su tiksline išvestimi, pvz., žodžio vertimu arba medicinine diagnoze. Jie susiję su žemėlapių sudarymu ir numatymu.

Kita vertus, generatyvūs modeliai yra kūrėjai. Jie ne tik aiškina ar nuspėja; jie generuoja naujus sudėtingus išėjimus iš skaičių vektorių, kurie dažnai net nesusiję su realiomis reikšmėmis.

 

Generatyvieji AI tipai: tekstas į tekstą, tekstas į vaizdą (GPT, DALL-E, Midjourney)

Technologijos už generatyvius modelius

Generatyvieji modeliai egzistuoja dėl gilių neuroninių tinklų, sudėtingų struktūrų, sukurtų imituoti žmogaus smegenų funkcijas. Užfiksuodami ir apdorodami įvairiapusius duomenų variantus, šie tinklai yra daugelio generuojamųjų modelių pagrindas.

Kaip šie generatyvūs modeliai atgyja? Paprastai jie yra sukurti naudojant gilius neuroninius tinklus, optimizuotus užfiksuoti įvairiapusius duomenų variantus. Puikus pavyzdys yra Generacinis prieštaringų tinklas (GAN), kur du neuroniniai tinklai, generatorius ir diskriminatorius, konkuruoja ir mokosi vieni iš kitų unikaliuose mokytojo ir mokinio santykiuose. Nuo paveikslų iki stiliaus perkėlimo, nuo muzikos komponavimo iki žaidimo – šie modeliai tobulėja ir plečiasi anksčiau neįsivaizduojamais būdais.

Tai neapsiriboja GAN. Variaciniai automatiniai kodavimo įrenginiai (VAE), yra dar vienas pagrindinis veikėjas generatyvinio modelio srityje. VAE išsiskiria gebėjimu sukurti fotorealistiškus vaizdus iš iš pažiūros atsitiktinių skaičių. Kaip? Apdorojant šiuos skaičius naudojant latentinį vektorių, gimsta menas, atspindintis žmogaus estetikos sudėtingumą.

Generatyvieji AI tipai: tekstas į tekstą, tekstas į vaizdą

Transformatoriai ir LLM

Popierius "Dėmesio – tai viskas, ko jums reikia“, „Google Brain“ pažymėjo mūsų mąstymo apie teksto modeliavimą pokytį. Vietoj sudėtingų ir nuoseklių architektūrų, tokių kaip pasikartojantys neuroniniai tinklai (RNN) arba konvoliuciniai neuroniniai tinklai (CNN), transformatoriaus modelis pristatė dėmesio sąvoką, kuri iš esmės reiškė sutelkimą į skirtingas įvesties teksto dalis, atsižvelgiant į kontekstą. Vienas iš pagrindinių privalumų buvo paralelinimo paprastumas. Skirtingai nuo RNN, kurie tekstą apdoroja nuosekliai, todėl juos sunkiau keisti, transformatoriai gali apdoroti teksto dalis vienu metu, todėl mokymas vyksta greičiau ir efektyviau naudojant didelius duomenų rinkinius.

Ilgame tekste ne kiekvienas perskaitytas žodis ar sakinys yra vienodai svarbūs. Kai kurios dalys reikalauja daugiau dėmesio, atsižvelgiant į kontekstą. Šį gebėjimą nukreipti dėmesį pagal aktualumą imituoja dėmesio mechanizmas.

Norėdami tai suprasti, pagalvokite apie sakinį: „Unite AI Publish AI and Robotics News“. Dabar norint nuspėti kitą žodį, reikia suprasti, kas svarbiausia ankstesniame kontekste. Terminas „Robotika“ gali reikšti, kad kitas žodis gali būti susijęs su konkrečiu pažanga ar įvykiu robotikos srityje, o „Paskelbti“ gali reikšti, kad šis kontekstas gali būti susijęs su naujausiu leidiniu ar straipsniu.

Į save dėmesio mechanizmo paaiškinimas demonstraciniame sakinyje
Iliustracija, skirta atkreipti dėmesį į save

Transformatorių dėmesio mechanizmai yra sukurti taip, kad būtų pasiektas šis selektyvus dėmesys. Jie įvertina skirtingų įvesties teksto dalių svarbą ir nusprendžia, kur „žiūrėti“ generuojant atsakymą. Tai nukrypstama nuo senesnių architektūrų, tokių kaip RNN, kurios viso įvesties teksto esmę bandė sugrūsti į vieną „būseną“ arba „atmintį“.

Dėmesio veikimą galima prilyginti raktų ir verčių paieškos sistemai. Bandant nuspėti kitą sakinio žodį, kiekvienas prieš tai buvęs žodis pateikia „raktą“, nurodantį jo galimą aktualumą, ir, atsižvelgiant į tai, kaip šie raktai atitinka dabartinį kontekstą (arba užklausą), jie suteikia „vertę“ arba svorį. prognozė.

Šie pažangūs AI gilaus mokymosi modeliai sklandžiai integruoti į įvairias programas – nuo ​​„Google“ paieškos variklio patobulinimų su BERT iki „GitHub Copilot“, kuris naudoja didelių kalbų modelių (LLM) galimybes konvertuoti paprastus kodo fragmentus į visiškai veikiančius šaltinio kodus.

Dideli kalbų modeliai (LLM), tokie kaip GPT-4, Bard ir LLaMA, yra milžiniškos konstrukcijos, skirtos iššifruoti ir generuoti žmonių kalbą, kodą ir kt. Jų didžiulis dydis, nuo milijardų iki trilijonų parametrų, yra viena iš pagrindinių savybių. Šie LLM tiekiami daugybe tekstinių duomenų, leidžiančių suvokti žmonių kalbos subtilybes. Įspūdinga šių modelių savybė yra jų tinkamumas „kelių šūvių“ mokymasis. Skirtingai nuo įprastų modelių, kuriems reikia daug specifinių mokymo duomenų, LLM gali apibendrinti iš labai riboto skaičių pavyzdžių (arba „kadrų“).

Didžiųjų kalbų modelių padėtis (LLM) nuo 2023 m. vidurio

Modelio pavadinimasRyškalasParametraiPrieinamumas ir prieigaSvarbios savybės ir pastabos
GPT-4OpenAI1.5 trilijonąNe atviras šaltinis, tik API prieigaĮspūdingas našumas atliekant įvairias užduotis gali apdoroti vaizdus ir tekstą, didžiausias įvesties ilgis 32,768 XNUMX žetonai
GPT-3OpenAI175 mlrdNe atviras šaltinis, tik API prieigaPademonstravo kelių kadrų ir nulio kadrų mokymosi galimybes. Atlieka teksto užbaigimą natūralia kalba.
BLOOMBigScience176 mlrdParsisiunčiamas modelis, yra priglobta APIDaugiakalbis LLM sukurtas bendradarbiaujant pasauliniu mastu. Palaiko 13 programavimo kalbų.
TheMDA"Google"173 mlrdNe atviras šaltinis, nėra API ar atsisiuntimoIšmokęs dialogą, gali išmokti kalbėti apie bet ką
MT-NLGNvidia / Microsoft530 mlrdAPI prieiga naudojant programąNaudoja transformatorinę Megatron architektūrą įvairioms NLP užduotims atlikti.
LLAMAMeta AI7B–65B)Atsisiunčiama naudojant programąSkirta demokratizuoti dirbtinį intelektą, suteikiant prieigą prie mokslinių tyrimų, vyriausybės ir akademinės bendruomenės.

Kaip naudojami LLM?

LLM gali būti naudojami keliais būdais, įskaitant:

  1. Tiesioginis naudojimas: tiesiog naudokite iš anksto apmokytą LLM teksto generavimui arba apdorojimui. Pavyzdžiui, naudojant GPT-4 rašyti tinklaraščio įrašą be jokio papildomo tikslo.
  2. Tikslus derinimas: iš anksto apmokyto LLM pritaikymas konkrečiai užduočiai, metodas, žinomas kaip mokymosi perkėlimas. Pavyzdys galėtų būti T5 tinkinimas, kad būtų sukurtos konkrečios pramonės dokumentų santraukos.
  3. Informacijos paieška: LLM, pvz., BERT arba GPT, naudojimas kaip didesnių architektūrų dalis kuriant sistemas, kurios gali gauti ir suskirstyti informaciją į kategorijas.
Generative AI ChatGPT tikslus derinimas
„ChatGPT“ tikslioji architektūra

Daugiagalvis dėmesys: kam vienas, kai gali turėti daug?

Tačiau pasikliauti vienu dėmesio mechanizmu gali būti apribota. Įvairūs žodžiai ar sekos tekste gali turėti skirtingą aktualumo ar asociacijų tipą. Čia atsiranda kelių galvų dėmesys. Vietoj vieno dėmesio svarmenų rinkinio, kelių galvų dėmesiui naudojami keli rinkiniai, leidžiantys modeliui užfiksuoti įvairesnius ryšius įvesties tekste. Kiekviena dėmesio „galva“ gali sutelkti dėmesį į skirtingas įvesties dalis arba aspektus, o jų bendros žinios naudojamos galutinei prognozei.

„ChatGPT“: populiariausias generuojantis AI įrankis

Nuo GPT pradžios 2018 m., modelis iš esmės buvo sukurtas remiantis 12 sluoksnių, 12 dėmesio galvučių ir 120 milijonų parametrų, visų pirma parengtų naudojant duomenų rinkinį, vadinamą BookCorpus. Tai buvo įspūdinga pradžia, leidžianti pažvelgti į kalbų modelių ateitį.

GPT-2, pristatytas 2019 m., keturis kartus padidino sluoksnius ir dėmesio galvutes. Svarbu tai, kad jo parametrų skaičius išaugo iki 1.5 mlrd. Ši patobulinta versija buvo parengta iš WebText, duomenų rinkinio, praturtinto 40 GB teksto iš įvairių Reddit nuorodų.

3 m. gegužės mėn. paleistas GPT-2020 turėjo 96 sluoksnius, 96 dėmesio galvutes ir didžiulį parametrų skaičių – 175 mlrd. GPT-3 išskyrė jo įvairūs mokymo duomenys, apimantys „CommonCrawl“, „WebText“, anglų kalbos Vikipediją, knygų korpusus ir kitus šaltinius, iš viso 570 GB.

„ChatGPT“ veikimo sudėtingumas tebėra kruopščiai saugoma paslaptis. Tačiau žinoma, kad procesas, vadinamas „stiprinamuoju mokymusi iš žmogaus grįžtamojo ryšio“ (RLHF), yra pagrindinis. Ši technika, kilusi iš ankstesnio ChatGPT projekto, padėjo tobulinti GPT-3.5 modelį, kad jis būtų labiau suderintas su rašytinėmis instrukcijomis.

„ChatGPT“ mokymas apima trijų pakopų metodą:

  1. Prižiūrimas koregavimas: apima žmogaus parašytų pokalbių įvesties ir išvesties kuravimą, siekiant patobulinti pagrindinį GPT-3.5 modelį.
  2. Atlygio modeliavimas: žmonės reitinguoja įvairius modelio rezultatus pagal kokybę, padėdami parengti atlygio modelį, kuris įvertina kiekvieną rezultatą, atsižvelgdamas į pokalbio kontekstą.
  3. Mokymosi stiprinimas: pokalbio kontekstas yra fonas, kuriame pagrindinis modelis siūlo atsakymą. Šis atsakas įvertinamas atlygio modeliu, o procesas optimizuojamas naudojant algoritmą, pavadintą proksimalinės politikos optimizavimu (PPO).

Tiems, kurie tiesiog panardina pirštus į „ChatGPT“, galite rasti išsamų pradžios vadovą čia. Jei norite giliau įsigilinti į greitą inžineriją naudodami ChatGPT, mes taip pat turime pažangų vadovą, kuriame apžvelgiami naujausi ir moderniausi greitų metodų metodai.„ChatGPT“ ir pažangioji greitoji inžinerija: dirbtinio intelekto evoliucijos skatinimas".

Difuzijos ir multimodaliniai modeliai

Nors modeliai, tokie kaip VAE ir GAN, generuoja savo išvestį per vieną praėjimą, taigi yra užrakinti, kad ir ką jie gamintų, difuzijos modeliai pristatė koncepcijąpasikartojantis tobulinimas“. Taikydami šį metodą, jie grįžta atgal, išgrynina ankstesnių žingsnių klaidas ir palaipsniui duoda gražesnį rezultatą.

Pagrindinis difuzijos modelių menas yra "korupcija“ ir „patobulinimas“. Jų mokymo fazėje tipiškas vaizdas laipsniškai pažeidžiamas pridedant įvairaus lygio triukšmo. Tada ši triukšminga versija perduodama modeliui, kuris bando jį „nutildyti“ arba „sugadinti“. Kelis kartus tai padarius, modelis puikiai atkuria, supranta tiek subtilius, tiek reikšmingus nukrypimus.

Generative AI – Midjourney Prompt
Vaizdas sukurtas iš Midjourney

Naujų vaizdų generavimo procesas po treniruotės yra intriguojantis. Pradedant nuo visiškai atsitiktinės įvesties, ji nuolat tobulinama naudojant modelio prognozes. Tikslas yra pasiekti nesugadintą vaizdą su minimaliu žingsnių skaičiumi. Korupcijos lygis kontroliuojamas naudojant „triukšmo grafiką“ – mechanizmą, kuris valdo, kiek triukšmo naudojama įvairiais etapais. Planuotojas, kaip matyti tokiose bibliotekose kaip „difuzoriai“, diktuoja šių triukšmingų perteikimų pobūdį, pagrįstą nustatytais algoritmais.

Esminis daugelio difuzijos modelių architektūrinis pagrindas yra UNet– konvoliucinis neuroninis tinklas, pritaikytas užduotims, kurioms reikalingi išėjimai, atspindintys erdvinį įvesties matmenį. Tai sumažinimo ir padidinimo sluoksnių, sudėtingai sujungtų, kad būtų išsaugoti didelės raiškos duomenys, derinys.

Gilinantis į generatyvinių modelių sritį – OpenAI DALL-E2 pasirodo kaip ryškus tekstinių ir vaizdinių AI galimybių susiliejimo pavyzdys. Jame naudojama trijų pakopų struktūra:

DALL-E 2 demonstruoja trijų dalių architektūrą:

  1. Teksto kodavimo priemonė: ji paverčia teksto raginimą konceptualiu įterpimu latentinėje erdvėje. Šis modelis prasideda ne nuo nulio. Jis remiasi OpenAI priešpriešinės kalbos ir vaizdo išankstiniu mokymu (CLIP) duomenų rinkinys yra jo pagrindas. CLIP tarnauja kaip tiltas tarp vaizdinių ir tekstinių duomenų, mokantis vaizdinių sąvokų naudojant natūralią kalbą. Naudodamas mechanizmą, žinomą kaip kontrastinis mokymasis, jis identifikuoja ir suderina vaizdus su atitinkamais tekstiniais aprašymais.
  2. Ankstesnis: tada iš koduotuvo gautas teksto įterpimas konvertuojamas į vaizdo įterpimą. DALL-E 2 šiai užduočiai išbandė ir autoregresinius, ir difuzijos metodus, o pastarasis parodė geresnius rezultatus. Autoregresyvūs modeliai, kaip matyti Transformatoriuose ir PixelCNN, generuoja išvestis sekomis. Kita vertus, difuzijos modeliai, kaip ir DALL-E 2, atsitiktinį triukšmą paverčia numatomais vaizdo įterpimais, naudodami teksto įterpimus.
  3. Dekoderis: proceso kulminacija, ši dalis sukuria galutinę vaizdinę išvestį, pagrįstą teksto raginimu ir vaizdo įterpimu iš ankstesnio etapo. DALL.E 2 dekoderis savo architektūrą skolingas kitam modeliui, STIKLAS, kuri taip pat gali sukurti tikroviškus vaizdus iš tekstinių užuominų.
DALL-E modelio architektūra (difuzinis kelių modelis)
Supaprastinta DALL-E modelio architektūra

Python vartotojai domisi Langchain turėtumėte peržiūrėti mūsų išsamią mokymo programą, apimančią viską nuo pagrindų iki pažangių technikų.

Generatyvaus dirbtinio intelekto taikymai

Tekstiniai domenai

Pradedant nuo teksto, „Generative AI“ iš esmės pakeitė pokalbių robotai, tokie kaip ChatGPT. Šie subjektai, labai pasikliaujant natūralios kalbos apdorojimu (NLP) ir didelių kalbų modeliais (LLM), gali atlikti užduotis nuo kodo generavimo ir kalbos vertimo iki apibendrinimo ir nuotaikų analizės. Pavyzdžiui, „ChatGPT“ buvo plačiai pritaikytas ir tapo pagrindiniu milijonų žmonių objektu. Tai dar labiau papildo pokalbio AI platformos, pagrįstos LLM, pvz., GPT-4, PALMir BLOOM, kurios be vargo sukuria tekstą, padeda programuoti ir netgi siūlo matematinius samprotavimus.

Komerciniu požiūriu šie modeliai tampa neįkainojami. Įmonės juos naudoja daugybei operacijų, įskaitant rizikos valdymą, atsargų optimizavimą ir poreikių prognozavimą. Kai kurie žymūs pavyzdžiai yra „Bing AI“, „Google“ BARD ir „ChatGPT“ API.

Menas

Vaizdų pasaulis patyrė dramatiškų transformacijų naudojant „Generative AI“, ypač po to, kai 2 m. buvo pristatyta DALL-E 2022. Ši technologija, kuri gali generuoti vaizdus iš tekstinių raginimų, turi ir meninį, ir profesinį poveikį. Pavyzdžiui, vidurio kelionė panaudojo šią technologiją, kad būtų sukurti įspūdingai tikroviški vaizdai. Šis naujausias įrašas demistifikuoja Midjourney išsamiame vadove, kuriame paaiškinama ir platforma, ir jos greiti inžineriniai gudrybės. Be to, tokiose platformose kaip „Alpaca AI“ ir „Photoroom AI“ naudojamas „Generative AI“ pažangioms vaizdo redagavimo funkcijoms, tokioms kaip fono pašalinimas, objektų trynimas ir net veido atkūrimas.

Vaizdo įrašų gamyba

Vaizdo įrašų kūrimas vis dar tik pradeda kurtis generatyvaus AI srityje, tačiau demonstruoja daug žadančių pažangų. Tokios platformos kaip „Imagen Video“, „Meta Make A Video“ ir „Runway Gen-2“ peržengia to, kas įmanoma, ribas, net jei išties tikroviški rezultatai vis dar yra horizonte. Šie modeliai yra labai naudingi kuriant skaitmeninius žmogaus vaizdo įrašus, o pagrindinės programos yra „Synthesia“ ir „SuperCreator“. Pažymėtina, kad „Tavus AI“ siūlo unikalų pardavimo pasiūlymą, pritaikydamas vaizdo įrašus individualiems auditorijos nariams, o tai yra palaima įmonėms.

Kodo kūrimas

Kodavimas, nepakeičiamas mūsų skaitmeninio pasaulio aspektas, neliko nepaliestas Generative AI. Nors ChatGPT yra mėgstamas įrankis, kodavimo tikslais buvo sukurtos kelios kitos AI programos. Šios platformos, tokios kaip „GitHub Copilot“, „Alphacode“ ir „CodeComplete“, veikia kaip kodavimo pagalbininkai ir netgi gali sukurti kodą iš tekstinių raginimų. Įdomu tai, kad šie įrankiai pritaikomi. „Codex“, varomoji „GitHub Copilot“ jėga, gali būti pritaikyta prie asmens kodavimo stiliaus, pabrėžiant „Generative AI“ personalizavimo galimybes.

Išvada

Sumaišęs žmogaus kūrybiškumą su mašininiu skaičiavimu, jis tapo neįkainojamu įrankiu, o platformos, tokios kaip ChatGPT ir DALL-E 2, peržengia įmanomų galimybių ribas. Nuo tekstinio turinio kūrimo iki vaizdinių šedevrų kūrimo – jų pritaikymas yra platus ir įvairus.

Kaip ir bet kurios technologijos atveju, svarbiausia yra etinė reikšmė. Nors „Generative AI“ žada beribį kūrybiškumą, labai svarbu jį naudoti atsakingai, žinant galimą šališkumą ir manipuliavimo duomenimis galią.

Kadangi tokie įrankiai kaip „ChatGPT“ tampa labiau prieinami, dabar pats tinkamiausias laikas išbandyti vandenis ir eksperimentuoti. Nesvarbu, ar esate menininkas, programuotojas ar technologijų entuziastas, „Generative AI“ srityje gausu galimybių, kurias reikia ištirti. Revoliucija nėra horizonte; tai čia ir dabar. Taigi, pasinerkite!

Pastaruosius penkerius metus praleidau pasinerdamas į žavų mašininio mokymosi ir giluminio mokymosi pasaulį. Mano aistra ir patirtis paskatino mane prisidėti prie daugiau nei 50 įvairių programinės įrangos inžinerijos projektų, ypatingą dėmesį skiriant AI/ML. Mano nuolatinis smalsumas taip pat patraukė mane į natūralios kalbos apdorojimą – sritį, kurią noriu tyrinėti toliau.