Umetna inteligenca

Generativni AI: Ideja za CHATGPT, Dall-E, Midjourney in več

Posodobljeno on Avgust 8, 2023

Svet umetnosti, komunikacije in naše dojemanje realnosti se hitro spreminja. Če pogledamo nazaj v zgodovino človeških inovacij, bi lahko izum kolesa ali odkritje elektrike obravnavali kot monumentalna skoka. Danes se dogaja nova revolucija – premostitev razkoraka med človeško ustvarjalnostjo in strojnim računanjem. To je Generative AI.

Generativni modeli so zabrisali mejo med ljudmi in stroji. S pojavom modelov, kot je GPT-4, ki uporablja transformatorske module, smo se približali naravni in kontekstno bogati generaciji jezikov. Ta napredek je spodbudil aplikacije za ustvarjanje dokumentov, pogovorne sisteme klepetalnic in celo skladanje sintetične glasbe.

Nedavne odločitve Big-Tech poudarjajo njegov pomen. Microsoft je že ukinitev aplikacije Cortana ta mesec dati prednost novejšim inovacijam Generative AI, kot je Bing Chat. Apple je prav tako namenil pomemben del svojega 22.6 milijarde dolarjev proračuna za raziskave in razvoj generativni AI, kot je navedel izvršni direktor Tim Cook.

Nova doba modelov: generativni vs. Diskriminativno

Zgodba o Generative AI se ne nanaša samo na njegove aplikacije, temveč predvsem na njegovo notranje delovanje. V ekosistemu umetne inteligence obstajata dva modela: diskriminativni in generativni.

Diskriminativni modeli so tisto, s čimer se večina ljudi srečuje v vsakdanjem življenju. Ti algoritmi sprejmejo vhodne podatke, kot je besedilo ali slika, in jih združijo s ciljnim izhodom, kot je prevod besede ali medicinska diagnoza. Gre za kartiranje in napovedovanje.

Generativni modeli pa so ustvarjalci. Ne samo razlagajo ali napovedujejo; ustvarjajo nove, zapletene izhode iz vektorjev števil, ki pogosto sploh niso povezani z vrednostmi iz resničnega sveta.

Tehnologije, ki stojijo za generativnimi modeli

Generativni modeli dolgujejo svoj obstoj globokim nevronskim mrežam, sofisticiranim strukturam, zasnovanim tako, da posnemajo delovanje človeških možganov. Z zajemanjem in obdelavo večplastnih variacij podatkov ta omrežja služijo kot hrbtenica številnih generativnih modelov.

Kako ti generativni modeli zaživijo? Običajno so zgrajeni z globokimi nevronskimi mrežami, optimiziranimi za zajemanje večplastnih variacij podatkov. Glavni primer je Generacijska svetovalna mreža (GAN), kjer dve nevronski mreži, generator in diskriminator, tekmujeta in se učita druga od druge v edinstvenem odnosu učitelj-učenec. Od slik do prenosa sloga, od skladanja glasbe do igranja iger, ti modeli se razvijajo in širijo na načine, ki si jih prej ni bilo mogoče predstavljati.

To se ne konča pri GAN-ih. Variacijski samodejni kodirniki (VAE), so še en ključni igralec na področju generativnih modelov. VAE izstopajo po svoji zmožnosti ustvarjanja fotorealističnih slik iz navidezno naključnih števil. kako Obdelava teh števil skozi latentni vektor rodi umetnost, ki zrcali kompleksnost človeške estetike.

Generativne vrste AI: besedilo v besedilo, besedilo v sliko

Transformatorji & LLM

Papir "Pozornost je vse, kar potrebujete” Google Brain je zaznamoval premik v našem razmišljanju o modeliranju besedila. Namesto kompleksnih in zaporednih arhitektur, kot so ponavljajoče se nevronske mreže (RNN) ali konvolucijske nevronske mreže (CNN), je model Transformer uvedel koncept pozornosti, kar je v bistvu pomenilo osredotočanje na različne dele vhodnega besedila, odvisno od konteksta. Ena od glavnih prednosti tega je bila enostavnost paralelizacije. Za razliko od RNN-jev, ki obdelujejo besedilo zaporedno, zaradi česar jih je težje prilagoditi, lahko Transformers obdelujejo dele besedila hkrati, zaradi česar je usposabljanje hitrejše in učinkovitejše pri velikih naborih podatkov.

: Model transformatorja Arhitektura

V dolgem besedilu ni vsaka beseda ali stavek, ki ga preberete, enakega pomena. Nekateri deli zahtevajo več pozornosti glede na kontekst. To zmožnost preusmeritve našega fokusa na podlagi ustreznosti je tisto, kar mehanizem pozornosti posnema.

Da bi to razumeli, pomislite na stavek: "Združite AI, objavite novice o AI in robotiki." Za napovedovanje naslednje besede je potrebno razumeti, kaj je najpomembnejše v prejšnjem kontekstu. Izraz 'Robotika' lahko nakazuje, da bi bila naslednja beseda lahko povezana z določenim napredkom ali dogodkom na področju robotike, medtem ko lahko 'Objavi' nakazuje, da bi se naslednji kontekst lahko poglobil v nedavno publikacijo ali članek.

: Ilustracija samopozornosti

Mehanizmi pozornosti v Transformerjih so zasnovani za doseganje tega selektivnega fokusa. Ocenjujejo pomembnost različnih delov vnesenega besedila in se odločajo, kam bodo »pogledali« pri ustvarjanju odgovora. To je odmik od starejših arhitektur, kot so RNN, ki so poskušale stlačiti bistvo vsega vhodnega besedila v eno samo 'stanje' ali 'spomin'.

Delovanje pozornosti lahko primerjamo s sistemom za iskanje ključev in vrednosti. Pri poskusu predvidevanja naslednje besede v stavku vsaka predhodna beseda ponuja 'ključ', ki nakazuje njeno potencialno relevantnost, in glede na to, kako dobro se ti ključi ujemajo s trenutnim kontekstom (ali poizvedbo), prispevajo 'vrednost' ali težo k napoved.

Ti napredni modeli globokega učenja umetne inteligence so se brezhibno integrirali v različne aplikacije, od Googlovih izboljšav iskalnika z BERT do GitHubovega Copilota, ki izkorišča zmožnost velikih jezikovnih modelov (LLM) za pretvorbo preprostih odrezkov kode v popolnoma funkcionalne izvorne kode.

Veliki jezikovni modeli (LLM), kot so GPT-4, Bard in LLaMA, so ogromni konstrukti, zasnovani za dešifriranje in ustvarjanje človeškega jezika, kode in drugega. Njihova ogromna velikost, ki sega od milijard do trilijonov parametrov, je ena od značilnih značilnosti. Ti LLM-ji se napajajo z obilico besedilnih podatkov, kar jim omogoča, da dojamejo zapletenost človeškega jezika. Osupljiva značilnost teh modelov je njihova zmožnost "nekaj posnetkov” učenje. Za razliko od običajnih modelov, ki potrebujejo ogromne količine specifičnih podatkov o usposabljanju, lahko LLM posplošijo iz zelo omejenega števila primerov (ali "posnetkov")

Stanje velikih jezikovnih modelov (LLM) od sredine leta 2023

Ime modela	Razvojni	parametri	Razpoložljivost in dostop	Pomembne lastnosti in opombe
GPT-4	OpenAI	1.5 Bilijona	Ni odprtokoden, samo dostop API	Impresivna zmogljivost pri različnih opravilih lahko obdela slike in besedilo, največja vnosna dolžina 32,768 žetonov
GPT-3	OpenAI	175 milijard	Ni odprtokoden, samo dostop API	Prikazane zmožnosti učenja z nekaj streli in z nič streli. Izvaja dopolnjevanje besedila v naravnem jeziku.
BLOOM	BigScience	176 milijard	Prenosljiv model, na voljo gostujoči API	Večjezični LLM, razvit z globalnim sodelovanjem. Podpira 13 programskih jezikov.
TheMDA	google	173 milijard	Ni odprtokoden, brez API-ja ali prenosa	Izurjeni v dialogu bi se lahko naučili govoriti o skoraj vsem
MT-NLG	Nvidia/Microsoft	530 milijard	API dostop po aplikaciji	Uporablja arhitekturo Megatron na osnovi transformatorjev za različne NLP naloge.
Klici	Meta AI	7B do 65B)	Prenos z aplikacijo	Namenjen je demokratizaciji umetne inteligence s ponujanjem dostopa raziskovalcem, vladnim in akademskim krogom.

Kako se uporabljajo LLM?

LLM je mogoče uporabiti na več načinov, vključno z:

Neposredna uporaba: Preprosta uporaba vnaprej usposobljenega LLM za ustvarjanje ali obdelavo besedila. Na primer, uporaba GPT-4 za pisanje objave v spletnem dnevniku brez dodatnega natančnega prilagajanja.
Natančna nastavitev: Prilagajanje predhodno usposobljenega LLM za določeno nalogo, metoda, znana kot prenos učenja. Primer bi bila prilagoditev T5 za ustvarjanje povzetkov za dokumente v določeni panogi.
Pridobivanje informacij: uporaba LLM-jev, kot sta BERT ali GPT, kot del večjih arhitektur za razvoj sistemov, ki lahko pridobijo in kategorizirajo informacije.

: Arhitektura za fino nastavitev ChatGPT

Pozornost z več glavami: Zakaj eno, ko jih lahko imate več?

Vendar je lahko zanašanje na en sam mehanizem pozornosti omejujoče. Različne besede ali zaporedja v besedilu imajo lahko različne vrste pomembnosti ali asociacij. Tukaj nastopi večglavna pozornost. Namesto enega niza uteži pozornosti večglavna pozornost uporablja več nizov, kar omogoča modelu, da zajame bogatejšo raznolikost odnosov v vhodnem besedilu. Vsaka »glava« pozornosti se lahko osredotoči na različne dele ali vidike vnosa, njihovo skupno znanje pa se uporabi za končno napoved.

ChatGPT: najbolj priljubljeno generativno orodje AI

Od ustanovitve GPT leta 2018 je bil model v bistvu zgrajen na temelju 12 plasti, 12 glav pozornosti in 120 milijonov parametrov, ki so bili v prvi vrsti usposobljeni na naboru podatkov, imenovanem BookCorpus. To je bil impresiven začetek, ki je ponudil vpogled v prihodnost jezikovnih modelov.

GPT-2, predstavljen leta 2019, se ponaša s štirikratnim povečanjem slojev in pozornosti. Pomembno je, da je število njegovih parametrov skokovito naraslo na 1.5 milijarde. Ta izboljšana različica je svoje usposabljanje izpeljala iz WebText, nabora podatkov, obogatenega s 40 GB besedila iz različnih povezav Reddit.

GPT-3, predstavljen maja 2020, je imel 96 slojev, 96 glav pozornosti in ogromno število parametrov 175 milijard. Kar je GPT-3 ločilo od drugih, so njegovi raznoliki podatki o usposabljanju, ki vključujejo CommonCrawl, WebText, angleško Wikipedijo, korpuse knjig in druge vire, skupaj za skupno 570 GB.

Zapletenost delovanja ChatGPT ostaja skrbno varovana skrivnost. Vendar je znano, da je proces, imenovan "okrepitveno učenje iz človeških povratnih informacij" (RLHF), ključnega pomena. Ta tehnika, ki izhaja iz prejšnjega projekta ChatGPT, je bila ključnega pomena pri izpopolnjevanju modela GPT-3.5, da bi bil bolj usklajen s pisnimi navodili.

Usposabljanje ChatGPT vključuje tristopenjski pristop:

Nadzorovano fino uravnavanje: Vključuje urejanje pogovornih vnosov in izhodov, ki jih je napisal človek, za izboljšanje osnovnega modela GPT-3.5.
Modeliranje nagrajevanja: Ljudje razvrščajo različne rezultate modela na podlagi kakovosti, kar pomaga usposobiti model nagrajevanja, ki ocenjuje vsak rezultat glede na kontekst pogovora.
Učenje s krepitvijo: pogovorni kontekst služi kot ozadje, kjer osnovni model predlaga odgovor. Ta odziv oceni model nagrajevanja, postopek pa se optimizira z algoritmom, imenovanim optimizacija proksimalne politike (PPO).

Za tiste, ki se šele poglabljajo v ChatGPT, lahko najdete obsežen začetni vodnik tukaj. Če se želite poglobiti v hitri inženiring s ChatGPT, imamo na voljo tudi napredni vodnik, ki osvetljuje najnovejše in najsodobnejše tehnike hitrega posredovanja.ChatGPT & napredni hitri inženiring: spodbujanje razvoja AI".

Difuzijski in multimodalni modeli

Medtem ko modeli, kot sta VAE in GAN, ustvarijo svoje rezultate z enim prehodom, torej zaklenjeni v vse, kar proizvedejo, so difuzijski modeli uvedli koncept 'iterativno izpopolnjevanje'. S to metodo se vrnejo nazaj, izboljšajo napake iz prejšnjih korakov in postopoma ustvarijo bolj uglajen rezultat.

V središču difuzijskih modelov je umetnost "korupcija« in »prefinjenost«. V njihovi fazi usposabljanja se tipična slika postopoma pokvari z dodajanjem različnih ravni šuma. Ta hrupna različica se nato dovaja modelu, ki jo poskuša "zmanjšati hrupa" ali "poškodovati". Skozi več krogov tega postane model spreten pri restavriranju in razume tako subtilne kot pomembne aberacije.

: Slika ustvarjena iz Midjourney

Postopek ustvarjanja novih slik po usposabljanju je zanimiv. Začenši s popolnoma naključnim vnosom, se nenehno izpopolnjuje z uporabo napovedi modela. Namen je doseči neokrnjeno sliko z najmanjšim številom korakov. Nadzor nad stopnjo korupcije se izvaja prek »razporeda hrupa«, mehanizma, ki določa, koliko hrupa je uporabljenega na različnih stopnjah. Razporejevalnik, kot ga vidimo v knjižnicah, kot je "difuzorji«, narekuje naravo teh hrupnih izročitev, ki temeljijo na uveljavljenih algoritmih.

Bistvena arhitekturna hrbtenica za številne difuzijske modele je UNet—konvolucijska nevronska mreža, prilagojena za naloge, ki zahtevajo izhode, ki odražajo prostorsko razsežnost vhodov. To je mešanica slojev zmanjševanja in povečanja vzorčenja, ki so tesno povezani za ohranjanje podatkov visoke ločljivosti, ki so ključni za izhode, povezane s sliko.

Poglabljamo se v področje generativnih modelov, OpenAI DALL-E2 se pojavi kot sijajen primer združitve besedilnih in vizualnih zmogljivosti AI. Uporablja tristopenjsko strukturo:

DALL-E 2 prikazuje trojno arhitekturo:

Kodirnik besedila: Preoblikuje besedilni poziv v konceptualno vdelavo znotraj latentnega prostora. Ta model se ne začne od začetka. Naslanja se na predhodno usposabljanje OpenAI Contrastive Language–Image (CLIP) nabor podatkov kot temelj. CLIP služi kot most med vizualnimi in besedilnimi podatki z učenjem vizualnih konceptov z uporabo naravnega jezika. Z mehanizmom, znanim kot kontrastivno učenje, identificira in ujema slike z njihovimi ustreznimi besedilnimi opisi.
Predhodno: vdelava besedila, pridobljena iz kodirnika, se nato pretvori v vdelavo slike. DALL-E 2 je za to nalogo preizkusil avtoregresijsko in difuzijsko metodo, pri čemer je slednja pokazala vrhunske rezultate. Avtoregresivni modeli, kot jih vidimo v Transformers in PixelCNN, ustvarjajo rezultate v zaporedjih. Po drugi strani pa difuzijski modeli, kot je tisti, uporabljen v DALL-E 2, pretvorijo naključni šum v predvidene vdelave slik s pomočjo vdelav besedila.
Dekoder: Vrhunec procesa, ta del ustvari končni vizualni rezultat na podlagi besedilnega poziva in vdelave slike iz prejšnje faze. Dekoder DALL.E 2 svojo arhitekturo dolguje drugemu modelu, GLEDE, ki lahko ustvari tudi realistične slike iz besedilnih namigov.

: Poenostavljena arhitektura modela DALL-E

Uporabniki Pythona, ki jih zanima Langchain si oglejte našo podrobno vadnico, ki zajema vse od osnov do naprednih tehnik.

Uporaba generativne umetne inteligence

Besedilne domene

Začenši z besedilom, so Generative AI temeljito spremenili chatboti, kot je ChatGPT. Ker se v veliki meri zanašajo na obdelavo naravnega jezika (NLP) in velike jezikovne modele (LLM), so te entitete pooblaščene za izvajanje nalog, ki segajo od generiranja kode in prevajanja jezika do povzemanja in analize občutkov. ChatGPT je na primer doživel široko sprejetje in postal stalnica za milijone. To je dodatno povečano s pogovornimi platformami AI, ki temeljijo na LLM-jih, kot je GPT-4, PaLMin BLOOM, ki brez truda ustvarijo besedilo, pomagajo pri programiranju in celo ponujajo matematično sklepanje.

S komercialnega vidika postajajo ti modeli neprecenljivi. Podjetja jih zaposlujejo za nešteto operacij, vključno z upravljanjem tveganja, optimizacijo zalog in napovedovanjem povpraševanja. Nekateri pomembni primeri vključujejo Bing AI, Googlov BARD in ChatGPT API.

Umetnost

Svet slik je doživel dramatične preobrazbe z Generative AI, zlasti od predstavitve DALL-E 2 leta 2022. Ta tehnologija, ki lahko ustvari slike iz besedilnih pozivov, ima umetniške in profesionalne posledice. Midjourney je na primer uporabil to tehnologijo za ustvarjanje osupljivo realističnih slik. Ta nedavna objava demistificira Midjourney v podrobnem vodniku, ki pojasnjuje platformo in njene hitre inženirske zapletenosti. Poleg tega platforme, kot sta Alpaca AI in Photoroom AI, uporabljajo Generative AI za napredne funkcije urejanja slik, kot so odstranjevanje ozadja, brisanje predmetov in celo obnovitev obraza.

Video produkcija

Video produkcija, čeprav je še vedno v začetni fazi na področju generativne umetne inteligence, kaže obetaven napredek. Platforme, kot so Imagen Video, Meta Make A Video in Runway Gen-2, premikajo meje možnega, čeprav so resnično realistični rezultati še vedno na obzorju. Ti modeli ponujajo precejšnjo uporabnost za ustvarjanje digitalnih človeških videoposnetkov, pri čemer sta glavni vlogi aplikacija, kot sta Synthesia in SuperCreator. Predvsem Tavus AI ponuja edinstveno prodajno ponudbo s prilagajanjem videoposnetkov za posamezne člane občinstva, kar je dobro za podjetja.

Ustvarjanje kode

Kodiranje, nepogrešljiv vidik našega digitalnega sveta, Generative AI ni ostal nedotaknjen. Čeprav je ChatGPT priljubljeno orodje, je bilo za namene kodiranja razvitih več drugih aplikacij AI. Te platforme, kot so GitHub Copilot, Alphacode in CodeComplete, služijo kot pomočniki pri kodiranju in lahko celo ustvarijo kodo iz besedilnih pozivov. Kar je zanimivo, je prilagodljivost teh orodij. Codex, gonilna sila GitHub Copilot, je mogoče prilagoditi slogu kodiranja posameznika, kar poudarja potencial personalizacije Generative AI.

zaključek

Z mešanjem človeške ustvarjalnosti s strojnim računanjem se je razvil v neprecenljivo orodje s platformami, kot sta ChatGPT in DALL-E 2, ki premikajo meje možnega. Njihove uporabe so obsežne in raznolike, od ustvarjanja besedilnih vsebin do oblikovanja vizualnih mojstrovin.

Kot pri vsaki tehnologiji so etične posledice najpomembnejše. Čeprav Generative AI obljublja brezmejno ustvarjalnost, je ključnega pomena, da ga uporabljate odgovorno, pri čemer se zavedate morebitnih pristranskosti in moči manipulacije s podatki.

Ker orodja, kot je ChatGPT, postajajo vse bolj dostopna, je zdaj pravi čas za preizkušanje vode in eksperimentiranje. Ne glede na to, ali ste umetnik, koder ali tehnološki navdušenec, je področje Generative AI polno možnosti, ki čakajo, da jih raziščete. Revolucije ni na obzorju; je tukaj in zdaj. Torej, potopite se!

Sorodne teme:klepet gpt DALL-E globoko učenje generativni ai LLM vmesna pot

Up Next

Generativni AI zavzema osrednje mesto na konferenci Ai2023 4

Ne zamudite

Zmožnosti umetne inteligence za analogno sklepanje: Izzivanje človeške inteligence?

Aayush Mittal

Zadnjih pet let sem se potopil v fascinanten svet strojnega in globokega učenja. Moja strast in strokovno znanje sta me pripeljala do tega, da sem prispeval k več kot 50 raznolikim projektom programskega inženiringa, s posebnim poudarkom na AI/ML. Moja nenehna radovednost me je pripeljala tudi do obdelave naravnega jezika, področja, ki ga želim nadalje raziskati.