škrbina Generativni AI: Ideja iza CHATGPT-a, Dall-E, Midjourney i više - Unite.AI
Povežite se s nama

Umjetna inteligencija

Generativni AI: Ideja iza CHATGPT-a, Dall-E, Midjourney i više

mm
Ažurirano on
Generativni AI - Midjourney Prompt

Svijet umjetnosti, komunikacija i način na koji percipiramo stvarnost ubrzano se mijenja. Ako se osvrnemo na povijest ljudskih inovacija, mogli bismo izum kotača ili otkriće elektriciteta smatrati monumentalnim skokovima. Danas se događa nova revolucija — premošćivanje jaza između ljudske kreativnosti i strojnog računanja. To je Generative AI.

Generativni modeli zamaglili su granicu između ljudi i strojeva. S pojavom modela kao što je GPT-4, koji koristi transformatorske module, približili smo se prirodnom i kontekstualno bogatom stvaranju jezika. Ovaj napredak potaknuo je aplikacije u stvaranju dokumenata, chatbot sustavima za dijalog, pa čak i skladanju sintetičke glazbe.

Nedavne odluke Big-Techa naglašavaju njegovu važnost. Microsoft već jest ukidanje aplikacije Cortana ovog mjeseca da daju prednost novijim Generativnim AI inovacijama, kao što je Bing Chat. Apple je također posvetio značajan dio svog Proračun za istraživanje i razvoj od 22.6 milijardi dolara generativnoj umjetnoj inteligenciji, kako je naznačio CEO Tim Cook.

Nova era modela: Generativno vs. Diskriminirajuće

Priča o Generativnoj umjetnoj inteligenciji ne odnosi se samo na njegove primjene, već u osnovi na unutarnje funkcioniranje. U ekosustavu umjetne inteligencije postoje dva modela: diskriminirajući i generativni.

Diskriminativni modeli ono su s čime se većina ljudi susreće u svakodnevnom životu. Ovi algoritmi uzimaju ulazne podatke, poput teksta ili slike, i uparuju ih s ciljnim izlazom, poput prijevoda riječi ili medicinske dijagnoze. Oni se odnose na mapiranje i predviđanje.

Generativni modeli su, s druge strane, kreatori. Oni ne samo tumače ili predviđaju; oni generiraju nove, složene rezultate iz vektora brojeva koji često nisu ni povezani s vrijednostima iz stvarnog svijeta.

 

Generativne vrste umjetne inteligencije: tekst u tekst, tekst u sliku (GPT, DALL-E, Midjourney)

Tehnologije koje stoje iza generativnih modela

Generativni modeli duguju svoje postojanje dubokim neuronskim mrežama, sofisticiranim strukturama dizajniranim da oponašaju funkcionalnost ljudskog mozga. Hvatanjem i obradom višestrukih varijacija u podacima, te mreže služe kao okosnica brojnih generativnih modela.

Kako ti generativni modeli oživljavaju? Obično su izgrađeni s dubokim neuronskim mrežama, optimiziranim za hvatanje višestrukih varijacija u podacima. Glavni primjer je Generativna savjetodavna mreža (GAN), gdje se dvije neuronske mreže, generator i diskriminator, natječu i uče jedna od druge u jedinstvenom odnosu učitelj-učenik. Od slika do prijenosa stila, od skladanja glazbe do igranja igrica, ovi se modeli razvijaju i šire na načine koji su prije bili nezamislivi.

Ovo ne prestaje s GAN-ovima. Varijacijski autokoderi (VAE), još su jedan ključni igrač na polju generativnih modela. VAE se ističu svojom sposobnošću stvaranja fotorealističnih slika od naizgled nasumičnih brojeva. Kako? Obrada tih brojeva kroz latentni vektor rađa umjetnost koja odražava složenost ljudske estetike.

Generativne vrste umjetne inteligencije: tekst u tekst, tekst u sliku

Transformatori i LLM

Papir "Pažnja je sve što trebate” Google Braina označio je promjenu u načinu na koji razmišljamo o modeliranju teksta. Umjesto složenih i sekvencijalnih arhitektura poput ponavljajućih neuronskih mreža (RNN) ili konvolucijskih neuronskih mreža (CNN), model Transformer uveo je koncept pažnje, što je u biti značilo fokusiranje na različite dijelove ulaznog teksta ovisno o kontekstu. Jedna od glavnih prednosti ovoga bila je jednostavnost paralelizacije. Za razliku od RNN-ova koji obrađuju tekst sekvencijalno, što ih čini težim za skaliranje, Transformers mogu obrađivati ​​dijelove teksta istovremeno, čineći obuku bržom i učinkovitijom na velikim skupovima podataka.

U dugom tekstu, svaka riječ ili rečenica koju pročitate nema istu važnost. Neki dijelovi zahtijevaju više pažnje na temelju konteksta. Sposobnost pomicanja našeg fokusa na temelju relevantnosti je ono što mehanizam pažnje oponaša.

Da biste ovo razumjeli, sjetite se rečenice: "Ujedinite AI, objavite vijesti o AI i robotici." Sada, predviđanje sljedeće riječi zahtijeva razumijevanje onoga što je najvažnije u prethodnom kontekstu. Izraz "Robotika" može sugerirati da bi sljedeća riječ mogla biti povezana s određenim napretkom ili događajem u polju robotike, dok bi "Objavi" mogao naznačiti da bi sljedeći kontekst mogao biti povezan s nedavnom publikacijom ili člankom.

Objašnjenje mehanizma samopažnje na demmo rečenici
Ilustracija samopažnje

Mehanizmi pažnje u Transformersima dizajnirani su za postizanje ovog selektivnog fokusa. Oni procjenjuju važnost različitih dijelova ulaznog teksta i odlučuju gdje će "pogledati" kada generiraju odgovor. Ovo je odmak od starijih arhitektura poput RNN-ova koje su pokušavale strpati bit svih ulaznih tekstova u jedno 'stanje' ili 'memoriju'.

Djelovanje pažnje može se usporediti sa sustavom pronalaženja ključ-vrijednosti. U pokušaju predviđanja sljedeće riječi u rečenici, svaka prethodna riječ nudi 'ključ' koji sugerira njezinu potencijalnu relevantnost, a na temelju toga koliko dobro ti ključevi odgovaraju trenutnom kontekstu (ili upitu), oni doprinose 'vrijednosti' ili težini predviđanje.

Ovi napredni modeli dubokog učenja umjetne inteligencije besprijekorno su integrirani u različite aplikacije, od Googleovih poboljšanja tražilice s BERT-om do GitHubovog Copilota, koji iskorištava sposobnost Large Language Models (LLM) za pretvaranje jednostavnih isječaka koda u potpuno funkcionalne izvorne kodove.

Veliki jezični modeli (LLM) kao što su GPT-4, Bard i LLaMA, kolosalni su konstrukti dizajnirani za dešifriranje i generiranje ljudskog jezika, koda i još mnogo toga. Njihova golema veličina, koja se kreće od milijardi do trilijuna parametara, jedna je od značajki koje ih definiraju. Ovi LLM-ovi se hrane velikim količinama tekstualnih podataka, što im omogućuje da shvate zamršenost ljudskog jezika. Upečatljiva karakteristika ovih modela je njihova sposobnost za "nekoliko hitaca” učenje. Za razliku od konvencionalnih modela koji zahtijevaju ogromne količine specifičnih podataka o obuci, LLM-i mogu generalizirati iz vrlo ograničenog broja primjera (ili "snimaka")

Stanje modela velikih jezika (LLM) od sredine 2023

Naziv modelarazvijačParametriDostupnost i pristupZnačajne značajke i napomene
GPT-4OpenAI1.5 trilijunNije otvorenog koda, samo API pristupImpresivna izvedba na raznim zadacima može obraditi slike i tekst, maksimalna duljina unosa 32,768 tokena
GPT-3OpenAI175 milijardiNije otvorenog koda, samo API pristupPokazane sposobnosti učenja s nekoliko i bez pokušaja. Obavlja dovršavanje teksta na prirodnom jeziku.
BLOOMBigScience176 milijardiModel za preuzimanje, dostupan hostirani APIVišejezični LLM razvijen globalnom suradnjom. Podržava 13 programskih jezika.
TheMDAGoogle173 milijardiNije otvorenog koda, nema API-ja ili preuzimanjaIstrenirani na dijalog mogli bi naučiti razgovarati o gotovo svemu
MT-NLGNvidia/Microsoft530 milijardiAPI pristup po aplikacijiKoristi Megatron arhitekturu temeljenu na transformatorima za razne NLP zadatke.
LlaMAMeta AI7B do 65B)Može se preuzeti aplikacijomNamjera je demokratizirati umjetnu inteligenciju nudeći pristup onima u istraživanju, vladi i akademskoj zajednici.

Kako se koriste LLM?

LLM se mogu koristiti na više načina, uključujući:

  1. Izravno korištenje: Jednostavno korištenje prethodno obučenog LLM-a za generiranje ili obradu teksta. Na primjer, korištenje GPT-4 za pisanje posta na blogu bez dodatnog finog podešavanja.
  2. Fino podešavanje: Prilagodba prethodno obučenog LLM-a za određeni zadatak, metoda poznata kao transfer učenja. Primjer bi bila prilagodba T5 za generiranje sažetaka za dokumente u određenoj industriji.
  3. Dohvaćanje informacija: korištenje LLM-ova, kao što su BERT ili GPT, kao dio većih arhitektura za razvoj sustava koji mogu dohvaćati i kategorizirati informacije.
Generativno AI ChatGPT fino podešavanje
Arhitektura finog podešavanja ChatGPT-a

Pažnja s više glava: Zašto jedna kada ih možete imati mnogo?

Međutim, oslanjanje na jedan mehanizam pažnje može biti ograničavajuće. Različite riječi ili nizovi u tekstu mogu imati različite vrste relevantnosti ili asocijacija. Ovdje na scenu dolazi pažnja s više strana. Umjesto jednog skupa utega pažnje, pažnja s više strana koristi više skupova, omogućujući modelu da uhvati bogatiju raznolikost odnosa u ulaznom tekstu. Svaka "glava" pažnje može se usredotočiti na različite dijelove ili aspekte unosa, a njihovo kombinirano znanje koristi se za konačno predviđanje.

ChatGPT: Najpopularniji generativni AI alat

Počevši od početka GPT-a 2018., model je u biti izgrađen na temelju 12 slojeva, 12 glava pažnje i 120 milijuna parametara, primarno obučenih na skupu podataka zvanom BookCorpus. Ovo je bio impresivan početak, koji je ponudio pogled u budućnost jezičnih modela.

GPT-2, predstavljen 2019., mogao se pohvaliti četverostrukim povećanjem slojeva i glava pozornosti. Značajno je da je broj njegovih parametara naglo porastao na 1.5 milijardi. Ova poboljšana verzija svoju je obuku izvodila iz WebTexta, skupa podataka obogaćenog s 40 GB teksta s raznih Reddit poveznica.

GPT-3, lansiran u svibnju 2020., imao je 96 slojeva, 96 glava pažnje i ogroman broj parametara od 175 milijardi. Ono što je izdvojilo GPT-3 su njegovi raznoliki podaci za obuku, koji obuhvaćaju CommonCrawl, WebText, englesku Wikipediju, korpuse knjiga i druge izvore, kombinirajući ukupno 570 GB.

Zamršenost rada ChatGPT-a ostaje strogo čuvana tajna. Međutim, poznato je da je ključan proces nazvan 'učenje s potkrepljenjem iz ljudske povratne informacije' (RLHF). Potječući iz ranijeg ChatGPT projekta, ova tehnika bila je ključna u usavršavanju modela GPT-3.5 kako bi bio više usklađen s pisanim uputama.

Trening ChatGPT-a sastoji se od troslojnog pristupa:

  1. Nadzirano fino ugađanje: Uključuje kuriranje unosa i izlaza razgovora koje su napisali ljudi kako bi se poboljšao temeljni model GPT-3.5.
  2. Modeliranje nagrađivanja: ljudi rangiraju različite izlaze modela na temelju kvalitete, pomažući uvježbavanju modela nagrađivanja koji boduje svaki rezultat uzimajući u obzir kontekst razgovora.
  3. Učenje s potkrepljenjem: kontekst razgovora služi kao pozadina u kojoj temeljni model predlaže odgovor. Taj se odgovor procjenjuje modelom nagrađivanja, a proces se optimizira pomoću algoritma nazvanog optimizacija proksimalne politike (PPO).

Za one koji tek počinju s ChatGPT-om, može se pronaći opsežan početni vodič ovdje. Ako želite dublje zaroniti u brzi inženjering s ChatGPT-om, imamo i napredni vodič koji osvjetljava najnovije i najsuvremenije tehnike brzog slanja, dostupan na 'ChatGPT & napredni brzi inženjering: Pokretanje evolucije umjetne inteligencije'.

Difuzijski i multimodalni modeli

Dok modeli kao što su VAE i GAN generiraju svoje izlaze kroz jedan prolaz, dakle zaključani u sve što proizvode, difuzijski modeli uveli su koncept 'iterativno usavršavanje'. Kroz ovu metodu, oni se vraćaju unazad, pročišćavajući pogreške iz prethodnih koraka i postupno proizvodeći uglađeniji rezultat.

Središnje mjesto u modelima difuzije je umjetnost “korupcija” i „profinjenost”. U njihovoj fazi obuke, tipična slika se progresivno kvari dodavanjem različitih razina šuma. Ova bučna verzija se zatim šalje modelu, koji je pokušava "ukloniti šum" ili "de-oštetiti". Kroz više rundi toga, model postaje vješt u restauraciji, razumijevajući i suptilne i značajne aberacije.

Generativni AI - Midjourney Prompt
Slika generirana iz Midjourney

Proces generiranja novih slika nakon treninga je intrigantan. Počevši s potpuno nasumičnim unosom, kontinuirano se usavršava pomoću predviđanja modela. Namjera je postići netaknutu sliku s minimalnim brojem koraka. Kontrola razine korupcije provodi se putem "rasporeda buke", mehanizma koji upravlja količinom buke koja se primjenjuje u različitim fazama. Planer, kao što se vidi u bibliotekama poput "difuzori“, diktira prirodu ovih bučnih izvođenja na temelju utvrđenih algoritama.

Bitna arhitektonska okosnica za mnoge modele difuzije je UNet— konvolucijska neuronska mreža skrojena za zadatke koji zahtijevaju izlaze koji odražavaju prostornu dimenziju ulaza. To je mješavina slojeva za smanjivanje i povećanje uzorkovanja, složeno povezanih za zadržavanje podataka visoke razlučivosti, ključnih za izlaze povezane sa slikom.

Zalazeći dublje u područje generativnih modela, OpenAI-a DALL-E2 pojavljuje se kao sjajan primjer spoja tekstualnih i vizualnih AI mogućnosti. Ima troslojnu strukturu:

DALL-E 2 prikazuje trostruku arhitekturu:

  1. Kodiranje teksta: pretvara tekstualni upit u konceptualno ugrađivanje unutar latentnog prostora. Ovaj model ne počinje od nulte točke. Oslanja se na prethodnu obuku za kontrastni jezik – sliku OpenAI-ja (CLIP) skup podataka kao njegov temelj. CLIP služi kao most između vizualnih i tekstualnih podataka učenjem vizualnih koncepata korištenjem prirodnog jezika. Kroz mehanizam poznat kao kontrastivno učenje, identificira i povezuje slike s njihovim odgovarajućim tekstualnim opisima.
  2. Prethodno: ugrađivanje teksta izvedeno iz kodera zatim se pretvara u ugrađivanje slike. DALL-E 2 testirao je i autoregresivnu i difuzijsku metodu za ovaj zadatak, pri čemu je potonja pokazala vrhunske rezultate. Autoregresivni modeli, kao što se vidi u Transformersima i PixelCNN-u, generiraju izlaze u sekvencama. S druge strane, modeli difuzije, poput onog korištenog u DALL-E 2, transformiraju nasumični šum u predviđene umetnute slike uz pomoć ugrađivanja teksta.
  3. Dekoder: Vrhunac procesa, ovaj dio generira konačni vizualni izlaz na temelju tekstualnog upita i ugradnje slike iz prethodne faze. Dekoder DALL.E 2 svoju arhitekturu duguje drugom modelu, KLIZITI, koji također može proizvesti realistične slike iz tekstualnih znakova.
Arhitektura DALL-E modela (difuzijski multi model)
Pojednostavljena arhitektura DALL-E modela

Zainteresirani korisnici Pythona Langchain trebate pogledati naš detaljan vodič koji pokriva sve, od osnova do naprednih tehnika.

Primjene generativne umjetne inteligencije

Tekstualne domene

Počevši od teksta, Generative AI je iz temelja izmijenjen chatbotovima poput ChatGPT. Uvelike se oslanjajući na obradu prirodnog jezika (NLP) i velike jezične modele (LLM), ovi su entiteti ovlašteni za obavljanje zadataka u rasponu od generiranja koda i prijevoda jezika do sažimanja i analize osjećaja. ChatGPT je, na primjer, doživio široku primjenu, postavši osnovni proizvod za milijune. Ovo je dodatno pojačano konverzacijskim AI platformama, utemeljenim na LLM-ovima kao što su GPT-4, Dlani BLOOM, koji bez napora proizvode tekst, pomažu u programiranju i čak nude matematičko razmišljanje.

Iz komercijalne perspektive, ovi modeli postaju neprocjenjivi. Poduzeća ih zapošljavaju za mnoštvo operacija, uključujući upravljanje rizicima, optimizaciju zaliha i predviđanje zahtjeva. Neki značajni primjeri uključuju Bing AI, Googleov BARD i ChatGPT API.

Umjetnost

Svijet slika doživio je dramatične transformacije s Generative AI, osobito od predstavljanja DALL-E 2 2022. Ova tehnologija, koja može generirati slike iz tekstualnih upita, ima i umjetničke i profesionalne implikacije. Na primjer, midjourney je iskoristio ovu tehnologiju za proizvodnju impresivno realističnih slika. Ovaj nedavni post demistificira Midjourney u detaljnom vodiču, koji objašnjava i platformu i njezine brze inženjerske zamršenosti. Nadalje, platforme poput Alpaca AI i Photoroom AI koriste Generative AI za napredne funkcije uređivanja slika kao što su uklanjanje pozadine, brisanje objekata, pa čak i vraćanje lica.

Video Production

Video produkcija, iako je još uvijek u početnoj fazi u području Generative AI, pokazuje obećavajući napredak. Platforme kao što su Imagen Video, Meta Make A Video i Runway Gen-2 pomiču granice mogućeg, čak i ako su stvarno realistični rezultati još uvijek na horizontu. Ovi modeli nude značajnu korisnost za stvaranje digitalnih ljudskih videa, s aplikacijama kao što su Synthesia i SuperCreator koje prednjače. Naime, Tavus AI nudi jedinstvenu prodajnu ponudu personalizacijom videozapisa za pojedinačne članove publike, što je blagodat za tvrtke.

Stvaranje koda

Kodiranje, neizostavni aspekt našeg digitalnog svijeta, nije ostalo nedirnuto Generativnom umjetnom inteligencijom. Iako je ChatGPT omiljeni alat, nekoliko drugih AI aplikacija razvijeno je za potrebe kodiranja. Te platforme, kao što su GitHub Copilot, Alphacode i CodeComplete, služe kao pomoćnici kodiranja i mogu čak proizvesti kod iz tekstualnih upita. Ono što je intrigantno je prilagodljivost ovih alata. Codex, pokretačka snaga GitHub Copilota, može se prilagoditi individualnom stilu kodiranja, naglašavajući personalizacijski potencijal Generative AI.

Zaključak

Spajajući ljudsku kreativnost sa strojnim računanjem, razvio se u neprocjenjiv alat, s platformama kao što su ChatGPT i DALL-E 2 koje pomiču granice onoga što je zamislivo. Od izrade tekstualnog sadržaja do oblikovanja vizualnih remek-djela, njihove su primjene široke i raznolike.

Kao i kod svake tehnologije, etičke implikacije su najvažnije. Iako Generative AI obećava bezgraničnu kreativnost, ključno je koristiti ga odgovorno, svjesni potencijalnih pristranosti i moći manipulacije podacima.

S alatima poput ChatGPT-a koji postaju dostupniji, sada je savršeno vrijeme za testiranje vode i eksperimentiranje. Bilo da ste umjetnik, koder ili zaljubljenik u tehnologiju, područje Generative AI prepuno je mogućnosti koje čekaju da budu istražene. Revolucija nije na pomolu; to je ovdje i sada. Dakle, zaronite!

Proteklih pet godina proveo sam uranjajući u fascinantan svijet strojnog i dubokog učenja. Moja strast i stručnost naveli su me da pridonesem više od 50 različitih projekata softverskog inženjeringa, s posebnim fokusom na AI/ML. Moja stalna znatiželja također me povukla prema obradi prirodnog jezika, polju koje jedva čekam dalje istraživati.