Povežite se s nama

Umjetna inteligencija

Generativni AI: Ideja iza CHATGPT-a, Dall-E, Midjourney i više

mm
Generativni AI - Midjourney Prompt

Svijet umjetnosti, komunikacija i način na koji percipiramo stvarnost ubrzano se mijenja. Ako se osvrnemo na povijest ljudskih inovacija, mogli bismo izum kotača ili otkriće elektriciteta smatrati monumentalnim skokovima. Danas se događa nova revolucija — premošćivanje jaza između ljudske kreativnosti i strojnog računanja. To je Generative AI.

Generativni modeli zamaglili su granicu između ljudi i strojeva. S pojavom modela kao što je GPT-4, koji koristi transformatorske module, približili smo se prirodnom i kontekstualno bogatom stvaranju jezika. Ovaj napredak potaknuo je aplikacije u stvaranju dokumenata, chatbot sustavima za dijalog, pa čak i skladanju sintetičke glazbe.

Nedavne odluke Big-Techa naglašavaju njegovu važnost. Microsoft već jest ukidanje aplikacije Cortana ovog mjeseca da daju prednost novijim Generativnim AI inovacijama, kao što je Bing Chat. Apple je također posvetio značajan dio svog Proračun za istraživanje i razvoj od 22.6 milijardi dolara generativnoj umjetnoj inteligenciji, kako je naznačio CEO Tim Cook.

Nova era modela: Generativno vs. Diskriminirajuće

Priča o Generativnoj umjetnoj inteligenciji ne odnosi se samo na njegove primjene, već u osnovi na unutarnje funkcioniranje. U ekosustavu umjetne inteligencije postoje dva modela: diskriminirajući i generativni.

Diskriminativni modeli su ono s čime se većina ljudi susreće u svakodnevnom životu. Ovi algoritmi uzimaju ulazne podatke, poput teksta ili slike, i uparuju ih s ciljanim izlazom, poput prijevoda riječi ili medicinske dijagnoze. Radi se o mapiranju i predviđanju.

Generativni modeli, s druge strane, su kreatori. Oni ne samo da interpretiraju ili predviđaju; oni generiraju nove, složene izlaze iz vektora brojeva koji često nisu ni povezani s vrijednostima iz stvarnog svijeta.

 

Generativne vrste umjetne inteligencije: tekst u tekst, tekst u sliku (GPT, DALL-E, Midjourney)

Tehnologije koje stoje iza generativnih modela

Generativni modeli duguju svoje postojanje dubokim neuronskim mrežama, sofisticiranim strukturama dizajniranim da oponašaju funkcionalnost ljudskog mozga. Snimanjem i obradom višestrukih varijacija u podacima, ove mreže služe kao okosnica brojnih generativnih modela.

Kako ti generativni modeli oživljavaju? Obično su izgrađeni s dubokim neuronskim mrežama, optimiziranim za hvatanje višestrukih varijacija u podacima. Glavni primjer je Generativna savjetodavna mreža (GAN), gdje se dvije neuronske mreže, generator i diskriminator, natječu i uče jedna od druge u jedinstvenom odnosu učitelj-učenik. Od slika do prijenosa stila, od skladanja glazbe do igranja igrica, ovi se modeli razvijaju i šire na načine koji su prije bili nezamislivi.

Ovo se ne zaustavlja na GAN-ovima. Varijacijski autokoderi (VAE), još su jedan ključni igrač na polju generativnih modela. VAE se ističu svojom sposobnošću stvaranja fotorealističnih slika od naizgled nasumičnih brojeva. Kako? Obrada tih brojeva kroz latentni vektor rađa umjetnost koja odražava složenost ljudske estetike.

Generativne vrste umjetne inteligencije: tekst u tekst, tekst u sliku

Transformatori i LLM

Papir "Pažnja je sve što trebate” Google Braina označio je promjenu u načinu na koji razmišljamo o modeliranju teksta. Umjesto složenih i sekvencijalnih arhitektura poput ponavljajućih neuronskih mreža (RNN) ili konvolucijskih neuronskih mreža (CNN), model Transformer uveo je koncept pažnje, što je u biti značilo fokusiranje na različite dijelove ulaznog teksta ovisno o kontekstu. Jedna od glavnih prednosti ovoga bila je jednostavnost paralelizacije. Za razliku od RNN-ova koji obrađuju tekst sekvencijalno, što ih čini težim za skaliranje, Transformers mogu obrađivati ​​dijelove teksta istovremeno, čineći obuku bržom i učinkovitijom na velikim skupovima podataka.

Transformator-model arhitektura

U dugom tekstu, svaka riječ ili rečenica koju pročitate nema istu važnost. Neki dijelovi zahtijevaju više pažnje na temelju konteksta. Sposobnost pomicanja našeg fokusa na temelju relevantnosti je ono što mehanizam pažnje oponaša.

Da biste to razumjeli, zamislite rečenicu: „Unite AI Objavite vijesti o umjetnoj inteligenciji i robotici.“ Sada, predviđanje sljedeće riječi zahtijeva razumijevanje onoga što je najvažnije u prethodnom kontekstu. Pojam 'Robotika' može sugerirati da bi sljedeća riječ mogla biti povezana s određenim napretkom ili događajem u području robotike, dok 'Objavi' može ukazivati ​​na to da bi sljedeći kontekst mogao biti povezan s nedavnom publikacijom ili člankom.

Objašnjenje mehanizma samopažnje na demmo rečenici
Ilustracija samopažnje

Mehanizmi pažnje u Transformersima osmišljeni su kako bi se postigao ovaj selektivni fokus. Oni procjenjuju važnost različitih dijelova ulaznog teksta i odlučuju gdje će "gledati" prilikom generiranja odgovora. To je odstupanje od starijih arhitektura poput RNN-ova koje su pokušavale ugurati bit svog ulaznog teksta u jedno 'stanje' ili 'memoriju'.

Rad pažnje može se usporediti sa sustavom za pronalaženje ključa i vrijednosti. Pri pokušaju predviđanja sljedeće riječi u rečenici, svaka prethodna riječ nudi 'ključ' koji sugerira njezinu potencijalnu relevantnost, a na temelju toga koliko dobro ti ključevi odgovaraju trenutnom kontekstu (ili upitu), oni doprinose 'vrijednosti' ili težini predviđanja.

Ovi napredni modeli dubokog učenja umjetne inteligencije besprijekorno su se integrirali u razne aplikacije, od poboljšanja Googleove tražilice s BERT-om do GitHubovog Copilota, koji koristi mogućnosti modela velikih jezika (LLM) za pretvaranje jednostavnih isječaka koda u potpuno funkcionalne izvorne kodove.

Veliki jezični modeli (LLM) kao što su GPT-4, Bard i LLaMA, kolosalni su konstrukti dizajnirani za dešifriranje i generiranje ljudskog jezika, koda i još mnogo toga. Njihova golema veličina, koja se kreće od milijardi do trilijuna parametara, jedna je od značajki koje ih definiraju. Ovi LLM-ovi se hrane velikim količinama tekstualnih podataka, što im omogućuje da shvate zamršenost ljudskog jezika. Upečatljiva karakteristika ovih modela je njihova sposobnost za "nekoliko hitaca” učenje. Za razliku od konvencionalnih modela koji zahtijevaju ogromne količine specifičnih podataka o obuci, LLM-i mogu generalizirati iz vrlo ograničenog broja primjera (ili "snimaka")

Stanje modela velikih jezika (LLM) od sredine 2023

Naziv modela razvijač Parametri Dostupnost i pristup Značajne značajke i napomene
GPT-4 OpenAI 1.5 trilijun Nije otvorenog koda, samo API pristup Impresivna izvedba na raznim zadacima može obraditi slike i tekst, maksimalna duljina unosa 32,768 tokena
GPT-3 OpenAI 175 milijardi Nije otvorenog koda, samo API pristup Pokazane sposobnosti učenja s nekoliko i bez pokušaja. Obavlja dovršavanje teksta na prirodnom jeziku.
BLOOM BigScience 176 milijardi Model za preuzimanje, dostupan hostirani API Višejezični LLM razvijen globalnom suradnjom. Podržava 13 programskih jezika.
TheMDA Google 173 milijardi Nije otvorenog koda, nema API-ja ili preuzimanja Istrenirani na dijalog mogli bi naučiti razgovarati o gotovo svemu
MT-NLG Nvidia/Microsoft 530 milijardi API pristup po aplikaciji Koristi Megatron arhitekturu temeljenu na transformatorima za razne NLP zadatke.
LlaMA Meta AI 7B do 65B) Može se preuzeti aplikacijom Namjera je demokratizirati umjetnu inteligenciju nudeći pristup onima u istraživanju, vladi i akademskoj zajednici.

Kako se koriste LLM?

LLM se mogu koristiti na više načina, uključujući:

  1. Izravno korištenje: Jednostavno korištenje prethodno obučenog LLM-a za generiranje ili obradu teksta. Na primjer, korištenje GPT-4 za pisanje posta na blogu bez dodatnog finog podešavanja.
  2. Fino podešavanje: Prilagodba prethodno obučenog LLM-a za određeni zadatak, metoda poznata kao transfer učenja. Primjer bi bila prilagodba T5 za generiranje sažetaka za dokumente u određenoj industriji.
  3. Dohvaćanje informacija: korištenje LLM-ova, kao što su BERT ili GPT, kao dio većih arhitektura za razvoj sustava koji mogu dohvaćati i kategorizirati informacije.
Generativno AI ChatGPT fino podešavanje
Arhitektura finog podešavanja ChatGPT-a

Pažnja s više glava: Zašto jedna kada ih možete imati mnogo?

Međutim, oslanjanje na jedan mehanizam pažnje može biti ograničavajuće. Različite riječi ili nizovi u tekstu mogu imati različite vrste relevantnosti ili asocijacija. Ovdje na scenu dolazi pažnja s više strana. Umjesto jednog skupa utega pažnje, pažnja s više strana koristi više skupova, omogućujući modelu da uhvati bogatiju raznolikost odnosa u ulaznom tekstu. Svaka "glava" pažnje može se usredotočiti na različite dijelove ili aspekte unosa, a njihovo kombinirano znanje koristi se za konačno predviđanje.

ChatGPT: Najpopularniji generativni AI alat

Počevši od nastanka GPT-a 2018. godine, model je u biti izgrađen na temelju 12 slojeva, 12 fokusnih tačaka i 120 milijuna parametara, prvenstveno obučenih na skupu podataka pod nazivom BookCorpus. Ovo je bio impresivan početak, koji je ponudio uvid u budućnost jezičnih modela.

GPT-2, predstavljen 2019., mogao se pohvaliti četverostrukim povećanjem slojeva i glava pozornosti. Značajno je da je broj njegovih parametara naglo porastao na 1.5 milijardi. Ova poboljšana verzija svoju je obuku izvodila iz WebTexta, skupa podataka obogaćenog s 40 GB teksta s raznih Reddit poveznica.

GPT-3, lansiran u svibnju 2020., imao je 96 slojeva, 96 glava pažnje i ogroman broj parametara od 175 milijardi. Ono što je izdvojilo GPT-3 su njegovi raznoliki podaci za obuku, koji obuhvaćaju CommonCrawl, WebText, englesku Wikipediju, korpuse knjiga i druge izvore, kombinirajući ukupno 570 GB.

Zamršenosti rada ChatGPT-a ostaju strogo čuvana tajna. Međutim, poznato je da je proces nazvan "učenje s potkrepljenjem iz ljudskih povratnih informacija" (RLHF) ključan. Potječući iz ranijeg ChatGPT projekta, ova je tehnika bila ključna u usavršavanju modela GPT-3.5 kako bi bio više usklađen s pisanim uputama.

ChatGPT-ova obuka sastoji se od troslojnog pristupa:

  1. Nadzirano fino ugađanje: Uključuje kuriranje unosa i izlaza razgovora koje su napisali ljudi kako bi se poboljšao temeljni model GPT-3.5.
  2. Modeliranje nagrađivanja: Ljudi rangiraju različite izlaze modela na temelju kvalitete, pomažući u treniranju modela nagrađivanja koji ocjenjuje svaki izlaz uzimajući u obzir kontekst razgovora.
  3. Učenje s potkrepljenjem: kontekst razgovora služi kao pozadina u kojoj temeljni model predlaže odgovor. Taj se odgovor procjenjuje modelom nagrađivanja, a proces se optimizira pomoću algoritma nazvanog optimizacija proksimalne politike (PPO).

Za one koji tek počinju s ChatGPT-om, može se pronaći opsežan početni vodič ovdjeAko želite dublje istražiti inženjerstvo promptova s ​​ChatGPT-om, imamo i napredni vodič koji osvjetljava najnovije i najsuvremenije tehnike promptova, dostupan na 'ChatGPT & napredni brzi inženjering: Pokretanje evolucije umjetne inteligencije'.

Difuzijski i multimodalni modeli

Dok modeli kao što su VAE i GAN generiraju svoje izlaze kroz jedan prolaz, dakle zaključani u sve što proizvode, difuzijski modeli uveli su koncept 'iterativno usavršavanje'. Kroz ovu metodu, oni se vraćaju unazad, pročišćavajući pogreške iz prethodnih koraka i postupno proizvodeći uglađeniji rezultat.

Središnje mjesto u modelima difuzije je umjetnost “korupcija" i "usavršavanje". U fazi učenja, tipična slika se progresivno kvari dodavanjem različitih razina šuma. Ova verzija s šumom zatim se unosi u model, koji pokušava 'ukloniti šum' ili 'dekorumpirati' sliku. Kroz više krugova ovoga, model postaje vješt u restauraciji, razumijevajući i suptilne i značajne aberacije.

Generativni AI - Midjourney Prompt
Slika generirana iz Midjourney

Proces generiranja novih slika nakon treninga je intrigantan. Počevši s potpuno randomiziranim ulazom, kontinuirano se usavršava korištenjem predviđanja modela. Namjera je postići besprijekornu sliku s minimalnim brojem koraka. Kontrola razine korupcije vrši se putem "rasporeda šuma", mehanizma koji upravlja količinom šuma koja se primjenjuje u različitim fazama. Raspored, kao što se vidi u bibliotekama poput "difuzori“, diktira prirodu ovih bučnih izvođenja na temelju utvrđenih algoritama.

Bitna arhitektonska okosnica za mnoge modele difuzije je UNet—konvolucijska neuronska mreža prilagođena za zadatke koji zahtijevaju izlaze koji zrcale prostornu dimenziju ulaza. To je mješavina slojeva za smanjenje i povećanje uzorkovanja, složeno povezanih za zadržavanje podataka visoke rezolucije, ključnih za izlaze povezane sa slikom.

Dublje zalazeći u područje generativnih modela, OpenAI-jev DALL-E2 pojavljuje se kao sjajan primjer spoja tekstualnih i vizualnih AI mogućnosti. Ima troslojnu strukturu:

DALL-E 2 prikazuje trostruku arhitekturu:

  1. Koder teksta: Pretvara tekstualni upit u konceptualno ugrađivanje unutar latentnog prostora. Ovaj model ne počinje od nule. Oslanja se na OpenAI-jev predtrening kontrastivnog jezika i slike (CLIP) skup podataka kao njegov temelj. CLIP služi kao most između vizualnih i tekstualnih podataka učenjem vizualnih koncepata korištenjem prirodnog jezika. Kroz mehanizam poznat kao kontrastivno učenje, identificira i povezuje slike s njihovim odgovarajućim tekstualnim opisima.
  2. Prethodno: ugrađivanje teksta izvedeno iz kodera zatim se pretvara u ugrađivanje slike. DALL-E 2 testirao je i autoregresivnu i difuzijsku metodu za ovaj zadatak, pri čemu je potonja pokazala vrhunske rezultate. Autoregresivni modeli, kao što se vidi u Transformersima i PixelCNN-u, generiraju izlaze u sekvencama. S druge strane, modeli difuzije, poput onog korištenog u DALL-E 2, transformiraju nasumični šum u predviđene umetnute slike uz pomoć ugrađivanja teksta.
  3. Dekoder: Vrhunac procesa, ovaj dio generira konačni vizualni izlaz na temelju tekstualnog upita i ugradnje slike iz prethodne faze. Dekoder DALL.E 2 duguje svoju arhitekturu drugom modelu, KLIZITI, koji također može proizvesti realistične slike iz tekstualnih znakova.
Arhitektura DALL-E modela (difuzijski multi model)
Pojednostavljena arhitektura DALL-E modela

Zainteresirani korisnici Pythona Langchain trebate pogledati naš detaljan vodič koji pokriva sve, od osnova do naprednih tehnika.

Primjene generativne umjetne inteligencije

Tekstualne domene

Počevši od teksta, Generative AI je iz temelja izmijenjen chatbotovima poput ChatGPT. Uvelike se oslanjajući na obradu prirodnog jezika (NLP) i velike jezične modele (LLM), ovi su entiteti ovlašteni za obavljanje zadataka u rasponu od generiranja koda i prijevoda jezika do sažimanja i analize osjećaja. ChatGPT je, na primjer, doživio široku primjenu, postavši osnovni proizvod za milijune. Ovo je dodatno pojačano konverzacijskim AI platformama, utemeljenim na LLM-ovima kao što su GPT-4, Dlani BLOOM, koji bez napora proizvode tekst, pomažu u programiranju i čak nude matematičko razmišljanje.

Iz komercijalne perspektive, ovi modeli postaju neprocjenjivi. Tvrtke ih koriste za mnoštvo operacija, uključujući upravljanje rizicima, optimizaciju zaliha i predviđanje zahtjeva. Neki značajni primjeri uključuju Bing AI, Googleov BARD i ChatGPT API.

Umjetnost

Svijet slika doživio je dramatične transformacije s generativnom umjetnom inteligencijom, posebno od uvođenja DALL-E 2 2022. godine. Ova tehnologija, koja može generirati slike iz tekstualnih uputa, ima i umjetničke i profesionalne implikacije. Na primjer, midjourney je iskoristio ovu tehnologiju za stvaranje impresivno realističnih slika. Ova nedavna objava demistificira Midjourney u detaljnom vodiču, koji objašnjava i platformu i njezine brze inženjerske zamršenosti. Nadalje, platforme poput Alpaca AI i Photoroom AI koriste Generative AI za napredne funkcije uređivanja slika kao što su uklanjanje pozadine, brisanje objekata, pa čak i vraćanje lica.

Video Production

Video produkcija, iako još uvijek u svojoj ranoj fazi u području generativne umjetne inteligencije, pokazuje obećavajuće napretke. Platforme poput Imagen Video, Meta Make A Video i Runway Gen-2 pomiču granice mogućeg, čak i ako su uistinu realistični rezultati još uvijek na vidiku. Ovi modeli nude značajnu korisnost za stvaranje digitalnih ljudskih videa, a aplikacije poput Synthesia i SuperCreator prednjače u tome. Posebno je važno napomenuti da Tavus AI nudi jedinstvenu prodajnu ponudu personalizacijom videa za pojedinačne članove publike, što je blagodat za tvrtke.

Stvaranje koda

Kodiranje, neizostavan aspekt našeg digitalnog svijeta, nije ostao netaknut generativnom umjetnom inteligencijom. Iako je ChatGPT omiljeni alat, razvijeno je nekoliko drugih AI aplikacija za potrebe kodiranja. Ove platforme, kao što su GitHub Copilot, Alphacode i CodeComplete, služe kao pomoćnici u kodiranju i mogu čak generirati kod iz tekstualnih upita. Zanimljiva je prilagodljivost ovih alata. Codex, pokretačka snaga iza GitHub Copilota, može se prilagoditi individualnom stilu kodiranja, naglašavajući potencijal personalizacije generativne umjetne inteligencije.

Zaključak

Spajajući ljudsku kreativnost s računalnim radom, evoluirao je u neprocjenjiv alat, a platforme poput ChatGPT-a i DALL-E 2 pomiču granice zamislivog. Od izrade tekstualnog sadržaja do stvaranja vizualnih remek-djela, njihove primjene su široke i raznolike.

Kao i kod svake tehnologije, etičke implikacije su najvažnije. Iako generativna umjetna inteligencija obećava neograničenu kreativnost, ključno ju je odgovorno koristiti, svjesni potencijalnih pristranosti i moći manipulacije podacima.

S obzirom na to da alati poput ChatGPT-a postaju sve dostupniji, sada je savršeno vrijeme za testiranje terena i eksperimentiranje. Bilo da ste umjetnik, programer ili tehnološki entuzijast, područje generativne umjetne inteligencije prepuno je mogućnosti koje čekaju da budu istražene. Revolucija nije na vidiku; ona je ovdje i sada. Zato, zaronite!

Proteklih pet godina proveo sam uranjajući u fascinantan svijet strojnog i dubokog učenja. Moja strast i stručnost naveli su me da pridonesem više od 50 različitih projekata softverskog inženjeringa, s posebnim fokusom na AI/ML. Moja stalna znatiželja također me povukla prema obradi prirodnog jezika, polju koje jedva čekam dalje istraživati.