Umělá inteligence
Generativní AI: Idea za CHATGPT, Dall-E, Midjourney a další

Svět umění, komunikace a vnímání reality se rychle mění. Pokud se podíváme zpět na historii lidského inovování, můžeme považovat vynález kola nebo objev elektřiny za monumentální skok. Dnes se odehrává nová revoluce – most mezi lidskou kreativitou a strojovým výpočtem. To je Generativní AI.
Generativní modely rozostřily hranici mezi lidmi a stroji. S příchodem modelů jako GPT-4, který využívá transformer moduly, jsme se přiblížili k přirozené a kontextově bohaté generaci jazyka. Tyto pokroky pohánějí aplikace v oblasti vytváření dokumentů, dialogových systémů chatbotů a dokonce i syntetické hudby.
Nedávná rozhodnutí velkých technologických firem podtrhují jeho význam. Microsoft již ukončuje svou aplikaci Cortana tento měsíc, aby se soustředil na novější inovace Generativní AI, jako je Bing Chat. Apple také věnoval významnou část své $22,6 miliardového rozpočtu na výzkum a vývoj generativní AI, jak uvedl generální ředitel Tim Cook.
Nová éra modelů: Generativní vs. Diskriminativní
Příběh Generativní AI není pouze o jejích aplikacích, ale fundamentálně o jejích vnitřních mechanismech. V ekosystému umělé inteligence existují dva modely: diskriminativní a generativní.
Diskriminativní modely jsou to, co většina lidí denně potkává. Tyto algoritmy berou vstupní data, jako je text nebo obraz, a spojují je s cílovým výstupem, jako je překlad slova nebo lékařská diagnóza. Jsou o mapování a předpovídání.
Generativní modely, na druhé straně, jsou tvůrci. Nejenom interpretují nebo předpovídají; generují nové, komplexní výstupy z vektorů čísel, které často nejsou ani spojeny s reálnými hodnotami.
Technologie za Generativními Modely
Generativní modely vděčí za svou existenci hlubokým neuronovým sítím, sofistikovaným strukturám navrženým k napodobení funkcionalitě lidského mozku. Zachycováním a zpracováním multifaceted variací v datech slouží tyto sítě jako páteř mnoha generativních modelů.
Jak tyto generativní modely vznikají? Obvykle jsou postaveny s hlubokými neuronovými sítěmi, optimalizovanými pro zachycení multifaceted variací v datech. Příkladem je Generative Adversarial Network (GAN), kde dvě neuronové sítě, generátor a diskriminátor, soutěží a učí se od sebe v jedinečném učitelském-studentském vztahu. Od maleb až po styl přenos, od hudby kompozice až po hru, tyto modely se vyvíjí a rozšiřují způsoby, které byly dříve nepředstavitelné.
To se nezastaví u GAN. Variational Autoencoders (VAE), jsou další klíčovou součástí v poli generativních modelů. VAE vynikají svou schopností vytvářet fotorealistické obrazy z zdánlivě náhodných čísel. Jak? Zpracováním těchto čísel skrze latentní vektor dává vznik uměleckým dílům, které odrážejí komplexity lidské estetiky.
Typy Generativní AI: Text na Text, Text na Obraz
Transformery & LLM
Článek “Attention Is All You Need” od Google Brain označuje posun v tom, jak přemýšlíme o textovém modelování. Místo komplexních a sekvenčních architektur, jako jsou Recurrent Neural Networks (RNNs) nebo Convolutional Neural Networks (CNNs), model Transformer představil koncept pozornosti, který vlastně znamenal zaměřování se na různé části vstupního textu v závislosti na kontextu. Jednou z hlavních výhod bylo usnadnění paralelizace. Na rozdíl od RNN, které zpracovávají text sekvenčně, což je činí obtížněji škálovatelnými, Transformery mohou zpracovávat části textu současně, což činí trénink rychlejším a efektivnějším na velkých datech.

- Transformer-model architektura
V dlouhém textu, ne každé slovo nebo věta, kterou čtete, má stejnou důležitost. Některé části vyžadují více pozornosti na základě kontextu. Tuto schopnost měnit naše zaměření na základě relevance je to, co mechanismus pozornosti napodobuje.
Chcete-li pochopit, přemýšlejte o větě: “Unite AI Publish AI a Robotics news.” Předpovídání dalšího slova vyžaduje porozumění tomu, co je nejdůležitější v předchozím kontextu. Termín ‘Robotics’ by mohl naznačit, že následující slovo by mohlo být související s konkrétním pokrokem nebo událostí v oblasti robotiky, zatímco ‘Publish’ by mohlo indikovat, že následující kontext by se mohl zabývat nedávným publikováním nebo článkem.
Mechanismy pozornosti v Transformerech jsou navrženy k dosažení tohoto selektivního zaměření. Hodnotí důležitost různých částí vstupního textu a rozhodují, kam se “dívat”, když generují odpověď. To je odchod od starších architektur, jako jsou RNN, které se snažily vtěsnat esenci všech vstupních textů do jediného “stavu” nebo “paměti”.
Funkce pozornosti lze přirovnat k systému klíčového-hodnotového vyhledávání. Při pokusu o předpověď dalšího slova ve větě nabízí každé předchozí slovo “klíč”, který naznačuje jeho potenciální relevanci, a na základě toho, jak dobře tyto klíče odpovídají aktuálnímu kontextu (nebo dotazu), přispívají “hodnotou” nebo váhou k předpovědi.
Tyto pokročilé modely hlubokého učení se bezproblémově integrovaly do různých aplikací, od vylepšení vyhledávacího engine Google s BERT až po GitHub’s Copilot, který využívá schopnosti Large Language Models (LLM) převést jednoduché kódy na plně funkční zdrojové kódy.
Large Language Models (LLM) jako GPT-4, Bard a LLaMA, jsou obrovské konstrukce navržené k rozluštění a generaci lidského jazyka, kódu a dalšího. Jejich obrovská velikost, sahající od miliard do bilionů parametrů, je jednou z definujících vlastností. Tyto LLM jsou krmeny obrovským množstvím textových dat, což jim umožňuje pochopit jemnosti lidského jazyka. Zajímavou vlastností těchto modelů je jejich schopnost “few-shot” učení. Na rozdíl od konvenčních modelů, které potřebují obrovské množství specifických trénovacích dat, LLM mohou generalizovat z velmi omezeného počtu příkladů (nebo “shotů”)
Stav Large Language Models (LLM) k polovině roku 2023
| Název modelu | Vývojář | Parametry | Dostupnost a přístup | Značné rysy a poznámky |
| GPT-4 | OpenAI | 1,5 bilionu | Není otevřený zdroj, pouze přístup přes API | Úžasné výkony v různých úkolech, může zpracovat obrázky a text, maximální délka vstupu 32 768 tokenů |
| GPT-3 | OpenAI | 175 miliard | Není otevřený zdroj, pouze přístup přes API | Prokázaly schopnosti few-shot a zero-shot učení. Provádí dokončování textu v přirozeném jazyce. |
| BLOOM | BigScience | 176 miliard | Model ke stažení, hostovaný API k dispozici | Multijazyčný LLM vyvinutý globální spoluprací. Podporuje 13 programovacích jazyků. |
| LaMDA | 173 miliard | Není otevřený zdroj, žádný API nebo stažení | Trénován na dialogu, mohl by se naučit mluvit téměř o čemkoli | |
| MT-NLG | Nvidia/Microsoft | 530 miliard | Přístup přes API po aplikaci | Využívá transformer-založenou Megatron architekturu pro různé úkoly NLP. |
| LLaMA | Meta AI | 7B až 65B) | Ke stažení po aplikaci | Určen k demokratizaci AI, nabízí přístup těm, kteří jsou ve výzkumu, vládě a akademii. |
Jak se používají LLM?
LLM lze použít několika způsoby, včetně:
- Přímé využití: Jednoduše použití předtrénovaného LLM pro generaci textu nebo zpracování. Například použití GPT-4 pro napsání blogového příspěvku bez dalšího jemného ladění.
- Jemné ladění: Adaptace předtrénovaného LLM pro konkrétní úkol, metoda známá jako transfer learning. Příkladem by bylo přizpůsobení T5 pro generování souhrnů dokumentů v konkrétním odvětví.
- Informační vyhledávání: Používání LLM, jako jsou BERT nebo GPT, jako součásti větších architektur pro vývoj systémů, které mohou vyhledat a kategorizovat informace.
Multi-head Pozornost: Proč jeden, když můžete mít mnoho?
Nicméně, spoléhat se na jediný mechanismus pozornosti může být omezené. Různá slova nebo sekvence v textu mohou mít různé typy relevance nebo asociací. To je místo, kde multi-head pozornost přichází. Místo jednoho souboru pozornostních váh, multi-head pozornost využívá několik sad, což umožňuje modelu zachytit bohatší rozmanitost vztahů ve vstupním textu. Každá “hlava” pozornosti může se zaměřit na různé části nebo aspekty vstupu, a jejich kombinované znalosti se používají pro konečnou předpověď.
ChatGPT: Nejoblíbenější Generativní AI Nástroj
Začněme s GPT’s počátkem v roce 2018, model byl vlastně postaven na základě 12 vrstev, 12 hlav pozornosti a 120 milionů parametrů, primárně trénován na datasetu BookCorpus. To byl působivý začátek, nabízející pohled do budoucnosti jazykových modelů.
GPT-2, odhalený v roce 2019, nabízel čtyřnásobný nárůst vrstev a hlav pozornosti. Značně, jeho počet parametrů vyskočil na 1,5 miliardy. Tato vylepšená verze byla odvozena z tréninku z WebText, datasetu obohaceného o 40GB textu z různých odkazů Reddit.
GPT-3, spuštěný v květnu 2020, měl 96 vrstev, 96 hlav pozornosti a masivní počet parametrů 175 miliard. Co odlišovalo GPT-3, byla jeho rozmanitá tréninková data, zahrnující CommonCrawl, WebText, English Wikipedia, book corpora a další zdroje, kombinující se na celkových 570 GB.
Jemnosti fungování ChatGPT zůstávají pečlivě střeženým tajemstvím. Nicméně, proces nazvaný ‘reinforcement learning from human feedback’ (RLHF) je známý jako zásadní. Pocházející z dřívějšího projektu ChatGPT, tato technika byla instrumentální v jemném ladění modelu GPT-3.5, aby byl více sladěn s psanými instrukcemi.
Trénink ChatGPT zahrnuje trojúrovňový přístup:
- Supervised jemné ladění: Zahrnuje kurátorování lidsky psaných konverzačních vstupů a výstupů pro jemné ladění podkladového modelu GPT-3.5.
- Odměňovací modelování: Lidé hodnotí různé výstupy modelu na základě kvality, což pomáhá trénovat odměňovací model, který ohodnotí každý výstup s ohledem na kontext konverzace.
- Učení posilováním: Konverzační kontext slouží jako pozadí, kde podkladový model navrhuje odpověď. Tato odpověď je hodnocena odměňovacím modelem, a proces je optimalizován pomocí algoritmu nazvaného proximal policy optimization (PPO).
Pro ty, kteří se teprve seznamují s ChatGPT, komplexní začínající průvodce lze nalézt zde. Pokud máte zájem hlubšího zkoumání prompt engineeringu s ChatGPT, máme také pokročilý průvodce, který osvětlí nejnovější a nejmodernější prompt techniky, dostupné na ‘ChatGPT & Advanced Prompt Engineering: Driving the AI Evolution‘.
Difuze & Multimodální Modely
Zatímco modely jako VAE a GAN generují své výstupy prostřednictvím jediného průchodu, a jsou tedy uzamčeny do toho, co produkují, difuzní modely zavedly koncept ‘iterativní úpravy‘. Tímto způsobem se vrací, upravují chyby z předchozích kroků, a postupně produkují více vyčištěný výsledek.
Centrální pro difuzní modely je umění “poškození” a “úpravy”. V jejich tréninkové fázi je typický obraz postupně poškozován přidáváním různých úrovní šumu. Tato šumová verze je pak krmena modelem, který se snaží “odšumovat” nebo “opravit” ji. Prostřednictvím několika kol tohoto procesu se model stává způsobilým k restauraci, chápe jak jemné, tak i významné odchylky.
Proces generování nových obrazů po tréninku je fascinující. Začínající s úplně náhodným vstupem, je neustále upravován pomocí predikcí modelu. Cílem je dosáhnout čistého obrazu s minimálním počtem kroků. Řízení úrovně poškození je provedeno prostřednictvím “šumového plánu”, mechanismu, který řídí, kolik šumu je aplikováno v různých fázích. Plánovač, jako je vidět v knihovnách jako “diffusers“, určuje povahu těchto šumových verzí na základě zavedených algoritmů.
Základní architektonická páteř pro mnoho difuzních modelů je UNet—konvoluční neuronová síť přizpůsobená pro úkoly vyžadující výstupy, které odrážejí prostorové rozměry vstupů. Je to směs downsampling a upsampling vrstev, intrikátně propojených pro uchování vysokého rozlišení dat, které jsou zásadní pro obrazové výstupy.
Pronikaje hlouběji do říše generativních modelů, OpenAI’s DALL-E 2 se objevuje jako zářivý příklad fúze textových a vizuálních AI schopností. Používá trojúrovňovou strukturu:
DALL-E 2 ukazuje trojúrovňovou architekturu:
- Textový kódovací stroj: Přetváří textový prompt do konceptuálního vložení v latentním prostoru. Tento model nezačíná od nuly. Spočívá na OpenAI’s Contrastive Language–Image Pre-training (CLIP) dataset jako jeho základ. CLIP slouží jako most mezi vizuálními a textovými daty tím, že se učí vizuální koncepty pomocí přirozeného jazyka. Prostřednictvím mechanismu nazvaného kontrastivní učení, identifikuje a páruje obrázky se svými odpovídajícími textovými popisy.
- Prior: Textové vložení odvozené z kódovacího stroje je pak převěděno do obrazového vložení. DALL-E 2 testoval jak autoregresivní, tak difuzní metody pro tuto úlohu, s tím, že difuzní metoda ukázala lepší výsledky. Autoregresivní modely, jako je vidět u Transformerů a PixelCNN, generují výstupy v sekvencích. Na druhé straně, difuzní modely, jako je ten použitý v DALL-E 2, transformují náhodný šum do předpověděného obrazového vložení s pomocí textového vložení.
- Decoder: Klimax procesu, tato část generuje konečný vizuální výstup na základě textového promptu a obrazového vložení z předchozí fáze. DALL-E 2’s decoder vděčí za svou architekturu jinému modelu, GLIDE, který může také produkovat realistické obrazy z textových podnětů.
Uživatelé Pythonu, kteří se zajímají o Langchain, by měli zkontrolovat náš podrobný tutoriál, který pokrývá vše od základů až po pokročilé techniky.
Aplikace Generativní AI
Textové Domény
Začněme s textem, Generativní AI fundamentálně změnila chatboty jako ChatGPT. Spoléhající se silně na Natural Language Processing (NLP) a large language models (LLM), tyto entity jsou schopné provádět úkoly sahající od kódování a jazykového překladu až po souhrny a sentimentální analýzu. ChatGPT, například, viděl široké přijetí, stává se základem pro miliony. To je dále posíleno konverzačními AI platformami, založenými na LLM, jako je GPT-4, PaLM, a BLOOM, které snadno produkují text, pomáhají v programování a dokonce nabízejí matematické odůvodnění.
Z komerčního hlediska se tyto modely stávají nepostradatelnými. Společnosti je využívají pro řadu operací, včetně řízení rizik, optimalizace zásob a předpovědí poptávky. Některé pozoruhodné příklady zahrnují Bing AI, Google’s BARD a ChatGPT API.
Umění
Svět obrazů prošel dramatickými změnami s Generativní AI, zejména od zavedení DALL-E 2 v roce 2022. Tato technologie, která může generovat obrazy z textových podnětů, má jak umělecké, tak profesionální důsledky. Například, midjourney využil tuto technologii k produkci ohromujících realistických obrazů. Tento nedávný příspěvek demystifikuje Midjourney v podrobném průvodci, osvětlující jak platformu, tak i jemnosti prompt engineeringu. Kromě toho, platformy jako Alpaca AI a Photoroom AI využívají Generativní AI pro pokročilé funkce editace obrazů, jako je odstranění pozadí, odstranění objektů a dokonce i obnova obličeje.
Produkce Videí
Produkce videí, zatímco stále v rané fázi v oblasti Generativní AI, ukazuje slibné pokroky. Platformy jako Imagen Video, Meta Make A Video a Runway Gen-2 tlačí hranice toho, co je možné, i když真正ně realistické výstupy jsou stále na obzoru. Tyto modely nabízejí podstatnou utilitu pro vytváření digitálních lidských videí, s aplikacemi jako Synthesia a SuperCreator, které vedou nápor. Značně, Tavus AI nabízí jedinečnou prodejní nabídku, personalizující videa pro jednotlivé členy publika, což je požehnáním pro podniky.
Vytvoření Kódu
Kódování, nezbytná součást našeho digitálního světa, nebylo ponecháno nedotčeno Generativní AI. Ačkoli ChatGPT je oblíbeným nástrojem, několik dalších AI aplikací bylo vyvinuto pro účely kódování. Tyto platformy, jako je GitHub Copilot, Alphacode a CodeComplete, slouží jako kódovací asistenti a mohou dokonce produkovat kód z textových podnětů. Co je fascinující, je adaptabilita těchto nástrojů. Codex, hnací síla za GitHub Copilot, může být přizpůsoben individuálnímu kódovacímu stylu, podtrhující potenciál personalizace Generativní AI.
Závěr
Kombinuje lidskou kreativitu se strojovým výpočtem, vyvinula se do nepostradatelného nástroje, s platformami jako ChatGPT a DALL-E 2, které tlačí hranice toho, co je myslitelné. Od vytváření textového obsahu až po sochaření vizuálních mistrovských děl, jejich aplikace jsou rozsáhlé a rozmanité.
Jako u každé technologie, etické důsledky jsou zásadní. Zatímco Generativní AI slibuje neomezenou kreativitu, je důležité ji používat zodpovědně, být si vědom potenciálních偏見 a síly datové manipulace.
S nástroji, jako je ChatGPT, se stávají více přístupnými, je teď ideální čas vyzkoušet a experimentovat. Bez ohledu na to, zda jste umělec, kódovací specialista nebo technologický nadšenec, oblast Generativní AI je plná možností, které čekají na prozkoumání. Revoluce není na obzoru; je zde a teď. Takže, ponořte se!

















