výhonek Generativní AI: Nápad za CHATGPT, Dall-E, Midjourney a další - Unite.AI
Spojte se s námi

Umělá inteligence

Generativní AI: Nápad za CHATGPT, Dall-E, Midjourney a další

mm
aktualizováno on
Generativní AI - Midjourney Prompt

Svět umění, komunikace a to, jak vnímáme realitu, se rychle mění. Pokud se podíváme zpět do historie lidských inovací, můžeme považovat vynález kola nebo objev elektřiny za monumentální skoky. Dnes probíhá nová revoluce – překlenuje propast mezi lidskou kreativitou a strojovým počítáním. To je generativní AI.

Generativní modely rozmazaly hranici mezi lidmi a stroji. S příchodem modelů jako GPT-4, které využívají transformátorové moduly, jsme se přiblížili přirozenému a kontextově bohatému vytváření jazyků. Tyto pokroky podnítily aplikace při vytváření dokumentů, dialogových systémech chatbotů a dokonce i při skládání syntetické hudby.

Nedávná rozhodnutí Big-Tech podtrhují její význam. Microsoft už ano ukončení své aplikace Cortana tento měsíc upřednostnit novější generativní inovace AI, jako je Bing Chat. Společnost Apple také věnovala významnou část svého Rozpočet na výzkum a vývoj 22.6 miliardy dolarů na generativní AI, jak uvedl generální ředitel Tim Cook.

Nová éra modelů: Generativní vs. Diskriminační

Příběh generativní umělé inteligence není jen o jejích aplikacích, ale především o jejím vnitřním fungování. V ekosystému umělé inteligence existují dva modely: diskriminační a generativní.

S diskriminačními modely se většina lidí setkává v každodenním životě. Tyto algoritmy berou vstupní data, jako je text nebo obrázek, a spárují je s cílovým výstupem, jako je překlad slova nebo lékařská diagnóza. Jsou o mapování a predikci.

Generativní modely jsou naopak tvůrci. Nejen interpretují nebo předpovídají; generují nové, komplexní výstupy z vektorů čísel, které často ani nesouvisí s hodnotami v reálném světě.

 

Generativní typy AI: Text na text, Text na obrázek (GPT, DALL-E, Midjourney)

Technologie za generativními modely

Generativní modely vděčí za svou existenci hlubokým neuronovým sítím, sofistikovaným strukturám navrženým tak, aby napodobovaly funkce lidského mozku. Tím, že zachycují a zpracovávají mnohostranné variace v datech, slouží tyto sítě jako páteř mnoha generativních modelů.

Jak tyto generativní modely ožívají? Obvykle jsou postaveny s hlubokými neuronovými sítěmi, optimalizovanými tak, aby zachytily mnohostranné variace v datech. Ukázkovým příkladem je Generativní protivníková síť (GAN), kde dvě neuronové sítě, generátor a diskriminátor, soutěží a učí se od sebe v jedinečném vztahu učitel-žák. Od malby po přenos stylu, od hudební kompozice po hraní her se tyto modely vyvíjejí a rozšiřují způsoby, které byly dříve nepředstavitelné.

U GAN to nekončí. Variační automatické kodéry (VAEs), jsou dalším klíčovým hráčem na poli generativních modelů. VAE vynikají svou schopností vytvářet fotorealistické obrázky ze zdánlivě náhodných čísel. Jak? Zpracování těchto čísel prostřednictvím latentního vektoru dává vzniknout umění, které odráží složitost lidské estetiky.

Generativní typy AI: Text na text, Text na obrázek

Transformátory a LLM

Papír "Pozornost je vše, co potřebujete” od Google Brain znamenala posun ve způsobu, jakým přemýšlíme o textovém modelování. Namísto složitých a sekvenčních architektur, jako jsou rekurentní neuronové sítě (RNN) nebo konvoluční neuronové sítě (CNN), zavedl model Transformer koncept pozornosti, což v podstatě znamenalo zaměřit se na různé části vstupního textu v závislosti na kontextu. Jednou z hlavních výhod tohoto byla snadná paralelizace. Na rozdíl od RNN, které zpracovávají text sekvenčně, což ztěžuje jejich škálování, mohou Transformers zpracovávat části textu současně, takže trénink na velkých souborech dat je rychlejší a efektivnější.

V dlouhém textu nemá každé slovo nebo věta, kterou čtete, stejnou důležitost. Některé části vyžadují více pozornosti na základě kontextu. Tato schopnost posunout naše zaměření na základě relevance je to, co mechanismus pozornosti napodobuje.

Abyste tomu porozuměli, představte si větu: „Unite AI Publish AI and Robotics news.“ Nyní předpovídání dalšího slova vyžaduje pochopení toho, na čem v předchozím kontextu nejvíce záleží. Výraz „robotika“ by mohl naznačovat, že další slovo by mohlo souviset s konkrétním pokrokem nebo událostí v oblasti robotiky, zatímco „publikovat“ může naznačovat, že následující kontext se může ponořit do nedávné publikace nebo článku.

Vysvětlení mechanismu sebepozorování na demo větě
Sebepozornost Ilustrace

Mechanismy pozornosti v Transformers jsou navrženy k dosažení tohoto selektivního zaměření. Posuzují důležitost různých částí vstupního textu a rozhodují, kam se při generování odpovědi „dívat“. Toto je odklon od starších architektur, jako jsou RNN, které se snažily nacpat podstatu veškerého vstupního textu do jediného „stavu“ nebo „paměti“.

Fungování pozornosti lze přirovnat k systému vyhledávání klíč-hodnota. Ve snaze předpovědět další slovo ve větě každé předchozí slovo nabízí „klíč“, který naznačuje jeho potenciální relevanci, a na základě toho, jak dobře tyto klíče odpovídají aktuálnímu kontextu (nebo dotazu), přispívají „hodnotou“ nebo váhou předpověď.

Tyto pokročilé modely hlubokého učení umělé inteligence se bez problémů integrovaly do různých aplikací, od vylepšení vyhledávače Google s BERT až po GitHub Copilot, který využívá schopnost velkých jazykových modelů (LLM) převádět jednoduché úryvky kódu na plně funkční zdrojové kódy.

Velké jazykové modely (LLM) jako GPT-4, Bard a LLaMA jsou kolosální konstrukty navržené k dešifrování a generování lidského jazyka, kódu a dalších. Jejich nesmírná velikost, pohybující se od miliard až po biliony parametrů, je jedním z určujících znaků. Tyto LLM jsou napájeny velkým množstvím textových dat, což jim umožňuje pochopit složitosti lidského jazyka. Výraznou vlastností těchto modelů je jejich schopnost „málo výstřelů" učení se. Na rozdíl od konvenčních modelů, které potřebují obrovské množství specifických tréninkových dat, LLM mohou zobecňovat z velmi omezeného počtu příkladů (nebo „záběrů“).

Stav velkých jazykových modelů (LLM) od poloviny roku 2023

Název modeluVývojkaparametryDostupnost a přístupPozoruhodné vlastnosti a poznámky
GPT-4OpenAI1.5 bilionuNení Open Source, pouze API AccessPůsobivý výkon na různých úkolech dokáže zpracovat obrázky a text, maximální délka vstupu 32,768 XNUMX tokenů
GPT-3OpenAI175 miliardyNení Open Source, pouze API AccessDemonstrované schopnosti učení několika výstřelů a nulových výstřelů. Provádí dokončování textu v přirozeném jazyce.
KVĚTBigScience176 miliardyModel ke stažení, hostované API k dispoziciVícejazyčný LLM vyvinutý globální spoluprací. Podporuje 13 programovacích jazyků.
MDAGoogle173 miliardyNení otevřený zdroj, nemá rozhraní API ani stahováníVycvičený v dialogu se mohl naučit mluvit prakticky o čemkoli
MT-NLGNvidia/Microsoft530 miliardyAPI Přístup podle aplikaceVyužívá transformátorovou architekturu Megatron pro různé úkoly NLP.
LamaMeta AI7B až 65B)Ke stažení pomocí aplikaceCílem je demokratizovat umělou inteligenci tím, že nabízí přístup pracovníkům ve výzkumu, vládě a akademické obci.

Jak se používají LLM?

LLM lze použít mnoha způsoby, včetně:

  1. Přímé využití: Jednoduše pomocí předem vyškoleného LLM pro generování nebo zpracování textu. Například pomocí GPT-4 napsat blogový příspěvek bez dalšího dolaďování.
  2. Fine-Tuning: Přizpůsobení předem vyškoleného LLM pro konkrétní úkol, metoda známá jako přenosové učení. Příkladem může být přizpůsobení T5 pro generování souhrnů pro dokumenty v konkrétním odvětví.
  3. Získávání informací: Používání LLM, jako je BERT nebo GPT, jako součásti větších architektur k vývoji systémů, které mohou získávat a kategorizovat informace.
Generativní jemné ladění AI ChatGPT
Architektura jemného ladění ChatGPT

Pozor na více hlav: Proč jeden, když jich můžete mít mnoho?

Spoléhat se na jediný mechanismus pozornosti však může být omezující. Různá slova nebo sekvence v textu mohou mít různé typy relevance nebo asociace. Zde přichází na řadu pozornost více hlav. Namísto jedné sady vah pozornosti využívá pozornost více hlav více sad, což umožňuje modelu zachytit bohatší škálu vztahů ve vstupním textu. Každá „hlava“ pozornosti se může zaměřit na různé části nebo aspekty vstupu a jejich kombinované znalosti se používají pro konečnou předpověď.

ChatGPT: Nejoblíbenější generativní nástroj AI

Počínaje založením GPT v roce 2018 byl model v podstatě postaven na základech 12 vrstev, 12 hlav pozornosti a 120 milionů parametrů, primárně trénovaných na datové sadě zvané BookCorpus. Byl to působivý začátek, který nabídl pohled do budoucnosti jazykových modelů.

GPT-2, představený v roce 2019, se pyšnil čtyřnásobným nárůstem vrstev a hlav pozornosti. Je příznačné, že počet jeho parametrů vyletěl na 1.5 miliardy. Tato vylepšená verze odvozovala své školení od WebText, datové sady obohacené o 40 GB textu z různých odkazů na Redditu.

GPT-3, spuštěný v květnu 2020, měl 96 vrstev, 96 hlav pozornosti a masivní počet parametrů 175 miliard. To, co odlišovalo GPT-3, byla jeho různorodá tréninková data, zahrnující CommonCrawl, WebText, anglickou Wikipedii, knižní korpusy a další zdroje, dohromady 570 GB.

Složitosti fungování ChatGPT zůstávají přísně střeženým tajemstvím. Je však známo, že klíčový je proces nazvaný „učení ze zpětné vazby od člověka“ (RLHF). Tato technika, pocházející z dřívějšího projektu ChatGPT, byla nápomocná při zdokonalování modelu GPT-3.5, aby byl více v souladu s písemnými instrukcemi.

Školení ChatGPT zahrnuje třístupňový přístup:

  1. Jemné doladění pod dohledem: Zahrnuje kurátorství lidmi napsaných konverzačních vstupů a výstupů za účelem zpřesnění základního modelu GPT-3.5.
  2. Modelování odměn: Lidé hodnotí různé výstupy modelu na základě kvality, což pomáhá trénovat model odměn, který hodnotí každý výstup s ohledem na kontext konverzace.
  3. Posílení učení: Konverzační kontext slouží jako pozadí, kde základní model navrhuje odpověď. Tato odezva je hodnocena modelem odměny a proces je optimalizován pomocí algoritmu nazvaného proximální optimalizace politiky (PPO).

Pro ty, kteří jen ponoří prsty do ChatGPT, je k dispozici komplexní průvodce pro začátečníky zde. Pokud se chcete ponořit hlouběji do rychlého inženýrství pomocí ChatGPT, máme také pokročilého průvodce, který osvětluje nejnovější a nejmodernější techniky rychlého volání, k dispozici na 'ChatGPT & Advanced Prompt Engineering: Řízení vývoje AI".

Difúzní a multimodální modely

Zatímco modely jako VAE a GAN generují své výstupy prostřednictvím jediného průchodu, a jsou tedy uzamčeny v čemkoli, co produkují, difúzní modely zavedly koncept „iterativní zpřesňování'. Prostřednictvím této metody krouží zpět, vylepšují chyby z předchozích kroků a postupně vytvářejí vybroušenější výsledek.

Středobodem difúzních modelů je umění „korupce“ a „zpřesnění“. V jejich tréninkové fázi se typický obraz postupně kazí přidáváním různých úrovní šumu. Tato hlučná verze je pak přiváděna do modelu, který se ji pokouší „odšumovat“ nebo „dekorumpovat“. Prostřednictvím několika kol se model stává zběhlým v restaurování a rozumí jemným i významným aberacím.

Generativní AI - Midjourney Prompt
Obrázek vygenerovaný z Midjourney

Proces generování nových obrázků po školení je zajímavý. Počínaje zcela náhodným vstupem se průběžně zpřesňuje pomocí předpovědí modelu. Záměrem je dosáhnout původního obrazu s minimálním počtem kroků. Kontrola úrovně korupce se provádí prostřednictvím „plánu hluku“, mechanismu, který řídí, kolik hluku je aplikováno v různých fázích. Plánovač, jak je vidět v knihovnách jako „difuzory“, určuje povahu těchto hlučných interpretací na základě zavedených algoritmů.

Nezbytnou architektonickou páteří mnoha difúzních modelů je UNet— konvoluční neuronová síť přizpůsobená pro úkoly vyžadující výstupy zrcadlící prostorový rozměr vstupů. Jedná se o směs vrstev downsamplingu a upsamplingu, které jsou důmyslně propojené tak, aby uchovaly data ve vysokém rozlišení, což je klíčové pro výstupy související s obrazem.

Ponořit se hlouběji do oblasti generativních modelů, OpenAI DALL-E2 se ukazuje jako zářný příklad spojení textových a vizuálních schopností umělé inteligence. Využívá třívrstvou strukturu:

DALL-E 2 představuje trojí architekturu:

  1. Text Encoder: Transformuje textovou výzvu na koncepční vložení do latentního prostoru. Tento model nezačíná od bodu nula. Opírá se o předtrénink kontrastního jazyka a obrazu OpenAI (CLIP) datový soubor jako jeho základ. CLIP slouží jako most mezi vizuálními a textovými daty tím, že se učí vizuální koncepty pomocí přirozeného jazyka. Prostřednictvím mechanismu známého jako kontrastivní učení identifikuje a spojuje obrázky s jejich odpovídajícími textovými popisy.
  2. Předchozí: Vložení textu odvozené z kodéru se poté převede na vložení obrázku. DALL-E 2 testoval pro tento úkol jak autoregresivní, tak difúzní metody, přičemž posledně jmenované vykazovaly vynikající výsledky. Autoregresivní modely, jak je vidět v Transformers a PixelCNN, generují výstupy v sekvencích. Na druhou stranu modely difúze, jako je model použitý v DALL-E 2, transformují náhodný šum na předpokládané vkládání obrázků pomocí vkládání textu.
  3. Dekodér: Vrchol procesu, tato část generuje konečný vizuální výstup na základě textové výzvy a vložení obrazu z předchozí fáze. Dekodér DALL.E 2 vděčí za svou architekturu jinému modelu, KLOUZAT, který také dokáže vytvářet realistické obrázky z textových podnětů.
Architektura modelu DALL-E (difúzní multi model)
Zjednodušená architektura modelu DALL-E

Uživatelé Pythonu se zajímají o Langchain měli byste se podívat na náš podrobný tutoriál zahrnující vše od základů až po pokročilé techniky.

Aplikace generativní umělé inteligence

Textové domény

Počínaje textem byla generativní AI zásadně změněna chatboty jako ChatGPT. Tyto entity se silně spoléhají na zpracování přirozeného jazyka (NLP) a velké jazykové modely (LLM) a jsou zmocněny provádět úkoly od generování kódu a překladu jazyka až po sumarizaci a analýzu sentimentu. ChatGPT například zaznamenal široké přijetí a stal se základem pro miliony. To je dále rozšířeno o konverzační platformy umělé inteligence založené na LLM, jako je GPT-4, Dlaň, a KVĚT, které bez námahy vytvářejí text, pomáhají při programování a dokonce nabízejí matematické uvažování.

Z komerčního hlediska se tyto modely stávají neocenitelnými. Podniky je využívají pro nesčetné množství operací, včetně řízení rizik, optimalizace zásob a předpovídání požadavků. Některé pozoruhodné příklady zahrnují Bing AI, Google BARD a ChatGPT API.

Umění

Svět obrázků zaznamenal díky generativní umělé inteligenci dramatické proměny, zejména od představení DALL-E 2 v roce 2022. Tato technologie, která dokáže generovat obrázky z textových výzev, má umělecké i profesionální důsledky. Například společnost midjourney využila tuto technologii k vytvoření působivě realistických snímků. Tento nedávný příspěvek demystifikuje Midjourney v podrobném průvodci, který objasňuje platformu a její rychlé inženýrské složitosti. Platformy jako Alpaca AI a Photoroom AI navíc využívají generativní AI pro pokročilé funkce úprav obrázků, jako je odstranění pozadí, mazání objektů a dokonce i obnova obličeje.

Video Production

Produkce videa, i když je stále ve fázi zrodu v oblasti generativní umělé inteligence, představuje slibné pokroky. Platformy jako Imagen Video, Meta Make A Video a Runway Gen-2 posouvají hranice toho, co je možné, i když skutečně realistické výstupy jsou stále na obzoru. Tyto modely nabízejí značnou využitelnost pro vytváření digitálních lidských videí, přičemž hlavní roli hrají aplikace jako Synthesia a SuperCreator. Zejména Tavus AI nabízí unikátní prodejní nabídku personalizací videí pro jednotlivé členy publika, což je přínos pro podniky.

Tvorba kódu

Kódování, nepostradatelný aspekt našeho digitálního světa, nezůstalo generativní AI nedotčeno. Ačkoli je ChatGPT oblíbeným nástrojem, pro účely kódování bylo vyvinuto několik dalších aplikací umělé inteligence. Tyto platformy, jako je GitHub Copilot, Alphacode a CodeComplete, slouží jako asistenti kódování a mohou dokonce vytvářet kód z textových výzev. Co je zajímavé, je přizpůsobivost těchto nástrojů. Codex, hnací síla GitHub Copilot, může být přizpůsoben individuálnímu stylu kódování, což podtrhuje personalizační potenciál generativní umělé inteligence.

Proč investovat do čističky vzduchu?

Spojením lidské kreativity se strojovým počítáním se vyvinul neocenitelný nástroj s platformami jako ChatGPT a DALL-E 2, které posouvají hranice toho, co je myslitelné. Od vytváření textového obsahu až po vyřezávání vizuálních mistrovských děl, jejich aplikace jsou rozsáhlé a rozmanité.

Jako u každé technologie jsou prvořadé etické důsledky. Generativní umělá inteligence sice slibuje bezmeznou kreativitu, ale je důležité ji používat zodpovědně, uvědomovat si potenciální předsudky a sílu manipulace s daty.

Vzhledem k tomu, že nástroje jako ChatGPT jsou stále dostupnější, je nyní ideální čas otestovat vody a experimentovat. Ať už jste umělec, kodér nebo technický nadšenec, oblast generativní umělé inteligence je plná možností, které čekají na prozkoumání. Revoluce není na obzoru; je to tady a teď. Takže, ponořte se!

Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.