Umelá inteligencia

Generatívna AI: Idea za CHATGPT, Dall-E, Midjourney a ďalšie

Aktualizované on Augusta 8, 2023

Svet umenia, komunikácie a toho, ako vnímame realitu, sa rýchlo mení. Ak sa pozrieme späť do histórie ľudských inovácií, môžeme považovať vynález kolesa alebo objav elektriny za monumentálne skoky. Dnes prebieha nová revolúcia – premosťuje priepasť medzi ľudskou kreativitou a strojovým výpočtom. To je generatívna AI.

Generatívne modely zmazali hranicu medzi ľuďmi a strojmi. S príchodom modelov ako GPT-4, ktoré využívajú transformátorové moduly, sme sa priblížili k prirodzenému a kontextovo bohatému generovaniu jazykov. Tieto pokroky podporili aplikácie pri tvorbe dokumentov, dialógových systémoch chatbotov a dokonca aj pri skladaní syntetickej hudby.

Nedávne rozhodnutia Big-Tech podčiarkujú jeho význam. Microsoft už je ukončenie aplikácie Cortana tento mesiac uprednostniť novšie inovácie generatívnej AI, ako je Bing Chat. Značnú časť svojej venoval aj Apple Rozpočet na výskum a vývoj 22.6 miliardy dolárov na generatívnu AI, ako uviedol generálny riaditeľ Tim Cook.

Nová éra modelov: Generatívne vs. Diskriminačné

Príbeh generatívnej AI nie je len o jej aplikáciách, ale predovšetkým o jej vnútornom fungovaní. V ekosystéme umelej inteligencie existujú dva modely: diskriminačný a generatívny.

S diskriminačnými modelmi sa stretáva väčšina ľudí v každodennom živote. Tieto algoritmy berú vstupné údaje, ako je text alebo obrázok, a spárujú ich s cieľovým výstupom, ako je preklad slova alebo lekárska diagnóza. Ide im o mapovanie a predpovedanie.

Generatívne modely sú na druhej strane tvorcami. Nielen interpretujú alebo predpovedajú; generujú nové, komplexné výstupy z vektorov čísel, ktoré často ani nesúvisia s hodnotami v reálnom svete.

Technológie za generatívnymi modelmi

Generatívne modely vďačia za svoju existenciu hlbokým neurónovým sieťam, sofistikovaným štruktúram navrhnutým tak, aby napodobňovali funkčnosť ľudského mozgu. Zachytávaním a spracovaním mnohostranných variácií údajov slúžia tieto siete ako chrbtica mnohých generatívnych modelov.

Ako tieto generatívne modely ožívajú? Zvyčajne sú postavené s hlbokými neurónovými sieťami, ktoré sú optimalizované na zachytenie mnohostranných variácií údajov. Skvelým príkladom je Generatívna kontradiktórna sieť (GAN), kde dve neurónové siete, generátor a diskriminátor, súťažia a učia sa jeden od druhého v jedinečnom vzťahu učiteľ – študent. Od malieb po prenos štýlu, od kompozície hudby po hranie hier, tieto modely sa vyvíjajú a rozširujú spôsobmi, ktoré boli predtým nepredstaviteľné.

GAN to nekončí. Variačné automatické kódovače (VAEs), sú ďalším kľúčovým hráčom v oblasti generatívneho modelu. VAE vynikajú svojou schopnosťou vytvárať fotorealistické obrázky zo zdanlivo náhodných čísel. Ako? Spracovanie týchto čísel prostredníctvom latentného vektora dáva vznik umeniu, ktoré odzrkadľuje zložitosť ľudskej estetiky.

Generatívne typy AI: Text na text, Text na obrázok

Transformátory a LLM

Papier "Pozornosť je všetko, čo potrebujete“ od Google Brain znamenal posun v spôsobe, akým uvažujeme o textovom modelovaní. Namiesto zložitých a sekvenčných architektúr, ako sú rekurentné neurónové siete (RNN) alebo konvolučné neurónové siete (CNN), model Transformer zaviedol koncept pozornosti, čo v podstate znamenalo zameranie sa na rôzne časti vstupného textu v závislosti od kontextu. Jednou z hlavných výhod tohto bola jednoduchosť paralelizácie. Na rozdiel od RNN, ktoré spracovávajú text sekvenčne, čo sťažuje ich škálovanie, môžu Transformers spracovávať časti textu súčasne, vďaka čomu je školenie na veľkých súboroch údajov rýchlejšie a efektívnejšie.

: Transformátorový model architektúra

V dlhom texte nemá každé prečítané slovo alebo veta rovnakú dôležitosť. Niektoré časti si vyžadujú viac pozornosti na základe kontextu. Táto schopnosť posunúť naše zameranie na základe relevantnosti je to, čo mechanizmus pozornosti napodobňuje.

Aby ste to pochopili, zamyslite sa nad vetou: „Unite AI Publish AI and Robotics news.“ Predpovedanie ďalšieho slova si teraz vyžaduje pochopenie toho, na čom v predchádzajúcom kontexte najviac záleží. Výraz „robotika“ môže naznačovať, že ďalšie slovo by mohlo súvisieť s konkrétnym pokrokom alebo udalosťou v oblasti robotiky, zatiaľ čo výraz „publikovať“ môže naznačovať, že nasledujúci kontext sa môže ponoriť do nedávnej publikácie alebo článku.

: Ilustrácia sebapozornosti

Mechanizmy pozornosti v Transformers sú navrhnuté tak, aby dosiahli toto selektívne zameranie. Posúdia dôležitosť rôznych častí vstupného textu a rozhodnú sa, kam sa pri generovaní odpovede „pozrieť“. Toto je odklon od starších architektúr, ako sú RNN, ktoré sa snažili vtesnať podstatu celého vstupného textu do jedného „stavu“ alebo „pamäte“.

Fungovanie pozornosti možno prirovnať k systému vyhľadávania hodnôt kľúča. Pri pokuse o predpovedanie ďalšieho slova vo vete každé predchádzajúce slovo ponúka „kľúč“ naznačujúci jeho potenciálnu relevantnosť a na základe toho, ako dobre tieto kľúče zodpovedajú aktuálnemu kontextu (alebo dopytu), prispievajú „hodnotou“ alebo váhou k predpoveď.

Tieto pokročilé modely hlbokého učenia AI sa bezproblémovo integrovali do rôznych aplikácií, od vylepšení vyhľadávača Google s BERT až po GitHub Copilot, ktorý využíva schopnosť veľkých jazykových modelov (LLM) na konverziu jednoduchých úryvkov kódu na plne funkčné zdrojové kódy.

Veľké jazykové modely (LLM) ako GPT-4, Bard a LLaMA sú kolosálne konštrukcie určené na dešifrovanie a generovanie ľudského jazyka, kódu a ďalších. Ich obrovská veľkosť, ktorá sa pohybuje od miliárd až po bilióny parametrov, je jednou z definujúcich čŕt. Tieto LLM sú napájané veľkým množstvom textových údajov, čo im umožňuje pochopiť zložitosť ľudského jazyka. Výraznou charakteristikou týchto modelov je ich schopnosť „malostrelný“učenie. Na rozdiel od konvenčných modelov, ktoré potrebujú obrovské množstvo špecifických tréningových údajov, LLM môžu zovšeobecniť z veľmi obmedzeného počtu príkladov (alebo „záberov“).

Stav veľkých jazykových modelov (LLM) od polovice roku 2023

Názov modelu	Vývojka	parametre	Dostupnosť a prístup	Pozoruhodné vlastnosti a poznámky
GPT-4	OpenAI	1.5 bilióna	Nie Open Source, iba API Access	Pôsobivý výkon pri rôznych úlohách dokáže spracovať obrázky a text, maximálna dĺžka vstupu 32,768 XNUMX tokenov
GPT-3	OpenAI	175 miliardy	Nie Open Source, iba API Access	Demonštrované schopnosti učenia sa niekoľkých výstrelov a nulových výstrelov. Vykonáva dokončenie textu v prirodzenom jazyku.
BLOOM	BigScience	176 miliardy	Stiahnuteľný model, k dispozícii hosťované rozhranie API	Viacjazyčný LLM vyvinutý v rámci globálnej spolupráce. Podporuje 13 programovacích jazykov.
The MDA	Google	173 miliardy	Nie je otvorený zdroj, nemá rozhranie API ani sťahovanie	Vycvičený na dialóg sa mohol naučiť hovoriť prakticky o čomkoľvek
MT-NLG	Nvidia/Microsoft	530 miliardy	API Prístup podľa aplikácie	Využíva architektúru Megatron založenú na transformátore pre rôzne úlohy NLP.
hovory	Meta AI	7B až 65B)	Stiahnuteľné pomocou aplikácie	Cieľom je demokratizovať AI tým, že ponúka prístup pracovníkom vo výskume, vláde a akademickej obci.

Ako sa používajú LLM?

LLM môžu byť použité rôznymi spôsobmi, vrátane:

Priame využitie: Jednoduché použitie vopred vyškoleného LLM na generovanie alebo spracovanie textu. Napríklad pomocou GPT-4 napísať blogový príspevok bez akéhokoľvek ďalšieho dolaďovania.
Fine-Tuning: Prispôsobenie vopred vyškoleného LLM pre konkrétnu úlohu, metóda známa ako transfer learning. Príkladom môže byť prispôsobenie T5 na generovanie súhrnov pre dokumenty v konkrétnom odvetví.
Získavanie informácií: Používanie LLM, ako sú BERT alebo GPT, ako súčasti väčších architektúr na vývoj systémov, ktoré dokážu získavať a kategorizovať informácie.

: Architektúra jemného ladenia ChatGPT

Viachlavá pozornosť: Prečo jedna, keď ich môžete mať veľa?

Spoliehanie sa na jediný mechanizmus pozornosti však môže byť limitujúce. Rôzne slová alebo sekvencie v texte môžu mať rôzne typy relevantnosti alebo asociácií. Tu prichádza pozornosť viacerých hláv. Namiesto jednej sady váh pozornosti využíva pozornosť viacerých hláv viacero skupín, čo umožňuje modelu zachytiť bohatšiu škálu vzťahov vo vstupnom texte. Každá „hlava“ pozornosti sa môže zamerať na rôzne časti alebo aspekty vstupu a ich kombinované znalosti sa používajú na konečnú predpoveď.

ChatGPT: Najpopulárnejší generatívny nástroj AI

Od vzniku GPT v roku 2018 bol model v podstate postavený na základe 12 vrstiev, 12 hláv pozornosti a 120 miliónov parametrov, primárne trénovaných na súbore údajov s názvom BookCorpus. Bol to pôsobivý začiatok, ktorý ponúka pohľad do budúcnosti jazykových modelov.

GPT-2, predstavený v roku 2019, sa pýšil štvornásobným nárastom vrstiev a hláv pozornosti. Je príznačné, že počet jeho parametrov vyletel do neba na 1.5 miliardy. Táto vylepšená verzia odvodila svoje školenie od WebText, súboru údajov obohateného o 40 GB textu z rôznych odkazov Reddit.

GPT-3, uvedený na trh v máji 2020, mal 96 vrstiev, 96 hláv pozornosti a obrovský počet parametrov 175 miliárd. To, čo odlišovalo GPT-3 od ostatných, boli jeho rôznorodé tréningové údaje, ktoré zahŕňajú CommonCrawl, WebText, anglickú Wikipédiu, knižné korpusy a ďalšie zdroje, ktoré spolu kombinujú celkovo 570 GB.

Zložitosť fungovania ChatGPT zostáva prísne stráženým tajomstvom. Je však známe, že kľúčový je proces nazývaný „učenie sa zo spätnej väzby od človeka“ (RLHF). Táto technika, ktorá pochádza z predchádzajúceho projektu ChatGPT, bola nápomocná pri zdokonaľovaní modelu GPT-3.5, aby bol viac v súlade s písomnými pokynmi.

Školenie ChatGPT zahŕňa trojúrovňový prístup:

Jemné dolaďovanie pod dohľadom: Zahŕňa kurátorské konverzačné vstupy a výstupy napísané ľuďmi s cieľom vylepšiť základný model GPT-3.5.
Modelovanie odmeňovania: Ľudia hodnotia rôzne výstupy modelu na základe kvality, čo pomáha trénovať model odmeňovania, ktorý hodnotí každý výstup vzhľadom na kontext konverzácie.
Posilňovanie učenia: Konverzačný kontext slúži ako pozadie, kde základný model navrhuje odpoveď. Táto odpoveď je hodnotená modelom odmeňovania a proces je optimalizovaný pomocou algoritmu s názvom proximálna optimalizácia politiky (PPO).

Pre tých, ktorí len namáčajú prsty na nohách do ChatGPT, je k dispozícii komplexná úvodná príručka tu. Ak sa chcete hlbšie ponoriť do rýchleho inžinierstva s ChatGPT, máme tiež pokročilého sprievodcu, ktorý objasňuje najnovšie a najmodernejšie rýchle techniky, dostupného na 'ChatGPT & Advanced Prompt Engineering: Riadenie vývoja AI".

Difúzne a multimodálne modely

Zatiaľ čo modely ako VAE a GAN generujú svoje výstupy prostredníctvom jediného priechodu, a teda viazané na čokoľvek, čo produkujú, difúzne modely zaviedli koncept „iteratívne spresnenie'. Prostredníctvom tejto metódy sa vracajú späť, dolaďujú chyby z predchádzajúcich krokov a postupne vytvárajú dokonalejší výsledok.

Stredobodom difúznych modelov je umenie „korupcie“ a „spresnenie“. Vo fáze tréningu sa typický obraz postupne kazí pridávaním rôznych úrovní šumu. Táto hlučná verzia je potom privedená do modelu, ktorý sa ju pokúsi „odšumiť“ alebo „zničiť“. Prostredníctvom viacerých kôl sa model stáva zručným v reštaurovaní, pričom rozumie jemným aj významným aberáciám.

: Obrázok vygenerovaný z Midjourney

Proces vytvárania nových obrázkov po tréningu je zaujímavý. Počnúc úplne náhodným vstupom sa neustále spresňuje pomocou predpovedí modelu. Zámerom je dosiahnuť pôvodný obraz s minimálnym počtom krokov. Kontrola úrovne korupcie sa vykonáva prostredníctvom „plánu hluku“, mechanizmu, ktorý riadi, koľko hluku sa aplikuje v rôznych fázach. Plánovač, ako je vidieť v knižniciach ako „difúzory“, určuje povahu týchto hlučných interpretácií na základe zavedených algoritmov.

Základnou architektonickou chrbticou mnohých modelov difúzie je UNet— konvolučná neurónová sieť prispôsobená úlohám vyžadujúcim výstupy odrážajúce priestorový rozmer vstupov. Ide o zmes vrstiev prevzorkovania nadol a nahor, ktoré sú zložito prepojené, aby sa zachovali údaje vo vysokom rozlíšení, ktoré sú kľúčové pre výstupy súvisiace s obrazom.

Ponorte sa hlbšie do oblasti generatívnych modelov, OpenAI DALL-E2 sa ukazuje ako žiarivý príklad spojenia textových a vizuálnych schopností AI. Využíva trojvrstvovú štruktúru:

DALL-E 2 predstavuje trojitú architektúru:

Text Encoder: Transformuje textovú výzvu na koncepčné vloženie do latentného priestoru. Tento model nezačína od bodu nula. Opiera sa o predtréning kontrastného jazyka a obrazu OpenAI (CLIP) ako jeho základ. CLIP slúži ako most medzi vizuálnymi a textovými údajmi učením sa vizuálnych konceptov pomocou prirodzeného jazyka. Prostredníctvom mechanizmu známeho ako kontrastné učenie identifikuje a spája obrázky s ich zodpovedajúcimi textovými popismi.
Prior: Vloženie textu odvodené z kódovača sa potom prevedie na vloženie obrázka. DALL-E 2 testoval pre túto úlohu autoregresívne aj difúzne metódy, pričom druhá z nich vykazovala vynikajúce výsledky. Autoregresívne modely, ako je vidieť v Transformers a PixelCNN, generujú výstupy v sekvenciách. Na druhej strane, modely difúzie, ako je model použitý v DALL-E 2, transformujú náhodný šum na predpovedané vloženie obrázkov pomocou vloženia textu.
Dekodér: Vrchol procesu, táto časť generuje konečný vizuálny výstup na základe textovej výzvy a vloženého obrázka z predchádzajúcej fázy. Dekodér DALL.E 2 vďačí za svoju architektúru inému modelu, KLÚZA, ktorý dokáže vytvárať realistické obrázky aj z textových podnetov.

: Zjednodušená architektúra modelu DALL-E

Používatelia Pythonu sa zaujímajú o Langchain mali by ste si pozrieť náš podrobný návod, ktorý pokrýva všetko od základov až po pokročilé techniky.

Aplikácie generatívnej AI

Textové domény

Počnúc textom, generatívna AI bola zásadne zmenená chatbotmi, ako sú ChatGPT. Tieto entity sa vo veľkej miere spoliehajú na spracovanie prirodzeného jazyka (NLP) a veľké jazykové modely (LLM) a sú oprávnené vykonávať úlohy od generovania kódu a prekladu jazyka až po sumarizáciu a analýzu sentimentu. ChatGPT napríklad zaznamenal široké prijatie a stal sa základom pre milióny. Toto je ďalej rozšírené o konverzačné platformy AI, založené na LLM, ako je GPT-4, PaLMa BLOOM, ktoré bez námahy vytvárajú text, pomáhajú pri programovaní a dokonca ponúkajú matematické uvažovanie.

Z komerčného hľadiska sa tieto modely stávajú neoceniteľnými. Firmy ich využívajú na nespočetné množstvo operácií, vrátane riadenia rizík, optimalizácie zásob a predpovedania požiadaviek. Niektoré pozoruhodné príklady zahŕňajú Bing AI, Google BARD a ChatGPT API.

Art

Svet obrázkov zaznamenal dramatické zmeny vďaka generatívnej AI, najmä od predstavenia DALL-E 2 v roku 2022. Táto technológia, ktorá dokáže vytvárať obrázky z textových výziev, má umelecké aj profesionálne dôsledky. Napríklad midjourney využil túto technológiu na vytvorenie pôsobivo realistických obrázkov. Tento nedávny príspevok demystifikuje Midjourney v podrobnom sprievodcovi, ktorý objasňuje platformu a jej rýchle inžinierske zložitosti. Okrem toho platformy ako Alpaca AI a Photoroom AI využívajú generatívnu AI na pokročilé funkcie úpravy obrázkov, ako je odstraňovanie pozadia, odstraňovanie objektov a dokonca aj obnova tváre.

Výroba videa

Produkcia videa, zatiaľ čo je v oblasti generatívnej AI stále vo svojej rodiacej sa fáze, predstavuje sľubné pokroky. Platformy ako Imagen Video, Meta Make A Video a Runway Gen-2 posúvajú hranice toho, čo je možné, aj keď skutočne realistické výstupy sú stále na obzore. Tieto modely ponúkajú značnú užitočnosť na vytváranie digitálnych ľudských videí s aplikáciami ako Synthesia a SuperCreator. Najmä Tavus AI ponúka jedinečný predajný návrh prispôsobením videí pre jednotlivých členov publika, čo je prínos pre podniky.

Tvorba kódu

Kódovanie, nepostrádateľný aspekt nášho digitálneho sveta, nezostalo nedotknuté generatívnou AI. Hoci je ChatGPT obľúbeným nástrojom, na účely kódovania bolo vyvinutých niekoľko ďalších aplikácií AI. Tieto platformy, ako napríklad GitHub Copilot, Alphacode a CodeComplete, slúžia ako asistenti kódovania a môžu dokonca vytvárať kód z textových výziev. Zaujímavá je prispôsobivosť týchto nástrojov. Codex, hnacia sila GitHub Copilot, môže byť prispôsobený individuálnemu štýlu kódovania, čím sa podčiarkuje personalizačný potenciál generatívnej AI.

záver

Spojením ľudskej kreativity so strojovým výpočtom sa vyvinul neoceniteľný nástroj s platformami ako ChatGPT a DALL-E 2, ktoré posúvajú hranice toho, čo je možné si predstaviť. Od vytvárania textového obsahu až po vyrezávanie vizuálnych majstrovských diel, ich aplikácie sú rozsiahle a rozmanité.

Ako pri každej technológii, etické dôsledky sú prvoradé. Generatívna umelá inteligencia síce sľubuje bezhraničnú kreativitu, no je dôležité ju používať zodpovedne, uvedomujúc si potenciálne predsudky a silu manipulácie s údajmi.

Keďže nástroje ako ChatGPT sú čoraz dostupnejšie, teraz je ideálny čas na testovanie vôd a experimentovanie. Či už ste umelec, programátor alebo technický nadšenec, oblasť generatívnej AI je plná možností, ktoré čakajú na preskúmanie. Revolúcia nie je na obzore; je to tu a teraz. Takže, ponorte sa!

Súvisiace témy:chat gpt DALL-E hlboké vzdelávanie generatívna ai LLM Stredná cesta

Nasledujúci

Na konferencii Ai2023 v roku 4 sa do popredia dostáva generatívna AI

Nenechajte si ujsť

Analogické uvažovacie schopnosti AI: Náročné pre ľudskú inteligenciu?

Aayush Mittal

Posledných päť rokov som strávil ponorením sa do fascinujúceho sveta strojového učenia a hlbokého učenia. Moja vášeň a odborné znalosti ma viedli k tomu, že som prispel k viac ako 50 rôznym projektom softvérového inžinierstva s osobitným zameraním na AI/ML. Moja neustála zvedavosť ma tiež priviedla k spracovaniu prirodzeného jazyka, oblasti, ktorú by som chcel ďalej skúmať.