stub Generatywna sztuczna inteligencja: idea stojąca za CHATGPT, Dall-E, Midjourney i nie tylko - Unite.AI
Kontakt z nami

Artificial Intelligence

Generatywna sztuczna inteligencja: pomysł na CHATGPT, Dall-E, Midjourney i nie tylko

mm
Zaktualizowano on
Generatywna sztuczna inteligencja – podpowiedź w trakcie podróży

Świat sztuki, komunikacji i sposób, w jaki postrzegamy rzeczywistość, szybko się zmienia. Jeśli spojrzymy wstecz na historię innowacji człowieka, możemy uznać wynalezienie koła lub odkrycie elektryczności za monumentalny skok. Dziś ma miejsce nowa rewolucja — zasypywanie przepaści między ludzką kreatywnością a obliczeniami maszynowymi. To jest generatywna sztuczna inteligencja.

Modele generatywne zatarły granicę między ludźmi i maszynami. Wraz z pojawieniem się modeli takich jak GPT-4, które wykorzystują moduły transformatorowe, zbliżyliśmy się do generowania języka naturalnego i bogatego w kontekst. Postępy te zaowocowały zastosowaniami w tworzeniu dokumentów, systemach dialogowych chatbotów, a nawet syntetycznym komponowaniu muzyki.

Niedawne decyzje Big-Tech podkreślają jego znaczenie. Microsoft już jest wycofuje aplikację Cortana w tym miesiącu, aby nadać priorytet nowszym innowacjom generatywnej sztucznej inteligencji, takim jak Bing Chat. Apple również poświęciło znaczną część swoich Budżet na badania i rozwój wynoszący 22.6 miliarda dolarów do generatywnej sztucznej inteligencji, jak wskazał dyrektor generalny Tim Cook.

Nowa era modeli: generatywne vs. Dyskryminujący

Historia generatywnej sztucznej inteligencji to nie tylko jej zastosowania, ale przede wszystkim jej wewnętrzne działanie. W ekosystemie sztucznej inteligencji istnieją dwa modele: dyskryminacyjny i generatywny.

Modele dyskryminacyjne są tym, z czym większość ludzi spotyka się w życiu codziennym. Algorytmy te pobierają dane wejściowe, takie jak tekst lub obraz, i łączą je z docelowym wynikiem, takim jak tłumaczenie słów lub diagnoza medyczna. Dotyczą one mapowania i przewidywania.

Z drugiej strony modele generatywne są twórcami. Nie tylko interpretują i przewidują; generują nowe, złożone wyniki z wektorów liczb, które często nie są nawet powiązane z wartościami ze świata rzeczywistego.

 

Generacyjne typy AI: tekst na tekst, tekst na obraz (GPT, DALL-E, Midjourney)

Technologie stojące za modelami generatywnymi

Modele generatywne zawdzięczają swoje istnienie głębokim sieciom neuronowym, wyrafinowanym strukturom zaprojektowanym tak, aby naśladować funkcjonalność ludzkiego mózgu. Przechwytując i przetwarzając wieloaspektowe różnice w danych, sieci te stanowią szkielet wielu modeli generatywnych.

Jak powstają te modele generatywne? Zwykle są zbudowane z głębokich sieci neuronowych, zoptymalizowanych pod kątem wychwytywania wieloaspektowych różnic w danych. Doskonałym przykładem jest Generatywna sieć przeciwników (GAN), w którym dwie sieci neuronowe, generator i dyskryminator, konkurują i uczą się od siebie nawzajem w wyjątkowej relacji nauczyciel-uczeń. Od obrazów po transfer stylu, od komponowania muzyki po gry – modele te ewoluują i rozszerzają się w sposób wcześniej niewyobrażalny.

To nie kończy się na sieciach GAN. Wariacyjne Autoenkodery (VAE) to kolejny kluczowy gracz w dziedzinie modeli generatywnych. VAE wyróżniają się zdolnością do tworzenia fotorealistycznych obrazów z pozornie przypadkowych liczb. Jak? Przetwarzanie tych liczb za pomocą ukrytego wektora rodzi sztukę, która odzwierciedla złożoność ludzkiej estetyki.

Generacyjne typy AI: tekst na tekst, tekst na obraz

Transformatory i LLM

Papier "Uwaga jest wszystkim, czego potrzebujesz” autorstwa Google Brain oznaczało zmianę w sposobie myślenia o modelowaniu tekstu. Zamiast złożonych i sekwencyjnych architektur, takich jak Recurrent Neural Networks (RNN) lub Convolutional Neural Networks (CNN), model Transformer wprowadził koncepcję uwagi, która zasadniczo oznaczała skupianie się na różnych częściach tekstu wejściowego w zależności od kontekstu. Jedną z głównych zalet tego rozwiązania była łatwość zrównoleglenia. W przeciwieństwie do sieci RNN, które przetwarzają tekst sekwencyjnie, co utrudnia ich skalowanie, Transformers może przetwarzać części tekstu jednocześnie, dzięki czemu uczenie jest szybsze i wydajniejsze w przypadku dużych zbiorów danych.

W długim tekście nie każde słowo lub zdanie, które czytasz, ma takie samo znaczenie. Niektóre części wymagają większej uwagi ze względu na kontekst. Mechanizm uwagi naśladuje tę zdolność do przenoszenia uwagi w oparciu o znaczenie.

Aby to zrozumieć, pomyśl o zdaniu: „Unite AI Publikuj wiadomości o AI i robotyce”. Teraz przewidzenie następnego słowa wymaga zrozumienia tego, co jest najważniejsze w poprzednim kontekście. Termin „Robotyka” może sugerować, że następne słowo może być związane z konkretnym postępem lub wydarzeniem w dziedzinie robotyki, natomiast „Publikuj” może wskazywać, że następujący kontekst może dotyczyć niedawnej publikacji lub artykułu.

Wyjaśnienie mechanizmu samouwagi w zdaniu demota
Ilustracja samouważności

Mechanizmy uwagi w Transformersach zostały zaprojektowane tak, aby osiągnąć to selektywne skupienie. Oceniają znaczenie różnych części tekstu wejściowego i decydują, gdzie „szukać” podczas generowania odpowiedzi. Stanowi to odejście od starszych architektur, takich jak RNN, które próbowały upchnąć istotę całego tekstu wejściowego w jednym „stanie” lub „pamięci”.

Działanie uwagi można porównać do systemu wyszukiwania klucz-wartość. Próbując przewidzieć następne słowo w zdaniu, każde poprzedzające słowo oferuje „klucz” sugerujący jego potencjalne znaczenie i w zależności od tego, jak dobrze te klucze pasują do bieżącego kontekstu (lub zapytania), wnoszą „wartość” lub wagę do prognoza.

Te zaawansowane modele głębokiego uczenia się oparte na sztucznej inteligencji bezproblemowo integrują się z różnymi aplikacjami, od ulepszeń wyszukiwarki Google za pomocą BERT po Copilot GitHub, który wykorzystuje możliwości dużych modeli językowych (LLM) do konwertowania prostych fragmentów kodu na w pełni funkcjonalne kody źródłowe.

Modele dużego języka (LLM), takie jak GPT-4, Bard i LLaMA, to kolosalne konstrukcje zaprojektowane do odszyfrowania i generowania ludzkiego języka, kodu i nie tylko. Ich ogromny rozmiar, wahający się od miliardów do bilionów parametrów, jest jedną z cech definiujących. Te LLM są zasilane dużą ilością danych tekstowych, co pozwala im zrozumieć zawiłości ludzkiego języka. Uderzającą cechą tych modeli jest ich zdolność do „kilka strzałów" uczenie się. W przeciwieństwie do konwencjonalnych modeli, które wymagają ogromnych ilości konkretnych danych szkoleniowych, LLM mogą uogólniać na podstawie bardzo ograniczonej liczby przykładów (lub „ujęć”)

Stan modeli wielkojęzycznych (LLM) na okres po połowie 2023 r

Nazwa modeluDeweloperparametryDostępność i dostępGodne uwagi funkcje i uwagi
GPT-4OpenAI1.5 bilionaNie open source, tylko dostęp do APIImponująca wydajność w przypadku różnych zadań może przetwarzać obrazy i tekst, maksymalna długość wejściowa 32,768 XNUMX tokenów
GPT-3OpenAI175 mldNie open source, tylko dostęp do APIWykazano możliwości uczenia się metodą kilku strzałów i zerowego strzału. Wykonuje uzupełnianie tekstu w języku naturalnym.
BLOOMWielka nauka176 mldModel do pobrania, dostępny hostowany interfejs APIWielojęzyczny LLM opracowany w wyniku globalnej współpracy. Obsługuje 13 języków programowania.
MDAGoogle173 mldNie jest to oprogramowanie typu open source, nie ma interfejsu API ani pobieraniaWytrenowany w dialogu mógłby nauczyć się rozmawiać praktycznie o wszystkim
MT-NLGNvidia/Microsoft530 mldDostęp API przez aplikacjęWykorzystuje architekturę Megatron opartą na transformatorach do różnych zadań NLP.
LamaMeta sztuczna inteligencja7B do 65B)Do pobrania przez aplikacjęMa na celu demokratyzację sztucznej inteligencji poprzez zapewnienie dostępu osobom zajmującym się badaniami, rządem i środowiskiem akademickim.

Jak wykorzystywane są LLM?

LLM można wykorzystać na wiele sposobów, w tym:

  1. Bezpośrednie wykorzystanie: po prostu użycie wstępnie przeszkolonego LLM do generowania lub przetwarzania tekstu. Na przykład użycie GPT-4 do napisania wpisu na blogu bez dodatkowego dostrajania.
  2. Dostrajanie: dostosowywanie wstępnie przeszkolonego LLM do konkretnego zadania, metoda znana jako uczenie się transferowe. Przykładem może być dostosowanie T5 do generowania podsumowań dla dokumentów z konkretnej branży.
  3. Wyszukiwanie informacji: wykorzystanie LLM, takich jak BERT lub GPT, jako części większych architektur w celu opracowania systemów, które mogą pobierać i kategoryzować informacje.
Generacyjny czat AI Dostrajanie GPT
Architektura dostrajania ChatGPT

Uwaga wielogłowa: po co jeden, skoro można mieć wiele?

Jednak poleganie na jednym mechanizmie uwagi może być ograniczające. Różne słowa lub sekwencje w tekście mogą mieć różne rodzaje znaczenia lub skojarzeń. W tym miejscu pojawia się uwaga wielogłowa. Zamiast jednego zestawu wag uwagi, uwaga wielogłowa wykorzystuje wiele zestawów, dzięki czemu model może uchwycić bogatszą różnorodność relacji w tekście wejściowym. Każda „głowa” uwagi może skupiać się na różnych częściach lub aspektach danych wejściowych, a ich połączona wiedza jest wykorzystywana do ostatecznej prognozy.

ChatGPT: najpopularniejsze narzędzie generatywnej sztucznej inteligencji

Począwszy od powstania GPT w 2018 r., model opierał się zasadniczo na 12 warstwach, 12 głowach uwagi i 120 milionach parametrów, trenowanych głównie na zbiorze danych o nazwie BookCorpus. Był to imponujący początek, oferujący wgląd w przyszłość modeli językowych.

Zaprezentowany w 2 roku GPT-2019 mógł pochwalić się czterokrotnym wzrostem liczby warstw i uwagi. Co istotne, liczba parametrów gwałtownie wzrosła do 1.5 miliarda. Ta ulepszona wersja opiera się na szkoleniu z WebText, zbioru danych wzbogaconego o 40 GB tekstu z różnych łączy Reddit.

GPT-3, wystrzelony w maju 2020 r., miał 96 warstw, 96 głowic uwagi i ogromną liczbę parametrów wynoszącą 175 miliardów. Tym, co wyróżniało GPT-3, były różnorodne dane szkoleniowe, obejmujące CommonCrawl, WebText, angielską Wikipedię, korpusy książek i inne źródła, co dało łącznie 570 GB.

Zawiłości działania ChatGPT pozostają ściśle strzeżoną tajemnicą. Wiadomo jednak, że kluczowy jest proces nazywany „uczeniem się przez wzmacnianie na podstawie informacji zwrotnych od ludzi” (RLHF). Technika ta, wywodząca się z wcześniejszego projektu ChatGPT, odegrała kluczową rolę w udoskonaleniu modelu GPT-3.5, aby był bardziej zgodny z pisemnymi instrukcjami.

Szkolenie ChatGPT obejmuje podejście trójpoziomowe:

  1. Nadzorowane dostrajanie: obejmuje selekcję danych wejściowych i wyjściowych pisanych przez ludzi w celu udoskonalenia podstawowego modelu GPT-3.5.
  2. Modelowanie nagród: ludzie oceniają różne wyniki modelu na podstawie jakości, pomagając wytrenować model nagrody, który ocenia każdy wynik z uwzględnieniem kontekstu rozmowy.
  3. Uczenie się przez wzmacnianie: kontekst konwersacyjny służy jako tło, w którym podstawowy model proponuje odpowiedź. Odpowiedź ta jest oceniana za pomocą modelu nagrody, a proces jest optymalizowany przy użyciu algorytmu zwanego optymalizacją polityki proksymalnej (PPO).

Dla tych, którzy dopiero zaczynają przygodę z ChatGPT, można znaleźć obszerny przewodnik startowy tutaj. Jeśli chcesz głębiej zagłębić się w szybką inżynierię za pomocą ChatGPT, mamy również zaawansowany przewodnik wyjaśniający najnowsze i najnowocześniejsze techniki podpowiedzi, dostępny pod adresem „ChatGPT i zaawansowana inżynieria szybkiej obsługi: napędzanie ewolucji sztucznej inteligencji".

Modele dyfuzyjne i multimodalne

Podczas gdy modele takie jak VAE i GAN generują produkty w jednym przebiegu, a zatem są powiązane z tym, co wytwarzają, modele dyfuzyjne wprowadziły koncepcję „udoskonalanie iteracyjne'. Dzięki tej metodzie powtarzają się, poprawiając błędy z poprzednich kroków i stopniowo uzyskując bardziej dopracowany wynik.

Centralną częścią modeli dyfuzyjnych jest sztuka „korupcja” i „udoskonalenie”. W fazie uczenia typowy obraz jest stopniowo zniekształcany przez dodawanie różnych poziomów szumu. Ta zaszumiona wersja jest następnie przekazywana do modelu, który próbuje ją „odszumić” lub „usunąć korupcję”. Dzięki wielokrotnym cyklom model staje się biegły w renowacji, rozumiejąc zarówno subtelne, jak i znaczące aberracje.

Generatywna sztuczna inteligencja – podpowiedź w trakcie podróży
Obraz wygenerowany z podróży w trakcie podróży

Intrygujący jest proces generowania nowych obrazów po treningu. Zaczynając od całkowicie losowych danych wejściowych, są one stale udoskonalane przy użyciu przewidywań modelu. Celem jest uzyskanie nieskazitelnego obrazu przy minimalnej liczbie kroków. Kontrolowanie poziomu korupcji odbywa się poprzez „harmonogram szumów”, mechanizm regulujący ilość szumu stosowanego na różnych etapach. Harmonogram, taki jak w bibliotekach takich jak „dyfuzory„, dyktuje charakter tych zaszumionych wersji w oparciu o ustalone algorytmy.

Istotnym szkieletem architektonicznym wielu modeli dyfuzyjnych jest UNet— splotową sieć neuronową dostosowaną do zadań wymagających wyników odzwierciedlających przestrzenny wymiar danych wejściowych. Jest to połączenie warstw próbkowania w dół i w górę, misternie połączonych w celu zachowania danych o wysokiej rozdzielczości, kluczowych dla wyników związanych z obrazem.

Zagłębiając się w dziedzinę modeli generatywnych, OpenAI DALL-E2 jawi się jako doskonały przykład połączenia tekstowych i wizualnych możliwości sztucznej inteligencji. Wykorzystuje trójpoziomową strukturę:

DALL-E 2 prezentuje potrójną architekturę:

  1. Enkoder tekstu: przekształca podpowiedź tekstową w koncepcyjne osadzenie w ukrytej przestrzeni. Ten model nie zaczyna się od zera. Opiera się na wstępnym szkoleniu kontrastowego języka i obrazu OpenAI (CLIP) zbiór danych jako jego podstawa. CLIP służy jako pomost pomiędzy danymi wizualnymi i tekstowymi, ucząc się pojęć wizualnych przy użyciu języka naturalnego. Dzięki mechanizmowi zwanemu uczeniem się kontrastowym identyfikuje i dopasowuje obrazy do odpowiadających im opisów tekstowych.
  2. Priorytet: osadzony tekst uzyskany z kodera jest następnie konwertowany na osadzony obraz. W ramach projektu DALL-E 2 przetestowano w tym celu zarówno metodę autoregresyjną, jak i dyfuzyjną, przy czym ta ostatnia wykazała doskonałe wyniki. Modele autoregresyjne, jak widać w Transformers i PixelCNN, generują wyniki w sekwencjach. Z drugiej strony modele dyfuzyjne, takie jak ten zastosowany w DALL-E 2, przekształcają losowy szum w przewidywane osadzanie obrazu za pomocą osadzania tekstu.
  3. Dekoder: Punkt kulminacyjny procesu. W tej części generowany jest końcowy efekt wizualny w oparciu o komunikat tekstowy i osadzony obraz z poprzedniej fazy. Dekoder DALL.E 2 swoją architekturę zawdzięcza innemu modelowi, POŚLIZG, które mogą również tworzyć realistyczne obrazy na podstawie wskazówek tekstowych.
Architektura modelu DALL-E (model wielodyfuzyjny)
Uproszczona architektura modelu DALL-E

Zainteresowani użytkownicy Pythona Langchaina powinieneś zapoznać się z naszym szczegółowym samouczkiem obejmującym wszystko, od podstaw po zaawansowane techniki.

Zastosowania generatywnej sztucznej inteligencji

Domeny tekstowe

Począwszy od tekstu, generatywna sztuczna inteligencja została zasadniczo zmieniona przez chatboty, takie jak ChatGPT. Opierając się w dużym stopniu na przetwarzaniu języka naturalnego (NLP) i dużych modelach językowych (LLM), podmioty te są upoważnione do wykonywania zadań, począwszy od generowania kodu i tłumaczenia na język, po podsumowywanie i analizę nastrojów. Na przykład ChatGPT został szeroko przyjęty, stając się podstawą dla milionów. Jest to dodatkowo wspomagane przez konwersacyjne platformy AI oparte na LLM, takie jak GPT-4, Palma, BLOOM, które bez wysiłku tworzą tekst, pomagają w programowaniu, a nawet oferują rozumowanie matematyczne.

Z komercyjnego punktu widzenia modele te stają się nieocenione. Firmy zatrudniają ich do niezliczonych operacji, w tym do zarządzania ryzykiem, optymalizacji zapasów i prognozowania potrzeb. Niektóre godne uwagi przykłady obejmują Bing AI, Google BARD i ChatGPT API.

Sztuka

Świat obrazów przeszedł dramatyczne przemiany dzięki generatywnej sztucznej inteligencji, szczególnie od czasu wprowadzenia DALL-E 2 w 2022 r. Technologia ta, która może generować obrazy na podstawie podpowiedzi tekstowych, ma zarówno implikacje artystyczne, jak i zawodowe. Na przykład w trakcie podróży wykorzystano tę technologię do tworzenia imponująco realistycznych obrazów. Ten niedawny post demistyfikuje Podróż Środkową w szczegółowym przewodniku wyjaśniającym zarówno platformę, jak i jej zawiłości inżynieryjne. Co więcej, platformy takie jak Alpaca AI i Photoroom AI wykorzystują generatywną sztuczną inteligencję do zaawansowanych funkcji edycji obrazów, takich jak usuwanie tła, usuwanie obiektów, a nawet przywracanie twarzy.

Produkcja wideo

Produkcja wideo, choć wciąż na wczesnym etapie w dziedzinie generatywnej sztucznej inteligencji, prezentuje obiecujące postępy. Platformy takie jak Imagen Video, Meta Make A Video i Runway Gen-2 przesuwają granice tego, co jest możliwe, nawet jeśli na horyzoncie wciąż widać naprawdę realistyczne wyniki. Modele te oferują znaczną użyteczność w tworzeniu cyfrowych filmów wideo z udziałem ludzi, a na czele znajdują się aplikacje takie jak Synthesia i SuperCreator. Warto zauważyć, że Tavus AI oferuje wyjątkową propozycję sprzedaży poprzez personalizację filmów dla poszczególnych odbiorców, co jest dobrodziejstwem dla firm.

Tworzenie kodu

Kodowanie, niezbędny aspekt naszego cyfrowego świata, nie pozostało nietknięte przez generatywną sztuczną inteligencję. Chociaż ChatGPT jest ulubionym narzędziem, opracowano kilka innych aplikacji AI do celów kodowania. Platformy te, takie jak GitHub Copilot, Alphacode i CodeComplete, służą jako asystenci kodowania i mogą nawet tworzyć kod na podstawie podpowiedzi tekstowych. Intrygująca jest możliwość dostosowania tych narzędzi. Codex, siła napędowa GitHub Copilot, można dostosować do indywidualnego stylu kodowania, podkreślając potencjał personalizacji Generative AI.

Wnioski

Łącząc ludzką kreatywność z obliczeniami maszynowymi, przekształciło się w nieocenione narzędzie, a platformy takie jak ChatGPT i DALL-E 2 przesuwają granice tego, co można sobie wyobrazić. Od tworzenia treści tekstowych po tworzenie wizualnych arcydzieł – ich zastosowania są ogromne i zróżnicowane.

Jak w przypadku każdej technologii, najważniejsze są implikacje etyczne. Choć generatywna sztuczna inteligencja obiecuje nieograniczoną kreatywność, niezwykle ważne jest, aby wykorzystywać ją w sposób odpowiedzialny, mając świadomość potencjalnych uprzedzeń i mocy manipulacji danymi.

Ponieważ narzędzia takie jak ChatGPT stają się coraz bardziej dostępne, teraz jest idealny czas na przetestowanie wód i eksperymentowanie. Niezależnie od tego, czy jesteś artystą, programistą czy entuzjastą technologii, dziedzina generatywnej sztucznej inteligencji jest pełna możliwości czekających na odkrycie. Rewolucji nie widać na horyzoncie; jest tu i teraz. Zatem zanurz się!

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.