Connect with us

Sztuczna inteligencja

Sztuczna Inteligencja Generatywna: Idea stojąca za CHATGPT, Dall-E, Midjourney i więcej

mm
Generative AI - Midjourney Prompt

Świat sztuki, komunikacji i postrzegania rzeczywistości przechodzi szybko przez transformację. Jeśli spojrzymy wstecz na historię ludzkiej innowacji, możemy uznać wynalezienie koła lub odkrycie prądu elektrycznego za monumentalne skoki. Dziś nowa rewolucja ma miejsce – most łączący ludzką kreatywność i maszynowe obliczenia. To Sztuczna Inteligencja Generatywna.

Modele generatywne zatarły granicę między ludźmi i maszynami. Z pojawieniem się modeli takich jak GPT-4, które wykorzystują moduły transformatora, zbliżyliśmy się do naturalnej i bogatej w kontekst generacji języka. Postępy te zapoczątkowały aplikacje w tworzeniu dokumentów, systemach dialogowych chatbotów i nawet w kompozycji muzyki syntetycznej.

Niedawne decyzje dużych firm tech podkreślają ich znaczenie. Microsoft już zakończył swoją aplikację Cortana w tym miesiącu, aby priorytetowo traktować nowsze innowacje Sztucznej Inteligencji Generatywnej, takie jak Bing Chat. Apple również poświęcił znaczną część swojego $22,6 miliardowego budżetu badań i rozwoju na Sztuczną Inteligencję Generatywną, jak wskazał CEO Tim Cook.

Nowa Era Modeli: Generatywne Vs. Dyskryminatywne

Historia Sztucznej Inteligencji Generatywnej nie dotyczy tylko jej zastosowań, ale fundamentalnie jej wewnętrznych mechanizmów. W ekosystemie sztucznej inteligencji istnieją dwa modele: dyskryminatywne i generatywne.

Modele dyskryminatywne to te, z którymi większość ludzi spotyka się w codziennym życiu. Algorytmy te pobierają dane wejściowe, takie jak tekst lub obraz, i łączą je z docelowym wyjściem, takim jak tłumaczenie słowa lub diagnoza medyczna. Chodzi o mapowanie i predykcję.

Modele generatywne, z drugiej strony, są twórcami. Nie tylko interpretują lub przewidują; generują nowe, złożone dane wyjściowe z wektorów liczb, które często nie są nawet związane z wartościami rzeczywistymi.

 

Typy Sztucznej Inteligencji Generatywnej: Tekst do Tekstu, Tekst do Obrazu (GPT, DALL-E, Midjourney)

Technologie za Modelami Generatywnymi

Modele generatywne zawdzięczają swoje istnienie głębokim sieciom neuronowym, złożonym strukturom zaprojektowanym do naśladowania funkcjonalności ludzkiego mózgu. Przechwytując i przetwarzając wielowarstwowe zmiany w danych, sieci te służą jako kręgosłup licznych modeli generatywnych.

Jak te modele generatywne przychodzą do życia? Zwykle są budowane z głębokich sieci neuronowych, zoptymalizowanych do przechwycenia wielowarstwowych zmian w danych. Przykładem jest Generative Adversarial Network (GAN), gdzie dwie sieci neuronowe, generator i dyskryminator, konkurują i uczą się od siebie w unikalnej relacji nauczyciel-uczeń. Od malowideł po transfer stylu, od kompozycji muzyki po grę, te modele ewoluują i rozszerzają się w sposób wcześniej niewyobrażalny.

To nie kończy się na GAN. Variational Autoencoders (VAE) są innym kluczowym graczem w polu modeli generatywnych. VAE wyróżniają się zdolnością tworzenia fotorealistycznych obrazów z pozornie losowych liczb. Jak? Przetwarzając te liczby przez wektor ukryty, rodzą się dzieła sztuki, które odbijają złożoności ludzkiej estetyki.

Typy Sztucznej Inteligencji Generatywnej: Tekst do Tekstu, Tekst do Obrazu

Transformery & LLM

Artykuł „Attention Is All You Need” autorstwa Google Brain oznaczał zmianę w sposobie myślenia o modelowaniu tekstu. Zamiast złożonych i sekwencyjnych architektur, takich jak Recurrent Neural Networks (RNN) lub Convolutional Neural Networks (CNN), model Transformer wprowadził pojęcie uwagi, które oznaczało skupienie się na różnych częściach tekstu wejściowego w zależności od kontekstu. Jednym z głównych korzyści było ułatwienie równoległości. W przeciwieństwie do RNN, które przetwarzają tekst sekwencyjnie, co utrudnia ich skalowanie, Transformatory mogą przetwarzać części tekstu jednocześnie, co sprawia, że trening jest szybszy i bardziej wydajny na dużych zbiorach danych.

W długim tekście nie każde słowo lub zdanie ma takie same znaczenie. Niektóre części wymagają większej uwagi w zależności od kontekstu. Ta zdolność do przesunięcia naszej uwagi w oparciu o istotność jest tym, co mechanizm uwagi naśladuje.

Aby to zrozumieć, pomyśl o zdaniu: “Unite AI Publikuje wiadomości AI i robotyki.” Teraz, przewidywanie następnego słowa wymaga zrozumienia, co jest najważniejsze w poprzednim kontekście. Termin ‘robotyka’ może sugerować, że następne słowo może być związane z konkretnym postępem lub wydarzeniem w dziedzinie robotyki, podczas gdy ‘Publikuje’ może wskazywać, że następny kontekst może dotyczyć niedawnego publikacji lub artykułu.

Mechanizm samouwagi na przykładzie zdania
Ilustracja samouwagi

Mechanizmy uwagi w Transfomerach są zaprojektowane do osiągnięcia tego wybiórczego skupienia. Ocenią one znaczenie różnych części tekstu wejściowego i zdecydują, gdzie „spojrzeć”, generując odpowiedź. To odbiega od starszych architektur, takich jak RNN, które próbowały wcisnąć esencję całego tekstu wejściowego do jednego „stanu” lub „pamięci”.

Działanie uwagi można porównać do systemu pobierania kluczy-wartości. Próbując przewidzieć następne słowo w zdaniu, każde poprzedzające słowo oferuje „klucz” sugerujący jego potencjalne znaczenie, a na podstawie tego, jak dobrze te klucze pasują do bieżącego kontekstu (lub zapytania), przyczyniają się do „wartości” lub wagi przewidywania.

Te zaawansowane modele głębokiego uczenia się zostały bezproblemowo zintegrowane z różnymi aplikacjami, od ulepszeń wyszukiwarki Google z BERT do GitHub’s Copilot, który wykorzystuje możliwości Dużych Modeli Językowych (LLM), aby przekształcić proste fragmenty kodu w pełnoprawny kod źródłowy.

Duże Modele Językowe (LLM) takie jak GPT-4, Bard i LLaMA są ogromnymi konstruktami zaprojektowanymi do odczytywania i generowania ludzkiego języka, kodu i więcej. Ich ogromna wielkość, sięgająca od miliardów do bilionów parametrów, jest jedną z cech definiujących. Te LLM są karmione ogromnymi ilościami danych tekstowych, umożliwiając im zrozumienie zawiłości języka ludzkiego. Jedną z uderzających cech tych modeli jest ich zdolność do „niewielu strzałów” uczenia. W przeciwieństwie do konwencjonalnych modeli, które wymagają ogromnych ilości specyficznych danych szkoleniowych, LLM mogą uogólniać z bardzo ograniczonej liczby przykładów (lub „strzałów”)

Stan Dużych Modeli Językowych (LLM) na koniec 2023

Nazwa Modelu Twórca Parametry Dostępność i Dostęp Godne uwagi cechy i uwagi
GPT-4 OpenAI 1,5 biliona Nie jest otwarte, dostęp tylko przez API Impresjonujące wyniki w różnych zadaniach, może przetwarzać obrazy i tekst, maksymalna długość wejścia to 32 768 tokenów
GPT-3 OpenAI 175 miliardów Nie jest otwarte, dostęp tylko przez API Wykazały zdolność do uczenia się z niewielu strzałów i bez strzałów. Wykonują uzupełnianie tekstu w języku naturalnym.
BLOOM BigScience 176 miliardów Model do pobrania, dostępny API Model językowy wielojęzyczny opracowany przez globalną współpracę. Obsługuje 13 języków programowania.
LaMDA Google 173 miliardy Nie jest otwarte, brak API lub pobierania Uczony na dialogach, mógłby nauczyć się rozmawiać o niemal wszystkim
MT-NLG Nvidia/Microsoft 530 miliardów Dostęp do API po zastosowaniu Wykorzystuje architekturę Megatron opartą na transformatore dla różnych zadań NLP.
LLaMA Meta AI 7B do 65B) Model do pobrania po zastosowaniu Zamierza udemokratyzować AI, oferując dostęp osobom z dziedziny badań, rządu i akademii.

Jak są wykorzystywane LLM?

LLM mogą być wykorzystywane na wiele sposobów, w tym:

  1. Bezpośrednie wykorzystanie: Po prostu korzystanie z wstępnie wytrenowanego LLM do generacji lub przetwarzania tekstu. Na przykład, korzystanie z GPT-4 do napisania posta na blogu bez dodatkowego dostrajania.
  2. Dostrajanie: Dostosowanie wstępnie wytrenowanego LLM do konkretnego zadania, metoda znana jako transfer learning. Przykładem byłoby dostosowanie T5 do generowania podsumowań dokumentów w określonej branży.
  3. Odzyskiwanie informacji: Używanie LLM, takich jak BERT lub GPT, jako części większych architektur do tworzenia systemów, które mogą pobierać i klasyfikować informacje.
Dostosowanie ChatGPT
Architektura dostosowania ChatGPT

Wielogłowa uwaga: Dlaczego jeden, gdy można mieć wiele?

Jednak poleganie na jednym mechanizmie uwagi może być ograniczające. Różne słowa lub sekwencje w tekście mogą mieć różne typy powiązań. To jest miejsce, w którym wielogłowa uwaga przychodzi. Zamiast jednego zestawu wag uwagi, wielogłowa uwaga zatrudnia wiele zestawów, pozwalając modelowi przechwytywać bogatszy zestaw relacji w tekście wejściowym. Każda „głowa” uwagi może skupiać się na różnych częściach lub aspektach wejścia, a ich połączona wiedza jest używana do ostatecznej predykcji.

ChatGPT: Najpopularniejsze narzędzie Sztucznej Inteligencji Generatywnej

Zaczynając od powstania GPT w 2018 roku, model był zasadniczo zbudowany na fundamencie 12 warstw, 12 głów uwagi i 120 milionów parametrów, głównie wytrenowany na zbiorze danych BookCorpus. To był imponujący start, oferujący wgląd w przyszłość modeli językowych.

GPT-2, przedstawiony w 2019 roku, miał czterokrotny wzrost warstw i głów uwagi. Znacząco, jego liczba parametrów wzrosła do 1,5 miliarda. Ta ulepszona wersja pochodziła ze zbioru danych WebText, wzbogaconego o 40 GB tekstu z różnych linków Reddit.

GPT-3, wydany w maju 2020 roku, miał 96 warstw, 96 głów uwagi i ogromną liczbę parametrów – 175 miliardów. To, co odróżniało GPT-3, było różnorodne dane szkoleniowe, obejmujące CommonCrawl, WebText, angielską Wikipedię, zbiory książek i inne źródła, łącząc się na łączną sumę 570 GB.

Zasady działania ChatGPT pozostają ściśle strzeżoną tajemnicą. Jednak proces zwany „wzmocnionym uczeniem ze sprzężeniem zwrotnym od ludzi” (RLHF) jest znany jako kluczowy. Pochodzący z wcześniejszego projektu ChatGPT, ta technika była niezwykle ważna w doskonaleniu modelu GPT-3.5, aby był bardziej zgodny z napisanymi instrukcjami.

Szkolenie ChatGPT składa się z trzystopniowego podejścia:

  1. Dostosowanie nadzorowane: Obejmuje tworzenie ludzkich wejść i wyjść konwersacyjnych w celu udoskonalenia podstawowego modelu GPT-3.5.
  2. Modelowanie nagród: Ludzie oceniają różne wyjścia modelu pod kątem jakości, pomagając wytrenować model nagród, który ocenia każde wyjście, biorąc pod uwagę kontekst rozmowy.
  3. Wzmocnione uczenie: Kontekst rozmowy służy jako tło, na którym podstawowy model proponuje odpowiedź. Odpowiedź ta jest oceniana przez model nagród, a proces jest optymalizowany za pomocą algorytmu o nazwie proximal policy optimization (PPO).

Dla tych, którzy dopiero zaczynają swoją przygodę z ChatGPT, kompleksowy przewodnik startowy można znaleźć tutaj. Jeśli chcesz zagłębić się głębiej w inżynierię promtu z ChatGPT, mamy również przewodnik zaawansowany, który rzuca światło na najnowsze i najbardziej zaawansowane techniki promtu, dostępny w ‘ChatGPT & Zaawansowana inżynieria promtu: napędzanie ewolucji AI‘.

Dyfuzja i wielomodalne modele

Podczas gdy modele takie jak VAE i GAN generują swoje wyjścia przez jeden przebieg, więc są zablokowane w tym, co produkują, modele dyfuzyjne wprowadziły pojęcie „iteracyjnej poprawy”. Za pomocą tego metody, krążą z powrotem, poprawiając błędy z poprzednich kroków i stopniowo produkując bardziej wyrafinowany wynik.

Centralnym elementem modeli dyfuzyjnych jest sztuka „zanieczyszczenia” i „poprawy”. W ich fazie szkolenia, typowy obraz jest stopniowo zanieczyszczany przez dodanie różnych poziomów szumu. Ta wersja zaszumiona jest następnie podana do modelu, który próbuje „odszumiać” lub „odzyskać” ją. Przez wiele rund tego procesu, model staje się biegły w rekonstrukcji, rozumiejąc zarówno subtelne, jak i znaczące aberracje.

Obraz wygenerowany z Midjourney
Obraz wygenerowany z Midjourney

Proces generowania nowych obrazów po szkoleniu jest interesujący. Zaczynając od całkowicie losowego wejścia, jest ono nieustannie poprawiane za pomocą predykcji modelu. Zamierzeniem jest osiągnięcie czystego obrazu z minimalną liczbą kroków. Kontrolowanie poziomu zanieczyszczenia odbywa się za pomocą „harmonogramu szumu”, mechanizmu, który kontroluje, ile szumu jest stosowane na różnych etapach. Planista, jak można zobaczyć w bibliotekach takich jak „diffusers”, dyktuje naturę tych zaszumionych wersji na podstawie ustalonych algorytmów.

Istotnym elementem architektonicznym dla wielu modeli dyfuzyjnych jest UNet – sieć neuronowa konwolucyjna dostosowana do zadań wymagających wyjść o wymiarach przestrzennych wejść. Jest to połączenie warstw subsamplingu i upsamplingu, ściśle połączonych, aby zachować dane o wysokiej rozdzielczości, co jest kluczowe dla wyjść związanych z obrazami.

Zanurzając się głębiej w dziedzinie modeli generatywnych, DALL-E 2 od OpenAI pojawia się jako błyskotliwy przykład fuzji zdolności tekstowych i wizualnych AI. Wykorzystuje strukturę trójwarstwową:

DALL-E 2 prezentuje trójwarstwową architekturę:

  1. Kodowanie tekstu: Przekształca tekstowy promt w konceptualne osadzenie w przestrzeni latentnej. Ten model nie zaczyna od zera. Opiera się na zestawie danych OpenAI’s Contrastive Language–Image Pre-training (CLIP) jako swojej podstawy. CLIP służy jako mostek między danymi wizualnymi i tekstowymi, ucząc się pojęć wizualnych za pomocą języka naturalnego. Za pomocą mechanizmu zwanego kontrastowym uczeniem, identyfikuje i dopasowuje obrazy do ich odpowiednich opisów tekstowych.
  2. Model priorytetowy: Osadzanie tekstu pochodzące z kodera jest następnie przekształcane w osadzanie obrazu. DALL-E 2 przetestował zarówno autoregresyjne, jak i dyfuzyjne metody do tego zadania, z tym ostatnim prezentując lepsze wyniki. Modele autoregresyjne, jak te widoczne w Transfomerach i PixelCNN, generują wyjścia sekwencyjnie. Z drugiej strony, modele dyfuzyjne, takie jak ten użyty w DALL-E 2, przekształcają losowy szum w przewidywane osadzanie obrazu za pomocą osadzania tekstu.
  3. Decoder: Kulminacja procesu, ta część generuje ostateczne wyjście wizualne na podstawie promtu tekstu i osadzania obrazu z fazy priorytetowej. Decoder DALL-E 2 zawdzięcza swoją architekturę innemu modelowi, GLIDE, który również może produkować realistyczne obrazy z podpowiedziami tekstowymi.
Uproszczona architektura modelu DALL-E
Uproszczona architektura modelu DALL-E

Użytkownicy Pythona zainteresowani Langchain powinni sprawdzić nasz szczegółowy samouczek, który obejmuje wszystko od podstaw do zaawansowanych technik.

Zastosowania Sztucznej Inteligencji Generatywnej

Domeny tekstowe

Zaczynając od tekstu, Sztuczna Inteligencja Generatywna została fundamentalnie zmieniona przez chatboty takie jak ChatGPT. Opierając się głęboko na Przetwarzaniu Języka Naturalnego (NLP) i dużych modelach językowych (LLM), te jednostki są wyposażone w wykonywanie zadań od generacji kodu i tłumaczenia języka po sumaryzowanie i analizę sentymentu. ChatGPT, na przykład, spotkał się z powszechnym przyjęciem, stając się podstawą dla milionów. To jest dalej wspierane przez platformy AI konwersacyjne, oparte na LLM, takich jak GPT-4, PaLM i BLOOM, które bez wysiłku produkują tekst, pomagają w programowaniu i nawet oferują rozumowanie matematyczne.

Z komercyjnego punktu widzenia, te modele stają się niezwykle cennymi. Firmy wykorzystują je do różnych operacji, w tym zarządzania ryzykiem, optymalizacji zapasów i prognozowania popytu. Niektóre godne uwagi przykłady obejmują Bing AI, Google’s BARD i API ChatGPT.

Sztuka

Świat obrazów przeszedł dramatyczne transformacje dzięki Sztucznej Inteligencji Generatywnej, szczególnie od wprowadzenia DALL-E 2 w 2022 roku. Ta technologia, która może generować obrazy z promtów tekstowych, ma zarówno artystyczne, jak i profesjonalne implikacje. Na przykład, Midjourney wykorzystał tę technologię do produkcji imponująco realistycznych obrazów. Ten ostatni post demistyfikuje Midjourney w szczegółowym przewodniku, wyjaśniając zarówno platformę, jak i jej zawiłości inżynierii promtu. Ponadto, platformy takie jak Alpaca AI i Photoroom AI wykorzystują Sztuczną Inteligencję Generatywną do zaawansowanych funkcji edycji obrazu, takich jak usuwanie tła, usuwanie obiektów i nawet rekonstrukcja twarzy.

Produkcja wideo

Produkcja wideo, chociaż nadal w swoim początkowym stadium w dziedzinie Sztucznej Inteligencji Generatywnej, prezentuje obiecujące postępy. Platformy takie jak Imagen Video, Meta Make A Video i Runway Gen-2 są na granicy tego, co jest możliwe, nawet jeśli prawdziwie realistyczne wyjścia są jeszcze na horyzoncie. Te modele oferują znaczącą użyteczność do tworzenia cyfrowych filmów z ludźmi, z aplikacjami takimi jak Synthesia i SuperCreator na czele. Godne uwagi jest to, że Tavus AI oferuje unikalną propozycję wartości, personalizując filmy dla poszczególnych członków widowni, co jest błogosławieństwem dla firm.

Tworzenie kodu

Kodowanie, niezbywalny aspekt naszego cyfrowego świata, nie pozostało nietknięte przez Sztuczną Inteligencję Generatywną. Chociaż ChatGPT jest ulubionym narzędziem, wiele innych aplikacji AI zostało opracowanych do celów programistycznych. Te platformy, takie jak GitHub Copilot, Alphacode i CodeComplete, służą jako asystenci programistyczni i mogą nawet produkować kod z promtów tekstowych. Co jest interesujące, jest elastyczność tych narzędzi. Codex, siła napędowa za GitHub Copilot, może być dostosowany do stylu kodowania jednostki, podkreślając potencjał personalizacji Sztucznej Inteligencji Generatywnej.

Podsumowanie

Łącząc ludzką kreatywność z maszynowymi obliczeniami, Sztuczna Inteligencja Generatywna ewoluowała w niezwykle cennym narzędziu, z platformami takimi jak ChatGPT i DALL-E 2, które poszerzają granice tego, co jest możliwe. Od tworzenia treści tekstowych po rzeźbienie wizualnych arcydzieł, ich zastosowania są ogromne i różnorodne.

Jednak jak w przypadku każdej technologii, implikacje etyczne są najwyższej wagi. Podczas gdy Sztuczna Inteligencja Generatywna obiecuje nieograniczoną kreatywność, jest kluczowe, aby ją wykorzystywać w sposób odpowiedzialny, będąc świadomym potencjalnych stronniczości i mocy manipulacji danymi.

Z narzędziami takimi jak ChatGPT stającymi się bardziej dostępnymi, jest to idealny moment, aby sprawdzić wody i eksperymentować. Niezależnie od tego, czy jesteś artystą, programistą czy entuzjastą techniki, dziedzina Sztucznej Inteligencji Generatywnej jest pełna możliwości oczekujących na odkrycie. Rewolucja nie jest na horyzoncie; jest tu i teraz. Więc, Zanurz się!

Spędziłem ostatnie pięć lat, zanurzając się w fascynującym świecie Machine Learning i Deep Learning. Moja pasja i ekspertyza doprowadziły mnie do udziału w ponad 50 różnych projektach inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja nieustanna ciekawość również skierowała mnie w stronę Natural Language Processing, dziedziny, którą chcę bardziej zbadać.