Inteligență artificială

Inteligența Artificială Generativă: Ideea din Spatele CHATGPT, Dall-E, Midjourney și Multe Altele

Published August 8, 2023

Updated April 4, 2026

Aayush Mittal Mittal

Lumea artei, a comunicării și a modului în care percepem realitatea se transformă rapid. Dacă ne uităm înapoi la istoria inovației umane, putem considera invenția roții sau descoperirea electricității ca salturi monumentale. Astăzi, o nouă revoluție are loc – podul dintre creativitatea umană și computația mașinilor. Acesta este Inteligența Artificială Generativă.

Modelele generative au estompat linia dintre oameni și mașini. Cu apariția unor modele precum GPT-4, care utilizează modulele transformer, am făcut un pas mai aproape de generarea naturală și contextuală a limbajului. Aceste progrese au alimentat aplicații în crearea de documente, sisteme de dialog pentru chatbot-uri și chiar compoziția de muzică sintetică.

Deciziile recente ale marilor companii de tehnologie subliniază importanța sa. Microsoft întrerupe deja aplicația Cortana această lună pentru a prioritiza inovațiile mai noi de Inteligență Artificială Generativă, precum Bing Chat. Apple a dedicat, de asemenea, o parte semnificativă a $22,6 miliarde bugetului de cercetare și dezvoltare inteligenței artificiale generative, așa cum a indicat CEO-ul Tim Cook.

O Eră Nouă de Modele: Generativ Vs. Discriminativ

Povestea Inteligenței Artificiale Generative nu este doar despre aplicațiile sale, ci fundamental despre funcționarea sa internă. În ecosistemul inteligenței artificiale, există două modele: discriminativ și generativ.

Modelele discriminative sunt ceea ce întâlnesc majoritatea oamenilor în viața de zi cu zi. Aceste algoritmi iau date de intrare, cum ar fi un text sau o imagine, și le asociază cu o ieșire țintă, cum ar fi o traducere a cuvintelor sau un diagnostic medical. Ele se referă la mapping și predicție.

Modelele generative, pe de altă parte, sunt creatori. Ele nu doar interpretează sau prevăd; ele generează noi ieșiri complexe din vectori de numere care adesea nu au legătură cu valorile din lumea reală.

Tehnologiile din Spatele Modelelor Generative

Modelele generative își datorează existența rețelelor neuronale profunde, structuri sofisticate proiectate pentru a imita funcționalitatea creierului uman. Prin capturarea și procesarea variațiilor multifacetate ale datelor, aceste rețele servesc ca coloană vertebrală a numeroaselor modele generative.

Cum iau naștere aceste modele generative? De obicei, ele sunt construite cu rețele neuronale profunde, optimizate pentru a capta variațiile multifacetate ale datelor. Un exemplu deosebit este Rețeaua Adversarială Generativă (GAN), unde două rețele neuronale, generatorul și discriminatorul, concurează și învață una de la alta într-o relație unică de profesor-elev. De la picturi la transfer de stil, de la compoziție muzicală la jocuri, aceste modele evoluează și se extind în moduri anterior de neimaginat.

Acest lucru nu se oprește la GAN-uri. Autoencoderii Variationali (VAE) sunt un alt jucător cheie în domeniul modelului generativ. VAE se remarcă prin capacitatea de a crea imagini fotorealiste din numere aparent aleatorii. Cum? Procesând aceste numere printr-un vector latent, se naște arta care oglindește complexitățile esteticii umane.

Tipuri de Inteligență Artificială Generativă: Text la Text, Text la Imagine

Transformatori & LLM

Articolul „Atenția este tot ce ai nevoie” de la Google Brain a marcat o schimbare în modul în care gândim despre modelarea textului. În loc de arhitecturi complexe și secvențiale, cum ar fi Rețelele Neuronale Recurente (RNN) sau Rețelele Neuronale Convolutive (CNN), modelul Transformer a introdus conceptul de atenție, care în esență a însemnat focalizarea pe diferite părți ale textului de intrare, în funcție de context. Unul dintre principalele beneficii ale acestui model a fost ușurința paralelizării. În timp ce RNN-urile procesează textul secvențial, făcându-le mai greu de scalat, Transformatorii pot procesa părți ale textului simultan, făcând antrenamentul mai rapid și mai eficient pe seturi de date mari.

: Arhitectura modelului Transformer

Într-un text lung, nu fiecare cuvânt sau propoziție are aceeași importanță. Unele părți cer mai multă atenție, în funcție de context. Această capacitate de a-și schimba focalizarea, în funcție de relevanță, este ceea ce mecanismul de atenție imită.

Pentru a înțelege acest lucru, gândiți-vă la o propoziție: “Unite AI publică știri despre Inteligență Artificială și Robotică.” Acum, pentru a prezice următorul cuvânt, este necesară o înțelegere a ceea ce contează mai mult în contextul anterior. Termenul ‘Robotică’ ar putea sugera că următorul cuvânt ar putea fi legat de o anumită realizare sau eveniment în domeniul roboticii, în timp ce ‘Publică’ ar putea indica că următorul context ar putea detalia o publicație recentă sau un articol.

: Ilustrarea mecanismului de auto-atenție

Mecanismele de atenție din Transformatori sunt proiectate pentru a realiza acest focus selectiv. Ele evaluează importanța diferitelor părți ale textului de intrare și decid unde să “privească” atunci când generează o răspuns. Acest lucru reprezintă o abordare diferită de arhitecturile mai vechi, cum ar fi RNN-urile, care încercau să încarce esența întregului text de intrare într-o singură “stare” sau “memorie”.

Funcționarea atenției poate fi comparată cu un sistem de recuperare a cheilor și valorilor. În încercarea de a prezice următorul cuvânt într-o propoziție, fiecare cuvânt anterior oferă o “cheie” care sugerează potențiala sa relevanță, și, în funcție de cât de bine se potrivesc aceste chei cu contextul curent (sau întrebarea), ele contribuie cu o “valoare” sau greutate la predicție.

Aceste avansate modele de învățare profundă ale inteligenței artificiale s-au integrat perfect în diverse aplicații, de la îmbunătățirile motorului de căutare Google cu BERT la GitHub’s Copilot, care folosește capacitatea Modelelor Lingvistice Mari (LLM) pentru a converti fragmente de cod simple în cod sursă complet funcțional.

Modelele Lingvistice Mari (LLM) precum GPT-4, Bard și LLaMA sunt construcții colosale proiectate pentru a decoda și genera limbaj uman, cod și multe altele. Dimensiunea lor imensă, care variază de la miliarde la trilioane de parametri, este una dintre caracteristicile definitorii. Aceste LLM-uri sunt hrănite cu cantități copioase de date text, permițându-le să înțeleagă nuanțele limbajului uman. O caracteristică remarcabilă a acestor modele este aptitudinea lor pentru “învățarea cu puține exemple” (few-shot learning). În contrast cu modelele convenționale, care necesită cantități mari de date de antrenament specifice, LLM-urile pot generaliza dintr-un număr foarte limitat de exemple (sau “împușcături”)

Starea Modelelor Lingvistice Mari (LLM) la mijlocul anului 2023

Numele modelului	Dezvoltator	Parametri	Disponibilitate și Acces	Caracteristici Notabile și Remarci
GPT-4	OpenAI	1,5 Trilioane	Nu este Open Source, Acces API doar	Performanță impresionantă într-o varietate de sarcini, poate procesa imagini și text, lungimea maximă a intrării de 32.768 de tokeni
GPT-3	OpenAI	175 miliarde	Nu este Open Source, Acces API doar	A demonstrat capacități de învățare cu puține exemple și zero exemple. Realizează completarea textului în limbaj natural.
BLOOM	BigScience	176 miliarde	Modelul poate fi descărcat, API-ul este disponibil	Model lingvistic multilingv dezvoltat prin colaborare globală. Suportă 13 limbi de programare.
LaMDA	Google	173 miliarde	Nu este Open Source, Fără API sau Descărcare	A fost antrenat pe dialog și poate învăța să vorbească despre aproape orice.
MT-NLG	Nvidia/Microsoft	530 miliarde	Acces API prin aplicație	Utilizează arhitectura Megatron bazată pe transformatori pentru diverse sarcini de NLP.
LLaMA	Meta AI	7M până la 65M)	Descărcare prin aplicație	Are ca scop democratizarea inteligenței artificiale, oferind acces celor din cercetare, guvern și academie.

Cum sunt Utilizate LLM-urile?

LLM-urile pot fi utilizate în multiple moduri, inclusiv:

Utilizare Directă: Utilizarea unui LLM preantrenat pentru generarea de text sau procesare. De exemplu, utilizarea GPT-4 pentru a scrie un articol de blog fără niciun fel de ajustare suplimentară.
Ajustare fină: Adaptarea unui LLM preantrenat pentru o sarcină specifică, o metodă cunoscută sub numele de transfer de învățare. Un exemplu ar fi personalizarea T5 pentru a genera rezumate pentru documente dintr-o anumită industrie.
Recuperare de Informații: Utilizarea LLM-urilor, precum BERT sau GPT, ca parte a unor arhitecturi mai mari pentru a dezvolta sisteme care pot prelua și categoriza informații.

: Arhitectura de ajustare fină a ChatGPT

Atenție Multi-Cap: De ce una când poți avea mai multe?

Cu toate acestea, a te baza pe un singur mecanism de atenție poate fi limitativ. Diferite cuvinte sau secvențe într-un text pot avea tipuri variate de relevanță sau asocieri. Aici intervine atenția multi-cap. În loc de un singur set de greutăți de atenție, atenția multi-cap utilizează multiple seturi, permițând modelului să capteze o varietate mai bogată de relații în textul de intrare. Fiecare “cap” de atenție poate se concentra pe diferite părți sau aspecte ale intrării, iar cunoștințele lor combinate sunt utilizate pentru predicția finală.

ChatGPT: Cel mai Popular Instrument de Inteligență Artificială Generativă

Începând cu lansarea GPT în 2018, modelul a fost esențial construit pe baza a 12 straturi, 12 capete de atenție și 120 de milioane de parametri, în principal antrenat pe un set de date numit BookCorpus. Acesta a fost un start impresionant, oferind o privire de ansamblu asupra viitorului modelelor de limbaj.

GPT-2, lansat în 2019, a avut o creștere de patru ori a numărului de straturi și capete de atenție. În mod semnificativ, numărul său de parametri a explodat la 1,5 miliarde. Această versiune îmbunătățită și-a derivat antrenamentul din WebText, un set de date îmbogățit cu 40GB de text din diverse legături Reddit.

GPT-3, lansat în mai 2020, a avut 96 de straturi, 96 de capete de atenție și un număr masiv de parametri de 175 miliarde. Ceea ce l-a diferențiat pe GPT-3 a fost datele sale diverse de antrenament, care au inclus CommonCrawl, WebText, Wikipedia în limba engleză, corpora de cărți și alte surse, combinând un total de 570 GB.

Intricările modului de funcționare a ChatGPT rămân un secret bine păzit. Cu toate acestea, un proces numit “învățare prin feedback uman” (RLHF) este cunoscut a fi crucial. Provenind dintr-un proiect anterior de ChatGPT, această tehnică a fost instrumentală în perfecționarea modelului GPT-3.5 pentru a fi mai aliniat cu instrucțiunile scrise.

Antrenamentul ChatGPT implică o abordare în trei etape:

Ajustare fină supravegheată: Implică crearea de intrări și ieșiri conversaționale scrise de oameni pentru a rafina modelul subiacent GPT-3.5.
Modelare a recompenselor: Oamenii clasifică diverse ieșiri ale modelului în funcție de calitate, ajutând la antrenarea unui model de recompensă care punctează fiecare ieșire, luând în considerare contextul conversației.
Învățare prin întărire: Contextul conversației servește ca fundal unde modelul subiacent propune un răspuns. Acest răspuns este evaluat de modelul de recompensă, iar procesul este optimizat utilizând un algoritm numit optimizarea politicii proximale (PPO).

Pentru cei care abia încep să exploreze ChatGPT, o ghid complet de început poate fi găsit aici. Dacă doriți să vă adânciți mai mult în ingineria prompturilor cu ChatGPT, avem și un ghid avansat care oferă informații despre cele mai recente și avansate tehnici de prompt, disponibil la ‘ChatGPT & Ingineria Avansată a Prompturilor: Conducerea Evoluției Inteligenței Artificiale‘.

Difuzie și Modele Multimodale

În timp ce modele precum VAE și GAN generează ieșirile lor printr-o singură trecere, fiind astfel blocate în ceea ce produc, modelele de difuzie au introdus conceptul de “rafinare iterativă”. Prin această metodă, ele se întorc, rafinând greșelile din pașii anteriori și producând treptat un rezultat mai rafinat.

Central în modelele de difuzie se află arta “corupției” și “rafinării”. În faza de antrenament, o imagine tipică este coruptă progresiv prin adăugarea de niveluri variate de zgomot. Această versiune zgomotoasă este apoi alimentată modelului, care încearcă să “dedeze” sau să “decoreze” imaginea. Prin multiple runde ale acestui proces, modelul devine priceput în restaurare, înțelegând atât aberațiile subtile, cât și pe cele semnificative.

: Imagine generată de Midjourney

Procesul de generare a noilor imagini după antrenament este intrigant. Începând cu o intrare complet randomizată, aceasta este rafinată continuu utilizând predicțiile modelului. Scopul este de a obține o imagine imaculată cu un număr minim de pași. Controlul nivelului de corupție se realizează prin intermediul unui “program de zgomot”, un mecanism care guvernează cât de mult zgomot este aplicat în diferite etape. Un programator, așa cum se vede în biblioteci precum “diffusers“, dictează natura acestor versiuni zgomotoase, bazându-se pe algoritmi stabiliți.

O componentă arhitecturală esențială pentru multe modele de difuzie este U-Net, o rețea neuronală convoluvională specializată pentru sarcini care necesită ieșiri care să reflecte dimensiunile spațiale ale intrărilor. Acesta este un amestec de straturi de down-sampling și up-sampling, conectate în mod intricat pentru a păstra date de înaltă rezoluție, esențiale pentru ieșirile legate de imagini.

Pătrunzând mai adânc în lumea modelelor generative, DALL-E 2 de la OpenAI apare ca un exemplu strălucit al fuziunii capacităților textuale și vizuale ale inteligenței artificiale. Acesta utilizează o structură în trei etape:

DALL-E 2 prezintă o arhitectură în trei etape:

Encoder de text: Acesta transformă promptul textual într-o încorporare conceptuală într-un spațiu latent. Acest model nu pornește de la zero. Se bazează pe setul de date de pre-antrenare Contrastive Language–Image (CLIP) de la OpenAI ca fundament. CLIP servește ca punte între datele vizuale și textuale, învățând concepte vizuale utilizând limbajul natural. Prin mecanismul de învățare contrastivă, identifică și asociază imagini cu descrierile lor textuale.
Modelul prior: Încorporarea textului derivată din encoder este apoi convertită într-o încorporare de imagine. DALL-E 2 a testat atât metode autoregresive, cât și de difuzie pentru această sarcină, cu difuzia demonstrând rezultate superioare. Modelele autoregresive, așa cum se observă în Transformatori și PixelCNN, generează ieșiri în secvențe. Pe de altă parte, modelele de difuzie, cum ar fi cel utilizat în DALL-E 2, transformă zgomotul aleator în încorporări de imagine predictibile, cu ajutorul încorporărilor textuale.
Decoder: Acesta este punctul culminant al procesului, generând ieșirea vizuală finală pe baza promptului textual și a încorporării de imagine din faza anterioară. Arhitectura decoderului DALL-E 2 se datorează unui alt model, GLIDE, care poate produce imagini realiste din prompturi textuale.

: Arhitectura simplificată a modelului DALL-E

Utilizatorii Python interesați de Langchain ar trebui să verifice tutorialul nostru detaliat, care acoperă totul, de la fundamente la tehnici avansate.

Aplikații ale Inteligenței Artificiale Generative

Domenii Textuale

Începând cu textul, Inteligența Artificială Generativă a fost fundamental schimbată de chatbot-uri precum ChatGPT. Bazându-se puternic pe Procesarea Limbajului Natural (NLP) și pe modelele lingvistice mari (LLM), aceste entități sunt capabile să execute sarcini care variază de la generarea de cod și traducerea limbajului la rezumare și analiză de sentiment. ChatGPT, de exemplu, a cunoscut o adoptare largă, devenind o unealtă esențială pentru milioane de oameni. Acest lucru este întărit și de platformele de inteligență conversațională, bazate pe LLM-uri precum GPT-4, PaLM și BLOOM, care produc cu ușurință text, asistă la programare și oferă chiar și raționament matematic.

Din punct de vedere comercial, aceste modele devin de neprețuit. Companiile le utilizează pentru o multitudine de operațiuni, inclusiv managementul riscului, optimizarea stocurilor și previziunea cererii. Unele exemple notabile includ Bing AI, BARD de la Google și API-ul ChatGPT.

Artă

Lumea imaginilor a cunoscut transformări dramatice cu Inteligența Artificială Generativă, mai ales de la introducerea DALL-E 2 în 2022. Această tehnologie, care poate genera imagini din prompturi textuale, are implicații atât artistice, cât și profesionale. De exemplu, midjourney a exploatat această tehnologie pentru a produce imagini realiste impresionant. Recent, un articol demistifică Midjourney într-un ghid detaliat, explicând atât platforma, cât și nuanțele ingineriei prompturilor. În plus, platforme precum Alpaca AI și Photoroom AI utilizează Inteligența Artificială Generativă pentru funcționalități avansate de editare a imaginilor, cum ar fi eliminarea fundalului, ștergerea obiectelor și chiar restaurarea fețelor.

Producția de Videoclipuri

Producția de videoclipuri, deși încă în stadiu incipient în domeniul Inteligenței Artificiale Generative, arată progrese promițătoare. Platforme precum Imagen Video, Meta Make A Video și Runway Gen-2 împing limitele a ceea ce este posibil, chiar dacă ieșirile realiste sunt încă pe orizont. Aceste modele oferă o utilitate substanțială pentru crearea de videoclipuri digitale cu umani, cu aplicații precum Synthesia și SuperCreator fiind lideri în acest domeniu. Notabil, Tavus AI oferă o propunere de vânzare unică, personalizând videoclipuri pentru membri individuali ai audienței, un avantaj pentru companii.

Crearea de Cod

Codarea, un aspect indispensabil al lumii noastre digitale, nu a rămas neatinsă de Inteligența Artificială Generativă. Deși ChatGPT este un instrument preferat, au fost dezvoltate și alte aplicații AI pentru scopuri de codare. Aceste platforme, cum ar fi GitHub Copilot, Alphacode și CodeComplete, servesc ca asistenți de codare și pot chiar produce cod din prompturi textuale. Ceea ce este interesant este adaptabilitatea acestor unelte. Codex, motorul din spatele GitHub Copilot, poate fi personalizat pentru a se potrivi cu stilul de codare al unui individ, subliniind potențialul de personalizare al Inteligenței Artificiale Generative.

Concluzie

Combinând creativitatea umană cu computația mașinilor, Inteligența Artificială Generativă a evoluat într-un instrument de neprețuit, cu platforme precum ChatGPT și DALL-E 2 care împing limitele a ceea ce este concepibil. De la crearea de conținut textual la sculptarea de capodopere vizuale, aplicațiile sale sunt vaste și variate.

Ca și în cazul oricărei tehnologii, implicațiile etice sunt de o importanță capitală. În timp ce Inteligența Artificială Generativă promite o creativitate nelimitată, este crucial să o utilizăm în mod responsabil, conștienți de posibilele prejudecăți și de puterea manipulării datelor.

Cu unelte precum ChatGPT devenind din ce în ce mai accesibile, este momentul perfect pentru a experimenta și a explora. Indiferent dacă sunteți artist, programator sau entuziast al tehnologiei, domeniul Inteligenței Artificiale Generative este plin de posibilități care așteaptă să fie explorate. Revoluția nu este pe orizont; ea este aici și acum. Așadar, Înotăm în ea!

Related Topics:chatgpt DALL-E deep learning generative ai LLM Midjourney

Aayush Mittal

Am petrecut ultimii cinci ani scufundându-mă în lumea fascinantă a Învățării Automate și a Învățării Profunde. Pasiunea și expertiza mea m-au condus să contribui la peste 50 de proiecte diverse de inginerie software, cu un accent deosebit pe AI/ML. Curiozitatea mea continuă m-a atras și spre Procesarea Limbajului Natural, un domeniu pe care sunt dornic să-l explorez mai departe.