cung AI gjeneruese: Ideja prapa CHATGPT, Dall-E, Midjourney dhe më shumë - Unite.AI
Lidhu me ne

Inteligjenca artificiale

AI gjeneruese: Ideja prapa CHATGPT, Dall-E, Midjourney dhe më shumë

mm
Përditësuar on
AI gjenerative - Prompt Midjourney

Bota e artit, komunikimit dhe mënyra se si ne e perceptojmë realitetin po transformohet me shpejtësi. Nëse shikojmë prapa në historinë e inovacionit njerëzor, mund ta konsiderojmë shpikjen e rrotës ose zbulimin e energjisë elektrike si kërcime monumentale. Sot, një revolucion i ri po ndodh - duke kapërcyer ndarjen midis krijimtarisë njerëzore dhe llogaritjes së makinës. Kjo është AI gjenerative.

Modelet gjeneruese kanë mjegulluar kufirin midis njerëzve dhe makinave. Me ardhjen e modeleve si GPT-4, që përdor modulet e transformatorëve, ne i jemi afruar krijimit të gjuhëve natyrore dhe të pasura me kontekst. Këto përparime kanë nxitur aplikime në krijimin e dokumenteve, sistemet e dialogut chatbot dhe madje edhe kompozimin e muzikës sintetike.

Vendimet e fundit të Big-Tech nënvizojnë rëndësinë e saj. Microsoft është tashmë duke ndërprerë aplikacionin e tij Cortana këtë muaj për t'i dhënë përparësi inovacioneve më të reja Generative AI, si Bing Chat. Apple ka kushtuar gjithashtu një pjesë të konsiderueshme të saj Buxheti 22.6 miliardë dollarë për Kërkim dhe Zhvillim tek AI gjeneruese, siç tregohet nga CEO Tim Cook.

Një epokë e re e modeleve: Gjenerative kundër. Diskriminuese

Historia e Generative AI nuk ka të bëjë vetëm me aplikimet e saj, por në thelb me funksionimin e saj të brendshëm. Në ekosistemin e inteligjencës artificiale ekzistojnë dy modele: diskriminuese dhe gjeneruese.

Modelet diskriminuese janë ato që shumica e njerëzve hasin në jetën e përditshme. Këto algoritme marrin të dhëna hyrëse, të tilla si një tekst ose një imazh, dhe i bashkojnë ato me një dalje të synuar, si përkthimi i fjalës ose diagnoza mjekësore. Ata kanë të bëjnë me hartën dhe parashikimin.

Modelet gjeneruese, nga ana tjetër, janë krijues. Ata nuk interpretojnë apo parashikojnë vetëm; ato gjenerojnë rezultate të reja, komplekse nga vektorët e numrave që shpesh nuk janë as të lidhur me vlerat e botës reale.

 

Llojet gjeneruese të AI: Tekst në tekst, Tekst në imazh (GPT, DALL-E, Midjourney)

Teknologjitë prapa modeleve gjeneruese

Modelet gjeneruese i detyrohen ekzistencës së tyre rrjeteve të thella nervore, strukturave të sofistikuara të krijuara për të imituar funksionalitetin e trurit të njeriut. Duke kapur dhe përpunuar ndryshime të shumëanshme në të dhëna, këto rrjete shërbejnë si shtylla kurrizore e modeleve të shumta gjeneruese.

Si marrin jetë këto modele gjeneruese? Zakonisht, ato ndërtohen me rrjete nervore të thella, të optimizuara për të kapur variacionet e shumëanshme të të dhënave. Një shembull kryesor është Rrjeti i kundërshtarëve gjenerues (GAN), ku dy rrjete nervore, gjeneratori dhe diskriminuesi, konkurrojnë dhe mësojnë nga njëri-tjetri në një marrëdhënie unike mësues-nxënës. Nga pikturat te transferimi i stilit, nga kompozimi muzikor tek loja, këto modele po zhvillohen dhe zgjerohen në mënyra të paimagjinueshme më parë.

Kjo nuk ndalet me GAN-et. Autoenkoderë variacionalë (VAEs), janë një tjetër lojtar kryesor në fushën e modelit gjenerues. VAE-të dallohen për aftësinë e tyre për të krijuar imazhe fotorealiste nga numra në dukje të rastit. Si? Përpunimi i këtyre numrave përmes një vektori latent lind një art që pasqyron kompleksitetin e estetikës njerëzore.

Llojet gjeneruese të AI: Tekst në tekst, Tekst në imazh

Transformers & LLM

Letra "Vëmendja është gjithçka që ju nevojitet” nga Google Brain shënoi një ndryshim në mënyrën se si ne mendojmë për modelimin e tekstit. Në vend të arkitekturave komplekse dhe sekuenciale si Rrjetet Neural Recurrent (RNN) ose Rrjetet Neural Konvolutional (CNN), modeli Transformer prezantoi konceptin e vëmendjes, që në thelb nënkupton fokusimin në pjesë të ndryshme të tekstit hyrës në varësi të kontekstit. Një nga përfitimet kryesore të kësaj ishte lehtësia e paralelizimit. Ndryshe nga RNN-të që përpunojnë tekstin në mënyrë sekuenciale, duke i bërë ato më të vështira për t'u shkallëzuar, Transformers mund të përpunojnë pjesë të tekstit në të njëjtën kohë, duke e bërë trajnimin më të shpejtë dhe më efikas në grupe të dhënash të mëdha.

Transformator-model arkitekturë

Në një tekst të gjatë, jo çdo fjalë apo fjali që lexoni ka të njëjtën rëndësi. Disa pjesë kërkojnë më shumë vëmendje bazuar në kontekst. Kjo aftësi për të zhvendosur fokusin tonë bazuar në rëndësinë është ajo që imiton mekanizmi i vëmendjes.

Për ta kuptuar këtë, mendoni për një fjali: "Uni AI Publish AI and Robotics news". Tani, parashikimi i fjalës tjetër kërkon një kuptim të asaj që ka më shumë rëndësi në kontekstin e mëparshëm. Termi 'Robotikë' mund të sugjerojë që fjala tjetër mund të lidhet me një përparim ose ngjarje specifike në fushën e robotikës, ndërsa 'Publikoj' mund të tregojë se konteksti i mëposhtëm mund të thellohet në një botim ose artikull të fundit.

Shpjegimi i Mekanizmit të Vetë-Vëmendjes në një fjali demo
Ilustrim i Vetë-Vëmendjes

Mekanizmat e vëmendjes në Transformers janë krijuar për të arritur këtë fokus selektiv. Ata vlerësojnë rëndësinë e pjesëve të ndryshme të tekstit hyrës dhe vendosin se ku të "shikojnë" kur gjenerojnë një përgjigje. Ky është një largim nga arkitekturat e vjetra si RNN-të që u përpoqën të grumbullonin thelbin e të gjithë tekstit hyrës në një 'gjendje' ose 'memorje' të vetme.

Funksionet e vëmendjes mund të krahasohen me një sistem të rikthimit të vlerës së çelësit. Në përpjekjen për të parashikuar fjalën tjetër në një fjali, secila fjalë e mëparshme ofron një 'çelës' që sugjeron rëndësinë e tij të mundshme dhe bazuar në atë se sa mirë përputhen këta çelësa me kontekstin aktual (ose pyetjen), ata kontribuojnë me një 'vlerë' ose peshë në parashikim.

Këto modele të avancuara të mësimit të thellë të inteligjencës artificiale janë integruar pa probleme në aplikacione të ndryshme, nga përmirësimet e motorit të kërkimit të Google me BERT tek GitHub's Copilot, i cili shfrytëzon aftësinë e Modeleve të Gjuhëve të Mëdha (LLM) për të kthyer copa të thjeshta kodi në kode burimore plotësisht funksionale.

Modelet e mëdha të gjuhës (LLM) si GPT-4, Bard dhe LLaMA, janë konstruksione kolosale të krijuara për të deshifruar dhe gjeneruar gjuhën njerëzore, kodin dhe më shumë. Madhësia e tyre e madhe, që varion nga miliarda në triliona parametra, është një nga karakteristikat përcaktuese. Këto LLM ushqehen me sasi të bollshme të dhënash teksti, duke u mundësuar atyre të kuptojnë ndërlikimet e gjuhës njerëzore. Një karakteristikë e habitshme e këtyre modeleve është aftësia e tyre për "pak të shtënë” të mësuarit. Ndryshe nga modelet konvencionale që kanë nevojë për sasi të mëdha të të dhënave specifike të trajnimit, LLM-të mund të përgjithësohen nga një numër shumë i kufizuar shembujsh (ose "të shtëna")

Gjendja e Modeleve të Mëdha të Gjuhës (LLM) që nga mesi i vitit 2023

Emri ModeliZhvilluesParametersDisponueshmëria dhe qasjaVeçori dhe vërejtje të dukshme
GPT-4OpenAI1.5 trilionJo me burim të hapur, vetëm akses në APIPerformanca mbresëlënëse në një sërë detyrash mund të përpunojë imazhe dhe tekst, gjatësia maksimale e hyrjes 32,768 argumente
GPT-3OpenAI175 miliardëJo me burim të hapur, vetëm akses në APIDemonstroi aftësi të të mësuarit me disa goditje dhe zero-shot. Kryen plotësimin e tekstit në gjuhën natyrore.
BloomShkenca e madhe176 miliardëModeli i shkarkueshëm, API i pritur i disponueshëmLLM shumëgjuhëshe e zhvilluar nga bashkëpunimi global. Mbështet 13 gjuhë programimi.
TheMDAGoogle173 miliardëJo me burim të hapur, pa API ose shkarkimTë trajnuar për dialog mund të mësojnë të flasin pothuajse për çdo gjë
MT-NLGNvidia/Microsoft530 miliardëQasja në API nga aplikacioniPërdor arkitekturën Megatron të bazuar në transformator për detyra të ndryshme NLP.
ThirrjetMeta AI7B deri në 65B)Mund të shkarkohet nga aplikacioniSynohet të demokratizojë AI duke ofruar akses për ata në kërkim, qeveri dhe akademi.

Si përdoren LLMs?

LLM-të mund të përdoren në mënyra të shumta, duke përfshirë:

  1. Përdorimi i drejtpërdrejtë: Thjesht duke përdorur një LLM të para-trajnuar për gjenerimin ose përpunimin e tekstit. Për shembull, duke përdorur GPT-4 për të shkruar një postim në blog pa ndonjë rregullim shtesë.
  2. Rregullimi i saktë: Përshtatja e një LLM të trajnuar paraprakisht për një detyrë specifike, një metodë e njohur si të mësuarit transferues. Një shembull do të ishte personalizimi i T5 për të gjeneruar përmbledhje për dokumentet në një industri specifike.
  3. Rikthimi i informacionit: Përdorimi i LLM-ve, si BERT ose GPT, si pjesë e arkitekturave më të mëdha për të zhvilluar sisteme që mund të marrin dhe kategorizojnë informacione.
Rregullimi i mirë i AI ChatGPT
Arkitektura e rregullimit të shkëlqyeshëm të ChatGPT

Vëmendje me shumë kokë: Pse një kur mund të keni shumë?

Megjithatë, mbështetja në një mekanizëm të vetëm të vëmendjes mund të jetë kufizuese. Fjalë ose sekuenca të ndryshme në një tekst mund të kenë lloje të ndryshme të rëndësisë ose lidhjeve. Këtu hyn vëmendja e shumë kokës. Në vend të një grupi peshash të vëmendjes, vëmendja me shumë kokë përdor grupe të shumta, duke i lejuar modelit të kapë një shumëllojshmëri më të pasur marrëdhëniesh në tekstin hyrës. Çdo "kokë" e vëmendjes mund të fokusohet në pjesë ose aspekte të ndryshme të hyrjes, dhe njohuritë e tyre të kombinuara përdoren për parashikimin përfundimtar.

ChatGPT: Mjeti gjenerues më i popullarizuar i AI

Duke filluar me fillimin e GPT në 2018, modeli u ndërtua në thelb mbi bazën e 12 shtresave, 12 kokave të vëmendjes dhe 120 milion parametrave, kryesisht të trajnuar në një grup të dhënash të quajtur BookCorpus. Ky ishte një fillim mbresëlënës, duke ofruar një vështrim në të ardhmen e modeleve gjuhësore.

GPT-2, i zbuluar në vitin 2019, u mburr me një rritje katërfish në shtresat dhe kokat e vëmendjes. Në mënyrë domethënëse, numri i parametrave të tij u rrit në 1.5 miliardë. Ky version i përmirësuar e nxori trajnimin e tij nga WebText, një grup të dhënash i pasuruar me 40 GB tekst nga lidhje të ndryshme të Reddit.

GPT-3, i lançuar në maj 2020 kishte 96 shtresa, 96 koka vëmendjeje dhe një numër të madh parametrash prej 175 miliardë. Ajo që e veçoi GPT-3 ishin të dhënat e tij të ndryshme të trajnimit, duke përfshirë CommonCrawl, WebText, Wikipedia anglisht, korporat e librave dhe burime të tjera, duke kombinuar për një total prej 570 GB.

Ndërlikimet e funksionimit të ChatGPT mbeten një sekret i ruajtur nga afër. Megjithatë, një proces i quajtur 'të mësuarit përforcues nga reagimet njerëzore' (RLHF) është i njohur të jetë thelbësor. Me origjinë nga një projekt i mëparshëm ChatGPT, kjo teknikë ishte e dobishme në përmirësimin e modelit GPT-3.5 për t'u përshtatur më shumë me udhëzimet e shkruara.

Trajnimi i ChatGPT përfshin një qasje me tre nivele:

  1. Përshtatja e mbikëqyrur: Përfshin kurimin e hyrjeve dhe daljeve bisedore të shkruara nga njeriu për të rafinuar modelin themelor GPT-3.5.
  2. Modelimi i shpërblimit: Njerëzit renditin rezultate të ndryshme të modelit bazuar në cilësinë, duke ndihmuar në trajnimin e një modeli shpërblimi që shënon çdo rezultat duke marrë parasysh kontekstin e bisedës.
  3. Të mësuarit përforcues: Konteksti bisedor shërben si një sfond ku modeli themelor propozon një përgjigje. Kjo përgjigje vlerësohet nga modeli i shpërblimit dhe procesi optimizohet duke përdorur një algoritëm të quajtur optimizimi i politikave proksimale (PPO).

Për ata që thjesht zhysin gishtat e këmbëve në ChatGPT, mund të gjendet një udhëzues gjithëpërfshirës fillestar këtu. Nëse jeni duke kërkuar të gërmoni më thellë në inxhinierinë e shpejtë me ChatGPT, ne kemi gjithashtu një udhëzues të avancuar që ndriçon teknikat më të fundit dhe më moderne, të disponueshme në 'ChatGPT & Inxhinieri e avancuar e shpejtë: Drejtimi i Evolucionit të AI'.

Difuzion dhe Modele Multimodale

Ndërsa modelet si VAE dhe GAN gjenerojnë rezultatet e tyre përmes një kalimi të vetëm, kështu të kyçur në çdo gjë që prodhojnë, modelet e difuzionit kanë prezantuar konceptin e 'përsosje përsëritëse'. Nëpërmjet kësaj metode, ata rrethojnë mbrapsht, duke rafinuar gabimet nga hapat e mëparshëm dhe duke prodhuar gradualisht një rezultat më të lëmuar.

Në qendër të modeleve të difuzionit është arti i "korrupsioni" dhe "përsosje". Në fazën e tyre të trajnimit, një imazh tipik korruptohet në mënyrë progresive duke shtuar nivele të ndryshme zhurmash. Ky version i zhurmshëm i jepet më pas modelit, i cili përpiqet ta 'zhvesh' ose 'çkorruptojë' atë. Nëpërmjet raundeve të shumta të kësaj, modeli bëhet i aftë në restaurim, duke kuptuar edhe devijimet delikate dhe domethënëse.

AI gjenerative - Prompt Midjourney
Imazhi i krijuar nga Midjourney

Procesi i gjenerimit të imazheve të reja pas trajnimit është intrigues. Duke filluar me një input krejtësisht të rastësishëm, ai rafinohet vazhdimisht duke përdorur parashikimet e modelit. Synimi është të arrihet një imazh i pacenuar me numrin minimal të hapave. Kontrolli i nivelit të korrupsionit bëhet përmes një “noise orar”, një mekanizëm që rregullon se sa zhurmë aplikohet në faza të ndryshme. Një planifikues, siç shihet në bibliotekat si "difuzorët“, dikton natyrën e këtyre interpretimeve të zhurmshme bazuar në algoritme të vendosura.

Një shtyllë kryesore arkitekturore për shumë modele të difuzionit është UNet- një rrjet nervor konvolucionist i përshtatur për detyra që kërkojnë rezultate që pasqyrojnë dimensionin hapësinor të hyrjeve. Është një përzierje e shtresave të zvogëlimit dhe ngritjes së mostrave, të lidhura në mënyrë të ndërlikuar për të mbajtur të dhëna me rezolucion të lartë, thelbësore për rezultatet e lidhura me imazhin.

Duke u thelluar në fushën e modeleve gjeneruese, OpenAI's DALL-E2 shfaqet si një shembull i shkëlqyer i bashkimit të aftësive tekstuale dhe vizuale të AI. Ai përdor një strukturë me tre nivele:

DALL-E 2 tregon një arkitekturë të trefishtë:

  1. Koduesi i tekstit: Ai e transformon kërkesën e tekstit në një ngulitje konceptuale brenda një hapësire latente. Ky model nuk fillon nga pika zero. Ai mbështetet në Trajnimin Paraprak të Gjuhës Kontrastive-Imazhi të OpenAI (KLIP) të dhënat si themeli i tij. CLIP shërben si një urë lidhëse midis të dhënave vizuale dhe tekstuale duke mësuar konceptet vizuale duke përdorur gjuhën natyrore. Nëpërmjet një mekanizmi të njohur si të mësuarit kontrastiv, ai identifikon dhe përputh imazhet me përshkrimet e tyre tekstuale përkatëse.
  2. The Prior: Vendosja e tekstit që rrjedh nga koduesi konvertohet më pas në një ngulitje imazhi. DALL-E 2 testoi si metodat autoregresive ashtu edhe ato të difuzionit për këtë detyrë, me këto të fundit që shfaqin rezultate superiore. Modelet autoregresive, siç shihet në Transformers dhe PixelCNN, gjenerojnë rezultate në sekuenca. Nga ana tjetër, modelet e difuzionit, si ai i përdorur në DALL-E 2, transformojnë zhurmën e rastësishme në ngulitje të parashikuara të imazhit me ndihmën e ngulitjes së tekstit.
  3. Dekoderi: Kulmi i procesit, kjo pjesë gjeneron daljen përfundimtare vizuale bazuar në kërkesën e tekstit dhe futjen e imazhit nga faza e mëparshme. Dekoderi i DALL.E 2 i detyrohet arkitekturës së tij një modeli tjetër, Kaloj, të cilat gjithashtu mund të prodhojnë imazhe realiste nga shenjat tekstuale.
Arkitektura e modelit DALL-E (difuzion multimodel)
Arkitektura e thjeshtuar e modelit DALL-E

Përdoruesit e Python të interesuar për Langchain duhet të shikoni tutorialin tonë të detajuar që mbulon gjithçka nga bazat deri tek teknikat e avancuara.

Aplikimet e AI gjenerative

Domenet tekstuale

Duke filluar me tekstin, AI gjeneruese është ndryshuar rrënjësisht nga chatbots si Biseda GPT. Duke u mbështetur shumë në Përpunimin e Gjuhëve Natyrore (NLP) dhe modelet e mëdha të gjuhës (LLM), këto entitete janë të autorizuara për të kryer detyra që variojnë nga gjenerimi i kodit dhe përkthimi i gjuhës deri tek përmbledhja dhe analiza e ndjenjave. ChatGPT, për shembull, ka parë një adoptim të gjerë, duke u bërë një element kryesor për miliona. Kjo shtohet më tej nga platformat bisedore të AI, të bazuara në LLM si GPT-4, palmedhe Bloom, që prodhojnë tekst pa mundim, ndihmojnë në programim dhe madje ofrojnë arsyetim matematikor.

Nga një këndvështrim tregtar, këto modele po bëhen të paçmueshme. Bizneset i përdorin ato për një mori operacionesh, duke përfshirë menaxhimin e rrezikut, optimizimin e inventarit dhe parashikimin e kërkesave. Disa shembuj të dukshëm përfshijnë Bing AI, BARD të Google dhe ChatGPT API.

Art

Bota e imazheve ka parë transformime dramatike me Generative AI, veçanërisht që nga prezantimi i DALL-E 2 në 2022. Kjo teknologji, e cila mund të gjenerojë imazhe nga kërkesat tekstuale, ka implikime artistike dhe profesionale. Për shembull, midjourney ka përdorur këtë teknologji për të prodhuar imazhe mbresëlënëse realiste. Ky postim i fundit çmitizon Midjourney në një udhëzues të detajuar, duke sqaruar si platformën ashtu edhe ndërlikimet e saj të shpejta inxhinierike. Për më tepër, platformat si Alpaca AI dhe Photoroom AI përdorin Generative AI për funksione të avancuara të redaktimit të imazheve, si heqja e sfondit, fshirja e objekteve dhe madje edhe restaurimi i fytyrës.

Video Production

Prodhimi i videove, ndërsa është ende në fazën e tij fillestare në fushën e AI gjeneruese, po shfaq përparime premtuese. Platformat si Imagen Video, Meta Make A Video dhe Runway Gen-2 po shtyjnë kufijtë e asaj që është e mundur, edhe nëse rezultatet vërtet reale janë ende në horizont. Këto modele ofrojnë dobi të konsiderueshme për krijimin e videove dixhitale njerëzore, me aplikacione si Synthesia dhe SuperCreator që kryesojnë tarifën. Veçanërisht, Tavus AI ofron një propozim unik shitjeje duke personalizuar videot për anëtarët individualë të audiencës, një ndihmë për bizneset.

Krijimi i kodit

Kodimi, një aspekt i domosdoshëm i botës sonë dixhitale, nuk ka mbetur i paprekur nga Generative AI. Megjithëse ChatGPT është një mjet i preferuar, disa aplikacione të tjera të AI janë zhvilluar për qëllime kodimi. Këto platforma, të tilla si GitHub Copilot, Alphacode dhe CodeComplete, shërbejnë si asistentë kodimi dhe madje mund të prodhojnë kode nga kërkesat e tekstit. Ajo që është intriguese është përshtatshmëria e këtyre mjeteve. Codex, forca lëvizëse pas GitHub Copilot, mund të përshtatet sipas stilit të kodimit të një individi, duke nënvizuar potencialin e personalizimit të AI Gjenerative.

Përfundim

Duke përzier krijimtarinë njerëzore me llogaritjen e makinerive, ai ka evoluar në një mjet të paçmuar, me platforma si ChatGPT dhe DALL-E 2 që shtyjnë kufijtë e asaj që mund të imagjinohet. Nga krijimi i përmbajtjes tekstuale deri te skalitja e kryeveprave vizuale, aplikimet e tyre janë të gjera dhe të ndryshme.

Ashtu si me çdo teknologji, implikimet etike janë parësore. Ndërsa AI Generative premton kreativitet të pakufishëm, është thelbësore ta përdorni atë me përgjegjësi, duke qenë të vetëdijshëm për paragjykimet e mundshme dhe fuqinë e manipulimit të të dhënave.

Me mjetet si ChatGPT duke u bërë më të aksesueshme, tani është koha e përkryer për të testuar ujërat dhe për të eksperimentuar. Pavarësisht nëse jeni një artist, kodues ose entuziast i teknologjisë, sfera e AI gjeneruese është plot me mundësi që presin për t'u eksploruar. Revolucioni nuk është në horizont; është këtu dhe tani. Pra, Zhytuni!

Kam kaluar pesë vitet e fundit duke u zhytur në botën magjepsëse të Mësimit të Makinerisë dhe Mësimit të Thellë. Pasioni dhe ekspertiza ime më kanë shtyrë të kontribuoj në mbi 50 projekte të ndryshme inxhinierike softuerike, me një fokus të veçantë në AI/ML. Kurioziteti im i vazhdueshëm më ka tërhequr gjithashtu drejt Përpunimit të Gjuhëve Natyrore, një fushë që mezi pres ta eksploroj më tej.