stomp Generatiewe KI: Die idee agter CHATGPT, Dall-E, Midjourney en meer - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Generatiewe KI: The Idea Behind CHATGPT, Dall-E, Midjourney en meer

mm
Opgedateer on
Generatiewe KI - Midjourney-opdrag

Die wêreld van kuns, kommunikasie en hoe ons die werklikheid waarneem, verander vinnig. As ons terugkyk na die geskiedenis van menslike innovasie, kan ons die uitvinding van die wiel of die ontdekking van elektrisiteit as monumentale spronge beskou. Vandag vind 'n nuwe rewolusie plaas—wat die skeiding tussen menslike kreatiwiteit en masjienberekening oorbrug. Dit is Generatiewe AI.

Generatiewe modelle het die lyn tussen mense en masjiene vervaag. Met die koms van modelle soos GPT-4, wat transformatormodules gebruik, het ons nader aan natuurlike en konteksryke taalgenerering gestap. Hierdie vooruitgang het toepassings aangevuur in dokumentskepping, chatbot-dialoogstelsels en selfs sintetiese musieksamestelling.

Onlangse Big-Tech-besluite beklemtoon die belangrikheid daarvan. Microsoft is reeds sy Cortana-toepassing staak hierdie maand om nuwer Generatiewe KI-innovasies, soos Bing Chat, te prioritiseer. Apple het ook 'n aansienlike deel daarvan opgedra R&D-begroting van $22.6 miljard tot generatiewe KI, soos aangedui deur Tim Cook, uitvoerende hoof.

'n Nuwe era van modelle: generatiewe vs. Diskriminerende

Die verhaal van Generative AI gaan nie net oor die toepassings daarvan nie, maar fundamenteel oor die innerlike werking daarvan. In die kunsmatige intelligensie-ekosisteem bestaan ​​twee modelle: diskriminerend en generatief.

Diskriminerende modelle is wat die meeste mense in die daaglikse lewe teëkom. Hierdie algoritmes neem invoerdata, soos 'n teks of 'n prent, en koppel dit met 'n teikenuitvoer, soos 'n woordvertaling of mediese diagnose. Dit gaan oor kartering en voorspelling.

Generatiewe modelle, aan die ander kant, is skeppers. Hulle interpreteer of voorspel nie net nie; hulle genereer nuwe, komplekse uitsette vanaf vektore van getalle wat dikwels nie eens met werklike waardes verband hou nie.

 

Generatiewe KI-tipes: teks na teks, teks na beeld (GPT, DALL-E, Midjourney)

Die tegnologieë agter generatiewe modelle

Generatiewe modelle het hul bestaan ​​te danke aan diep neurale netwerke, gesofistikeerde strukture wat ontwerp is om die menslike brein se funksionaliteit na te boots. Deur veelvlakkige variasies in data vas te lê en te verwerk, dien hierdie netwerke as die ruggraat van talle generatiewe modelle.

Hoe kom hierdie generatiewe modelle tot lewe? Gewoonlik word hulle gebou met diep neurale netwerke, geoptimaliseer om die veelvlakkige variasies in data vas te vang. 'n Goeie voorbeeld is die Generatiewe teëstanderige netwerk (GAN), waar twee neurale netwerke, die kragopwekker en die diskrimineerder, kompeteer en by mekaar leer in 'n unieke onderwyser-leerling-verhouding. Van skilderye tot styloordrag, van musieksamestelling tot speletjies, hierdie modelle ontwikkel en brei uit op maniere wat voorheen ondenkbaar was.

Dit stop nie by GAN's nie. Variasionele outo-enkodeerders (VAE's), is nog 'n deurslaggewende speler in die generatiewe modelveld. VAE's staan ​​uit vir hul vermoë om fotorealistiese beelde te skep uit oënskynlik ewekansige getalle. Hoe? Die verwerking van hierdie getalle deur 'n latente vektor gee geboorte aan kuns wat die kompleksiteit van menslike estetika weerspieël.

Generatiewe KI-tipes: teks na teks, teks na beeld

Transformers en LLM

Die papier "Aandag is al wat jy nodig het” deur Google Brain het 'n verskuiwing in die manier waarop ons oor teksmodellering dink, gemerk. In plaas van komplekse en opeenvolgende argitekture soos Herhalende Neurale Netwerke (RNNs) of Convolutional Neurale Netwerke (CNNs), het die Transformer-model die konsep van aandag bekendgestel, wat in wese beteken het om op verskillende dele van die invoerteks te fokus, afhangende van die konteks. Een van die belangrikste voordele hiervan was die gemak van parallelisering. Anders as RNN's wat teks opeenvolgend verwerk, wat dit moeiliker maak om te skaal, kan Transformers dele van die teks gelyktydig verwerk, wat opleiding vinniger en doeltreffender maak op groot datastelle.

In 'n lang teks is nie elke woord of sin wat jy lees dieselfde belangrikheid nie. Sommige dele vereis meer aandag op grond van die konteks. Hierdie vermoë om ons fokus te verskuif op grond van relevansie is wat die aandagmeganisme naboots.

Om dit te verstaan, dink aan 'n sin: "Unite AI Publiseer KI- en Robotika-nuus." Nou, die voorspelling van die volgende woord vereis 'n begrip van wat die belangrikste is in die vorige konteks. Die term 'Robotika' kan voorstel dat die volgende woord verband hou met 'n spesifieke vordering of gebeurtenis in die robotika-veld, terwyl 'Publiseer' kan aandui dat die volgende konteks in 'n onlangse publikasie of artikel kan delf.

Self-aandagmeganisme verduideliking op 'n demo sin
Self-aandag illustrasie

Aandagmeganismes in Transformers is ontwerp om hierdie selektiewe fokus te bereik. Hulle peil die belangrikheid van verskillende dele van die invoerteks en besluit waar om te "kyk" wanneer 'n antwoord gegenereer word. Dit is 'n afwyking van ouer argitekture soos RNN's wat probeer het om die essensie van alle invoerteks in 'n enkele 'toestand' of 'geheue' te prop.

Die werking van aandag kan vergelyk word met 'n sleutelwaarde-herwinningstelsel. In 'n poging om die volgende woord in 'n sin te voorspel, bied elke voorafgaande woord 'n 'sleutel' wat die potensiële relevansie daarvan voorstel, en gebaseer op hoe goed hierdie sleutels ooreenstem met die huidige konteks (of navraag), dra hulle 'n 'waarde' of gewig by tot die voorspelling.

Hierdie gevorderde KI-dieplermodelle is naatloos in verskeie toepassings geïntegreer, van Google se soekenjinverbeterings met BERT tot GitHub se Copilot, wat die vermoë van Large Language Models (LLM's) benut om eenvoudige kodebrokkies in ten volle funksionele bronkodes om te skakel.

Groot taalmodelle (LLM's) soos GPT-4, Bard en LLaMA, is kolossale konstrukte wat ontwerp is om menslike taal, kode en meer te ontsyfer en genereer. Hul enorme grootte, wat wissel van biljoene tot triljoene parameters, is een van die bepalende kenmerke. Hierdie LLM's word gevoed met oorvloedige hoeveelhede teksdata, wat hulle in staat stel om die ingewikkeldhede van menslike taal te begryp. 'n Opvallende kenmerk van hierdie modelle is hul aanleg vir "paar-skoot” leer. Anders as konvensionele modelle wat groot hoeveelhede spesifieke opleidingsdata benodig, kan LLM's veralgemeen uit 'n baie beperkte aantal voorbeelde (of "skote").

Stand van groottaalmodelle (LLM'e) vanaf na-middel 2023

Model NaamOntwikkelaarGrenseBeskikbaarheid en toegangOpmerklike kenmerke en opmerkings
GPT-4OpenAI1.5 triljoenNie oopbron nie, slegs API-toegangIndrukwekkende prestasie op 'n verskeidenheid take kan beelde en teks verwerk, maksimum invoerlengte 32,768 tokens
GPT-3OpenAI175 miljardNie oopbron nie, slegs API-toegangGedemonstreer min-skoot en nul-skoot leervermoëns. Voer teksvoltooiing in natuurlike taal uit.
BLOOMBigScience176 miljardAflaaibare model, gasheer-API beskikbaarVeeltalige LLM ontwikkel deur globale samewerking. Ondersteun 13 programmeertale.
TheMDAGoogle173 miljardNie oopbron nie, geen API of aflaai nieGeoefen in dialoog kon leer om oor feitlik enigiets te praat
MT-NLGNvidia/Microsoft530 miljardAPI-toegang per toepassingGebruik transformator-gebaseerde Megatron-argitektuur vir verskeie NLP-take.
OproepeMeta AI7B tot 65B)Aflaaibaar per toepassingBedoel om KI te demokratiseer deur toegang te bied aan diegene in navorsing, regering en akademie.

Hoe word LLM's gebruik?

LLM's kan op verskeie maniere gebruik word, insluitend:

  1. Direkte gebruik: Gebruik eenvoudig 'n vooraf-opgeleide LLM vir teksgenerering of verwerking. Byvoorbeeld, die gebruik van GPT-4 om 'n blogplasing te skryf sonder enige bykomende fynstelling.
  2. Fyn-Tuning: Aanpassing van 'n vooraf-opgeleide LLM vir 'n spesifieke taak, 'n metode bekend as oordragleer. 'n Voorbeeld sou wees om T5 aan te pas om opsommings vir dokumente in 'n spesifieke bedryf te genereer.
  3. Inligtingsherwinning: Die gebruik van LLM's, soos BERT of GPT, as deel van groter argitekture om stelsels te ontwikkel wat inligting kan haal en kategoriseer.
Generatiewe AI ChatGPT Fyninstelling
ChatGPT Fine Tuning Argitektuur

Meerkoppige aandag: Hoekom een ​​as jy baie kan hê?

Om op 'n enkele aandagmeganisme te vertrou, kan egter beperkend wees. Verskillende woorde of rye in 'n teks kan verskillende tipes relevansie of assosiasies hê. Dit is waar meerkoppige aandag inkom. In plaas van een stel aandaggewigte, gebruik meerkoppige aandag veelvuldige stelle, wat die model in staat stel om 'n ryker verskeidenheid verwantskappe in die invoerteks vas te lê. Elke aandag "kop" kan fokus op verskillende dele of aspekte van die insette, en hul gekombineerde kennis word gebruik vir die finale voorspelling.

ChatGPT: Die gewildste Generatiewe AI-instrument

Vanaf GPT se ontstaan ​​in 2018, is die model in wese gebou op die grondslag van 12 lae, 12 aandagkoppe en 120 miljoen parameters, hoofsaaklik opgelei op 'n datastel genaamd BookCorpus. Dit was 'n indrukwekkende begin, wat 'n kykie in die toekoms van taalmodelle gebied het.

GPT-2, wat in 2019 onthul is, het met 'n viervoudige toename in lae en aandagkoppe gespog. Dit is betekenisvol dat sy parametertelling die hoogte ingeskiet het tot 1.5 miljard. Hierdie verbeterde weergawe het sy opleiding afgelei van WebText, 'n datastel wat verryk is met 40 GB teks vanaf verskeie Reddit-skakels.

GPT-3, wat in Mei 2020 bekendgestel is, het 96 lae, 96 aandagkoppe en 'n massiewe parametertelling van 175 miljard gehad. Wat GPT-3 onderskei het, was sy uiteenlopende opleidingsdata, wat CommonCrawl, WebText, Engelse Wikipedia, boekkorpusse en ander bronne insluit, wat 'n totaal van 570 GB kombineer.

Die verwikkeldheid van ChatGPT se werking bly 'n noukeurige geheim. Dit is egter bekend dat 'n proses genaamd 'versterkingsleer uit menslike terugvoer' (RLHF) deurslaggewend is. Hierdie tegniek, wat afkomstig is van 'n vroeëre ChatGPT-projek, was instrumenteel om die GPT-3.5-model te slyp om meer in lyn te wees met geskrewe instruksies.

ChatGPT se opleiding bestaan ​​uit 'n drievlak-benadering:

  1. Verfyning onder toesig: Behels die samestelling van mensgeskrewe gespreksinsette en -uitsette om die onderliggende GPT-3.5-model te verfyn.
  2. Beloningsmodellering: Mense rangskik verskeie model-uitsette op grond van kwaliteit, wat help om 'n beloningsmodel op te lei wat elke uitset aanteken met inagneming van die gesprek se konteks.
  3. Versterkingsleer: Die gesprekskonteks dien as 'n agtergrond waar die onderliggende model 'n reaksie voorstel. Hierdie reaksie word deur die beloningsmodel geassesseer, en die proses word geoptimaliseer deur gebruik te maak van 'n algoritme genaamd proksimale beleidsoptimering (PPO).

Vir diegene wat net hul tone in ChatGPT dompel, kan 'n omvattende begingids gevind word na hierdie skakel. As jy op soek is om dieper te delf in vinnige ingenieurswese met ChatGPT, het ons ook 'n gevorderde gids wat lig op die nuutste en moderne vinnige tegnieke, beskikbaar by 'ChatGPT en gevorderde vinnige ingenieurswese: bestuur die KI-evolusie".

Diffusie en multimodale modelle

Terwyl modelle soos VAE's en GAN's hul uitsette deur 'n enkele pas genereer, dus vasgevang in wat hulle ook al produseer, het diffusiemodelle die konsep van 'iteratiewe verfyning'. Deur hierdie metode sirkel hulle terug, verfyn foute van vorige stappe, en lewer geleidelik 'n meer gepoleerde resultaat.

Sentraal tot diffusiemodelle is die kuns van "korrupsie” en “verfyning”. In hul opleidingsfase word 'n tipiese beeld geleidelik beskadig deur verskillende vlakke van geraas by te voeg. Hierdie raserige weergawe word dan na die model gevoer, wat poog om dit te 'denoise' of 'de-korrupte'. Deur verskeie rondes hiervan word die model vaardig in herstel, en verstaan ​​beide subtiele en beduidende afwykings.

Generatiewe KI - Midjourney-opdrag
Beeld gegenereer uit Midjourney

Die proses om nuwe beelde na opleiding te genereer, is interessant. Begin met 'n heeltemal ewekansige insette, dit word voortdurend verfyn deur die model se voorspellings te gebruik. Die bedoeling is om 'n ongerepte beeld te verkry met die minimum aantal stappe. Die beheer van die vlak van korrupsie word gedoen deur 'n "geraasskedule", 'n meganisme wat bepaal hoeveel geraas in verskillende stadiums toegepas word. 'n skeduleerder, soos gesien in biblioteke soos "verspreiders“, dikteer die aard van hierdie raserige weergawes gebaseer op gevestigde algoritmes.

'N noodsaaklike argitektoniese ruggraat vir baie diffusie modelle is die UNet- 'n konvolusionele neurale netwerk wat aangepas is vir take wat uitsette vereis wat die ruimtelike dimensie van insette weerspieël. Dit is 'n mengsel van lae vir afsteekproefneming en opsteekproefneming, ingewikkeld verbind om hoë-resolusie-data te behou, deurslaggewend vir beeldverwante uitsette.

Delf dieper in die gebied van generatiewe modelle, OpenAI's DALL-E2 na vore as 'n blink voorbeeld van die samesmelting van tekstuele en visuele KI-vermoëns. Dit gebruik 'n drievlakstruktuur:

DALL-E 2 vertoon 'n drievoudige argitektuur:

  1. Tekskodeerder: Dit verander die teksaanvraag in 'n konseptuele inbedding binne 'n latente ruimte. Hierdie model begin nie vanaf grond nul nie. Dit steun op OpenAI se Contrastive Language–Image Pre-opleiding (CLIP) datastel as sy grondslag. CLIP dien as 'n brug tussen visuele en tekstuele data deur visuele konsepte met behulp van natuurlike taal aan te leer. Deur 'n meganisme bekend as kontrastiewe leer, identifiseer en pas dit beelde met hul ooreenstemmende tekstuele beskrywings.
  2. Die Prior: Die teksinbedding wat van die enkodeerder afgelei is, word dan omgeskakel na 'n beeldinbedding. DALL-E 2 het beide outoregressiewe en diffusiemetodes vir hierdie taak getoets, met laasgenoemde wat uitstekende resultate toon. Outoregressiewe modelle, soos gesien in Transformers en PixelCNN, genereer uitsette in rye. Aan die ander kant transformeer diffusiemodelle, soos die een wat in DALL-E 2 gebruik word, ewekansige geraas in voorspelde beeldinbeddings met behulp van teksinbeddings.
  3. Die dekodeerder: Die klimaks van die proses, hierdie deel genereer die finale visuele uitset gebaseer op die teksopdrag en die beeldinbedding van die vorige fase. DALL.E 2 se dekodeerder het sy argitektuur te danke aan 'n ander model, GLY, wat ook realistiese beelde uit tekstuele leidrade kan produseer.
Argitektuur van DALL-E model (diffusie multi model)
Vereenvoudigde argitektuur van DALL-E-model

Python-gebruikers wat belangstel in Langketting moet kyk na ons gedetailleerde tutoriaal wat alles van die grondbeginsels tot gevorderde tegnieke dek.

Toepassings van Generatiewe KI

Tekstuele domeine

Begin met teks, is Generatiewe AI fundamenteel verander deur chatbots soos Klets GPT. Deur grootliks staatmaak op Natuurlike Taalverwerking (NLP) en groottaalmodelle (LLM'e), word hierdie entiteite bemagtig om take uit te voer wat wissel van kodegenerering en taalvertaling tot opsomming en sentimentanalise. ChatGPT, byvoorbeeld, het wydverspreide aanneming gesien, wat 'n stapelvoedsel vir miljoene geword het. Dit word verder aangevul deur gespreks-KI-platforms, gegrond op LLM's soos GPT-4, PALM, en BLOOM, wat moeiteloos teks produseer, help met programmering en selfs wiskundige redenasie bied.

Vanuit 'n kommersiële perspektief word hierdie modelle van onskatbare waarde. Besighede neem hulle in diens vir 'n magdom bedrywighede, insluitend risikobestuur, voorraadoptimalisering en voorspellingsvereistes. Enkele noemenswaardige voorbeelde sluit in Bing AI, Google se BARD en ChatGPT API.

kuns

Die wêreld van beelde het dramatiese transformasies met Generatiewe KI beleef, veral sedert DALL-E 2 se bekendstelling in 2022. Hierdie tegnologie, wat beelde kan genereer uit tekstuele aansporings, het beide artistieke en professionele implikasies. Midjourney het byvoorbeeld hierdie tegnologie aangewend om indrukwekkend realistiese beelde te produseer. Hierdie onlangse plasing ontmystifiseer Midjourney in 'n gedetailleerde gids, wat beide die platform en sy vinnige ingenieursvernuf toelig. Verder gebruik platforms soos Alpaca AI en Photoroom AI Generatiewe AI vir gevorderde beeldbewerkingsfunksies soos agtergrondverwydering, objekskrap en selfs gesigherstel.

video Produksie

Videoproduksie, terwyl dit nog in sy ontluikende stadium in die ryk van Generatiewe KI is, toon belowende vooruitgang. Platforms soos Imagen Video, Meta Make A Video en Runway Gen-2 verskuif die grense van wat moontlik is, selfs al is werklik realistiese uitsette nog op die horison. Hierdie modelle bied aansienlike nut vir die skep van digitale menslike video's, met toepassings soos Synthesia en SuperCreator wat die hoofrol speel. Tavus AI bied veral 'n unieke verkoopsvoorstel deur video's vir individuele gehoorlede te verpersoonlik, 'n seën vir besighede.

Kode skepping

Kodering, 'n onontbeerlike aspek van ons digitale wêreld, het nie onaangeraak gebly deur Generatiewe KI nie. Alhoewel ChatGPT 'n gunsteling hulpmiddel is, is verskeie ander KI-toepassings vir koderingsdoeleindes ontwikkel. Hierdie platforms, soos GitHub Copilot, Alphacode en CodeComplete, dien as koderingsassistente en kan selfs kode uit teksaanwysings produseer. Wat interessant is, is die aanpasbaarheid van hierdie gereedskap. Codex, die dryfkrag agter GitHub Copilot, kan aangepas word vir 'n individu se koderingstyl, wat die verpersoonlikingspotensiaal van Generative AI onderstreep.

Gevolgtrekking

Die vermenging van menslike kreatiwiteit met masjienberekening, het ontwikkel tot 'n waardevolle hulpmiddel, met platforms soos ChatGPT en DALL-E 2 wat die grense verskuif van wat denkbaar is. Van die skep van tekstuele inhoud tot die beeldhouwerk van visuele meesterstukke, hul toepassings is groot en uiteenlopend.

Soos met enige tegnologie, is etiese implikasies uiters belangrik. Terwyl Generatiewe KI onbeperkte kreatiwiteit beloof, is dit van kardinale belang om dit verantwoordelik te gebruik, bewus van potensiële vooroordele en die krag van datamanipulasie.

Met nutsmiddels soos ChatGPT wat meer toeganklik word, is dit nou die perfekte tyd om die waters te toets en te eksperimenteer. Of jy nou 'n kunstenaar, kodeerder of tegnologie-entoesias is, die ryk van Generatiewe AI is vol moontlikhede wat wag om verken te word. Die rewolusie is nie op die horison nie; dit is hier en nou. So, duik in!

Ek het die afgelope vyf jaar my verdiep in die fassinerende wêreld van Masjienleer en Deep Learning. My passie en kundigheid het daartoe gelei dat ek bygedra het tot meer as 50 diverse sagteware-ingenieursprojekte, met 'n spesifieke fokus op KI/ML. My voortdurende nuuskierigheid het my ook na natuurlike taalverwerking gelok, 'n veld wat ek gretig is om verder te verken.