Kunsmatige Intelligensie
Generatiewe KI: The Idea Behind CHATGPT, Dall-E, Midjourney en meer
Die wêreld van kuns, kommunikasie en hoe ons die werklikheid waarneem, verander vinnig. As ons terugkyk na die geskiedenis van menslike innovasie, kan ons die uitvinding van die wiel of die ontdekking van elektrisiteit as monumentale spronge beskou. Vandag vind 'n nuwe rewolusie plaas—wat die skeiding tussen menslike kreatiwiteit en masjienberekening oorbrug. Dit is Generatiewe AI.
Generatiewe modelle het die lyn tussen mense en masjiene vervaag. Met die koms van modelle soos GPT-4, wat transformatormodules gebruik, het ons nader aan natuurlike en konteksryke taalgenerering gestap. Hierdie vooruitgang het toepassings aangevuur in dokumentskepping, chatbot-dialoogstelsels en selfs sintetiese musieksamestelling.
Onlangse Big-Tech-besluite beklemtoon die belangrikheid daarvan. Microsoft is reeds sy Cortana-toepassing staak hierdie maand om nuwer Generatiewe KI-innovasies, soos Bing Chat, te prioritiseer. Apple het ook 'n aansienlike deel daarvan opgedra R&D-begroting van $22.6 miljard tot generatiewe KI, soos aangedui deur Tim Cook, uitvoerende hoof.
'n Nuwe era van modelle: generatiewe vs. Diskriminerende
Die verhaal van Generative AI gaan nie net oor die toepassings daarvan nie, maar fundamenteel oor die innerlike werking daarvan. In die kunsmatige intelligensie-ekosisteem bestaan twee modelle: diskriminerend en generatief.
Diskriminerende modelle is wat die meeste mense in die daaglikse lewe teëkom. Hierdie algoritmes neem invoerdata, soos 'n teks of 'n prent, en koppel dit met 'n teikenuitvoer, soos 'n woordvertaling of mediese diagnose. Dit gaan oor kartering en voorspelling.
Generatiewe modelle, aan die ander kant, is skeppers. Hulle interpreteer of voorspel nie net nie; hulle genereer nuwe, komplekse uitsette vanaf vektore van getalle wat dikwels nie eens met werklike waardes verband hou nie.
Die tegnologieë agter generatiewe modelle
Generatiewe modelle het hul bestaan te danke aan diep neurale netwerke, gesofistikeerde strukture wat ontwerp is om die menslike brein se funksionaliteit na te boots. Deur veelvlakkige variasies in data vas te lê en te verwerk, dien hierdie netwerke as die ruggraat van talle generatiewe modelle.
Hoe kom hierdie generatiewe modelle tot lewe? Gewoonlik word hulle gebou met diep neurale netwerke, geoptimaliseer om die veelvlakkige variasies in data vas te vang. 'n Goeie voorbeeld is die Generatiewe teëstanderige netwerk (GAN), waar twee neurale netwerke, die kragopwekker en die diskrimineerder, kompeteer en by mekaar leer in 'n unieke onderwyser-leerling-verhouding. Van skilderye tot styloordrag, van musieksamestelling tot speletjies, hierdie modelle ontwikkel en brei uit op maniere wat voorheen ondenkbaar was.
Dit stop nie by GAN's nie. Variasionele outo-enkodeerders (VAE's), is nog 'n deurslaggewende speler in die generatiewe modelveld. VAE's staan uit vir hul vermoë om fotorealistiese beelde te skep uit oënskynlik ewekansige getalle. Hoe? Die verwerking van hierdie getalle deur 'n latente vektor gee geboorte aan kuns wat die kompleksiteit van menslike estetika weerspieël.
Generatiewe KI-tipes: teks na teks, teks na beeld
Transformers en LLM
Die papier "Aandag is al wat jy nodig het” deur Google Brain het 'n verskuiwing in die manier waarop ons oor teksmodellering dink, gemerk. In plaas van komplekse en opeenvolgende argitekture soos Herhalende Neurale Netwerke (RNNs) of Convolutional Neurale Netwerke (CNNs), het die Transformer-model die konsep van aandag bekendgestel, wat in wese beteken het om op verskillende dele van die invoerteks te fokus, afhangende van die konteks. Een van die belangrikste voordele hiervan was die gemak van parallelisering. Anders as RNN's wat teks opeenvolgend verwerk, wat dit moeiliker maak om te skaal, kan Transformers dele van die teks gelyktydig verwerk, wat opleiding vinniger en doeltreffender maak op groot datastelle.
- Transformator-model argitektuur
In 'n lang teks is nie elke woord of sin wat jy lees dieselfde belangrikheid nie. Sommige dele vereis meer aandag op grond van die konteks. Hierdie vermoë om ons fokus te verskuif op grond van relevansie is wat die aandagmeganisme naboots.
Om dit te verstaan, dink aan 'n sin: "Unite AI Publiseer KI- en Robotika-nuus." Nou, die voorspelling van die volgende woord vereis 'n begrip van wat die belangrikste is in die vorige konteks. Die term 'Robotika' kan voorstel dat die volgende woord verband hou met 'n spesifieke vordering of gebeurtenis in die robotika-veld, terwyl 'Publiseer' kan aandui dat die volgende konteks in 'n onlangse publikasie of artikel kan delf.
Aandagmeganismes in Transformers is ontwerp om hierdie selektiewe fokus te bereik. Hulle peil die belangrikheid van verskillende dele van die invoerteks en besluit waar om te "kyk" wanneer 'n antwoord gegenereer word. Dit is 'n afwyking van ouer argitekture soos RNN's wat probeer het om die essensie van alle invoerteks in 'n enkele 'toestand' of 'geheue' te prop.
Die werking van aandag kan vergelyk word met 'n sleutelwaarde-herwinningstelsel. In 'n poging om die volgende woord in 'n sin te voorspel, bied elke voorafgaande woord 'n 'sleutel' wat die potensiële relevansie daarvan voorstel, en gebaseer op hoe goed hierdie sleutels ooreenstem met die huidige konteks (of navraag), dra hulle 'n 'waarde' of gewig by tot die voorspelling.
Hierdie gevorderde KI-dieplermodelle is naatloos in verskeie toepassings geïntegreer, van Google se soekenjinverbeterings met BERT tot GitHub se Copilot, wat die vermoë van Large Language Models (LLM's) benut om eenvoudige kodebrokkies in ten volle funksionele bronkodes om te skakel.
Groot taalmodelle (LLM's) soos GPT-4, Bard en LLaMA, is kolossale konstrukte wat ontwerp is om menslike taal, kode en meer te ontsyfer en genereer. Hul enorme grootte, wat wissel van biljoene tot triljoene parameters, is een van die bepalende kenmerke. Hierdie LLM's word gevoed met oorvloedige hoeveelhede teksdata, wat hulle in staat stel om die ingewikkeldhede van menslike taal te begryp. 'n Opvallende kenmerk van hierdie modelle is hul aanleg vir "paar-skoot” leer. Anders as konvensionele modelle wat groot hoeveelhede spesifieke opleidingsdata benodig, kan LLM's veralgemeen uit 'n baie beperkte aantal voorbeelde (of "skote").
Stand van groottaalmodelle (LLM'e) vanaf na-middel 2023
Model Naam | Ontwikkelaar | Grense | Beskikbaarheid en toegang | Opmerklike kenmerke en opmerkings |
GPT-4 | OpenAI | 1.5 triljoen | Nie oopbron nie, slegs API-toegang | Indrukwekkende prestasie op 'n verskeidenheid take kan beelde en teks verwerk, maksimum invoerlengte 32,768 tokens |
GPT-3 | OpenAI | 175 miljard | Nie oopbron nie, slegs API-toegang | Gedemonstreer min-skoot en nul-skoot leervermoëns. Voer teksvoltooiing in natuurlike taal uit. |
BLOOM | BigScience | 176 miljard | Aflaaibare model, gasheer-API beskikbaar | Veeltalige LLM ontwikkel deur globale samewerking. Ondersteun 13 programmeertale. |
TheMDA | 173 miljard | Nie oopbron nie, geen API of aflaai nie | Geoefen in dialoog kon leer om oor feitlik enigiets te praat | |
MT-NLG | Nvidia/Microsoft | 530 miljard | API-toegang per toepassing | Gebruik transformator-gebaseerde Megatron-argitektuur vir verskeie NLP-take. |
Oproepe | Meta AI | 7B tot 65B) | Aflaaibaar per toepassing | Bedoel om KI te demokratiseer deur toegang te bied aan diegene in navorsing, regering en akademie. |
Hoe word LLM's gebruik?
LLM's kan op verskeie maniere gebruik word, insluitend:
- Direkte gebruik: Gebruik eenvoudig 'n vooraf-opgeleide LLM vir teksgenerering of verwerking. Byvoorbeeld, die gebruik van GPT-4 om 'n blogplasing te skryf sonder enige bykomende fynstelling.
- Fyn-Tuning: Aanpassing van 'n vooraf-opgeleide LLM vir 'n spesifieke taak, 'n metode bekend as oordragleer. 'n Voorbeeld sou wees om T5 aan te pas om opsommings vir dokumente in 'n spesifieke bedryf te genereer.
- Inligtingsherwinning: Die gebruik van LLM's, soos BERT of GPT, as deel van groter argitekture om stelsels te ontwikkel wat inligting kan haal en kategoriseer.
Meerkoppige aandag: Hoekom een as jy baie kan hê?
Om op 'n enkele aandagmeganisme te vertrou, kan egter beperkend wees. Verskillende woorde of rye in 'n teks kan verskillende tipes relevansie of assosiasies hê. Dit is waar meerkoppige aandag inkom. In plaas van een stel aandaggewigte, gebruik meerkoppige aandag veelvuldige stelle, wat die model in staat stel om 'n ryker verskeidenheid verwantskappe in die invoerteks vas te lê. Elke aandag "kop" kan fokus op verskillende dele of aspekte van die insette, en hul gekombineerde kennis word gebruik vir die finale voorspelling.
ChatGPT: Die gewildste Generatiewe AI-instrument
Vanaf GPT se ontstaan in 2018, is die model in wese gebou op die grondslag van 12 lae, 12 aandagkoppe en 120 miljoen parameters, hoofsaaklik opgelei op 'n datastel genaamd BookCorpus. Dit was 'n indrukwekkende begin, wat 'n kykie in die toekoms van taalmodelle gebied het.
GPT-2, wat in 2019 onthul is, het met 'n viervoudige toename in lae en aandagkoppe gespog. Dit is betekenisvol dat sy parametertelling die hoogte ingeskiet het tot 1.5 miljard. Hierdie verbeterde weergawe het sy opleiding afgelei van WebText, 'n datastel wat verryk is met 40 GB teks vanaf verskeie Reddit-skakels.
GPT-3, wat in Mei 2020 bekendgestel is, het 96 lae, 96 aandagkoppe en 'n massiewe parametertelling van 175 miljard gehad. Wat GPT-3 onderskei het, was sy uiteenlopende opleidingsdata, wat CommonCrawl, WebText, Engelse Wikipedia, boekkorpusse en ander bronne insluit, wat 'n totaal van 570 GB kombineer.
Die verwikkeldheid van ChatGPT se werking bly 'n noukeurige geheim. Dit is egter bekend dat 'n proses genaamd 'versterkingsleer uit menslike terugvoer' (RLHF) deurslaggewend is. Hierdie tegniek, wat afkomstig is van 'n vroeëre ChatGPT-projek, was instrumenteel om die GPT-3.5-model te slyp om meer in lyn te wees met geskrewe instruksies.
ChatGPT se opleiding bestaan uit 'n drievlak-benadering:
- Verfyning onder toesig: Behels die samestelling van mensgeskrewe gespreksinsette en -uitsette om die onderliggende GPT-3.5-model te verfyn.
- Beloningsmodellering: Mense rangskik verskeie model-uitsette op grond van kwaliteit, wat help om 'n beloningsmodel op te lei wat elke uitset aanteken met inagneming van die gesprek se konteks.
- Versterkingsleer: Die gesprekskonteks dien as 'n agtergrond waar die onderliggende model 'n reaksie voorstel. Hierdie reaksie word deur die beloningsmodel geassesseer, en die proses word geoptimaliseer deur gebruik te maak van 'n algoritme genaamd proksimale beleidsoptimering (PPO).
Vir diegene wat net hul tone in ChatGPT dompel, kan 'n omvattende begingids gevind word na hierdie skakel. As jy op soek is om dieper te delf in vinnige ingenieurswese met ChatGPT, het ons ook 'n gevorderde gids wat lig op die nuutste en moderne vinnige tegnieke, beskikbaar by 'ChatGPT en gevorderde vinnige ingenieurswese: bestuur die KI-evolusie".
Diffusie en multimodale modelle
Terwyl modelle soos VAE's en GAN's hul uitsette deur 'n enkele pas genereer, dus vasgevang in wat hulle ook al produseer, het diffusiemodelle die konsep van 'iteratiewe verfyning'. Deur hierdie metode sirkel hulle terug, verfyn foute van vorige stappe, en lewer geleidelik 'n meer gepoleerde resultaat.
Sentraal tot diffusiemodelle is die kuns van "korrupsie” en “verfyning”. In hul opleidingsfase word 'n tipiese beeld geleidelik beskadig deur verskillende vlakke van geraas by te voeg. Hierdie raserige weergawe word dan na die model gevoer, wat poog om dit te 'denoise' of 'de-korrupte'. Deur verskeie rondes hiervan word die model vaardig in herstel, en verstaan beide subtiele en beduidende afwykings.
Die proses om nuwe beelde na opleiding te genereer, is interessant. Begin met 'n heeltemal ewekansige insette, dit word voortdurend verfyn deur die model se voorspellings te gebruik. Die bedoeling is om 'n ongerepte beeld te verkry met die minimum aantal stappe. Die beheer van die vlak van korrupsie word gedoen deur 'n "geraasskedule", 'n meganisme wat bepaal hoeveel geraas in verskillende stadiums toegepas word. 'n skeduleerder, soos gesien in biblioteke soos "verspreiders“, dikteer die aard van hierdie raserige weergawes gebaseer op gevestigde algoritmes.
'N noodsaaklike argitektoniese ruggraat vir baie diffusie modelle is die UNet- 'n konvolusionele neurale netwerk wat aangepas is vir take wat uitsette vereis wat die ruimtelike dimensie van insette weerspieël. Dit is 'n mengsel van lae vir afsteekproefneming en opsteekproefneming, ingewikkeld verbind om hoë-resolusie-data te behou, deurslaggewend vir beeldverwante uitsette.
Delf dieper in die gebied van generatiewe modelle, OpenAI's DALL-E2 na vore as 'n blink voorbeeld van die samesmelting van tekstuele en visuele KI-vermoëns. Dit gebruik 'n drievlakstruktuur:
DALL-E 2 vertoon 'n drievoudige argitektuur:
- Tekskodeerder: Dit verander die teksaanvraag in 'n konseptuele inbedding binne 'n latente ruimte. Hierdie model begin nie vanaf grond nul nie. Dit steun op OpenAI se Contrastive Language–Image Pre-opleiding (CLIP) datastel as sy grondslag. CLIP dien as 'n brug tussen visuele en tekstuele data deur visuele konsepte met behulp van natuurlike taal aan te leer. Deur 'n meganisme bekend as kontrastiewe leer, identifiseer en pas dit beelde met hul ooreenstemmende tekstuele beskrywings.
- Die Prior: Die teksinbedding wat van die enkodeerder afgelei is, word dan omgeskakel na 'n beeldinbedding. DALL-E 2 het beide outoregressiewe en diffusiemetodes vir hierdie taak getoets, met laasgenoemde wat uitstekende resultate toon. Outoregressiewe modelle, soos gesien in Transformers en PixelCNN, genereer uitsette in rye. Aan die ander kant transformeer diffusiemodelle, soos die een wat in DALL-E 2 gebruik word, ewekansige geraas in voorspelde beeldinbeddings met behulp van teksinbeddings.
- Die dekodeerder: Die klimaks van die proses, hierdie deel genereer die finale visuele uitset gebaseer op die teksopdrag en die beeldinbedding van die vorige fase. DALL.E 2 se dekodeerder het sy argitektuur te danke aan 'n ander model, GLY, wat ook realistiese beelde uit tekstuele leidrade kan produseer.
Python-gebruikers wat belangstel in Langketting moet kyk na ons gedetailleerde tutoriaal wat alles van die grondbeginsels tot gevorderde tegnieke dek.
Toepassings van Generatiewe KI
Tekstuele domeine
Begin met teks, is Generatiewe AI fundamenteel verander deur chatbots soos Klets GPT. Deur grootliks staatmaak op Natuurlike Taalverwerking (NLP) en groottaalmodelle (LLM'e), word hierdie entiteite bemagtig om take uit te voer wat wissel van kodegenerering en taalvertaling tot opsomming en sentimentanalise. ChatGPT, byvoorbeeld, het wydverspreide aanneming gesien, wat 'n stapelvoedsel vir miljoene geword het. Dit word verder aangevul deur gespreks-KI-platforms, gegrond op LLM's soos GPT-4, PALM, en BLOOM, wat moeiteloos teks produseer, help met programmering en selfs wiskundige redenasie bied.
Vanuit 'n kommersiële perspektief word hierdie modelle van onskatbare waarde. Besighede neem hulle in diens vir 'n magdom bedrywighede, insluitend risikobestuur, voorraadoptimalisering en voorspellingsvereistes. Enkele noemenswaardige voorbeelde sluit in Bing AI, Google se BARD en ChatGPT API.
kuns
Die wêreld van beelde het dramatiese transformasies met Generatiewe KI beleef, veral sedert DALL-E 2 se bekendstelling in 2022. Hierdie tegnologie, wat beelde kan genereer uit tekstuele aansporings, het beide artistieke en professionele implikasies. Midjourney het byvoorbeeld hierdie tegnologie aangewend om indrukwekkend realistiese beelde te produseer. Hierdie onlangse plasing ontmystifiseer Midjourney in 'n gedetailleerde gids, wat beide die platform en sy vinnige ingenieursvernuf toelig. Verder gebruik platforms soos Alpaca AI en Photoroom AI Generatiewe AI vir gevorderde beeldbewerkingsfunksies soos agtergrondverwydering, objekskrap en selfs gesigherstel.
video Produksie
Videoproduksie, terwyl dit nog in sy ontluikende stadium in die ryk van Generatiewe KI is, toon belowende vooruitgang. Platforms soos Imagen Video, Meta Make A Video en Runway Gen-2 verskuif die grense van wat moontlik is, selfs al is werklik realistiese uitsette nog op die horison. Hierdie modelle bied aansienlike nut vir die skep van digitale menslike video's, met toepassings soos Synthesia en SuperCreator wat die hoofrol speel. Tavus AI bied veral 'n unieke verkoopsvoorstel deur video's vir individuele gehoorlede te verpersoonlik, 'n seën vir besighede.
Kode skepping
Kodering, 'n onontbeerlike aspek van ons digitale wêreld, het nie onaangeraak gebly deur Generatiewe KI nie. Alhoewel ChatGPT 'n gunsteling hulpmiddel is, is verskeie ander KI-toepassings vir koderingsdoeleindes ontwikkel. Hierdie platforms, soos GitHub Copilot, Alphacode en CodeComplete, dien as koderingsassistente en kan selfs kode uit teksaanwysings produseer. Wat interessant is, is die aanpasbaarheid van hierdie gereedskap. Codex, die dryfkrag agter GitHub Copilot, kan aangepas word vir 'n individu se koderingstyl, wat die verpersoonlikingspotensiaal van Generative AI onderstreep.
Gevolgtrekking
Die vermenging van menslike kreatiwiteit met masjienberekening, het ontwikkel tot 'n waardevolle hulpmiddel, met platforms soos ChatGPT en DALL-E 2 wat die grense verskuif van wat denkbaar is. Van die skep van tekstuele inhoud tot die beeldhouwerk van visuele meesterstukke, hul toepassings is groot en uiteenlopend.
Soos met enige tegnologie, is etiese implikasies uiters belangrik. Terwyl Generatiewe KI onbeperkte kreatiwiteit beloof, is dit van kardinale belang om dit verantwoordelik te gebruik, bewus van potensiële vooroordele en die krag van datamanipulasie.
Met nutsmiddels soos ChatGPT wat meer toeganklik word, is dit nou die perfekte tyd om die waters te toets en te eksperimenteer. Of jy nou 'n kunstenaar, kodeerder of tegnologie-entoesias is, die ryk van Generatiewe AI is vol moontlikhede wat wag om verken te word. Die rewolusie is nie op die horison nie; dit is hier en nou. So, duik in!