tynkä Generatiivinen tekoäly: idea CHATGPT:n, Dall-E:n, Midjourneyn ja muiden takana - Unite.AI
Liity verkostomme!

Tekoäly

Generatiivinen tekoäly: idea CHATGPT:n, Dall-E:n, Midjourneyn ja muiden takana

mm
Päivitetty on
Generatiivinen tekoäly – Midjourney Prompt

Taiteen, viestinnän ja todellisuuden näkemyksemme maailma muuttuu nopeasti. Jos katsomme taaksepäin ihmisen innovaatioiden historiaan, voisimme pitää pyörän keksintöä tai sähkön löytämistä monumentaalisina harppauksina. Nykyään tapahtuu uusi vallankumous, joka kaventaa ihmisen luovuuden ja konelaskennan välistä kuilua. Se on Generatiivinen AI.

Generatiiviset mallit ovat hämärtäneet rajan ihmisten ja koneiden välillä. Muuntajamoduuleita käyttävien mallien, kuten GPT-4:n, myötä olemme astuneet lähemmäksi luonnollista ja kontekstirikasta kielten sukupolvea. Nämä edistysaskeleet ovat lisänneet sovelluksia asiakirjojen luomiseen, chatbot-dialogijärjestelmiin ja jopa synteettiseen musiikin säveltämiseen.

Viimeaikaiset Big-Tech-päätökset korostavat sen merkitystä. Microsoft on jo lopettaa Cortana-sovelluksensa Tässä kuussa priorisoidaksemme uudemmat generatiivisen tekoälyn innovaatiot, kuten Bing Chat. Apple on myös omistanut merkittävän osan siitä T&K-budjetti 22.6 miljardia dollaria generatiiviseen tekoälyyn, kuten toimitusjohtaja Tim Cook ilmoitti.

Uusi mallien aikakausi: Generatiivinen vs. Syrjivä

Generative AI:n tarina ei koske vain sen sovelluksia, vaan pohjimmiltaan sen sisäistä toimintaa. Tekoälyekosysteemissä on kaksi mallia: syrjivä ja generatiivinen.

Useimmat ihmiset kohtaavat jokapäiväisessä elämässään syrjiviä malleja. Nämä algoritmit ottavat syötetiedot, kuten tekstin tai kuvan, ja yhdistävät sen kohdetulosteen, kuten sanan käännöksen tai lääketieteellisen diagnoosin, kanssa. Ne koskevat kartoittamista ja ennustamista.

Toisaalta generatiiviset mallit ovat luojia. He eivät vain tulkitse tai ennusta; ne luovat uusia, monimutkaisia ​​tuloksia lukuvektoreista, jotka eivät usein edes liity todellisiin arvoihin.

 

Generatiiviset tekoälytyypit: tekstistä tekstiksi, tekstistä kuvaksi (GPT, DALL-E, Midjourney)

Generatiivisten mallien takana olevat tekniikat

Generatiiviset mallit johtuvat olemassaolostaan ​​syvien hermoverkoista, kehittyneistä rakenteista, jotka on suunniteltu jäljittelemään ihmisaivojen toimintaa. Kaappaamalla ja prosessoimalla monitahoisia tiedon vaihteluita nämä verkot toimivat lukuisten generatiivisten mallien selkärankana.

Miten nämä generatiiviset mallit heräävät henkiin? Yleensä ne on rakennettu syvien hermoverkkojen avulla, jotka on optimoitu kaappaamaan datan monipuoliset vaihtelut. Tärkeä esimerkki on Generatiivinen kilpaileva verkosto (GAN), jossa kaksi hermoverkkoa, generaattori ja erottaja, kilpailevat ja oppivat toisiltaan ainutlaatuisessa opettaja-opiskelija-suhteessa. Maalauksista tyylin siirtoon, musiikin säveltämisestä pelien pelaamiseen nämä mallit kehittyvät ja laajenevat tavoilla, joita aiemmin ei voinut kuvitella.

Tämä ei lopu GAN:eihin. Variaatioautokooderit (VAE) ovat toinen keskeinen toimija generatiivisen mallin alalla. VAE erottuu kyvystään luoda fotorealistisia kuvia näennäisesti satunnaisista numeroista. Miten? Näiden lukujen käsittely piilevän vektorin kautta synnyttää taidetta, joka heijastaa ihmisen estetiikan monimutkaisuutta.

Generatiiviset AI-tyypit: tekstistä tekstiksi, tekstistä kuvaksi

Transformers & LLM

Paperi "Huomio on kaikki mitä tarvitsetGoogle Brain merkitsi muutosta tavassamme ajatella tekstin mallintamista. Monimutkaisten ja peräkkäisten arkkitehtuurien, kuten Recurrent Neural Networks (RNN:t) tai Convolutional Neural Networks (CNN:t), sijaan Transformer-malli esitteli huomion käsitteen, joka pohjimmiltaan tarkoitti keskittymistä syöttötekstin eri osiin kontekstista riippuen. Yksi tämän tärkeimmistä eduista oli rinnakkaisuuden helppous. Toisin kuin RNN:t, jotka käsittelevät tekstiä peräkkäin, mikä tekee niistä vaikeampaa skaalata, Transformers voivat käsitellä tekstin osia samanaikaisesti, mikä tekee harjoittelusta nopeampaa ja tehokkaampaa suurilla tietojoukoilla.

Muuntaja-malli arkkitehtuuri

Pitkässä tekstissä jokainen lukemasi sana tai lause ei ole yhtä tärkeä. Jotkut osat vaativat enemmän huomiota kontekstin perusteella. Huomiomekanismi jäljittelee tätä kykyä siirtää painopisteemme merkityksen perusteella.

Ymmärtääksesi tämän, ajattele lause: "Unite AI Publish AI and Robotics News." Nyt seuraavan sanan ennustaminen edellyttää ymmärrystä siitä, mikä on tärkeintä edellisessä kontekstissa. Termi "Robotiikka" saattaa viitata siihen, että seuraava sana voisi liittyä tiettyyn edistykseen tai tapahtumaan robotiikka-alalla, kun taas "Julkaise" saattaa tarkoittaa, että seuraava konteksti saattaa viitata äskettäiseen julkaisuun tai artikkeliin.

Self-Attention Mechanism -selitys demolauseessa
Self Attention kuva

Transformersin huomiomekanismit on suunniteltu saavuttamaan tämä valikoiva keskittyminen. He mittaavat syötetyn tekstin eri osien tärkeyttä ja päättävät, mistä "katsovat" vastausta luodessaan. Tämä on poikkeama vanhemmista arkkitehtuureista, kuten RNN:istä, jotka yrittivät tukkia kaiken syötetyn tekstin olemuksen yhteen "tilaan" tai "muistiin".

Huomion toimintaa voidaan verrata avainarvojen hakujärjestelmään. Kun yritetään ennustaa lauseen seuraavaa sanaa, jokainen edeltävä sana tarjoaa "avaimen", joka viittaa sen mahdolliseen relevanssiin, ja sen perusteella, kuinka hyvin nämä avaimet vastaavat nykyistä kontekstia (tai kyselyä), ne antavat "arvon" tai painoarvon ennustus.

Nämä edistyneet tekoälyn syväoppimismallit on integroitu saumattomasti erilaisiin sovelluksiin Googlen hakukoneparannuksista BERT:n kanssa GitHubin Copilotiin, joka hyödyntää Large Language Models (LLM) kykyä muuntaa yksinkertaiset koodinpätkät täysin toimiviksi lähdekoodeiksi.

Suuret kielimallit (LLM), kuten GPT-4, Bard ja LLaMA, ovat valtavia rakenteita, jotka on suunniteltu tulkitsemaan ja luomaan ihmisten kieltä, koodia ja muuta. Niiden valtava koko, joka vaihtelee miljardeista biljooniin parametreihin, on yksi tärkeimmistä ominaisuuksista. Nämä LLM:t syötetään suurilla määrillä tekstidataa, mikä antaa heille mahdollisuuden ymmärtää ihmisten kielen monimutkaisuus. Näiden mallien silmiinpistävä ominaisuus on niiden soveltuvuus "muutama laukaus”oppiminen. Toisin kuin perinteiset mallit, jotka tarvitsevat valtavia määriä erityistä koulutusdataa, LLM:t voivat yleistää hyvin rajallisesta määrästä esimerkkejä (tai "laukauksia").

Suurien kielimallien tila (LLM) vuoden 2023 puolivälin jälkeen

Mallin nimiKehittäjäparametritSaatavuus ja pääsyMerkittäviä ominaisuuksia ja huomautuksia
GPT-4OpenAI1.5 TrillionEi avointa lähdekoodia, vain API-käyttöoikeusVaikuttava suorituskyky erilaisissa tehtävissä voi käsitellä kuvia ja tekstiä, enimmäissyöttöpituus 32,768 XNUMX merkkiä
GPT-3OpenAI175 miljardiaEi avointa lähdekoodia, vain API-käyttöoikeusOsoitti muutaman otoksen ja nollakuvan oppimisominaisuudet. Suorittaa tekstin täydennyksen luonnollisella kielellä.
KUKINTABigScience176 miljardiaLadattava malli, isännöity API saatavillaMonikielinen LLM on kehitetty maailmanlaajuisessa yhteistyössä. Tukee 13 ohjelmointikieltä.
TheMDAGoogle173 miljardiaEi avointa lähdekoodia, ei APIa tai lataustaDialogiin koulutettu voisi oppia puhumaan käytännöllisesti katsoen mistä tahansa
MT-NLGNvidia/Microsoft530 miljardiaAPI-käyttö sovelluksellaHyödyntää muuntajapohjaista Megatron-arkkitehtuuria erilaisiin NLP-tehtäviin.
LaamaAI tavoite7B - 65B)Ladattavissa sovelluksellaTarkoitettu tekoälyn demokratisoimiseen tarjoamalla pääsy tutkimus-, hallinto- ja tiedemaailman toimijoille.

Miten LLM:itä käytetään?

LLM:itä voidaan käyttää useilla tavoilla, mukaan lukien:

  1. Suora käyttö: Käytä yksinkertaisesti esikoulutettua LLM:ää tekstin luomiseen tai käsittelyyn. Esimerkiksi GPT-4:n käyttäminen blogitekstin kirjoittamiseen ilman ylimääräisiä hienosäätöjä.
  2. Hienosäätö: Valmiiksi koulutetun LLM:n mukauttaminen tiettyyn tehtävään, menetelmä, joka tunnetaan nimellä siirtooppiminen. Esimerkkinä voisi olla T5:n mukauttaminen luomaan yhteenvedot tietyn toimialan asiakirjoista.
  3. Tiedonhaku: LLM:ien, kuten BERT:n tai GPT:n, käyttäminen osana suurempia arkkitehtuureja järjestelmien kehittämiseen, jotka voivat hakea ja luokitella tietoja.
Generatiivinen AI ChatGPT -hienosäätö
ChatGPT hienosäätöarkkitehtuuri

Monipäinen huomio: miksi yksi, kun sinulla voi olla monta?

Yhteen huomiomekanismiin luottaminen voi kuitenkin olla rajoittavaa. Tekstin eri sanoilla tai sarjoilla voi olla erityyppistä merkitystä tai assosiaatiota. Tässä tulee esiin monen pään huomio. Yhden huomiopainotusjoukon sijasta usean pään huomio käyttää useita joukkoja, jolloin malli voi kaapata syöttötekstiin monipuolisemman valikoiman suhteita. Jokainen huomion ”pää” voi keskittyä syötteen eri osiin tai aspekteihin, ja heidän yhdistettyjä tietojaan käytetään lopulliseen ennustukseen.

ChatGPT: Suosituin luova tekoälytyökalu

GPT:n perustamisesta vuonna 2018 lähtien malli rakennettiin 12 kerroksen, 12 huomiopään ja 120 miljoonan parametrin perustalle, jotka pääasiallisesti koulutettiin BookCorpus-nimiseen tietoaineistoon. Tämä oli vaikuttava alku, joka tarjosi kurkistuksen kielimallien tulevaisuuteen.

Vuonna 2 julkistetun GPT-2019:n kerrosten ja huomiopäiden määrä on nelinkertaistunut. Merkittävää on, että sen parametrien määrä nousi pilviin 1.5 miljardiin. Tämä parannettu versio sai koulutuksensa WebTextistä, tietojoukosta, joka on rikastettu 40 Gt:lla tekstiä eri Reddit-linkeistä.

Toukokuussa 3 lanseeratussa GPT-2020:ssa oli 96 kerrosta, 96 huomiopäätä ja massiivinen 175 miljardin parametrien määrä. GPT-3:n erottui sen monipuolisesta koulutusdatasta, joka sisälsi CommonCrawlin, WebTextin, englanninkielisen Wikipedian, kirjakorjaukset ja muut lähteet, yhteensä 570 Gt.

ChatGPT:n toiminnan monimutkaisuus on edelleen tiiviisti varjeltu salaisuus. Prosessin, jota kutsutaan "inforcement learning from human feedback" (RLHF), tiedetään kuitenkin olevan keskeinen. Tämä tekniikka on peräisin aikaisemmasta ChatGPT-projektista, ja se auttoi hiomaan GPT-3.5-mallia vastaamaan paremmin kirjallisia ohjeita.

ChatGPT:n koulutus sisältää kolmiportaisen lähestymistavan:

  1. Valvottu hienosäätö: Sisältää ihmisen kirjoittamien keskustelusyötteiden ja -tulosteiden kuratoinnin taustalla olevan GPT-3.5-mallin hiomiseksi.
  2. Palkintomallinnus: Ihmiset luokittelevat eri mallien tuotoksia laadun perusteella, mikä auttaa kouluttamaan palkitsemismallin, joka pisteyttää jokaisen tuotoksen keskustelun kontekstin perusteella.
  3. Oppimisen vahvistaminen: Keskustelukonteksti toimii taustana, jossa taustalla oleva malli ehdottaa vastausta. Palkkiomalli arvioi tätä vastetta ja prosessi optimoidaan käyttämällä PPO-nimistä algoritmia.

Niille, jotka vain upottavat varpaansa ChatGPT:hen, löytyy kattava aloitusopas tätä. Jos haluat syventää nopeaa suunnittelua ChatGPT:n avulla, meillä on myös edistynyt opas, joka valaisee uusimmat ja huippuluokan kehotustekniikat. Saatavilla osoitteesta "ChatGPT ja Advanced Prompt Engineering: AI Evolutionin ohjaaminen".

Diffuusio- ja multimodaaliset mallit

Vaikka mallit, kuten VAE ja GAN, tuottavat tulostensa yhdellä läpikäynnillä, joten ne ovat lukittuina tuottamaan mitä tahansa, diffuusiomallit ovat ottaneet käyttöön käsitteen "iteratiivinen tarkennus'. Tämän menetelmän avulla he kiertävät taaksepäin, jalostavat aiempien vaiheiden virheitä ja tuottavat vähitellen hienostuneen tuloksen.

Keskeistä diffuusiomalleissa on taide "korruptio" ja "jalostus". Heidän harjoitteluvaiheessaan tyypillinen kuva vaurioituu asteittain lisäämällä eri tasoisia kohinaa. Tämä meluisa versio syötetään sitten malliin, joka yrittää "hiljentää" tai "de-korruptoida" sen. Useiden kierrosten ansiosta mallista tulee taitava restauroinnissa ja ymmärtää sekä hienovaraiset että merkittävät poikkeamat.

Generatiivinen tekoäly – Midjourney Prompt
Kuva luotu Midjourneysta

Uusien kuvien luominen koulutuksen jälkeen on kiehtova. Alkaen täysin satunnaistetusta syötteestä, sitä jalostetaan jatkuvasti käyttämällä mallin ennusteita. Tarkoituksena on saavuttaa koskematon kuva mahdollisimman pienellä määrällä askeleita. Korruption tasoa valvotaan "meluaikataulun" avulla, mekanismilla, joka ohjaa melun määrää eri vaiheissa. Ajastin, kuten näkyy kirjastoissa, kuten "diffuusorit", sanelee näiden meluisten esitysten luonteen vakiintuneiden algoritmien perusteella.

Olennainen arkkitehtoninen selkäranka monille diffuusiomalleille on UNet-konvoluutiohermoverkko, joka on räätälöity tehtäviin, jotka edellyttävät syötteiden tilaulottuvuutta heijastavia lähtöjä. Se on sekoitus alasnäytteistys- ja ylösnäytteistyskerroksia, jotka on yhdistetty monimutkaisesti säilyttämään korkearesoluutioisia tietoja, ja ne ovat keskeisiä kuviin liittyvissä lähdöissä.

Sukella syvemmälle generatiivisten mallien, OpenAI:n, valtakuntaan DALL-E2 on loistava esimerkki tekstin ja visuaalisen AI-ominaisuuksien yhdistämisestä. Se käyttää kolmiportaista rakennetta:

DALL-E 2 esittelee kolmiosaisen arkkitehtuurin:

  1. Text Encoder: Se muuttaa tekstikehotteen käsitteelliseksi upotukseksi piilevään tilaan. Tämä malli ei aloita nollasta. Se nojaa OpenAI:n Contrasttive Language-Image Pre-koulutukseen (CLIP) tietojoukko sen perustana. CLIP toimii siltana visuaalisen ja tekstitiedon välillä oppimalla visuaalisia käsitteitä luonnollisella kielellä. Kontrastiivisena oppimisena tunnetun mekanismin avulla se tunnistaa ja yhdistää kuvat niitä vastaaviin tekstikuvauksiin.
  2. Aiempi: Enkooderista johdettu tekstin upottaminen muunnetaan sitten kuva upotukseksi. DALL-E 2 testasi tähän tehtävään sekä autoregressiivisiä että diffuusiomenetelmiä, joista jälkimmäinen esitti ylivoimaisia ​​tuloksia. Autoregressiiviset mallit, kuten Transformersissa ja PixelCNN:ssä nähdään, tuottavat ulostuloja sekvensseinä. Toisaalta diffuusiomallit, kuten DALL-E 2:ssa käytetyt, muuttavat satunnaista kohinaa ennustetuiksi kuvan upotuksiksi tekstin upotusten avulla.
  3. Dekooderi: Prosessin huipentuma, tämä osa luo lopullisen visuaalisen tulosteen tekstikehotteen ja edellisen vaiheen kuvan upotuksen perusteella. DALL.E 2:n dekooderin arkkitehtuuri on velkaa toiselle mallille, LIUKUA, joka voi myös tuottaa realistisia kuvia tekstivihjeistä.
DALL-E-mallin arkkitehtuuri (diffuusiomonimalli)
DALL-E-mallin yksinkertaistettu arkkitehtuuri

Python-käyttäjät ovat kiinnostuneita Langchain kannattaa tutustua yksityiskohtaiseen opetusohjelmaamme, joka kattaa kaiken perusteista edistyneisiin tekniikoihin.

Generatiivisen tekoälyn sovellukset

Tekstiverkkotunnukset

Tekstistä alkaen generatiivista tekoälyä ovat muuttaneet perusteellisesti chatbotit, kuten ChatGPT. Luonnollisen kielen prosessointiin (NLP) ja suuriin kielimalleihin (LLM) tukeutuen näillä yksiköillä on valtuudet suorittaa tehtäviä koodin luomisesta ja kielen kääntämisestä yhteenvetoon ja tunteiden analysointiin. Esimerkiksi ChatGPT on otettu laajalti käyttöön, ja siitä on tullut miljoonien suosikki. Tätä täydentävät edelleen keskustelupohjaiset tekoälyalustat, jotka perustuvat GPT-4:n kaltaisiin LLM:ihin, paLMja KUKINTA, jotka tuottavat vaivattomasti tekstiä, auttavat ohjelmoinnissa ja tarjoavat jopa matemaattista päättelyä.

Kaupallisesta näkökulmasta näistä malleista on tulossa korvaamattomia. Yritykset käyttävät niitä lukemattomiin toimintoihin, mukaan lukien riskienhallinta, varaston optimointi ja ennustevaatimukset. Joitakin merkittäviä esimerkkejä ovat Bing AI, Googlen BARD ja ChatGPT API.

Art

Kuvamaailma on kokenut dramaattisia muutoksia Generative AI:n avulla, etenkin sen jälkeen, kun DALL-E 2 esiteltiin vuonna 2022. Tällä tekniikalla, joka voi luoda kuvia tekstikehotteista, on sekä taiteellisia että ammatillisia vaikutuksia. Esimerkiksi midjourney on hyödyntänyt tätä tekniikkaa tuottamaan vaikuttavan realistisia kuvia. Tämä tuore postaus demystifioi Midjourneyn yksityiskohtaisessa oppaassa, jossa selvitetään sekä alustaa että sen nopeaa suunnittelua. Lisäksi alustat, kuten Alpaca AI ja Photoroom AI, käyttävät Generatiivista tekoälyä edistyneisiin kuvankäsittelytoimintoihin, kuten taustan poistamiseen, objektien poistamiseen ja jopa kasvojen palauttamiseen.

video Tuotanto

Videotuotanto, joka on vielä syntymässä Generative AI -maailmassa, esittelee lupaavia edistysaskeleita. Alustat, kuten Imagen Video, Meta Make A Video ja Runway Gen-2, ylittävät mahdollisuuksien rajoja, vaikka todella realistisia tuloksia on vielä horisontissa. Nämä mallit tarjoavat huomattavan hyödyn digitaalisten ihmisvideoiden luomiseen, ja sovellukset, kuten Synthesia ja SuperCreator, ovat johtavassa asemassa. Erityisesti Tavus AI tarjoaa ainutlaatuisen myyntiehdotuksen personoimalla videoita yksittäisille yleisön jäsenille, mikä on siunaus yrityksille.

Koodin luominen

Koodaus, digitaalisen maailmamme välttämätön osa, ei ole jäänyt Generative AI:n koskematta. Vaikka ChatGPT on suosittu työkalu, useita muita tekoälysovelluksia on kehitetty koodaustarkoituksiin. Nämä alustat, kuten GitHub Copilot, Alphacode ja CodeComplete, toimivat koodausavustajina ja voivat jopa tuottaa koodia tekstikehotteista. Kiinnostavaa on näiden työkalujen mukautuvuus. Codex, GitHub Copilotin liikkeellepaneva voima, voidaan räätälöidä yksilön koodaustyyliin, mikä korostaa Generative AI:n personointipotentiaalia.

Yhteenveto

Ihmisen luovuuden ja konelaskennan yhdistäminen on kehittynyt korvaamattoman arvokkaaksi työkaluksi, ja ChatGPT:n ja DALL-E 2:n kaltaiset alustat ylittävät ajateltavissa olevien rajojen. Niiden sovellukset ovat laajat ja monipuoliset aina tekstisisällön luomisesta visuaalisten mestariteosten luomiseen.

Kuten missä tahansa tekniikassa, eettiset vaikutukset ovat ensiarvoisen tärkeitä. Vaikka Generatiivinen tekoäly lupaa rajatonta luovuutta, on ratkaisevan tärkeää käyttää sitä vastuullisesti ja olla tietoinen mahdollisista harhoista ja tietojen manipuloinnin voimasta.

Koska ChatGPT:n kaltaiset työkalut ovat entistä helppokäyttöisempiä, nyt on täydellinen aika testata vesiä ja kokeilla. Olitpa taiteilija, koodaaja tai tekniikan ystävä, Generative AI -maailma on täynnä mahdollisuuksia, jotka odottavat tutkimista. Vallankumous ei ole horisontissa; se on tässä ja nyt. Sukella siis sisään!

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.