Inteligjenca artificiale

Modelet e difuzionit në AI – Gjithçka që duhet të dini

Publikuar

1 vit më parë

March 31, 2023

Një kolazh i fytyrave njerëzore të krijuara duke përdorur gjeneratorin e imazhit të AI

Në ekosistemin e AI, modelet e difuzionit po vendosin drejtimin dhe ritmin e avancimit teknologjik. Ata po revolucionarizojnë mënyrën se si i qasemi kompleksit AI gjeneruese detyrat. Këto modele bazohen në matematikën e parimeve gaussian, variancës, ekuacioneve diferenciale dhe sekuencave gjeneruese. (Ne do të shpjegojmë zhargonin teknik më poshtë)

Produktet dhe zgjidhjet moderne të përqendruara në inteligjencën artificiale të zhvilluara nga Nvidia, Google, Adobe dhe OpenAI kanë vendosur modelet e difuzionit në qendër të vëmendjes. DALL.E 2, Difuzion i qëndrueshëmdhe Mesi i udhëtimit janë shembuj të spikatur të modeleve të difuzionit që po bëjnë xhiro në internet kohët e fundit. Përdoruesit ofrojnë një mesazh të thjeshtë teksti si hyrje dhe këto modele mund t'i konvertojnë ato në imazhe realiste, siç është ajo e paraqitur më poshtë.

Një imazh i krijuar me Midjourney v5 duke përdorur kërkesën e hyrjes: lulekuqe të gjalla të Kalifornisë. Burimi: Mesi i udhëtimit

Le të eksplorojmë parimet themelore të punës së modeleve të difuzionit dhe se si ato po ndryshojnë drejtimet dhe normat e botës siç e shohim sot.

Cilat janë modelet e difuzionit?

Sipas publikimit të hulumtimit "Denoising Modele Probabilistike të Difuzionit,” modelet e difuzionit përcaktohen si:

"Një model difuzioni ose modeli probabilistik i difuzionit është një zinxhir i parametrizuar Markov i trajnuar duke përdorur konkluzionet variacionale për të prodhuar mostra që përputhen me të dhënat pas një kohe të fundme"

E thënë thjesht, modelet e difuzionit mund të gjenerojnë të dhëna të ngjashme me ato me të cilat janë trajnuar. Nëse modeli stërvit me imazhet e maceve, ai mund të gjenerojë imazhe të ngjashme realiste të maceve.

Tani le të përpiqemi të zbërthejmë përkufizimin teknik të përmendur më lart. Modelet e difuzionit marrin frymëzim nga parimi i punës dhe baza matematikore e një modeli probabilist që mund të analizojë dhe parashikojë sjelljen e një sistemi që ndryshon me kalimin e kohës, si parashikimi i kthimit të tregut të aksioneve ose përhapja e pandemisë.

Përkufizimi thotë se ato janë zinxhirë Markov të parametrizuar të trajnuar me përfundime variacionale. Zinxhirët Markov janë modele matematikore që përcaktojnë një sistem që kalon midis gjendjeve të ndryshme me kalimin e kohës. Gjendja ekzistuese e sistemit mund të përcaktojë vetëm probabilitetin e kalimit në një gjendje specifike. Me fjalë të tjera, gjendja aktuale e një sistemi mban gjendjet e mundshme që një sistem mund të ndjekë ose të marrë në çdo kohë të caktuar.

Trajnimi i modelit duke përdorur konkluzionet variacionale përfshin llogaritjet komplekse për shpërndarjet e probabilitetit. Ai synon të gjejë parametrat e saktë të zinxhirit Markov që përputhen me të dhënat e vëzhguara (të njohura ose aktuale) pas një kohe të caktuar. Ky proces minimizon vlerën e funksionit të humbjes së modelit, që është diferenca midis gjendjes së parashikuar (të panjohur) dhe të vëzhguar (të njohur).

Pasi të trajnohet, modeli mund të gjenerojë mostra që përputhen me të dhënat e vëzhguara. Këto mostra përfaqësojnë trajektore të mundshme ose thonë se sistemi mund të ndjekë ose të fitojë me kalimin e kohës, dhe secila trajektore ka një probabilitet të ndryshëm për të ndodhur. Prandaj, modeli mund të parashikojë sjelljen e ardhshme të sistemit duke gjeneruar një sërë mostrash dhe duke gjetur probabilitetet e tyre përkatëse (mundësia që këto ngjarje të ndodhin).

Si të interpretoni modelet e difuzionit në AI?

Modelet e difuzionit janë modele gjeneruese të thella që funksionojnë duke shtuar zhurmë (zhurmë Gaussian) në të dhënat e disponueshme të trajnimit (të njohura edhe si procesi i difuzionit përpara) dhe më pas duke e kthyer procesin (i njohur si denoising ose procesi i kundërt i difuzionit) për të rikuperuar të dhënat. Modeli gradualisht mëson të heqë zhurmën. Ky proces i mësuar i denoisimit gjeneron imazhe të reja, me cilësi të lartë nga farat e rastësishme (imazhe me zhurmë të rastësishme), siç tregohet në ilustrimin e mëposhtëm.

Procesi i difuzionit të kundërt: Një imazh i zhurmshëm denoizohet për të rikuperuar imazhin origjinal (ose gjeneruar variacionet e tij) nëpërmjet një modeli të trajnuar të difuzionit. Burimi: Denoising Modele Probabilistike të Difuzionit

3 Kategoritë e Modeleve të Difuzionit

Atje jane tre korniza themelore matematikore që mbështesin shkencën pas modeleve të difuzionit. Të tre punojnë në të njëjtat parime të shtimit të zhurmës dhe më pas heqjes së tij për të gjeneruar mostra të reja. Le t'i diskutojmë ato më poshtë.

Një model difuzioni shton dhe heq zhurmën nga një imazh. Burimi: Modelet e Difuzionit në Vizion: Një Sondazh

1. Modelet probabilistike të shpërndarjes së zhurmës (DDPM)

Siç u shpjegua më lart, DDPM-të janë modele gjeneruese të përdorura kryesisht për të hequr zhurmën nga të dhënat vizuale ose audio. Ata kanë treguar rezultate mbresëlënëse në detyra të ndryshme denoising imazhi dhe audio. Për shembull, industria e prodhimit të filmave përdor mjete moderne të përpunimit të imazhit dhe videove për të përmirësuar cilësinë e prodhimit.

2. Modele gjeneruese të bazuara në rezultate të kushtëzuara nga zhurma (SGM)

SGM-të mund të gjenerojnë mostra të reja nga një shpërndarje e caktuar. Ata punojnë duke mësuar një funksion të rezultatit të vlerësimit që mund të vlerësojë densitetin e regjistrit të shpërndarjes së synuar. Vlerësimi i densitetit të regjistrit bën supozime për pikat e disponueshme të të dhënave që janë pjesë e një grupi të dhënash të panjohur (bashkësi testuese). Ky funksion rezultati mund të gjenerojë më pas pika të reja të dhënash nga shpërndarja.

Për shembull, falsifikime të thella janë të njohur për prodhimin e videove dhe audiove të rreme të personaliteteve të famshme. Por ato kryesisht i atribuohen Rrjetet gjeneruese kundërshtare (GAN). Megjithatë, SGM-të kanë tregoi aftësi të ngjashme - nganjëherë tejkalojnë – në gjenerimin e fytyrave të famshme me cilësi të lartë. Gjithashtu, SGM-të mund të ndihmojnë në zgjerimin e grupeve të të dhënave të kujdesit shëndetësor, të cilat nuk janë lehtësisht të disponueshme në sasi të mëdha për shkak të rregulloreve strikte dhe standardeve të industrisë.

3. Ekuacionet diferenciale stokastike (SDEs)

SDE-të përshkruajnë ndryshimet në proceset e rastësishme në lidhje me kohën. Ato përdoren gjerësisht në fizikë dhe tregjet financiare duke përfshirë faktorë të rastësishëm që ndikojnë ndjeshëm në rezultatet e tregut.

Për shembull, çmimet e mallrave janë shumë dinamike dhe ndikohen nga një sërë faktorësh të rastësishëm. SDE-të llogaritin derivativët financiarë si kontratat e së ardhmes (si kontratat e naftës së papërpunuar). Ata mund të modelojnë luhatjet dhe të llogarisin me saktësi çmimet e favorshme për të dhënë një ndjenjë sigurie.

Aplikimet kryesore të modeleve të difuzionit në AI

Le të shohim disa praktika dhe përdorime të përshtatura gjerësisht të modeleve të difuzionit në AI.

Gjenerim video me cilësi të lartë

Krijimi i videove të nivelit të lartë duke përdorur të mësuarit e thellë është sfiduese pasi kërkon vazhdimësi të lartë të kornizave video. Këtu janë të dobishëm modelet e difuzionit, pasi ato mund të gjenerojnë një nëngrup kornizash video për të plotësuar mes kornizave që mungojnë, duke rezultuar në video me cilësi të lartë dhe të qetë pa vonesë.

Studiuesit kanë zhvilluar Modeli i Difuzionit Fleksibël dhe Difuzioni i mbetur i videos teknikat për t'i shërbyer këtij qëllimi. Këto modele mund të prodhojnë gjithashtu video realiste duke shtuar pa probleme korniza të krijuara nga AI midis kornizave aktuale.

Këto modele thjesht mund të zgjasin FPS (kornizat për sekondë) të një videoje me FPS të ulët duke shtuar korniza të rreme pasi të mësojnë modelet nga kornizat e disponueshme. Pa pothuajse asnjë humbje të kuadrove, këto korniza mund të ndihmojnë më tej modelet e bazuara në mësim të thellë për të gjeneruar video të bazuara në AI nga e para që duken si shkrepje natyrale nga konfigurimet e kamerave të nivelit të lartë.

Një gamë e gjerë e shquar Gjeneratorë video të AI është në dispozicion në 2023 për të bërë prodhimin dhe modifikimin e përmbajtjes video të shpejtë dhe të drejtpërdrejtë.

Gjenerimi i tekstit në imazh

Modelet tekst-për-imazh përdorin udhëzime hyrëse për të gjeneruar imazhe me cilësi të lartë. Për shembull, duke dhënë të dhëna "mollë e kuqe në një pjatë" dhe duke prodhuar një imazh fotorealist të një mollë në një pjatë. Difuzion i përzier unCLIP janë dy shembuj të spikatur të modeleve të tilla që mund të gjenerojnë imazhe shumë të rëndësishme dhe të sakta bazuar në të dhënat e përdoruesit.

Gjithashtu, GLIDE nga OpenAI është një tjetër zgjidhje e njohur gjerësisht e lëshuar në vitin 2021 që prodhon imazhe fotorealiste duke përdorur hyrjen e përdoruesit. Më vonë, OpenAI publikoi DALL.E-2, modelin e tij më të avancuar të gjenerimit të imazheve deri më tani.

Në mënyrë të ngjashme, Google ka zhvilluar gjithashtu një model të gjenerimit të imazhit të njohur si Imazh, i cili përdor një model të madh gjuhësor për të zhvilluar një kuptim të thellë tekstual të tekstit hyrës dhe më pas gjeneron imazhe fotorealiste.

Ne kemi përmendur mjete të tjera të njohura të gjenerimit të imazheve si Midjourney dhe Stable Diffusion (studio ëndrrash) më sipër. Shikoni një imazh të krijuar duke përdorur Difuzionin e Qëndrueshëm më poshtë.

Një kolazh fytyrash njerëzore të krijuara me Difuzion të qëndrueshëm 1.5

Një imazh i krijuar me Stable Diffusion 1.5 duke përdorur urdhrin e mëposhtëm: "kolazhe, hiper-realiste, shumë variacione portret i Thom Yorke shumë i vjetër, variacione fytyre, kantautor, profili ( anësor ), mosha të ndryshme, lente makro, hapësirë kufitare, nga lee bermejo, alphonse mucha dhe greg rutkowski, mjekër gri, fytyrë e lëmuar, mollëza”

Modelet e difuzionit në AI – Çfarë duhet të presim në të ardhmen?

Modelet e difuzionit kanë zbuluar potencial premtues si një qasje e fuqishme për gjenerimin e mostrave me cilësi të lartë nga grupet komplekse të të dhënave të imazheve dhe videove. Duke përmirësuar aftësinë njerëzore për të përdorur dhe manipuluar të dhënat, modelet e difuzionit mund të revolucionarizojnë botën siç e shohim sot. Mund të presim të shohim edhe më shumë aplikime të modeleve të difuzionit duke u bërë pjesë integrale e jetës sonë të përditshme.

Duke thënë këtë, modelet e difuzionit nuk janë e vetmja teknikë gjeneruese e AI. Studiuesit përdorin gjithashtu Rrjetet Kundërshtare Gjeneruese (GANs), Variational Autoenkoder, dhe modele gjeneruese të thella të bazuara në rrjedhë për të gjeneruar përmbajtje të AI. Kuptimi i karakteristikave themelore që dallojnë modelet e difuzionit nga modelet e tjera gjeneruese mund të ndihmojë në prodhimin e zgjidhjeve më efektive në ditët në vijim.

Për të mësuar më shumë rreth teknologjive të bazuara në AI, vizitoni Bashkohu.ai. Shikoni burimet tona të kuruara për mjetet gjeneruese të AI më poshtë.