- Terminologjia (A deri në D)
- Kontrolli i aftësisë së AI
- AI Ops
- albumimet
- Performanca e Aseteve
- Autoenkoder
- Përhapja prapa
- Teorema e Bayes
- Të dhënat Big
- Chatbot: Një udhëzues fillestar
- Të menduarit llogaritës
- Vizioni i kompjuterit
- Matrica e Konfuzionit
- Rrjetet nervore konvolucionale
- kibernetike
- Pëlhurë e të dhënave
- Tregimi i të dhënave
- Shkenca e të dhënave
- Ruajtja e të dhënave
- Pema e Vendimit
- Falsifikime të thella
- Mësim i thellë
- Përforcimi i thellë i të nxënit
- DevOps
- DevSecOps
- Modelet e Difuzionit
- Binjake dixhitale
- Reduktimi i dimensionit
- Terminologjia (E deri në K)
- Edge AI
- Emocioni AI
- Mësimi i Ansamblit
- Hacking etike
- ETL
- AI e shpjegueshme
- Mësimi i Federuar
- FinOps
- UA gjeneruese
- Rrjeti i kundërshtarëve gjenerues
- Gjenerative kundër diskriminuese
- Rritja e gradientit
- Zbritja me gradient
- Mësimi me pak gjuajtje
- Klasifikimi i imazheve
- Operacionet e TI-së (ITOps)
- Automatizimi i Incidentit
- Influencë Inxhinieri
- K-Means Clustering
- K-Fqinjët më të afërt
- Terminologjia (L deri në Q)
- Terminologjia (R deri Z)
- Mësimi i përforcimit
- UA përgjegjëse
- RLHF
- Automatizimi i Procesit Robotik
- E strukturuar vs e pastrukturuar
- Analiza e ndjenjës
- E mbikëqyrur kundër e pambikëqyrur
- Mbështetni makineritë vektoriale
- Të dhëna sintetike
- Media sintetike
- Klasifikimi i tekstit
- TinyML
- Transferimi i të mësuarit
- Rrjetet neurale të transformatorëve
- Test i Turingut
- Kërkimi i ngjashmërisë vektoriale
Inteligjenca artificiale
Modelet e difuzionit në AI – Gjithçka që duhet të dini
Publikuar
1 vit më parëon
By
Haziqa SajidPërmbajtje
Në ekosistemin e AI, modelet e difuzionit po vendosin drejtimin dhe ritmin e avancimit teknologjik. Ata po revolucionarizojnë mënyrën se si i qasemi kompleksit AI gjeneruese detyrat. Këto modele bazohen në matematikën e parimeve gaussian, variancës, ekuacioneve diferenciale dhe sekuencave gjeneruese. (Ne do të shpjegojmë zhargonin teknik më poshtë)
Produktet dhe zgjidhjet moderne të përqendruara në inteligjencën artificiale të zhvilluara nga Nvidia, Google, Adobe dhe OpenAI kanë vendosur modelet e difuzionit në qendër të vëmendjes. DALL.E 2, Difuzion i qëndrueshëmdhe Mesi i udhëtimit janë shembuj të spikatur të modeleve të difuzionit që po bëjnë xhiro në internet kohët e fundit. Përdoruesit ofrojnë një mesazh të thjeshtë teksti si hyrje dhe këto modele mund t'i konvertojnë ato në imazhe realiste, siç është ajo e paraqitur më poshtë.
Le të eksplorojmë parimet themelore të punës së modeleve të difuzionit dhe se si ato po ndryshojnë drejtimet dhe normat e botës siç e shohim sot.
Cilat janë modelet e difuzionit?
Sipas publikimit të hulumtimit "Denoising Modele Probabilistike të Difuzionit,” modelet e difuzionit përcaktohen si:
"Një model difuzioni ose modeli probabilistik i difuzionit është një zinxhir i parametrizuar Markov i trajnuar duke përdorur konkluzionet variacionale për të prodhuar mostra që përputhen me të dhënat pas një kohe të fundme"
E thënë thjesht, modelet e difuzionit mund të gjenerojnë të dhëna të ngjashme me ato me të cilat janë trajnuar. Nëse modeli stërvit me imazhet e maceve, ai mund të gjenerojë imazhe të ngjashme realiste të maceve.
Tani le të përpiqemi të zbërthejmë përkufizimin teknik të përmendur më lart. Modelet e difuzionit marrin frymëzim nga parimi i punës dhe baza matematikore e një modeli probabilist që mund të analizojë dhe parashikojë sjelljen e një sistemi që ndryshon me kalimin e kohës, si parashikimi i kthimit të tregut të aksioneve ose përhapja e pandemisë.
Përkufizimi thotë se ato janë zinxhirë Markov të parametrizuar të trajnuar me përfundime variacionale. Zinxhirët Markov janë modele matematikore që përcaktojnë një sistem që kalon midis gjendjeve të ndryshme me kalimin e kohës. Gjendja ekzistuese e sistemit mund të përcaktojë vetëm probabilitetin e kalimit në një gjendje specifike. Me fjalë të tjera, gjendja aktuale e një sistemi mban gjendjet e mundshme që një sistem mund të ndjekë ose të marrë në çdo kohë të caktuar.
Trajnimi i modelit duke përdorur konkluzionet variacionale përfshin llogaritjet komplekse për shpërndarjet e probabilitetit. Ai synon të gjejë parametrat e saktë të zinxhirit Markov që përputhen me të dhënat e vëzhguara (të njohura ose aktuale) pas një kohe të caktuar. Ky proces minimizon vlerën e funksionit të humbjes së modelit, që është diferenca midis gjendjes së parashikuar (të panjohur) dhe të vëzhguar (të njohur).
Pasi të trajnohet, modeli mund të gjenerojë mostra që përputhen me të dhënat e vëzhguara. Këto mostra përfaqësojnë trajektore të mundshme ose thonë se sistemi mund të ndjekë ose të fitojë me kalimin e kohës, dhe secila trajektore ka një probabilitet të ndryshëm për të ndodhur. Prandaj, modeli mund të parashikojë sjelljen e ardhshme të sistemit duke gjeneruar një sërë mostrash dhe duke gjetur probabilitetet e tyre përkatëse (mundësia që këto ngjarje të ndodhin).
Si të interpretoni modelet e difuzionit në AI?
Modelet e difuzionit janë modele gjeneruese të thella që funksionojnë duke shtuar zhurmë (zhurmë Gaussian) në të dhënat e disponueshme të trajnimit (të njohura edhe si procesi i difuzionit përpara) dhe më pas duke e kthyer procesin (i njohur si denoising ose procesi i kundërt i difuzionit) për të rikuperuar të dhënat. Modeli gradualisht mëson të heqë zhurmën. Ky proces i mësuar i denoisimit gjeneron imazhe të reja, me cilësi të lartë nga farat e rastësishme (imazhe me zhurmë të rastësishme), siç tregohet në ilustrimin e mëposhtëm.
3 Kategoritë e Modeleve të Difuzionit
Atje jane tre korniza themelore matematikore që mbështesin shkencën pas modeleve të difuzionit. Të tre punojnë në të njëjtat parime të shtimit të zhurmës dhe më pas heqjes së tij për të gjeneruar mostra të reja. Le t'i diskutojmë ato më poshtë.
1. Modelet probabilistike të shpërndarjes së zhurmës (DDPM)
Siç u shpjegua më lart, DDPM-të janë modele gjeneruese të përdorura kryesisht për të hequr zhurmën nga të dhënat vizuale ose audio. Ata kanë treguar rezultate mbresëlënëse në detyra të ndryshme denoising imazhi dhe audio. Për shembull, industria e prodhimit të filmave përdor mjete moderne të përpunimit të imazhit dhe videove për të përmirësuar cilësinë e prodhimit.
2. Modele gjeneruese të bazuara në rezultate të kushtëzuara nga zhurma (SGM)
SGM-të mund të gjenerojnë mostra të reja nga një shpërndarje e caktuar. Ata punojnë duke mësuar një funksion të rezultatit të vlerësimit që mund të vlerësojë densitetin e regjistrit të shpërndarjes së synuar. Vlerësimi i densitetit të regjistrit bën supozime për pikat e disponueshme të të dhënave që janë pjesë e një grupi të dhënash të panjohur (bashkësi testuese). Ky funksion rezultati mund të gjenerojë më pas pika të reja të dhënash nga shpërndarja.
Për shembull, falsifikime të thella janë të njohur për prodhimin e videove dhe audiove të rreme të personaliteteve të famshme. Por ato kryesisht i atribuohen Rrjetet gjeneruese kundërshtare (GAN). Megjithatë, SGM-të kanë tregoi aftësi të ngjashme - nganjëherë tejkalojnë – në gjenerimin e fytyrave të famshme me cilësi të lartë. Gjithashtu, SGM-të mund të ndihmojnë në zgjerimin e grupeve të të dhënave të kujdesit shëndetësor, të cilat nuk janë lehtësisht të disponueshme në sasi të mëdha për shkak të rregulloreve strikte dhe standardeve të industrisë.
3. Ekuacionet diferenciale stokastike (SDEs)
SDE-të përshkruajnë ndryshimet në proceset e rastësishme në lidhje me kohën. Ato përdoren gjerësisht në fizikë dhe tregjet financiare duke përfshirë faktorë të rastësishëm që ndikojnë ndjeshëm në rezultatet e tregut.
Për shembull, çmimet e mallrave janë shumë dinamike dhe ndikohen nga një sërë faktorësh të rastësishëm. SDE-të llogaritin derivativët financiarë si kontratat e së ardhmes (si kontratat e naftës së papërpunuar). Ata mund të modelojnë luhatjet dhe të llogarisin me saktësi çmimet e favorshme për të dhënë një ndjenjë sigurie.
Aplikimet kryesore të modeleve të difuzionit në AI
Le të shohim disa praktika dhe përdorime të përshtatura gjerësisht të modeleve të difuzionit në AI.
Gjenerim video me cilësi të lartë
Krijimi i videove të nivelit të lartë duke përdorur të mësuarit e thellë është sfiduese pasi kërkon vazhdimësi të lartë të kornizave video. Këtu janë të dobishëm modelet e difuzionit, pasi ato mund të gjenerojnë një nëngrup kornizash video për të plotësuar mes kornizave që mungojnë, duke rezultuar në video me cilësi të lartë dhe të qetë pa vonesë.
Studiuesit kanë zhvilluar Modeli i Difuzionit Fleksibël dhe Difuzioni i mbetur i videos teknikat për t'i shërbyer këtij qëllimi. Këto modele mund të prodhojnë gjithashtu video realiste duke shtuar pa probleme korniza të krijuara nga AI midis kornizave aktuale.
Këto modele thjesht mund të zgjasin FPS (kornizat për sekondë) të një videoje me FPS të ulët duke shtuar korniza të rreme pasi të mësojnë modelet nga kornizat e disponueshme. Pa pothuajse asnjë humbje të kuadrove, këto korniza mund të ndihmojnë më tej modelet e bazuara në mësim të thellë për të gjeneruar video të bazuara në AI nga e para që duken si shkrepje natyrale nga konfigurimet e kamerave të nivelit të lartë.
Një gamë e gjerë e shquar Gjeneratorë video të AI është në dispozicion në 2023 për të bërë prodhimin dhe modifikimin e përmbajtjes video të shpejtë dhe të drejtpërdrejtë.
Gjenerimi i tekstit në imazh
Modelet tekst-për-imazh përdorin udhëzime hyrëse për të gjeneruar imazhe me cilësi të lartë. Për shembull, duke dhënë të dhëna "mollë e kuqe në një pjatë" dhe duke prodhuar një imazh fotorealist të një mollë në një pjatë. Difuzion i përzier unCLIP janë dy shembuj të spikatur të modeleve të tilla që mund të gjenerojnë imazhe shumë të rëndësishme dhe të sakta bazuar në të dhënat e përdoruesit.
Gjithashtu, GLIDE nga OpenAI është një tjetër zgjidhje e njohur gjerësisht e lëshuar në vitin 2021 që prodhon imazhe fotorealiste duke përdorur hyrjen e përdoruesit. Më vonë, OpenAI publikoi DALL.E-2, modelin e tij më të avancuar të gjenerimit të imazheve deri më tani.
Në mënyrë të ngjashme, Google ka zhvilluar gjithashtu një model të gjenerimit të imazhit të njohur si Imazh, i cili përdor një model të madh gjuhësor për të zhvilluar një kuptim të thellë tekstual të tekstit hyrës dhe më pas gjeneron imazhe fotorealiste.
Ne kemi përmendur mjete të tjera të njohura të gjenerimit të imazheve si Midjourney dhe Stable Diffusion (studio ëndrrash) më sipër. Shikoni një imazh të krijuar duke përdorur Difuzionin e Qëndrueshëm më poshtë.
Modelet e difuzionit në AI – Çfarë duhet të presim në të ardhmen?
Modelet e difuzionit kanë zbuluar potencial premtues si një qasje e fuqishme për gjenerimin e mostrave me cilësi të lartë nga grupet komplekse të të dhënave të imazheve dhe videove. Duke përmirësuar aftësinë njerëzore për të përdorur dhe manipuluar të dhënat, modelet e difuzionit mund të revolucionarizojnë botën siç e shohim sot. Mund të presim të shohim edhe më shumë aplikime të modeleve të difuzionit duke u bërë pjesë integrale e jetës sonë të përditshme.
Duke thënë këtë, modelet e difuzionit nuk janë e vetmja teknikë gjeneruese e AI. Studiuesit përdorin gjithashtu Rrjetet Kundërshtare Gjeneruese (GANs), Variational Autoenkoder, dhe modele gjeneruese të thella të bazuara në rrjedhë për të gjeneruar përmbajtje të AI. Kuptimi i karakteristikave themelore që dallojnë modelet e difuzionit nga modelet e tjera gjeneruese mund të ndihmojë në prodhimin e zgjidhjeve më efektive në ditët në vijim.
Për të mësuar më shumë rreth teknologjive të bazuara në AI, vizitoni Bashkohu.ai. Shikoni burimet tona të kuruara për mjetet gjeneruese të AI më poshtë.
- 10 Mjetet më të mira të Përmirësuesit dhe Përmirësimit të Imazhit të AI
- 10 Gjeneratorët më të mirë të Artit të AI
- 8 Gjeneruesit më të mirë të muzikës me AI
- 9 Mjetet dhe aplikacionet më të mira për përmirësimin e videos
- 8 Gjeneratorët "më të mirë" të videove me AI
- 10 Gjeneruesit më të mirë të zërit të AI
- 9 Mjetet dhe aplikacionet "më të mira" të shkrimit të AI
Haziqa është një shkencëtar i të dhënave me përvojë të gjerë në shkrimin e përmbajtjeve teknike për kompanitë e AI dhe SaaS.
Ju mund të dëshironi
Dialogu i brendshëm i AI: Si Vetëreflektimi përmirëson Chatbots dhe Asistentët Virtualë
Mini-Binjakët: Minimi i potencialit të modeleve gjuhësore të vizionit me shumë modalitet
Stili i menjëhershëm: Ruajtja e stilit në gjenerimin e tekstit në imazh
LoReFT: Përshtatja e Përfaqësimit për Modelet Gjuhësore
Përtej motorëve të kërkimit: Ngritja e agjentëve të shfletimit të uebit me fuqi LLM
POKELLMON: Një agjent i barazisë njerëzore për betejat e Pokemonit me LLM