stub Moodooyinka Barashada qoto dheer waxaa laga yaabaa inay u halgamaan aqoonsiga sawirada AI-abuuray - Unite.AI
Connect nala

Sirdoonka Artificial

Qaababka Barashada Qoto Dheer Waxaa laga yaabaa inay u halgamaan Aqoonsiga Sawirrada AI-abuuray

mm
Updated on

Natiijooyinka ka soo baxay warqad cusub ayaa tilmaamaya in casriga casriga ah ee AI uu si aad ah uga yar yahay inuu aqoonsado oo tarjumo sawirada AI-synthesized marka loo eego dadka, kuwaas oo laga yaabo inay ka welwelaan cimilada soo socota halkaas oo moodooyinka barashada mashiinka ay si sii kordheysa loogu tababaray xogta synthetic, iyo meesha aan si dhab ah loo ogaan karin haddii xogtu tahay 'dhab' iyo in kale.

Halkan waxaan ku aragnaa qaabka saadaasha resnext101_32x8d_wsl oo ku dhibtoonaya qaybta 'bagel'. Imtixaannada, guul-darrida aqoonsiga ayaa loo arkay inay dhacday haddii ereyga bartilmaameedka u ah (xaaladdan 'bagel') aan lagu soo bandhigin shanta sare ee natiijooyinka la saadaaliyay. Xigasho: https://arxiv.org/pdf/2208.10760.pdf

Halkan waxaan ku aragnaa qaabka saadaasha resnext101_32x8d_wsl oo ku dhibtoonaya qaybta 'bagel'. Imtixaanada, guuldarada aqoonsiga ayaa loo arkay inay dhacday haddii ereyga bartilmaameedka u ah (xaaladdan 'bagel') aan lagu soo bandhigin shanta sare ee natiijooyinka la saadaaliyay. Xigasho: https://arxiv.org/pdf/2208.10760.pdf

Cilmi-baadhista cusubi waxay tijaabisay laba qaybood oo ka mid ah qaab-dhismeedka aqoonsiga ku-salaysan aragga kombiyuutarka: aqoonsiga shayga, iyo ka jawaabista su'aalaha muuqaalka (VQA).

Dhanka bidix, guul-darrooyinka iyo guul-darrooyinka ka imanaya nidaamka aqoonsiga shayga; dhinaca midig, hawlaha VQA ee loogu talagalay in lagu baadho fahamka AI ee muuqaallada iyo sawirada si ka sii xeeldheer oo muhiim ah. Ilaha: https://arxiv.org/pdf/2105.05312.pdf iyo https://arxiv.org/pdf/1505.00468.pdf

Dhanka bidix, guul-darrooyinka iyo guul-darrooyinka ka imanaya nidaamka aqoonsiga shayga; dhinaca midig, hawlaha VQA ee loogu talagalay in lagu baadho fahamka AI ee muuqaallada iyo sawirada si ka sii xeeldheer oo muhiim ah. Ilaha: https://arxiv.org/pdf/2105.05312.pdf iyo https://arxiv.org/pdf/1505.00468.pdf

Tobankii nooc ee ugu casrisanaa ee lagu tijaabiyay xog-ururinta DALL-E2 iyo Safarka dhexeQaabka ugu waxqabadka wanaagsan ayaa awooday inuu gaaro kaliya 60% iyo 80% saxnaanta-5 ee labada nooc ee imtixaanka, halka ImageNet, oo lagu tababaray xogta aan-synthetic-ka ahayn, ee dunida dhabta ah, waxay siday u kala horreeyaan u gaadhi karaa 91% iyo 99% isla qaybo isku mid ah, halka waxqabadka bini'aadmigu caadi ahaan aad u sarreeyo.

Wax ka qabashada arrimaha ku xeeran wareejinta qaybinta (loo yaqaan 'Model Drift', halkaasoo moodooyinka saadaasha ay la kulmeen hoos u dhac ku yimid awoodda saadaasha markii laga guuray xogta tababarka loona guuray 'xaqiiqda'), warqaddu waxay leedahay:

Bani'aadamku waxay awoodaan inay gartaan sawirada la sameeyay oo ay si fudud uga jawaabaan su'aalaha. Waxaan ku soo gabagabeyneynaa in a) moodooyinka qoto dheer ay ku dhibtoonayaan inay fahmaan nuxurka la sameeyay, lagana yaabo inay si fiican u fiicnaadaan ka dib hagaajinta, iyo b) waxaa jira isbeddel weyn oo qaybin ah oo u dhexeeya sawirada la sameeyay iyo sawirada dhabta ah. Isbedelka qaybintu waxa uu u muuqdaa mid ku xidhan qaybta.'

Marka la eego mugga sawirada synthetic ee horeba ugu soo qulqulaya intarneedka wixii ka dambeeyay todobaadkii hore il furan oo dareen leh kuwa xoogga badan Faafidda Deggan Qaabka isku dhafka fidinta daahsoon, suurtogalnimada si dabiici ah ayaa soo ifbaxa in sawirada 'been abuur' ah ay ku qulqulayaan xogta heerka warshadaha sida Gurguurashada Guud, kala duwanaanshaha saxda ah ee sanadaha ayaa si weyn u saameyn kara sawirada 'aan run' ahayn.

Inkastoo xogta synthetic ay ahayd ayaa sheegay sida badbaadiyaha suurtagalka ah ee qaybta cilmi-baarista aragtida kombuyuutarka ee gaajaysan, oo inta badan ka maqan kheyraad iyo miisaaniyad loogu talagalay daaweynta hyperscale, qulqulka cusub ee sawirada Stable Diffusion (oo ay weheliso kor u kaca guud ee sawirada synthetic tan iyo imaatinka iyo ganacsi of DALL-E2Uma badna in dhammaantood ay la yimaadaan calaamado waxtar leh, sharraxaadyo iyo hashtag iyaga oo u kala saaraya 'been abuur' marka nidaamyada aragtida hunguriga ee mashiinka ay ka xoqaan internetka.

Xawaaraha horumarka ee qaab-dhismeedka sawirka isha furan ayaa si gaar ah uga kor maray awooddayada aan ku kala saarno sawirada nidaamyadan, taasoo horseedaysa xiisaha sii kordhaya ee 'sawir been abuur ah' ogaanshaha nidaamyada, la mid ah ogaanshaha qoto dheer nidaamyada, laakiin loo xilsaaray inay qiimeeyaan sawirada oo dhan halkii ay ka ahaan lahaayeen qaybaha wejiyada.

The warqad cusub waxaa cinwaan looga dhigay Sidee u wanaagsan yihiin moodooyinka qoto dheer ee fahamka sawirada la sameeyay?, oo ka yimid Ali Borji oo ka tirsan San Francisco ee barashada mashiinka Quintic AI.

Data

Daraasadu waxay ka horraysa sii deynta Stable Diffusion, iyo tijaabooyinku waxay adeegsadeen xogta ay soo saartay DALL-E 2 iyo Midjourney ee 17 qaybood, oo ay ku jiraan maroodi, likaha, pizza, dhaldhalaal, cagaf iyo bakayle.

Tusaalooyinka sawirada laga soo qaatay aqoonsiga la tijaabiyay iyo nidaamyada VQA ayaa lagu xujeeyay in la aqoonsado fikradda muhiimka ah ee ugu muhiimsan.

Tusaalooyinka sawirada laga soo qaatay aqoonsiga la tijaabiyay iyo nidaamyada VQA ayaa lagu xujeeyay in la aqoonsado fikradda muhiimka ah ee ugu muhiimsan.

Sawirada waxaa lagu helay raadinta webka iyo Twitter, iyo, si waafaqsan siyaasadaha DALL-E 2 (ugu yaraan, wakhtigaas), kuma jiraan wax sawiro ah oo ka muuqda wejiyada aadanaha. Kaliya sawirro tayo wanaagsan leh, oo ay aqoonsan karaan dadku, ayaa la doortay.

Laba qaybood oo sawiro ah ayaa la habeeyey, mid walba waxa loogu talagalay aqoonsiga shayga iyo hawlaha VQA.

Tirada sawirada ee ku jirta qayb kasta oo la tijaabiyay ee aqoonsiga shayga.

Tirada sawirada ee ku jirta qayb kasta oo la tijaabiyay ee aqoonsiga shayga.

Aqoonsiga Shayga Imtixaanka

Imtixaanada aqoonsiga shayga, toban nooc, oo dhamaantood lagu tababaray ImageNet, ayaa la tijaabiyay: AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Bilawga_V3, Deit, Iyo ResNext_WSL.

Qaar ka mid ah fasallada hababka la tijaabiyay ayaa ka koobnayn kuwa kale, taasoo qasabtay in la isticmaalo hababka la isku celceliyay. Tusaale ahaan, ImageNet waxa ay ka kooban tahay saddex fasal oo ilaashanaya 'saacadaha', waxaana lagama maarmaan noqotay in la qeexo nooc ka mid ah mitir garqaadasho, halkaas oo ku darida 'saac' nooc kasta ah ee shanta sare ee calaamado ee la helay sawir kasta loo tixgaliyo guul. tusaale ahaan.

Waxqabadka hal nooc oo dhan 17 qaybood

Waxqabadka hal nooc oo dhan 17 qaybood

Qaabka ugu waxqabadka wanaagsan wareegan waxa uu ahaa resnext101_32x8d_ws, oo gaadhay ku dhawaad ​​60% ee ugu sareeya-1 (tusaale ahaan, wakhtiyada ay saadaasha ay door bidayso ee shanta male awaal ay ahayd fikradda saxda ah ee sawirka ku jirta), iyo 80% ee shanta ugu sareeya ( yacni fikradda la rabay ayaa ugu yaraan lagu taxaabay meel ka mid ah shanta male-awaal ee ku saabsan sawirka).

Qoraagu waxa uu soo jeedinayaa in qaabka wanaagsan waxqabadkiisa ay sabab u tahay xaqiiqda ah in loo tababaray saadaasha daciifka ah ee la kormeerayo ee hashtags ee baraha bulshada. Si kastaba ha ahaatee, natiijooyinkan hormuudka ah, qoraagu wuxuu xusay, inay aad uga hooseeyaan waxa ImageNet uu awoodo inuu ku gaaro xogta dhabta ah, sida 91% iyo 99%. Waxa uu soo jeedinayaa in tani ay sabab u tahay farqiga weyn ee u dhexeeya qaybinta sawirada ImageNet (kuwaas oo sidoo kale laga soo xoqay shabakada) iyo sawirada la sameeyay.

Shanta qaybood ee ugu adag nidaamka, siday u kala horreeyaan, waxay ahaayeen qaniinyada, qubo, xawaaraha, muraayadaha iyo koofiyada. Wargeysku wuxuu xusay in qaniinyada fasalka ayaa inta badan lagu wareersan yahay buufin, faaruus iyo dallad, inkasta oo kala duwanaanshiyahani ay yihiin kuwo fudud oo u fiirsada aadanaha si ay u kala saaraan.

Qaybaha qaarkood, oo ay ku jiraan qaniinyada iyo qubo, waxay sababtay fashilka caalamiga ah ee dhammaan noocyada, halka kuwa kale (gaar ahaan dhaldhalaal iyo cagaf) waxay keentay guulo caalami ah oo laga gaaray moodooyinka la tijaabiyay.

Qaybaha kala qaybinta: qaar ka mid ah qaybaha bartilmaameedka ee la doortay midkood ayaa dawaco dhammaan moodooyinka, ama haddii kale aad bay u fududahay dhammaan moodooyinka si loo aqoonsado.

Qaybaha kala qaybinta: qaar ka mid ah qaybaha bartilmaameedka ee la doortay midkood ayaa dawaco dhammaan moodooyinka, ama haddii kale aad bay u fududahay dhammaan moodooyinka si loo aqoonsado.

Qorayaashu waxay soo dhejiyeen in natiijooyinkani ay muujinayaan in dhammaan moodooyinka aqoonsiga shayga ay wadaagi karaan awoodaha iyo daciifnimada isku midka ah.

Tijaabinta Su'aal Muuqaal ah oo ka jawaabaya

Marka xigta, qoraagu wuxuu ku tijaabiyay moodooyinka VQA VQA- furan oo bilaash ah, oo wata su'aalo laba-geesood ah (tusaale ahaan su'aalaha ay jawaabtu noqon karto 'haa' ama 'maya' kaliya). Wargeysku wuxuu xusay in moodooyinka casriga ah ee VQA ee dhawaanahan ay awoodaan inay gaaraan saxnaanta 95% Xogta VQA-v2.

Marxaladdan tijaabada ah, qoraagu waxa uu curiyey 50 sawir oo uu diyaariyey 241 su’aalood oo ku xeeran, 132 ka mid ah waxa ay ka heleen jawaabo togan, iyo 109 diidmo ah. Celceliska dhererka su'aasha wuxuu ahaa 5.12 kelmadood.

Wareegan ayaa loo adeegsaday Qaabka OFA, qaab hawl-agnostic iyo hab-hab-aqoonsiyeed si loo tijaabiyo dhammaystirka hawsha, oo dhawaan ahaa gooldhaliyaha ugu horreeya VQA-v2 test-std set. OFA waxay dhalisay 77.27% saxnaanta sawirada la soo saaray, marka la barbar dhigo dhibcaheeda 94.7% ee qaabka imtixaanka VQA-v2.

Tusaale su'aalaha iyo natiijooyinka qaybta VQA ee imtixaanada. 'GT' waa 'Runta Dhulka', ie, jawaabta saxda ah.

Tusaale su'aalaha iyo natiijooyinka qaybta VQA ee imtixaanada. 'GT'' waa 'Runta Dhulka', ie, jawaabta saxda ah.

Qoraaga xaashida ayaa soo jeedinaya in qayb ka mid ah sababtu ay noqon karto in sawirada la soo saaray ay ku jiraan fikrado semantik ah oo ka maqan xogta VQA-v2, iyo in su'aalaha loo qoray imtixaanada VQA laga yaabo inay aad u adag tahay heerka guud ee su'aalaha VQA-v2, inkastoo uu isagu aaminsan in sababta hore ay u badan tahay.

LSD ee ku jira Qulqulka Xogta?

opinion Fidinta cusub ee sawir-qaadista AI, oo soo bandhigi karta isku-xirnaanta degdegga ah iyo fikradaha fikradaha asaasiga ah ee aan ka jirin dabeecadda, iyo taas oo noqon doonta mamnuuc waqti-qaadasho si loo soo saaro hababka caadiga ah, waxay soo bandhigi kartaa dhibaato gaar ah xogta si daciif ah loo kormeero- Nidaamyada ururinta, kuwaas oo laga yaabo inay awoodi waayaan inay si xarrago leh u fashilmaan - sababta oo ah looma qorshayn inay qabtaan xogta mugga sare, ee aan la calaamadin ee synthetic.

Xaaladahan oo kale, waxaa laga yaabaa inay jirto khatar ah in nidaamyadani ay boqolleyda sawirada 'synthetic' ee 'cajiib' ah ku soo daraan fasallo aan sax ahayn sababtoo ah sawiradu waxay ka kooban yihiin walxo kala duwan oo aan runtii isku mid ahayn.

'Astronaut fuushan faras' ayaa laga yaabaa inuu noqday muuqaalka ugu caansan ee jiilka cusub ee hababka isku-dhafka sawirka - laakiin xidhiidhadan 'aan dhab ahayn' waxay geli karaan hababka ogaanshaha dhabta ah haddii aan daryeel la helin. Xigasho: https://twitter.com/openai/status/1511714545529614338?lang=en

'Astronaut fuushan faras' ayaa laga yaabaa inuu noqday muuqaalka ugu caansan ee jiilka cusub ee hababka isku-dhafka sawirka - laakiin xidhiidhadan 'aan dhab ahayn' waxay geli karaan hababka ogaanshaha dhabta ah haddii aan daryeel la helin. Xigasho: https://twitter.com/openai/status/1511714545529614338?lang=en

Haddii aan tan laga hortagi karin marxaladda diyaarinta ka hor tababarka, dhuumaha iswada ee noocan oo kale ah waxay u horseedi karaan ururo aan macquul ahayn ama xitaa kuwa xunxun oo loo tababaro hababka barashada mashiinka, hoos u dhigista waxtarkooda, iyo khatarta ah inay u gudbaan ururo heer sare ah nidaamyada hoose iyo fasalada hoose. iyo qaybaha.

Taas beddelkeeda, sawirada isku-dhafka ah ee la isku daray waxay ku yeelan karaan 'saameyn qaboojin' saxnaanta nidaamyada dambe, haddii ay dhacdo in naqshado cusub ama wax laga beddelay ay soo baxaan kuwaas oo isku dayaya in lagu xisaabtamo ad hoc sawirka synthetic, oo tuuray shabag aad u ballaadhan.

Si kastaba ha ahaatee, sawirka synthetic ee ka dambeeya da'da faafinta xasilloonida waxay caddayn kartaa inay madax-xanuun u tahay qaybta cilmi-baarista aragtida kombuyuutarka kuwaas oo dadaalkooda ay sameeyeen hal-abuurka iyo awoodahaas yaabka leh ee suurtogalka ah - ugu yaraan sababtoo ah waxay wax u dhimaysaa rajada qaybta ee ah ururinta iyo daaweynta xogta aakhirka aad uga sii badan kan hadda jira, oo aad uga jaban oo waqti badan qaata.

 

Markii ugu horreysay ee la daabacay Sebtember 1, 2022.