рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдЧрд╣рд░реЗ рд╢рд┐рдХреНрд╖рдг рдореЙрдбрд▓ рдПрдЖрдИ-рдЬрдирд░реЗрдЯреЗрдб рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рдкрд╣рдЪрд╛рдирдиреЗ рдореЗрдВ рд╕рдВрдШрд░реНрд╖ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ

एक नए शोध पत्र से पता चलता है कि राज्य-ऑफ-द-आर्ट एआई एआई-सynthesized छवियों को पहचानने और व्याख्या करने में लोगों की तुलना में काफी कम सक्षम है, जो एक ऐसे माहौल में चिंता का विषय हो सकता है जहां मशीन लर्निंग मॉडल बढ़ते हुए सिंथेटिक डेटा पर प्रशिक्षित होते हैं, और जहां यह जरूरी नहीं है कि डेटा ‘वास्तविक’ है या नहीं।

यहाँ हम देखेंगे resnext101_32x8d_wsl पूर्वानुमान मॉडल ‘बैगेल’ श्रेणी में संघर्ष कर रहा है। परीक्षणों में, एक पहचान विफलता को तब माना जाता था जब मुख्य लक्ष्य शब्द (इस मामले में ‘बैगेल’) शीर्ष पांच प्राप्त परिणामों में शामिल नहीं था। स्रोत: https://arxiv.org/pdf/2208.10760.pdf
नई अनुसंधान ने दो श्रेणियों के कंप्यूटर विजन-आधारित पहचान फ्रेमवर्क का परीक्षण किया: वस्तु पहचान, और दृश्य प्रश्न उत्तर (VQA)।

बाएं, एक वस्तु पहचान प्रणाली से अनुमान सफलता और विफलता; दाएं, VQA कार्य जो दृश्यों और छवियों की अधिक अन्वेषणात्मक और महत्वपूर्ण तरीके से एआई समझ का परीक्षण करने के लिए डिज़ाइन किए गए हैं। स्रोत: https://arxiv.org/pdf/2105.05312.pdf और https://arxiv.org/pdf/1505.00468.pdf
छवि संश्लेषण फ्रेमवर्क DALL-E 2 और Midjourney द्वारा उत्पन्न क्यूरेटेड डेटासेट पर परीक्षण किए गए दस राज्य-ऑफ-द-आर्ट मॉडलों में, सबसे अच्छा प्रदर्शन करने वाला मॉडल केवल 60% और 80% शीर्ष-5 सटीकता प्राप्त कर सका, जबकि ImageNet, जो गैर-सिंथेटिक, वास्तविक दुनिया के डेटा पर प्रशिक्षित है, क्रमशः 91% और 99% प्राप्त कर सकता है, जबकि मानव प्रदर्शन आमतौर पर अधिक होता है।
वितरण प्रवाह (डिस्ट्रीब्यूशन शिफ्ट, जिसे ‘मॉडल ड्रिफ्ट’ भी कहा जाता है, जहां पूर्वानुमान मॉडल प्रशिक्षण डेटा से ‘वास्तविक’ डेटा में स्थानांतरित होने पर कमजोर पूर्वानुमान क्षमता का अनुभव करते हैं) के मुद्दों को संबोधित करते हुए, पत्र में कहा गया है:
‘मानव सिंथेटिक छवियों को पहचान सकते हैं और उन पर प्रश्नों का उत्तर दे सकते हैं। हम निष्कर्ष निकालते हैं कि गहरे मॉडल सिंथेटिक सामग्री को समझने में संघर्ष करते हैं, और फाइन-ट्यूनिंग के बाद बेहतर प्रदर्शन कर सकते हैं, और ख) सिंथेटिक छवियों और वास्तविक फोटोग्राफों के बीच एक बड़ा वितरण प्रवाह है। वितरण प्रवाह श्रेणी-निर्भर लगता है।’
दुनिया भर में इंटरनेट पर पहले से ही सिंथेटिक छवियों की बाढ़, पिछले सप्ताह के सेंसेशनल ओपन-सोर्सिंग के बाद स्टेबल डिफ्यूजन लेटेंट डिफ्यूजन सिंथेसिस मॉडल, यह संभावना स्वाभाविक रूप से उत्पन्न होती है कि ‘नकली’ छवियों के उद्योग-मानक डेटासेट जैसे कॉमन क्रॉल में बाढ़ आने से वर्षों में सटीकता में भिन्नता काफी प्रभावित हो सकती है।
हालांकि सिंथेटिक डेटा को हेराल्ड किया गया है कंप्यूटर विजन शोध क्षेत्र के लिए एक संभावित सavior, जो अक्सर संसाधनों और बजट की कमी के कारण हाइपरस्केल क्यूरेशन की कमी है, स्टेबल डिफ्यूजन छवियों की नई लहर (साथ ही साथ व्यावसायीकरण के बाद DALL-E 2 की वृद्धि) शायद ही सभी के साथ आएंगे जो उन्हें ‘नकली’ के रूप में प्रतिष्ठित करने वाले हैंडी लेबल, एनोटेशन और हैशटैग के साथ, उस बिंदु पर जब लालची मशीन दृष्टि प्रणाली उन्हें इंटरनेट से स्क्रैप करती हैं।
खुले स्रोत छवि संश्लेषण फ्रेमवर्क में विकास की गति हमारी क्षमता से काफी आगे निकल गई है कि हम इन प्रणालियों से छवियों को वर्गीकृत करें, जिससे ‘नकली छवि’ का पता लगाने प्रणालियों में रुचि बढ़ रही है, जो डीपफेक डिटेक्शन प्रणालियों के समान हैं, लेकिन पूरी छवियों का मूल्यांकन करने के लिए कार्य किया जाता है, न कि चेहरों के खंड के रूप में।
नया पत्र शीर्षक है गहरे मॉडल सिंथेटिक छवियों को समझने में कितने अच्छे हैं?, और सैन फ्रांसिस्को मशीन लर्निंग स्टार्टअप क्विंटिक एआई के अली बोरजी से आया है।
डेटा
अध्ययन स्टेबल डिफ्यूजन रिलीज से पहले है, और प्रयोग DALL-E 2 और Midjourney द्वारा उत्पन्न डेटा का उपयोग 17 श्रेणियों में करते हैं, जिनमें हाथी, मशरूम, पिज्जा, प्रेट्ज़ेल, ट्रैक्टर और खरगोश शामिल हैं।

परीक्षण की गई पहचान और VQA प्रणालियों द्वारा पहचाने जाने वाले सबसे महत्वपूर्ण कुंजी अवधारणा वाली छवियों के उदाहरण।
छवियों को वेब खोज और ट्विटर के माध्यम से प्राप्त किया गया था, और DALL-E 2 की नीतियों के अनुसार (कम से कम, उस समय), उनमें मानव चेहरे वाली कोई छवि शामिल नहीं थी। केवल अच्छी गुणवत्ता वाली छवियां, जो मानव द्वारा पहचान योग्य थीं, का चयन किया गया था।
दो सेट छवियों को क्यूरेट किया गया था, एक-एक वस्तु पहचान और VQA कार्यों के लिए।

वस्तु पहचान के लिए प्रत्येक परीक्षण श्रेणी में छवियों की संख्या।
वस्तु पहचान का परीक्षण
वस्तु पहचान परीक्षण के लिए, दस मॉडल, सभी AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, और ResNext_WSL पर परीक्षण किए गए थे, सभी ImageNet पर प्रशिक्षित थे।
कुछ वर्गों में परीक्षण प्रणालियों में अन्य लोगों की तुलना में अधिक विस्तृत थे, जिससे औसत दृष्टिकोण को लागू करने की आवश्यकता होती है। उदाहरण के लिए, ImageNet में ‘घड़ियों’ से संबंधित तीन वर्ग हैं, और यह आवश्यक था कि कुछ प्रकार के मध्यस्थ मीट्रिक को परिभाषित किया जाए, जहां किसी भी छवि के लिए प्राप्त लेबल के शीर्ष पांच में से किसी में भी ‘घड़ी’ को शामिल करना उस मामले में एक सफलता के रूप में माना जाता था।

17 श्रेणियों में प्रति-मॉडल प्रदर्शन।
इस दौर में सबसे अच्छा प्रदर्शन करने वाला मॉडल resnext101_32x8d_ws था, जिसने लगभग 60% के लिए शीर्ष-1 (अर्थात, जब इसका पसंदीदा अनुमान पांच अनुमानों में से पहला था) और 80% के लिए शीर्ष-पांच (अर्थात, वांछित अवधारणा कम से कम मॉडल के पांच अनुमानों में से एक में सूचीबद्ध थी) प्राप्त किया।
लेखक सुझाव देते हैं कि इस मॉडल का अच्छा प्रदर्शन इस तथ्य के कारण है कि यह सोशल मीडिया प्लेटफ़ॉर्म में हैशटैग की कमजोर-पर्यवेक्षित भविष्यवाणी के लिए प्रशिक्षित किया गया था। हालांकि, ये अग्रणी परिणाम, लेखक का उल्लेख करते हैं, ImageNet द्वारा वास्तविक डेटा पर प्राप्त किए गए 91% और 99% से काफी नीचे हैं। वह सुझाव देता है कि यह ImageNet छवियों के वितरण और सिंथेटिक छवियों के बीच एक बड़े अंतर के कारण है।
प्रणाली के लिए पांच सबसे कठिन श्रेणियां, कठिनाई के क्रम में, पतंग, कछुआ, गिलहरी, धूप का चश्मा और हेलमेट थीं। पत्र में उल्लेख किया गया है कि पतंग वर्ग अक्सर गुब्बारा, पैराशूट और छतरी के साथ भ्रमित होता है, हालांकि ये अंतर मानव निरीक्षकों के लिए स्पष्ट रूप से अलग करना आसान है।
कुछ श्रेणियां, जिनमें पतंग और कछुआ शामिल हैं, सभी मॉडलों में सार्वभौमिक विफलता का कारण बने, जबकि अन्य (विशेष रूप से प्रेट्ज़ेल और ट्रैक्टर) परीक्षण किए गए मॉडलों में लगभग सार्वभौमिक सफलता का परिणाम था।

ध्रुवीकरण श्रेणियां: कुछ लक्ष्य श्रेणियां चुनी गईं जो या तो सभी मॉडलों को भ्रमित कर देती हैं या उन्हें पहचानने में सभी मॉडलों के लिए काफी आसान होती हैं।
लेखक का अनुमान है कि ये निष्कर्ष दर्शाते हैं कि सभी वस्तु पहचान मॉडल समान ताकत और कमजोरियां साझा कर सकते हैं।
दृश्य प्रश्न उत्तर का परीक्षण
इसके बाद, लेखक ने खुले और मुक्त प्रश्नों वाले VQA मॉडलों का परीक्षण किया, जिनमें द्विआधारी प्रश्न (अर्थात, प्रश्न जिनका उत्तर केवल ‘हां’ या ‘नहीं’ हो सकता है) शामिल थे। पत्र में उल्लेख किया गया है कि हाल के राज्य-ऑफ-द-आर्ट VQA मॉडल VQA-v2 डेटासेट पर 95% सटीकता प्राप्त कर सकते हैं।
इस परीक्षण के दौर में, लेखक ने 50 छवियों और उनके चारों ओर 241 प्रश्नों को क्यूरेट किया, जिनमें से 132 सकारात्मक उत्तर थे और 109 नकारात्मक थे। प्रश्नों की औसत लंबाई 5.12 शब्द थी।
इस दौर में OFA मॉडल का उपयोग किया गया था, जो एक कार्य-एज्नोस्टिक और मॉडल-एज्नोस्टिक फ्रेमवर्क है जो कार्य की व्यापकता का परीक्षण करने के लिए है, और हाल ही में VQA-v2 टेस्ट-एसटीडी सेट में अग्रणी स्कोरर था। OFA ने सिंथेटिक छवियों पर 77.27% सटीकता प्राप्त की, जबकि इसका अपना 94.7% स्कोर VQA-v2 टेस्ट-एसटीडी सेट में था।
लेखक का सुझाव है कि इसका एक कारण यह हो सकता है कि सिंथेटिक छवियों में सेमेंटिक अवधारणाएं हैं जो VQA-v2 डेटासेट में अनुपस्थित हैं, और VQA परीक्षणों के लिए लिखे गए प्रश्न VQA-v2 प्रश्नों के सामान्य मानक से अधिक चुनौतीपूर्ण हो सकते हैं, हालांकि वह मानता है कि पूर्व कारण अधिक संभावना है।
डेटा प्रवाह में एलएसडी?
राय
एआई-संश्लेषित छवियों की नई पroliferation, जो प्राकृतिक में मौजूद नहीं होने वाले मूल अवधारणाओं के तुरंत संयोजन और स抽象 प्रस्तुत कर सकती है, और जो पारंपरिक तरीकों से उत्पादन करने के लिए निषिद्ध रूप से समय लेने वाली हो सकती है, कमजोर पर्यवेक्षित डेटा-संग्रह प्रणालियों के लिए एक विशेष समस्या प्रस्तुत कर सकती है, जो शायद ही उचित रूप से विफल हो सकती हैं – मुख्य रूप से क्योंकि वे उच्च-वॉल्यूम, अनलेबल्ड सिंथेटिक डेटा को संभालने के लिए डिज़ाइन नहीं किए गए थे।
ऐसे मामलों में, यह जोखिम हो सकता है कि ये प्रणालियां कुछ ‘अजीब’ सिंथेटिक छवियों को गलत वर्गों में डाल देंगी क्योंकि छवियों में वास्तव में एक साथ नहीं होने वाले विशिष्ट वस्तुएं हैं।

‘एक खगोलयात्री एक घोड़े पर सवारी कर रहा है’ शायद नए पीढ़ी के छवि संश्लेषण प्रणालियों के लिए सबसे प्रतिष्ठित दृश्य बन गया है – लेकिन ये ‘अवास्तविक’ संबंध वास्तविक पता लगाने वाली प्रणालियों में प्रवेश कर सकते हैं जब तक कि सावधानी नहीं बरती जाती है। स्रोत: https://twitter.com/openai/status/1511714545529614338?lang=en
जब तक यह प्रशिक्षण से पहले प्रीप्रोसेसिंग चरण में रोका नहीं जा सकता है, तो स्वचालित पाइपलाइनें मशीन लर्निंग प्रणालियों में असंभव या यहां तक कि भयानक संबंधों को प्रशिक्षित करने का कारण बन सकती हैं, जिससे उनकी प्रभावशीलता कम हो जाती है, और उच्च-स्तरीय संबंधों को डाउनस्ट्रीम प्रणालियों और उप-वर्गों और श्रेणियों में पारित करने का जोखिम होता है।
वैकल्पिक रूप से, विच्छिन्न सिंथेटिक छवियां बाद की प्रणालियों की सटीकता पर एक ‘ठंडा प्रभाव’ डाल सकती हैं, यदि नए या संशोधित वास्थुकला उत्पन्न होते हैं जो अवास्तविक छवियों के लिए खाते हैं, और बहुत व्यापक जाल डालते हैं।
दोनों मामलों में, स्टेबल डिफ्यूजन युग में सिंथेटिक छवियां कंप्यूटर विजन अनुसंधान क्षेत्र के लिए एक सिरदर्द साबित हो सकती हैं, जिनके प्रयासों ने इन अजीब निर्माणों और क्षमताओं को संभव बनाया है – कम से कम इस कारण से कि यह क्षेत्र की आशा को खतरे में डालता है कि डेटा का संग्रह और क्यूरेशन अंततः वर्तमान से अधिक स्वचालित और कम महंगा हो सकता है।
पहली बार 1 सितंबर 2022 को प्रकाशित हुआ।













