Connect with us

рдЧрд╣рд░реЗ рд╢рд┐рдХреНрд╖рдг рдореЙрдбрд▓ рдПрдЖрдИ-рдЬрдирд░реЗрдЯреЗрдб рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рдкрд╣рдЪрд╛рдирдиреЗ рдореЗрдВ рд╕рдВрдШрд░реНрд╖ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдЧрд╣рд░реЗ рд╢рд┐рдХреНрд╖рдг рдореЙрдбрд▓ рдПрдЖрдИ-рдЬрдирд░реЗрдЯреЗрдб рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рдкрд╣рдЪрд╛рдирдиреЗ рдореЗрдВ рд╕рдВрдШрд░реНрд╖ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ

mm

एक नए शोध पत्र से पता चलता है कि राज्य-ऑफ-द-आर्ट एआई एआई-सynthesized छवियों को पहचानने और व्याख्या करने में लोगों की तुलना में काफी कम सक्षम है, जो एक ऐसे माहौल में चिंता का विषय हो सकता है जहां मशीन लर्निंग मॉडल बढ़ते हुए सिंथेटिक डेटा पर प्रशिक्षित होते हैं, और जहां यह जरूरी नहीं है कि डेटा ‘वास्तविक’ है या नहीं।

рдпрд╣рд╛рдБ рд╣рдо рджреЗрдЦреЗрдВрдЧреЗ resnext101_32x8d_wsl рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдореЙрдбрд▓ 'рдмреИрдЧреЗрд▓' рд╢реНрд░реЗрдгреА рдореЗрдВ рд╕рдВрдШрд░реНрд╖ рдХрд░ рд░рд╣рд╛ рд╣реИред рдкрд░реАрдХреНрд╖рдгреЛрдВ рдореЗрдВ, рдПрдХ рдкрд╣рдЪрд╛рди рд╡рд┐рдлрд▓рддрд╛ рдХреЛ рддрдм рдорд╛рдирд╛ рдЬрд╛рддрд╛ рдерд╛ рдЬрдм рдореБрдЦреНрдп рд▓рдХреНрд╖реНрдп рд╢рдмреНрдж (рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ 'рдмреИрдЧреЗрд▓') рд╢реАрд░реНрд╖ рдкрд╛рдВрдЪ рдкреНрд░рд╛рдкреНрдд рдкрд░рд┐рдгрд╛рдореЛрдВ рдореЗрдВ рд╢рд╛рдорд┐рд▓ рдирд╣реАрдВ рдерд╛ред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2208.10760.pdf

यहाँ हम देखेंगे resnext101_32x8d_wsl पूर्वानुमान मॉडल ‘बैगेल’ श्रेणी में संघर्ष कर रहा है। परीक्षणों में, एक पहचान विफलता को तब माना जाता था जब मुख्य लक्ष्य शब्द (इस मामले में ‘बैगेल’) शीर्ष पांच प्राप्त परिणामों में शामिल नहीं था। स्रोत: https://arxiv.org/pdf/2208.10760.pdf

नई अनुसंधान ने दो श्रेणियों के कंप्यूटर विजन-आधारित पहचान फ्रेमवर्क का परीक्षण किया: वस्तु पहचान, और दृश्य प्रश्न उत्तर (VQA)।

рдмрд╛рдПрдВ, рдПрдХ рд╡рд╕реНрддреБ рдкрд╣рдЪрд╛рди рдкреНрд░рдгрд╛рд▓реА рд╕реЗ рдЕрдиреБрдорд╛рди рд╕рдлрд▓рддрд╛ рдФрд░ рд╡рд┐рдлрд▓рддрд╛; рджрд╛рдПрдВ, VQA рдХрд╛рд░реНрдп рдЬреЛ рджреГрд╢реНрдпреЛрдВ рдФрд░ рдЫрд╡рд┐рдпреЛрдВ рдХреА рдЕрдзрд┐рдХ рдЕрдиреНрд╡реЗрд╖рдгрд╛рддреНрдордХ рдФрд░ рдорд╣рддреНрд╡рдкреВрд░реНрдг рддрд░реАрдХреЗ рд╕реЗ рдПрдЖрдИ рд╕рдордЭ рдХрд╛ рдкрд░реАрдХреНрд╖рдг рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдбрд┐рдЬрд╝рд╛рдЗрди рдХрд┐рдП рдЧрдП рд╣реИрдВред рд╕реНрд░реЛрдд: https://arxiv.org/pdf/2105.05312.pdf рдФрд░ https://arxiv.org/pdf/1505.00468.pdf

बाएं, एक वस्तु पहचान प्रणाली से अनुमान सफलता और विफलता; दाएं, VQA कार्य जो दृश्यों और छवियों की अधिक अन्वेषणात्मक और महत्वपूर्ण तरीके से एआई समझ का परीक्षण करने के लिए डिज़ाइन किए गए हैं। स्रोत: https://arxiv.org/pdf/2105.05312.pdf और https://arxiv.org/pdf/1505.00468.pdf

छवि संश्लेषण फ्रेमवर्क DALL-E 2 और Midjourney द्वारा उत्पन्न क्यूरेटेड डेटासेट पर परीक्षण किए गए दस राज्य-ऑफ-द-आर्ट मॉडलों में, सबसे अच्छा प्रदर्शन करने वाला मॉडल केवल 60% और 80% शीर्ष-5 सटीकता प्राप्त कर सका, जबकि ImageNet, जो गैर-सिंथेटिक, वास्तविक दुनिया के डेटा पर प्रशिक्षित है, क्रमशः 91% और 99% प्राप्त कर सकता है, जबकि मानव प्रदर्शन आमतौर पर अधिक होता है।

वितरण प्रवाह (डिस्ट्रीब्यूशन शिफ्ट, जिसे ‘मॉडल ड्रिफ्ट’ भी कहा जाता है, जहां पूर्वानुमान मॉडल प्रशिक्षण डेटा से ‘वास्तविक’ डेटा में स्थानांतरित होने पर कमजोर पूर्वानुमान क्षमता का अनुभव करते हैं) के मुद्दों को संबोधित करते हुए, पत्र में कहा गया है:

‘मानव सिंथेटिक छवियों को पहचान सकते हैं और उन पर प्रश्नों का उत्तर दे सकते हैं। हम निष्कर्ष निकालते हैं कि गहरे मॉडल सिंथेटिक सामग्री को समझने में संघर्ष करते हैं, और फाइन-ट्यूनिंग के बाद बेहतर प्रदर्शन कर सकते हैं, और ख) सिंथेटिक छवियों और वास्तविक फोटोग्राफों के बीच एक बड़ा वितरण प्रवाह है। वितरण प्रवाह श्रेणी-निर्भर लगता है।’

दुनिया भर में इंटरनेट पर पहले से ही सिंथेटिक छवियों की बाढ़, पिछले सप्ताह के सेंसेशनल ओपन-सोर्सिंग के बाद स्टेबल डिफ्यूजन लेटेंट डिफ्यूजन सिंथेसिस मॉडल, यह संभावना स्वाभाविक रूप से उत्पन्न होती है कि ‘नकली’ छवियों के उद्योग-मानक डेटासेट जैसे कॉमन क्रॉल में बाढ़ आने से वर्षों में सटीकता में भिन्नता काफी प्रभावित हो सकती है।

हालांकि सिंथेटिक डेटा को हेराल्ड किया गया है कंप्यूटर विजन शोध क्षेत्र के लिए एक संभावित सavior, जो अक्सर संसाधनों और बजट की कमी के कारण हाइपरस्केल क्यूरेशन की कमी है, स्टेबल डिफ्यूजन छवियों की नई लहर (साथ ही साथ व्यावसायीकरण के बाद DALL-E 2 की वृद्धि) शायद ही सभी के साथ आएंगे जो उन्हें ‘नकली’ के रूप में प्रतिष्ठित करने वाले हैंडी लेबल, एनोटेशन और हैशटैग के साथ, उस बिंदु पर जब लालची मशीन दृष्टि प्रणाली उन्हें इंटरनेट से स्क्रैप करती हैं।

खुले स्रोत छवि संश्लेषण फ्रेमवर्क में विकास की गति हमारी क्षमता से काफी आगे निकल गई है कि हम इन प्रणालियों से छवियों को वर्गीकृत करें, जिससे ‘नकली छवि’ का पता लगाने प्रणालियों में रुचि बढ़ रही है, जो डीपफेक डिटेक्शन प्रणालियों के समान हैं, लेकिन पूरी छवियों का मूल्यांकन करने के लिए कार्य किया जाता है, न कि चेहरों के खंड के रूप में।

नया पत्र शीर्षक है गहरे मॉडल सिंथेटिक छवियों को समझने में कितने अच्छे हैं?, और सैन फ्रांसिस्को मशीन लर्निंग स्टार्टअप क्विंटिक एआई के अली बोरजी से आया है।

डेटा

अध्ययन स्टेबल डिफ्यूजन रिलीज से पहले है, और प्रयोग DALL-E 2 और Midjourney द्वारा उत्पन्न डेटा का उपयोग 17 श्रेणियों में करते हैं, जिनमें हाथी, मशरूम, पिज्जा, प्रेट्ज़ेल, ट्रैक्टर और खरगोश शामिल हैं।

рдкрд░реАрдХреНрд╖рдг рдХреА рдЧрдИ рдкрд╣рдЪрд╛рди рдФрд░ VQA рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рджреНрд╡рд╛рд░рд╛ рдкрд╣рдЪрд╛рдиреЗ рдЬрд╛рдиреЗ рд╡рд╛рд▓реЗ рд╕рдмрд╕реЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдХреБрдВрдЬреА рдЕрд╡рдзрд╛рд░рдгрд╛ рд╡рд╛рд▓реА рдЫрд╡рд┐рдпреЛрдВ рдХреЗ рдЙрджрд╛рд╣рд░рдгред

परीक्षण की गई पहचान और VQA प्रणालियों द्वारा पहचाने जाने वाले सबसे महत्वपूर्ण कुंजी अवधारणा वाली छवियों के उदाहरण।

छवियों को वेब खोज और ट्विटर के माध्यम से प्राप्त किया गया था, और DALL-E 2 की नीतियों के अनुसार (कम से कम, उस समय), उनमें मानव चेहरे वाली कोई छवि शामिल नहीं थी। केवल अच्छी गुणवत्ता वाली छवियां, जो मानव द्वारा पहचान योग्य थीं, का चयन किया गया था।

दो सेट छवियों को क्यूरेट किया गया था, एक-एक वस्तु पहचान और VQA कार्यों के लिए।

рд╡рд╕реНрддреБ рдкрд╣рдЪрд╛рди рдХреЗ рд▓рд┐рдП рдкреНрд░рддреНрдпреЗрдХ рдкрд░реАрдХреНрд╖рдг рд╢реНрд░реЗрдгреА рдореЗрдВ рдЫрд╡рд┐рдпреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ред

वस्तु पहचान के लिए प्रत्येक परीक्षण श्रेणी में छवियों की संख्या।

वस्तु पहचान का परीक्षण

वस्तु पहचान परीक्षण के लिए, दस मॉडल, सभी AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, और ResNext_WSL पर परीक्षण किए गए थे, सभी ImageNet पर प्रशिक्षित थे।

कुछ वर्गों में परीक्षण प्रणालियों में अन्य लोगों की तुलना में अधिक विस्तृत थे, जिससे औसत दृष्टिकोण को लागू करने की आवश्यकता होती है। उदाहरण के लिए, ImageNet में ‘घड़ियों’ से संबंधित तीन वर्ग हैं, और यह आवश्यक था कि कुछ प्रकार के मध्यस्थ मीट्रिक को परिभाषित किया जाए, जहां किसी भी छवि के लिए प्राप्त लेबल के शीर्ष पांच में से किसी में भी ‘घड़ी’ को शामिल करना उस मामले में एक सफलता के रूप में माना जाता था।

17 рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдореЗрдВ рдкреНрд░рддрд┐-рдореЙрдбрд▓ рдкреНрд░рджрд░реНрд╢рдиред

17 श्रेणियों में प्रति-मॉडल प्रदर्शन।

इस दौर में सबसे अच्छा प्रदर्शन करने वाला मॉडल resnext101_32x8d_ws था, जिसने लगभग 60% के लिए शीर्ष-1 (अर्थात, जब इसका पसंदीदा अनुमान पांच अनुमानों में से पहला था) और 80% के लिए शीर्ष-पांच (अर्थात, वांछित अवधारणा कम से कम मॉडल के पांच अनुमानों में से एक में सूचीबद्ध थी) प्राप्त किया।

लेखक सुझाव देते हैं कि इस मॉडल का अच्छा प्रदर्शन इस तथ्य के कारण है कि यह सोशल मीडिया प्लेटफ़ॉर्म में हैशटैग की कमजोर-पर्यवेक्षित भविष्यवाणी के लिए प्रशिक्षित किया गया था। हालांकि, ये अग्रणी परिणाम, लेखक का उल्लेख करते हैं, ImageNet द्वारा वास्तविक डेटा पर प्राप्त किए गए 91% और 99% से काफी नीचे हैं। वह सुझाव देता है कि यह ImageNet छवियों के वितरण और सिंथेटिक छवियों के बीच एक बड़े अंतर के कारण है।

प्रणाली के लिए पांच सबसे कठिन श्रेणियां, कठिनाई के क्रम में, पतंग, कछुआ, गिलहरी, धूप का चश्मा और हेलमेट थीं। पत्र में उल्लेख किया गया है कि पतंग वर्ग अक्सर गुब्बारा, पैराशूट और छतरी के साथ भ्रमित होता है, हालांकि ये अंतर मानव निरीक्षकों के लिए स्पष्ट रूप से अलग करना आसान है।

कुछ श्रेणियां, जिनमें पतंग और कछुआ शामिल हैं, सभी मॉडलों में सार्वभौमिक विफलता का कारण बने, जबकि अन्य (विशेष रूप से प्रेट्ज़ेल और ट्रैक्टर) परीक्षण किए गए मॉडलों में लगभग सार्वभौमिक सफलता का परिणाम था।

рдзреНрд░реБрд╡реАрдХрд░рдг рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ: рдХреБрдЫ рд▓рдХреНрд╖реНрдп рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рдЪреБрдиреА рдЧрдИрдВ рдЬреЛ рдпрд╛ рддреЛ рд╕рднреА рдореЙрдбрд▓реЛрдВ рдХреЛ рднреНрд░рдорд┐рдд рдХрд░ рджреЗрддреА рд╣реИрдВ рдпрд╛ рдЙрдиреНрд╣реЗрдВ рдкрд╣рдЪрд╛рдирдиреЗ рдореЗрдВ рд╕рднреА рдореЙрдбрд▓реЛрдВ рдХреЗ рд▓рд┐рдП рдХрд╛рдлреА рдЖрд╕рд╛рди рд╣реЛрддреА рд╣реИрдВред

ध्रुवीकरण श्रेणियां: कुछ लक्ष्य श्रेणियां चुनी गईं जो या तो सभी मॉडलों को भ्रमित कर देती हैं या उन्हें पहचानने में सभी मॉडलों के लिए काफी आसान होती हैं।

लेखक का अनुमान है कि ये निष्कर्ष दर्शाते हैं कि सभी वस्तु पहचान मॉडल समान ताकत और कमजोरियां साझा कर सकते हैं।

दृश्य प्रश्न उत्तर का परीक्षण

इसके बाद, लेखक ने खुले और मुक्त प्रश्नों वाले VQA मॉडलों का परीक्षण किया, जिनमें द्विआधारी प्रश्न (अर्थात, प्रश्न जिनका उत्तर केवल ‘हां’ या ‘नहीं’ हो सकता है) शामिल थे। पत्र में उल्लेख किया गया है कि हाल के राज्य-ऑफ-द-आर्ट VQA मॉडल VQA-v2 डेटासेट पर 95% सटीकता प्राप्त कर सकते हैं।

इस परीक्षण के दौर में, लेखक ने 50 छवियों और उनके चारों ओर 241 प्रश्नों को क्यूरेट किया, जिनमें से 132 सकारात्मक उत्तर थे और 109 नकारात्मक थे। प्रश्नों की औसत लंबाई 5.12 शब्द थी।

इस दौर में OFA मॉडल का उपयोग किया गया था, जो एक कार्य-एज्नोस्टिक और मॉडल-एज्नोस्टिक फ्रेमवर्क है जो कार्य की व्यापकता का परीक्षण करने के लिए है, और हाल ही में VQA-v2 टेस्ट-एसटीडी सेट में अग्रणी स्कोरर था। OFA ने सिंथेटिक छवियों पर 77.27% सटीकता प्राप्त की, जबकि इसका अपना 94.7% स्कोर VQA-v2 टेस्ट-एसटीडी सेट में था।

VQA рдЦрдВрдб рд╕реЗ рдкреНрд░рд╢реНрдиреЛрдВ рдФрд░ рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЗ рдЙрджрд╛рд╣рд░рдгред 'рдЬреАрдЯреА' 'рдореИрджрд╛рди рд╕рддреНрдп' рд╣реИ, рдЕрд░реНрдерд╛рдд, рд╕рд╣реА рдЙрддреНрддрд░ред

VQA खंड से प्रश्नों और परिणामों के उदाहरण। ‘जीटी’ ‘मैदान सत्य’ है, अर्थात, सही उत्तर।

लेखक का सुझाव है कि इसका एक कारण यह हो सकता है कि सिंथेटिक छवियों में सेमेंटिक अवधारणाएं हैं जो VQA-v2 डेटासेट में अनुपस्थित हैं, और VQA परीक्षणों के लिए लिखे गए प्रश्न VQA-v2 प्रश्नों के सामान्य मानक से अधिक चुनौतीपूर्ण हो सकते हैं, हालांकि वह मानता है कि पूर्व कारण अधिक संभावना है।

डेटा प्रवाह में एलएसडी?

राय

एआई-संश्लेषित छवियों की नई पroliferation, जो प्राकृतिक में मौजूद नहीं होने वाले मूल अवधारणाओं के तुरंत संयोजन और स抽象 प्रस्तुत कर सकती है, और जो पारंपरिक तरीकों से उत्पादन करने के लिए निषिद्ध रूप से समय लेने वाली हो सकती है, कमजोर पर्यवेक्षित डेटा-संग्रह प्रणालियों के लिए एक विशेष समस्या प्रस्तुत कर सकती है, जो शायद ही उचित रूप से विफल हो सकती हैं – मुख्य रूप से क्योंकि वे उच्च-वॉल्यूम, अनलेबल्ड सिंथेटिक डेटा को संभालने के लिए डिज़ाइन नहीं किए गए थे।

ऐसे मामलों में, यह जोखिम हो सकता है कि ये प्रणालियां कुछ ‘अजीब’ सिंथेटिक छवियों को गलत वर्गों में डाल देंगी क्योंकि छवियों में वास्तव में एक साथ नहीं होने वाले विशिष्ट वस्तुएं हैं।

 'рдПрдХ рдЦрдЧреЛрд▓рдпрд╛рддреНрд░реА рдПрдХ рдШреЛрдбрд╝реЗ рдкрд░ рд╕рд╡рд╛рд░реА рдХрд░ рд░рд╣рд╛ рд╣реИ' рд╢рд╛рдпрдж рдирдП рдкреАрдврд╝реА рдХреЗ рдЫрд╡рд┐ рд╕рдВрд╢реНрд▓реЗрд╖рдг рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП рд╕рдмрд╕реЗ рдкреНрд░рддрд┐рд╖реНрдард┐рдд рджреГрд╢реНрдп рдмрди рдЧрдпрд╛ рд╣реИ - рд▓реЗрдХрд┐рди рдпреЗ 'рдЕрд╡рд╛рд╕реНрддрд╡рд┐рдХ' рд╕рдВрдмрдВрдз рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рд╡рд╛рд▓реА рдкреНрд░рдгрд╛рд▓рд┐рдпреЛрдВ рдореЗрдВ рдкреНрд░рд╡реЗрд╢ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдЬрдм рддрдХ рдХрд┐ рд╕рд╛рд╡рдзрд╛рдиреА рдирд╣реАрдВ рдмрд░рддреА рдЬрд╛рддреА рд╣реИред рд╕реНрд░реЛрдд: https://twitter.com/openai/status/1511714545529614338?lang=en

‘एक खगोलयात्री एक घोड़े पर सवारी कर रहा है’ शायद नए पीढ़ी के छवि संश्लेषण प्रणालियों के लिए सबसे प्रतिष्ठित दृश्य बन गया है – लेकिन ये ‘अवास्तविक’ संबंध वास्तविक पता लगाने वाली प्रणालियों में प्रवेश कर सकते हैं जब तक कि सावधानी नहीं बरती जाती है। स्रोत: https://twitter.com/openai/status/1511714545529614338?lang=en

जब तक यह प्रशिक्षण से पहले प्रीप्रोसेसिंग चरण में रोका नहीं जा सकता है, तो स्वचालित पाइपलाइनें मशीन लर्निंग प्रणालियों में असंभव या यहां तक कि भयानक संबंधों को प्रशिक्षित करने का कारण बन सकती हैं, जिससे उनकी प्रभावशीलता कम हो जाती है, और उच्च-स्तरीय संबंधों को डाउनस्ट्रीम प्रणालियों और उप-वर्गों और श्रेणियों में पारित करने का जोखिम होता है।

वैकल्पिक रूप से, विच्छिन्न सिंथेटिक छवियां बाद की प्रणालियों की सटीकता पर एक ‘ठंडा प्रभाव’ डाल सकती हैं, यदि नए या संशोधित वास्थुकला उत्पन्न होते हैं जो अवास्तविक छवियों के लिए खाते हैं, और बहुत व्यापक जाल डालते हैं।

दोनों मामलों में, स्टेबल डिफ्यूजन युग में सिंथेटिक छवियां कंप्यूटर विजन अनुसंधान क्षेत्र के लिए एक सिरदर्द साबित हो सकती हैं, जिनके प्रयासों ने इन अजीब निर्माणों और क्षमताओं को संभव बनाया है – कम से कम इस कारण से कि यह क्षेत्र की आशा को खतरे में डालता है कि डेटा का संग्रह और क्यूरेशन अंततः वर्तमान से अधिक स्वचालित और कम महंगा हो सकता है।

 

पहली बार 1 सितंबर 2022 को प्रकाशित हुआ।

рдорд╢реАрди рд▓рд░реНрдирд┐рдВрдЧ рдкрд░ рд▓реЗрдЦрдХ, рдорд╛рдирд╡ рдЗрдореЗрдЬ рд╕рд┐рдВрдереЗрд╕рд┐рд╕ рдореЗрдВ рдбреЛрдореЗрди рд╡рд┐рд╢реЗрд╖рдЬреНрдЮред рдореЗрдЯрд╛рдлрд┐рдЬрд┐рдХ.рдПрдЖрдИ рдореЗрдВ рдЕрдиреБрд╕рдВрдзрд╛рди рд╕рд╛рдордЧреНрд░реА рдХреЗ рдкреВрд░реНрд╡ рдкреНрд░рдореБрдЦред
рд╡реНрдпрдХреНрддрд┐рдЧрдд рд╕рд╛рдЗрдЯ: martinanderson.ai
рд╕рдВрдкрд░реНрдХ: [email protected]
рдЯреНрд╡рд┐рдЯрд░: @manders_ai