कृत्रिम बुद्धिमत्ता

गहरे शिक्षण मॉडल एआई-जनरेटेड छवियों को पहचानने में संघर्ष कर सकते हैं

Published September 1, 2022

Updated April 26, 2026

Martin Anderson

एक नए शोध पत्र से पता चलता है कि राज्य-ऑफ-द-आर्ट एआई एआई-सynthesized छवियों को पहचानने और व्याख्या करने में लोगों की तुलना में काफी कम सक्षम है, जो एक ऐसे माहौल में चिंता का विषय हो सकता है जहां मशीन लर्निंग मॉडल बढ़ते हुए सिंथेटिक डेटा पर प्रशिक्षित होते हैं, और जहां यह जरूरी नहीं है कि डेटा ‘वास्तविक’ है या नहीं।

यहाँ हम देखेंगे resnext101_32x8d_wsl पूर्वानुमान मॉडल ‘बैगेल’ श्रेणी में संघर्ष कर रहा है। परीक्षणों में, एक पहचान विफलता को तब माना जाता था जब मुख्य लक्ष्य शब्द (इस मामले में ‘बैगेल’) शीर्ष पांच प्राप्त परिणामों में शामिल नहीं था। स्रोत: https://arxiv.org/pdf/2208.10760.pdf

नई अनुसंधान ने दो श्रेणियों के कंप्यूटर विजन-आधारित पहचान फ्रेमवर्क का परीक्षण किया: वस्तु पहचान, और दृश्य प्रश्न उत्तर (VQA)।

बाएं, एक वस्तु पहचान प्रणाली से अनुमान सफलता और विफलता; दाएं, VQA कार्य जो दृश्यों और छवियों की अधिक अन्वेषणात्मक और महत्वपूर्ण तरीके से एआई समझ का परीक्षण करने के लिए डिज़ाइन किए गए हैं। स्रोत: https://arxiv.org/pdf/2105.05312.pdf और https://arxiv.org/pdf/1505.00468.pdf

छवि संश्लेषण फ्रेमवर्क DALL-E 2 और Midjourney द्वारा उत्पन्न क्यूरेटेड डेटासेट पर परीक्षण किए गए दस राज्य-ऑफ-द-आर्ट मॉडलों में, सबसे अच्छा प्रदर्शन करने वाला मॉडल केवल 60% और 80% शीर्ष-5 सटीकता प्राप्त कर सका, जबकि ImageNet, जो गैर-सिंथेटिक, वास्तविक दुनिया के डेटा पर प्रशिक्षित है, क्रमशः 91% और 99% प्राप्त कर सकता है, जबकि मानव प्रदर्शन आमतौर पर अधिक होता है।

वितरण प्रवाह (डिस्ट्रीब्यूशन शिफ्ट, जिसे ‘मॉडल ड्रिफ्ट’ भी कहा जाता है, जहां पूर्वानुमान मॉडल प्रशिक्षण डेटा से ‘वास्तविक’ डेटा में स्थानांतरित होने पर कमजोर पूर्वानुमान क्षमता का अनुभव करते हैं) के मुद्दों को संबोधित करते हुए, पत्र में कहा गया है:

‘मानव सिंथेटिक छवियों को पहचान सकते हैं और उन पर प्रश्नों का उत्तर दे सकते हैं। हम निष्कर्ष निकालते हैं कि गहरे मॉडल सिंथेटिक सामग्री को समझने में संघर्ष करते हैं, और फाइन-ट्यूनिंग के बाद बेहतर प्रदर्शन कर सकते हैं, और ख) सिंथेटिक छवियों और वास्तविक फोटोग्राफों के बीच एक बड़ा वितरण प्रवाह है। वितरण प्रवाह श्रेणी-निर्भर लगता है।’

दुनिया भर में इंटरनेट पर पहले से ही सिंथेटिक छवियों की बाढ़, पिछले सप्ताह के सेंसेशनल ओपन-सोर्सिंग के बाद स्टेबल डिफ्यूजन लेटेंट डिफ्यूजन सिंथेसिस मॉडल, यह संभावना स्वाभाविक रूप से उत्पन्न होती है कि ‘नकली’ छवियों के उद्योग-मानक डेटासेट जैसे कॉमन क्रॉल में बाढ़ आने से वर्षों में सटीकता में भिन्नता काफी प्रभावित हो सकती है।

हालांकि सिंथेटिक डेटा को हेराल्ड किया गया है कंप्यूटर विजन शोध क्षेत्र के लिए एक संभावित सavior, जो अक्सर संसाधनों और बजट की कमी के कारण हाइपरस्केल क्यूरेशन की कमी है, स्टेबल डिफ्यूजन छवियों की नई लहर (साथ ही साथ व्यावसायीकरण के बाद DALL-E 2 की वृद्धि) शायद ही सभी के साथ आएंगे जो उन्हें ‘नकली’ के रूप में प्रतिष्ठित करने वाले हैंडी लेबल, एनोटेशन और हैशटैग के साथ, उस बिंदु पर जब लालची मशीन दृष्टि प्रणाली उन्हें इंटरनेट से स्क्रैप करती हैं।

खुले स्रोत छवि संश्लेषण फ्रेमवर्क में विकास की गति हमारी क्षमता से काफी आगे निकल गई है कि हम इन प्रणालियों से छवियों को वर्गीकृत करें, जिससे ‘नकली छवि’ का पता लगाने प्रणालियों में रुचि बढ़ रही है, जो डीपफेक डिटेक्शन प्रणालियों के समान हैं, लेकिन पूरी छवियों का मूल्यांकन करने के लिए कार्य किया जाता है, न कि चेहरों के खंड के रूप में।

नया पत्र शीर्षक है गहरे मॉडल सिंथेटिक छवियों को समझने में कितने अच्छे हैं?, और सैन फ्रांसिस्को मशीन लर्निंग स्टार्टअप क्विंटिक एआई के अली बोरजी से आया है।

डेटा

अध्ययन स्टेबल डिफ्यूजन रिलीज से पहले है, और प्रयोग DALL-E 2 और Midjourney द्वारा उत्पन्न डेटा का उपयोग 17 श्रेणियों में करते हैं, जिनमें हाथी, मशरूम, पिज्जा, प्रेट्ज़ेल, ट्रैक्टर और खरगोश शामिल हैं।

परीक्षण की गई पहचान और VQA प्रणालियों द्वारा पहचाने जाने वाले सबसे महत्वपूर्ण कुंजी अवधारणा वाली छवियों के उदाहरण।

छवियों को वेब खोज और ट्विटर के माध्यम से प्राप्त किया गया था, और DALL-E 2 की नीतियों के अनुसार (कम से कम, उस समय), उनमें मानव चेहरे वाली कोई छवि शामिल नहीं थी। केवल अच्छी गुणवत्ता वाली छवियां, जो मानव द्वारा पहचान योग्य थीं, का चयन किया गया था।

दो सेट छवियों को क्यूरेट किया गया था, एक-एक वस्तु पहचान और VQA कार्यों के लिए।

वस्तु पहचान के लिए प्रत्येक परीक्षण श्रेणी में छवियों की संख्या।

वस्तु पहचान का परीक्षण

वस्तु पहचान परीक्षण के लिए, दस मॉडल, सभी AlexNet, ResNet152, MobileNetV2, DenseNet, ResNext, GoogleNet, ResNet101, Inception_V3, Deit, और ResNext_WSL पर परीक्षण किए गए थे, सभी ImageNet पर प्रशिक्षित थे।

कुछ वर्गों में परीक्षण प्रणालियों में अन्य लोगों की तुलना में अधिक विस्तृत थे, जिससे औसत दृष्टिकोण को लागू करने की आवश्यकता होती है। उदाहरण के लिए, ImageNet में ‘घड़ियों’ से संबंधित तीन वर्ग हैं, और यह आवश्यक था कि कुछ प्रकार के मध्यस्थ मीट्रिक को परिभाषित किया जाए, जहां किसी भी छवि के लिए प्राप्त लेबल के शीर्ष पांच में से किसी में भी ‘घड़ी’ को शामिल करना उस मामले में एक सफलता के रूप में माना जाता था।

17 श्रेणियों में प्रति-मॉडल प्रदर्शन।

इस दौर में सबसे अच्छा प्रदर्शन करने वाला मॉडल resnext101_32x8d_ws था, जिसने लगभग 60% के लिए शीर्ष-1 (अर्थात, जब इसका पसंदीदा अनुमान पांच अनुमानों में से पहला था) और 80% के लिए शीर्ष-पांच (अर्थात, वांछित अवधारणा कम से कम मॉडल के पांच अनुमानों में से एक में सूचीबद्ध थी) प्राप्त किया।

लेखक सुझाव देते हैं कि इस मॉडल का अच्छा प्रदर्शन इस तथ्य के कारण है कि यह सोशल मीडिया प्लेटफ़ॉर्म में हैशटैग की कमजोर-पर्यवेक्षित भविष्यवाणी के लिए प्रशिक्षित किया गया था। हालांकि, ये अग्रणी परिणाम, लेखक का उल्लेख करते हैं, ImageNet द्वारा वास्तविक डेटा पर प्राप्त किए गए 91% और 99% से काफी नीचे हैं। वह सुझाव देता है कि यह ImageNet छवियों के वितरण और सिंथेटिक छवियों के बीच एक बड़े अंतर के कारण है।

प्रणाली के लिए पांच सबसे कठिन श्रेणियां, कठिनाई के क्रम में, पतंग, कछुआ, गिलहरी, धूप का चश्मा और हेलमेट थीं। पत्र में उल्लेख किया गया है कि पतंग वर्ग अक्सर गुब्बारा, पैराशूट और छतरी के साथ भ्रमित होता है, हालांकि ये अंतर मानव निरीक्षकों के लिए स्पष्ट रूप से अलग करना आसान है।

कुछ श्रेणियां, जिनमें पतंग और कछुआ शामिल हैं, सभी मॉडलों में सार्वभौमिक विफलता का कारण बने, जबकि अन्य (विशेष रूप से प्रेट्ज़ेल और ट्रैक्टर) परीक्षण किए गए मॉडलों में लगभग सार्वभौमिक सफलता का परिणाम था।

ध्रुवीकरण श्रेणियां: कुछ लक्ष्य श्रेणियां चुनी गईं जो या तो सभी मॉडलों को भ्रमित कर देती हैं या उन्हें पहचानने में सभी मॉडलों के लिए काफी आसान होती हैं।

लेखक का अनुमान है कि ये निष्कर्ष दर्शाते हैं कि सभी वस्तु पहचान मॉडल समान ताकत और कमजोरियां साझा कर सकते हैं।

दृश्य प्रश्न उत्तर का परीक्षण

इसके बाद, लेखक ने खुले और मुक्त प्रश्नों वाले VQA मॉडलों का परीक्षण किया, जिनमें द्विआधारी प्रश्न (अर्थात, प्रश्न जिनका उत्तर केवल ‘हां’ या ‘नहीं’ हो सकता है) शामिल थे। पत्र में उल्लेख किया गया है कि हाल के राज्य-ऑफ-द-आर्ट VQA मॉडल VQA-v2 डेटासेट पर 95% सटीकता प्राप्त कर सकते हैं।

इस परीक्षण के दौर में, लेखक ने 50 छवियों और उनके चारों ओर 241 प्रश्नों को क्यूरेट किया, जिनमें से 132 सकारात्मक उत्तर थे और 109 नकारात्मक थे। प्रश्नों की औसत लंबाई 5.12 शब्द थी।

इस दौर में OFA मॉडल का उपयोग किया गया था, जो एक कार्य-एज्नोस्टिक और मॉडल-एज्नोस्टिक फ्रेमवर्क है जो कार्य की व्यापकता का परीक्षण करने के लिए है, और हाल ही में VQA-v2 टेस्ट-एसटीडी सेट में अग्रणी स्कोरर था। OFA ने सिंथेटिक छवियों पर 77.27% सटीकता प्राप्त की, जबकि इसका अपना 94.7% स्कोर VQA-v2 टेस्ट-एसटीडी सेट में था।

VQA खंड से प्रश्नों और परिणामों के उदाहरण। ‘जीटी’ ‘मैदान सत्य’ है, अर्थात, सही उत्तर।

लेखक का सुझाव है कि इसका एक कारण यह हो सकता है कि सिंथेटिक छवियों में सेमेंटिक अवधारणाएं हैं जो VQA-v2 डेटासेट में अनुपस्थित हैं, और VQA परीक्षणों के लिए लिखे गए प्रश्न VQA-v2 प्रश्नों के सामान्य मानक से अधिक चुनौतीपूर्ण हो सकते हैं, हालांकि वह मानता है कि पूर्व कारण अधिक संभावना है।

डेटा प्रवाह में एलएसडी?

राय

एआई-संश्लेषित छवियों की नई पroliferation, जो प्राकृतिक में मौजूद नहीं होने वाले मूल अवधारणाओं के तुरंत संयोजन और स抽象 प्रस्तुत कर सकती है, और जो पारंपरिक तरीकों से उत्पादन करने के लिए निषिद्ध रूप से समय लेने वाली हो सकती है, कमजोर पर्यवेक्षित डेटा-संग्रह प्रणालियों के लिए एक विशेष समस्या प्रस्तुत कर सकती है, जो शायद ही उचित रूप से विफल हो सकती हैं – मुख्य रूप से क्योंकि वे उच्च-वॉल्यूम, अनलेबल्ड सिंथेटिक डेटा को संभालने के लिए डिज़ाइन नहीं किए गए थे।

ऐसे मामलों में, यह जोखिम हो सकता है कि ये प्रणालियां कुछ ‘अजीब’ सिंथेटिक छवियों को गलत वर्गों में डाल देंगी क्योंकि छवियों में वास्तव में एक साथ नहीं होने वाले विशिष्ट वस्तुएं हैं।

‘एक खगोलयात्री एक घोड़े पर सवारी कर रहा है’ शायद नए पीढ़ी के छवि संश्लेषण प्रणालियों के लिए सबसे प्रतिष्ठित दृश्य बन गया है – लेकिन ये ‘अवास्तविक’ संबंध वास्तविक पता लगाने वाली प्रणालियों में प्रवेश कर सकते हैं जब तक कि सावधानी नहीं बरती जाती है। स्रोत: https://twitter.com/openai/status/1511714545529614338?lang=en

जब तक यह प्रशिक्षण से पहले प्रीप्रोसेसिंग चरण में रोका नहीं जा सकता है, तो स्वचालित पाइपलाइनें मशीन लर्निंग प्रणालियों में असंभव या यहां तक कि भयानक संबंधों को प्रशिक्षित करने का कारण बन सकती हैं, जिससे उनकी प्रभावशीलता कम हो जाती है, और उच्च-स्तरीय संबंधों को डाउनस्ट्रीम प्रणालियों और उप-वर्गों और श्रेणियों में पारित करने का जोखिम होता है।

वैकल्पिक रूप से, विच्छिन्न सिंथेटिक छवियां बाद की प्रणालियों की सटीकता पर एक ‘ठंडा प्रभाव’ डाल सकती हैं, यदि नए या संशोधित वास्थुकला उत्पन्न होते हैं जो अवास्तविक छवियों के लिए खाते हैं, और बहुत व्यापक जाल डालते हैं।

दोनों मामलों में, स्टेबल डिफ्यूजन युग में सिंथेटिक छवियां कंप्यूटर विजन अनुसंधान क्षेत्र के लिए एक सिरदर्द साबित हो सकती हैं, जिनके प्रयासों ने इन अजीब निर्माणों और क्षमताओं को संभव बनाया है – कम से कम इस कारण से कि यह क्षेत्र की आशा को खतरे में डालता है कि डेटा का संग्रह और क्यूरेशन अंततः वर्तमान से अधिक स्वचालित और कम महंगा हो सकता है।

पहली बार 1 सितंबर 2022 को प्रकाशित हुआ।

Related Topics:image synthesis research Synthesis AI synthetic data

Martin Anderson

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai

Unite.AI

गहरे शिक्षण मॉडल एआई-जनरेटेड छवियों को पहचानने में संघर्ष कर सकते हैं

डेटा

वस्तु पहचान का परीक्षण

दृश्य प्रश्न उत्तर का परीक्षण

डेटा प्रवाह में एलएसडी?

You may like