Artificial Intelligence
एडोब रिसर्च ने सुलझे हुए जीएएन फेस एडिटिंग का विस्तार किया है
यह समझना कठिन नहीं है कि ऐसा क्यों है नाज़ुक हालत छवि संश्लेषण में एक समस्या है, क्योंकि यह अक्सर जीवन के अन्य क्षेत्रों में एक समस्या है; उदाहरण के लिए, करी से हल्दी निकालना बर्गर में से अचार निकालने की तुलना में कहीं अधिक कठिन है, और एक कप कॉफी को मीठा करना व्यावहारिक रूप से असंभव है। कुछ चीजें बस बंडल में आती हैं।
इसी तरह उलझाव छवि संश्लेषण आर्किटेक्चर के लिए एक बाधा है जो चेहरे बनाने या संपादित करने के लिए मशीन लर्निंग का उपयोग करते समय आदर्श रूप से विभिन्न विशेषताओं और अवधारणाओं को अलग करना चाहेगा (या कुत्तों, नौकाओं, या कोई अन्य डोमेन)।
यदि आप इस प्रकार के धागों को अलग कर सकें उम्र, लिंग, बालों का रंग, त्वचा का रंग, भावना, और इसके बाद, आपके पास एक ऐसे ढांचे में वास्तविक साधन और लचीलेपन की शुरुआत होगी जो अवांछित 'यात्रियों' को इन रूपांतरणों में खींचे बिना, वास्तव में दानेदार स्तर पर चेहरे की छवियां बना और संपादित कर सकता है।
अधिकतम उलझाव (ऊपर बाईं ओर) पर, आप बस इतना कर सकते हैं कि एक सीखे हुए GAN नेटवर्क की छवि को किसी अन्य व्यक्ति की छवि में बदल दें।
यह किसी ऐसी चीज़ को हासिल करने के लिए नवीनतम एआई कंप्यूटर विज़न तकनीक का प्रभावी ढंग से उपयोग कर रहा है जिसे अन्य तरीकों से हल किया गया था तीस साल पहले.
कुछ हद तक पृथक्करण (ऊपर की छवि में 'मध्यम पृथक्करण') के साथ, स्टाइल-आधारित परिवर्तन जैसे बालों का रंग, अभिव्यक्ति, कॉस्मेटिक अनुप्रयोग और सीमित सिर घुमाव आदि करना संभव है।
इंटरैक्टिव फेस-एडिटिंग वातावरण बनाने के लिए पिछले दो वर्षों में कई प्रयास किए गए हैं जो उपयोगकर्ता को स्लाइडर्स और अन्य पारंपरिक यूआई इंटरैक्शन के साथ चेहरे की विशेषताओं को बदलने की अनुमति देते हैं, जबकि अतिरिक्त या परिवर्तन करते समय लक्ष्य चेहरे की मुख्य विशेषताओं को बरकरार रखते हैं। हालाँकि, GAN के अव्यक्त स्थान में अंतर्निहित सुविधा/शैली उलझाव के कारण यह एक चुनौती साबित हुई है।
उदाहरण के लिए, चश्मा विशेषता अक्सर इसके साथ उलझी रहती है वृद्ध विशेषता, जिसका अर्थ है कि चश्मा जोड़ने से चेहरे की उम्र भी बढ़ सकती है, जबकि चेहरे की उम्र बढ़ने से चश्मा भी जुड़ सकता है, जो उच्च-स्तरीय विशेषताओं के लागू पृथक्करण की डिग्री पर निर्भर करता है (उदाहरण के लिए नीचे 'परीक्षण' देखें)।
सबसे विशेष रूप से, बालों के स्ट्रैंड और स्वभाव की पुनर्गणना किए बिना बालों के रंग और बालों के अन्य पहलुओं को बदलना लगभग असंभव है, जो एक 'तेजस्वी', संक्रमणकालीन प्रभाव देता है।
अव्यक्त-से-अव्यक्त GAN ट्रैवर्सल
Adobe के नेतृत्व वाला एक नया पेपर घुसा WACV 2022 के लिए इन अंतर्निहित मुद्दों के लिए एक नया दृष्टिकोण प्रदान करता है काग़ज़ हकदार अव्यक्त से अव्यक्त: स्टाइलगैन-जनित छवियों में एकाधिक चेहरे के गुणों के संपादन की पहचान को संरक्षित करने के लिए एक सीखा हुआ मैपर.
इस पेपर का नेतृत्व एडोब एप्लाइड साइंटिस्ट सियावाश खोदादादेह ने किया है, जिसमें चार अन्य एडोब शोधकर्ता और सेंट्रल फ्लोरिडा विश्वविद्यालय में कंप्यूटर विज्ञान विभाग के एक शोधकर्ता शामिल हैं।
यह टुकड़ा आंशिक रूप से दिलचस्प है क्योंकि एडोब कुछ समय से इस क्षेत्र में काम कर रहा है, और अगले कुछ वर्षों में क्रिएटिव सूट प्रोजेक्ट में इस कार्यक्षमता में प्रवेश करने की कल्पना करना आकर्षक है; लेकिन मुख्य रूप से क्योंकि प्रोजेक्ट के लिए बनाया गया आर्किटेक्चर GAN फेस एडिटर में दृश्य अखंडता बनाए रखने के लिए एक अलग दृष्टिकोण अपनाता है, जबकि परिवर्तन लागू किए जा रहे हैं।
लेखक घोषणा करते हैं:
'[हम] एक तंत्रिका नेटवर्क को अव्यक्त-से-अव्यक्त परिवर्तन करने के लिए प्रशिक्षित करते हैं जो परिवर्तित विशेषता के साथ छवि के अनुरूप अव्यक्त एन्कोडिंग ढूंढता है। चूँकि तकनीक एक-शॉट है, यह विशेषताओं के क्रमिक परिवर्तन के रैखिक या गैर-रेखीय प्रक्षेपवक्र पर निर्भर नहीं करती है।
'पूरी पीढ़ी की पाइपलाइन पर नेटवर्क को एंड-टू-एंड प्रशिक्षित करके, सिस्टम ऑफ-द-शेल्फ जनरेटर आर्किटेक्चर के अव्यक्त स्थानों को अनुकूलित कर सकता है। संरक्षण गुण, जैसे व्यक्ति की पहचान बनाए रखना, प्रशिक्षण हानियों के रूप में एन्कोड किया जा सकता है।
'एक बार अव्यक्त-से-अव्यक्त नेटवर्क को प्रशिक्षित करने के बाद, इसे पुनः प्रशिक्षण के बिना मनमानी छवियों के लिए पुन: उपयोग किया जा सकता है।'
इस अंतिम भाग का अर्थ है कि प्रस्तावित आर्किटेक्चर अंतिम उपयोगकर्ता के साथ पूर्ण स्थिति में आता है। इसे अभी भी स्थानीय संसाधनों पर एक तंत्रिका नेटवर्क चलाने की आवश्यकता है, लेकिन नई छवियों को 'ड्रॉप' किया जा सकता है और लगभग तुरंत बदलने के लिए तैयार किया जा सकता है, क्योंकि फ्रेमवर्क पर्याप्त रूप से अलग हो गया है और आगे की छवि-विशिष्ट प्रशिक्षण की आवश्यकता नहीं है।
कार्य में मुख्य उपलब्धियों में नेटवर्क की लक्ष्य वेक्टर में केवल विशेषता को बदलकर अव्यक्त स्थान में पहचान को 'फ्रीज' करने की क्षमता है, और 'सुधार शब्द' प्रदान करना है जो पहचान को परिवर्तित होने से बचाते हैं।
अनिवार्य रूप से, प्रस्तावित नेटवर्क एक व्यापक वास्तुकला में अंतर्निहित है जो सभी संसाधित तत्वों को व्यवस्थित करता है, जो जमे हुए वजन के साथ पूर्व-प्रशिक्षित घटकों से गुज़रते हैं जो परिवर्तनों पर अवांछित पार्श्व प्रभाव उत्पन्न नहीं करेंगे।
चूंकि प्रशिक्षण प्रक्रिया पर निर्भर करता है तीनो इसे या तो बीज छवि (नीचे) द्वारा उत्पन्न किया जा सकता है GAN उलटा) या एक मौजूदा प्रारंभिक अव्यक्त एन्कोडिंग, पूरी प्रशिक्षण प्रक्रिया अप्राप्य है, ऐसी प्रणालियों में लेबलिंग और क्यूरेशन सिस्टम की प्रथागत सीमा की मौन क्रियाओं को प्रभावी ढंग से वास्तुकला में शामिल किया गया है। वास्तव में, नई प्रणाली ऑफ-द-शेल्फ विशेषता रजिस्ट्रार का उपयोग करती है:
'[] उन विशेषताओं की संख्या जिन्हें हमारा नेटवर्क स्वतंत्र रूप से नियंत्रित कर सकता है, केवल पहचानकर्ताओं की क्षमताओं द्वारा सीमित है - यदि किसी के पास किसी विशेषता के लिए पहचानकर्ता है, तो हम इसे मनमाने चेहरों में जोड़ सकते हैं। अपने प्रयोगों में, हमने चेहरे की 35 अलग-अलग विशेषताओं के समायोजन की अनुमति देने के लिए अव्यक्त-से-अव्यक्त नेटवर्क को प्रशिक्षित किया, जो किसी भी पिछले दृष्टिकोण से अधिक है।'
सिस्टम में अवांछित 'साइड-इफेक्ट' परिवर्तनों के खिलाफ एक अतिरिक्त सुरक्षा शामिल है: एक विशेषता परिवर्तन के अनुरोध के अभाव में, अव्यक्त-से-अव्यक्त नेटवर्क एक अव्यक्त वेक्टर को स्वयं मैप करेगा, जिससे लक्ष्य पहचान की स्थिर दृढ़ता में और वृद्धि होगी।
चेहरे की पहचान
पिछले कुछ वर्षों में GAN और एनकोडर/डिकोडर-आधारित फेस संपादकों के साथ एक आवर्ती मुद्दा यह रहा है कि लागू परिवर्तन समानता को कम कर देते हैं। इससे निपटने के लिए, Adobe प्रोजेक्ट एक एम्बेडेड फेशियल रिकग्निशन नेटवर्क का उपयोग करता है जिसे कहा जाता है फेसनेट एक विभेदक के रूप में.
(व्यक्तिगत टिप्पणी पर, यह मानक चेहरे की पहचान और यहां तक कि अभिव्यक्ति पहचान प्रणालियों को जेनरेटिव नेटवर्क में एकीकृत करने की दिशा में एक उत्साहजनक कदम लगता है, जो संभवतः इस पर काबू पाने का सबसे अच्छा तरीका है। ब्लाइंड पिक्सेल>पिक्सेल मैपिंग जो अभिव्यक्ति निष्ठा और फेस जेनरेशन क्षेत्र के अन्य महत्वपूर्ण डोमेन की कीमत पर वर्तमान डीपफेक आर्किटेक्चर पर हावी है।)
सभी क्षेत्रों तक पहुंचें अव्यक्त स्थान में
फ्रेमवर्क की एक और प्रभावशाली विशेषता उपयोगकर्ता की इच्छानुसार अव्यक्त स्थान में संभावित परिवर्तनों के बीच मनमाने ढंग से यात्रा करने की क्षमता है। कई पूर्व सिस्टम जो खोजपूर्ण इंटरफ़ेस प्रदान करते थे, अक्सर उपयोगकर्ता को निश्चित सुविधा परिवर्तन समयसीमा के बीच अनिवार्य रूप से 'स्क्रबिंग' करते थे - प्रभावशाली, लेकिन अक्सर काफी रैखिक या प्रोस्क्रिप्टिव अनुभव।
पूरी तरह से नवीन उपयोगकर्ता छवियों के प्रति ग्रहणशील होने के अलावा, उपयोगकर्ता उन तत्वों को मैन्युअल रूप से 'फ्रीज' भी कर सकता है जिन्हें वे परिवर्तन प्रक्रिया के दौरान संरक्षित करना चाहते हैं। इस तरह उपयोगकर्ता यह सुनिश्चित कर सकता है कि (उदाहरण के लिए) पृष्ठभूमि न बदले, या आँखें खुली या बंद रहें।
जानकारी
विशेषता प्रतिगमन नेटवर्क को तीन नेटवर्क पर प्रशिक्षित किया गया था: एफएफएचक्यू, सेलेबमास्क-मुख्यालय, और एक स्थानीय, GAN-जनित नेटवर्क, Z स्पेस से 400,000 वैक्टर का नमूना लेकर प्राप्त किया गया स्टाइलगैन-V2.
आउट-ऑफ़-डिस्ट्रीब्यूशन (ओओडी) छवियों को फ़िल्टर कर दिया गया, और माइक्रोसॉफ्ट का उपयोग करके विशेषताएँ निकाली गईं फेस एपीआई, परिणामी छवि-सेट विभाजन 90/10 के साथ, तुलना करने के लिए 721,218 प्रशिक्षण छवियां और 72,172 परीक्षण छवियां बचती हैं।
परीक्षण
हालाँकि प्रायोगिक नेटवर्क को शुरू में 35 संभावित परिवर्तनों को समायोजित करने के लिए कॉन्फ़िगर किया गया था, तुलनीय ढांचे के खिलाफ अनुरूप परीक्षण करने के लिए इन्हें घटाकर आठ कर दिया गया था। इंटरफेसगैन, गैन्सस्पेस, तथा स्टाइलफ्लो.
आठ चयनित विशेषताएँ थीं आयु, दरिद्रता, दाढ़ी, अभिव्यक्ति, लिंग, चश्मा, पिच, तथा रास्ते से हटना. उन आठ विशेषताओं में से कुछ के लिए प्रतिस्पर्धी रूपरेखाओं को फिर से तैयार करना आवश्यक था जिनका मूल वितरण में प्रावधान नहीं किया गया था, जैसे कि जोड़ना दरिद्रता और दाढ़ी InterFaceGAN के लिए।
जैसा कि अपेक्षित था, प्रतिद्वंद्वी आर्किटेक्चर में बड़े स्तर पर उलझाव हुआ। उदाहरण के लिए, एक परीक्षण में, आवेदन करने के लिए कहने पर InterFaceGAN और StyleFlow दोनों ने विषय का लिंग बदल दिया उम्र:
इसके अतिरिक्त, दो प्रतिद्वंद्वियों ने पाया कि चश्मा और उम्र अविभाज्य पहलू हैं:
यह अनुसंधान के लिए एक समान जीत नहीं है: जैसा कि लेख के अंत में संलग्न वीडियो में देखा जा सकता है, विभिन्न कोणों (यॉ) को एक्सट्रपलेशन करने का प्रयास करते समय रूपरेखा सबसे कम प्रभावी है, जबकि GANSpace के लिए बेहतर सामान्य परिणाम है उम्र और का थोपना चश्मा. पिच (सिर के कोण) को जोड़ने के संबंध में अव्यक्त-से-अव्यक्त ढांचा GANSpace और StyleFlow के साथ जुड़ा हुआ है।
अधिक विवरण और उदाहरणों के बेहतर समाधान के लिए, नीचे पेपर के साथ दिया गया वीडियो देखें।
पहली बार 16 फरवरी 2022 को प्रकाशित।