Artificial Intelligence

एडोब रिसर्च ने सुलझे हुए जीएएन फेस एडिटिंग का विस्तार किया है

Updated on दिसम्बर 9/2022

यह समझना कठिन नहीं है कि ऐसा क्यों है नाज़ुक हालत छवि संश्लेषण में एक समस्या है, क्योंकि यह अक्सर जीवन के अन्य क्षेत्रों में एक समस्या है; उदाहरण के लिए, करी से हल्दी निकालना बर्गर में से अचार निकालने की तुलना में कहीं अधिक कठिन है, और एक कप कॉफी को मीठा करना व्यावहारिक रूप से असंभव है। कुछ चीजें बस बंडल में आती हैं।

इसी तरह उलझाव छवि संश्लेषण आर्किटेक्चर के लिए एक बाधा है जो चेहरे बनाने या संपादित करने के लिए मशीन लर्निंग का उपयोग करते समय आदर्श रूप से विभिन्न विशेषताओं और अवधारणाओं को अलग करना चाहेगा (या कुत्तों, नौकाओं, या कोई अन्य डोमेन)।

यदि आप इस प्रकार के धागों को अलग कर सकें उम्र, लिंग, बालों का रंग, त्वचा का रंग, भावना, और इसके बाद, आपके पास एक ऐसे ढांचे में वास्तविक साधन और लचीलेपन की शुरुआत होगी जो अवांछित 'यात्रियों' को इन रूपांतरणों में खींचे बिना, वास्तव में दानेदार स्तर पर चेहरे की छवियां बना और संपादित कर सकता है।

अधिकतम उलझाव (ऊपर बाईं ओर) पर, आप बस इतना कर सकते हैं कि एक सीखे हुए GAN नेटवर्क की छवि को किसी अन्य व्यक्ति की छवि में बदल दें।

यह किसी ऐसी चीज़ को हासिल करने के लिए नवीनतम एआई कंप्यूटर विज़न तकनीक का प्रभावी ढंग से उपयोग कर रहा है जिसे अन्य तरीकों से हल किया गया था तीस साल पहले.

कुछ हद तक पृथक्करण (ऊपर की छवि में 'मध्यम पृथक्करण') के साथ, स्टाइल-आधारित परिवर्तन जैसे बालों का रंग, अभिव्यक्ति, कॉस्मेटिक अनुप्रयोग और सीमित सिर घुमाव आदि करना संभव है।

स्रोत: FEAT: फेस एडिटिंग विद अटेंशन, फरवरी 2022, https://arxiv.org/pdf/2202.02713.pdf

स्रोत: करतब: ध्यान से चेहरे का संपादन, फरवरी 2022, https://arxiv.org/pdf/2202.02713.pdf

इंटरैक्टिव फेस-एडिटिंग वातावरण बनाने के लिए पिछले दो वर्षों में कई प्रयास किए गए हैं जो उपयोगकर्ता को स्लाइडर्स और अन्य पारंपरिक यूआई इंटरैक्शन के साथ चेहरे की विशेषताओं को बदलने की अनुमति देते हैं, जबकि अतिरिक्त या परिवर्तन करते समय लक्ष्य चेहरे की मुख्य विशेषताओं को बरकरार रखते हैं। हालाँकि, GAN के अव्यक्त स्थान में अंतर्निहित सुविधा/शैली उलझाव के कारण यह एक चुनौती साबित हुई है।

उदाहरण के लिए, चश्मा विशेषता अक्सर इसके साथ उलझी रहती है वृद्ध विशेषता, जिसका अर्थ है कि चश्मा जोड़ने से चेहरे की उम्र भी बढ़ सकती है, जबकि चेहरे की उम्र बढ़ने से चश्मा भी जुड़ सकता है, जो उच्च-स्तरीय विशेषताओं के लागू पृथक्करण की डिग्री पर निर्भर करता है (उदाहरण के लिए नीचे 'परीक्षण' देखें)।

सबसे विशेष रूप से, बालों के स्ट्रैंड और स्वभाव की पुनर्गणना किए बिना बालों के रंग और बालों के अन्य पहलुओं को बदलना लगभग असंभव है, जो एक 'तेजस्वी', संक्रमणकालीन प्रभाव देता है।

स्रोत: InterFaceGAN डेमो (CVPR 2020), https://www.youtube.com/watch?v=uoftpl3Bj6w

अव्यक्त-से-अव्यक्त GAN ट्रैवर्सल

Adobe के नेतृत्व वाला एक नया पेपर घुसा WACV 2022 के लिए इन अंतर्निहित मुद्दों के लिए एक नया दृष्टिकोण प्रदान करता है काग़ज़ हकदार अव्यक्त से अव्यक्त: स्टाइलगैन-जनित छवियों में एकाधिक चेहरे के गुणों के संपादन की पहचान को संरक्षित करने के लिए एक सीखा हुआ मैपर.

पेपर से अनुपूरक सामग्री अव्यक्त से अव्यक्त: स्टाइलगैन-जनित छवियों में एकाधिक चेहरे के गुणों के संपादन की पहचान को संरक्षित करने के लिए एक सीखा हुआ मैपर। यहां हम देखते हैं कि सीखे गए चेहरे की आधार विशेषताओं को असंबंधित परिवर्तनों में नहीं घसीटा जाता है। बेहतर विवरण और समाधान के लिए लेख के अंत में पूरा वीडियो एम्बेड देखें। स्रोत: https://www.youtube.com/watch?v=rf_61llRH0Q

कागज से पूरक सामग्री अव्यक्त से अव्यक्त: स्टाइलगैन-जनित छवियों में एकाधिक चेहरे के गुणों के संपादन की पहचान को संरक्षित करने के लिए एक सीखा हुआ मैपर. यहां हम देखते हैं कि सीखे गए चेहरे की आधार विशेषताओं को असंबंधित परिवर्तनों में नहीं घसीटा जाता है। बेहतर विवरण और समाधान के लिए लेख के अंत में पूरा वीडियो एम्बेड देखें। स्रोत: https://www.youtube.com/watch?v=rf_61llRH0Q

इस पेपर का नेतृत्व एडोब एप्लाइड साइंटिस्ट सियावाश खोदादादेह ने किया है, जिसमें चार अन्य एडोब शोधकर्ता और सेंट्रल फ्लोरिडा विश्वविद्यालय में कंप्यूटर विज्ञान विभाग के एक शोधकर्ता शामिल हैं।

यह टुकड़ा आंशिक रूप से दिलचस्प है क्योंकि एडोब कुछ समय से इस क्षेत्र में काम कर रहा है, और अगले कुछ वर्षों में क्रिएटिव सूट प्रोजेक्ट में इस कार्यक्षमता में प्रवेश करने की कल्पना करना आकर्षक है; लेकिन मुख्य रूप से क्योंकि प्रोजेक्ट के लिए बनाया गया आर्किटेक्चर GAN फेस एडिटर में दृश्य अखंडता बनाए रखने के लिए एक अलग दृष्टिकोण अपनाता है, जबकि परिवर्तन लागू किए जा रहे हैं।

लेखक घोषणा करते हैं:

'[हम] एक तंत्रिका नेटवर्क को अव्यक्त-से-अव्यक्त परिवर्तन करने के लिए प्रशिक्षित करते हैं जो परिवर्तित विशेषता के साथ छवि के अनुरूप अव्यक्त एन्कोडिंग ढूंढता है। चूँकि तकनीक एक-शॉट है, यह विशेषताओं के क्रमिक परिवर्तन के रैखिक या गैर-रेखीय प्रक्षेपवक्र पर निर्भर नहीं करती है।

'पूरी पीढ़ी की पाइपलाइन पर नेटवर्क को एंड-टू-एंड प्रशिक्षित करके, सिस्टम ऑफ-द-शेल्फ जनरेटर आर्किटेक्चर के अव्यक्त स्थानों को अनुकूलित कर सकता है। संरक्षण गुण, जैसे व्यक्ति की पहचान बनाए रखना, प्रशिक्षण हानियों के रूप में एन्कोड किया जा सकता है।

'एक बार अव्यक्त-से-अव्यक्त नेटवर्क को प्रशिक्षित करने के बाद, इसे पुनः प्रशिक्षण के बिना मनमानी छवियों के लिए पुन: उपयोग किया जा सकता है।'

इस अंतिम भाग का अर्थ है कि प्रस्तावित आर्किटेक्चर अंतिम उपयोगकर्ता के साथ पूर्ण स्थिति में आता है। इसे अभी भी स्थानीय संसाधनों पर एक तंत्रिका नेटवर्क चलाने की आवश्यकता है, लेकिन नई छवियों को 'ड्रॉप' किया जा सकता है और लगभग तुरंत बदलने के लिए तैयार किया जा सकता है, क्योंकि फ्रेमवर्क पर्याप्त रूप से अलग हो गया है और आगे की छवि-विशिष्ट प्रशिक्षण की आवश्यकता नहीं है।

लिंग और चेहरे के बाल बदल गए क्योंकि स्लाइडर्स अव्यक्त स्थान के माध्यम से यादृच्छिक और मनमाने रास्ते बनाते हैं, न कि केवल 'अंतिम बिंदुओं के बीच स्क्रबिंग' करते हैं। बेहतर रिज़ॉल्यूशन पर अधिक परिवर्तनों के लिए लेख के अंत में एम्बेड किया गया वीडियो देखें।

कार्य में मुख्य उपलब्धियों में नेटवर्क की लक्ष्य वेक्टर में केवल विशेषता को बदलकर अव्यक्त स्थान में पहचान को 'फ्रीज' करने की क्षमता है, और 'सुधार शब्द' प्रदान करना है जो पहचान को परिवर्तित होने से बचाते हैं।

अनिवार्य रूप से, प्रस्तावित नेटवर्क एक व्यापक वास्तुकला में अंतर्निहित है जो सभी संसाधित तत्वों को व्यवस्थित करता है, जो जमे हुए वजन के साथ पूर्व-प्रशिक्षित घटकों से गुज़रते हैं जो परिवर्तनों पर अवांछित पार्श्व प्रभाव उत्पन्न नहीं करेंगे।

चूंकि प्रशिक्षण प्रक्रिया पर निर्भर करता है तीनो इसे या तो बीज छवि (नीचे) द्वारा उत्पन्न किया जा सकता है GAN उलटा) या एक मौजूदा प्रारंभिक अव्यक्त एन्कोडिंग, पूरी प्रशिक्षण प्रक्रिया अप्राप्य है, ऐसी प्रणालियों में लेबलिंग और क्यूरेशन सिस्टम की प्रथागत सीमा की मौन क्रियाओं को प्रभावी ढंग से वास्तुकला में शामिल किया गया है। वास्तव में, नई प्रणाली ऑफ-द-शेल्फ विशेषता रजिस्ट्रार का उपयोग करती है:

'[] उन विशेषताओं की संख्या जिन्हें हमारा नेटवर्क स्वतंत्र रूप से नियंत्रित कर सकता है, केवल पहचानकर्ताओं की क्षमताओं द्वारा सीमित है - यदि किसी के पास किसी विशेषता के लिए पहचानकर्ता है, तो हम इसे मनमाने चेहरों में जोड़ सकते हैं। अपने प्रयोगों में, हमने चेहरे की 35 अलग-अलग विशेषताओं के समायोजन की अनुमति देने के लिए अव्यक्त-से-अव्यक्त नेटवर्क को प्रशिक्षित किया, जो किसी भी पिछले दृष्टिकोण से अधिक है।'

सिस्टम में अवांछित 'साइड-इफेक्ट' परिवर्तनों के खिलाफ एक अतिरिक्त सुरक्षा शामिल है: एक विशेषता परिवर्तन के अनुरोध के अभाव में, अव्यक्त-से-अव्यक्त नेटवर्क एक अव्यक्त वेक्टर को स्वयं मैप करेगा, जिससे लक्ष्य पहचान की स्थिर दृढ़ता में और वृद्धि होगी।

चेहरे की पहचान

पिछले कुछ वर्षों में GAN और एनकोडर/डिकोडर-आधारित फेस संपादकों के साथ एक आवर्ती मुद्दा यह रहा है कि लागू परिवर्तन समानता को कम कर देते हैं। इससे निपटने के लिए, Adobe प्रोजेक्ट एक एम्बेडेड फेशियल रिकग्निशन नेटवर्क का उपयोग करता है जिसे कहा जाता है फेसनेट एक विभेदक के रूप में.

प्रोजेक्ट आर्किटेक्चर, फेसनेट को शामिल करने के लिए निचले मध्य-बाएँ देखें। स्रोत: अव्यक्त से अव्यक्त: स्टाइलगैन-जनित छवियों, ओपनएक्सेस में एकाधिक चेहरे के गुणों के संपादन की पहचान को संरक्षित करने के लिए एक सीखा हुआ मैपर।

प्रोजेक्ट आर्किटेक्चर, फेसनेट को शामिल करने के लिए निचले मध्य-बाएँ देखें। स्रोत: अव्यक्त से अव्यक्त: स्टाइलगैन-जनित छवियों में एकाधिक चेहरे के गुणों के संपादन की पहचान को संरक्षित करने के लिए एक सीखा हुआ मैपर, खुला एक्सेस.

(व्यक्तिगत टिप्पणी पर, यह मानक चेहरे की पहचान और यहां तक कि अभिव्यक्ति पहचान प्रणालियों को जेनरेटिव नेटवर्क में एकीकृत करने की दिशा में एक उत्साहजनक कदम लगता है, जो संभवतः इस पर काबू पाने का सबसे अच्छा तरीका है। ब्लाइंड पिक्सेल>पिक्सेल मैपिंग जो अभिव्यक्ति निष्ठा और फेस जेनरेशन क्षेत्र के अन्य महत्वपूर्ण डोमेन की कीमत पर वर्तमान डीपफेक आर्किटेक्चर पर हावी है।)

सभी क्षेत्रों तक पहुंचें अव्यक्त स्थान में

फ्रेमवर्क की एक और प्रभावशाली विशेषता उपयोगकर्ता की इच्छानुसार अव्यक्त स्थान में संभावित परिवर्तनों के बीच मनमाने ढंग से यात्रा करने की क्षमता है। कई पूर्व सिस्टम जो खोजपूर्ण इंटरफ़ेस प्रदान करते थे, अक्सर उपयोगकर्ता को निश्चित सुविधा परिवर्तन समयसीमा के बीच अनिवार्य रूप से 'स्क्रबिंग' करते थे - प्रभावशाली, लेकिन अक्सर काफी रैखिक या प्रोस्क्रिप्टिव अनुभव।

स्थानिक जागरूकता बढ़ाकर जीएएन संतुलन में सुधार से: यहां उपयोगकर्ता दो अव्यक्त अंतरिक्ष स्थानों के बीच संभावित संक्रमण बिंदुओं की एक श्रृंखला के माध्यम से स्क्रब करता है, लेकिन अव्यक्त स्थान में पूर्व-प्रशिक्षित स्थानों की सीमा के भीतर। एक ही सामग्री के आधार पर अन्य प्रकार के परिवर्तन लागू करने के लिए, पुनर्विन्यास और/या पुनः प्रशिक्षण आवश्यक है। स्रोत: https://genforce.github.io/eqgan/

से स्थानिक जागरूकता बढ़ाकर GAN संतुलन में सुधार करना: यहां उपयोगकर्ता दो अव्यक्त अंतरिक्ष स्थानों के बीच संभावित संक्रमण बिंदुओं की एक श्रृंखला के माध्यम से स्क्रब करता है, लेकिन अव्यक्त स्थान में पूर्व-प्रशिक्षित स्थानों की सीमा के भीतर। एक ही सामग्री के आधार पर अन्य प्रकार के परिवर्तन लागू करने के लिए, पुनर्विन्यास और/या पुनः प्रशिक्षण आवश्यक है। स्रोत: https://genforce.github.io/eqgan/

पूरी तरह से नवीन उपयोगकर्ता छवियों के प्रति ग्रहणशील होने के अलावा, उपयोगकर्ता उन तत्वों को मैन्युअल रूप से 'फ्रीज' भी कर सकता है जिन्हें वे परिवर्तन प्रक्रिया के दौरान संरक्षित करना चाहते हैं। इस तरह उपयोगकर्ता यह सुनिश्चित कर सकता है कि (उदाहरण के लिए) पृष्ठभूमि न बदले, या आँखें खुली या बंद रहें।

जानकारी

विशेषता प्रतिगमन नेटवर्क को तीन नेटवर्क पर प्रशिक्षित किया गया था: एफएफएचक्यू, सेलेबमास्क-मुख्यालय, और एक स्थानीय, GAN-जनित नेटवर्क, Z स्पेस से 400,000 वैक्टर का नमूना लेकर प्राप्त किया गया स्टाइलगैन-V2.

आउट-ऑफ़-डिस्ट्रीब्यूशन (ओओडी) छवियों को फ़िल्टर कर दिया गया, और माइक्रोसॉफ्ट का उपयोग करके विशेषताएँ निकाली गईं फेस एपीआई, परिणामी छवि-सेट विभाजन 90/10 के साथ, तुलना करने के लिए 721,218 प्रशिक्षण छवियां और 72,172 परीक्षण छवियां बचती हैं।

परीक्षण

हालाँकि प्रायोगिक नेटवर्क को शुरू में 35 संभावित परिवर्तनों को समायोजित करने के लिए कॉन्फ़िगर किया गया था, तुलनीय ढांचे के खिलाफ अनुरूप परीक्षण करने के लिए इन्हें घटाकर आठ कर दिया गया था। इंटरफेसगैन, गैन्सस्पेस, तथा स्टाइलफ्लो.

आठ चयनित विशेषताएँ थीं आयु, दरिद्रता, दाढ़ी, अभिव्यक्ति, लिंग, चश्मा, पिच, तथा रास्ते से हटना. उन आठ विशेषताओं में से कुछ के लिए प्रतिस्पर्धी रूपरेखाओं को फिर से तैयार करना आवश्यक था जिनका मूल वितरण में प्रावधान नहीं किया गया था, जैसे कि जोड़ना दरिद्रता और दाढ़ी InterFaceGAN के लिए।

जैसा कि अपेक्षित था, प्रतिद्वंद्वी आर्किटेक्चर में बड़े स्तर पर उलझाव हुआ। उदाहरण के लिए, एक परीक्षण में, आवेदन करने के लिए कहने पर InterFaceGAN और StyleFlow दोनों ने विषय का लिंग बदल दिया उम्र:

दो प्रतिस्पर्धी रूपरेखाओं ने लिंग परिवर्तन को 'उम्र' परिवर्तन में बदल दिया, साथ ही उपयोगकर्ता की प्रत्यक्ष बोली के बिना बालों का रंग भी बदल दिया।

इसके अतिरिक्त, दो प्रतिद्वंद्वियों ने पाया कि चश्मा और उम्र अविभाज्य पहलू हैं:

चश्मा और बालों का रंग परिवर्तन बिना किसी अतिरिक्त शुल्क के उपलब्ध कराया जाता है!

यह अनुसंधान के लिए एक समान जीत नहीं है: जैसा कि लेख के अंत में संलग्न वीडियो में देखा जा सकता है, विभिन्न कोणों (यॉ) को एक्सट्रपलेशन करने का प्रयास करते समय रूपरेखा सबसे कम प्रभावी है, जबकि GANSpace के लिए बेहतर सामान्य परिणाम है उम्र और का थोपना चश्मा. पिच (सिर के कोण) को जोड़ने के संबंध में अव्यक्त-से-अव्यक्त ढांचा GANSpace और StyleFlow के साथ जुड़ा हुआ है।