рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░
рдЕрд░реНрдиреЗрд╕реНрдЯ рдкрд┐рдпрд╛рдЯреНрд░реЛрд╡рд┐рдЪ, рдЖрд░реНрдЯрд╛ рдореЗрдВ рдЙрддреНрдкрд╛рдж рдкреНрд░рдмрдВрдзрдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

अर्नेस्ट पियाट्रोविच एआईबीवाई ग्रुप में उत्पाद प्रबंधक हैं, जो कंपनी के शीर्ष-स्तरीय एआई-संचालित ऐप्स में से एक, आर्टा – आईफोन और एंड्रॉइड के लिए एआई इमेज जनरेटर का नेतृत्व करते हैं। उनकी रणनीतिक दृष्टि और रचनात्मक सोच के परिणामस्वरूप ऐप ने अपने लॉन्च के तुरंत बाद यूएस ऐप स्टोर की शीर्ष चार्ट में #2 स्थान हासिल किया, 15 मिलियन डाउनलोड का आंकड़ा पार किया, और एक अनूठे इन-हाउस पाइपलाइन के आधार पर सर्वश्रेष्ठ प्रदर्शन करने वाले एआई अवतार प्रदान किए, साथ ही अन्य सफलताएं भी हासिल कीं।
आप आर्टा – एआई आर्ट जनरेटर के विचार चरण से अब तक इसके प्रबंधन के लिए जिम्मेदार रहे हैं। क्या आप उन शुरुआती दिनों के बारे में कुछ जानकारी साझा कर सकते हैं?
बिल्कुल! वे गतिशील समय थे। हम एक सप्ताह के भीतर एक अच्छी तरह से बनाई गई एप्लिकेशन जारी करने में सफल रहे, मोबाइल पर टेक्स्ट-टू-इमेज जनरेशन कार्यक्षमता प्रदान करने वाले पहले उपभोक्ता ऐप निर्माताओं में से एक बन गए। हमारा लक्ष्य एक मास-मार्केट उत्पाद बनाना था जो लोगों को “एक कलाकार” अपने पॉकेट में प्रदान करे। इसलिए,概念ीकरण और प्रारंभिक विकास चरण से, हमने उपयोगिता और स्केलेबिलिटी पर ध्यान केंद्रित किया है। लेकिन बाजार में प्रवेश करने के बावजूद, यह अपने इंस्टॉल वॉल्यूम को पर्याप्त स्तर तक बढ़ाने के लिए काफी चुनौतीपूर्ण था, यहां तक कि हमारे पास एक उत्कृष्ट मीडिया खरीद टीम भी थी। तीन महीने बाद ऐप की रिलीज़ के बाद एक महत्वपूर्ण बढ़ावा हुआ जब हमारी अवतार सुविधा हाइप हो गई। मात्रा जल्द ही हमारे निचे के लिए मध्यम रूप से उच्च हो गई, और तब से हमारा कार्य इसे बनाए रखना और बढ़ाना है।
आपके द्वारा लॉन्च किया गया मूल तकनीकी स्टैक क्या था और उस समय आर्ट जनरेशन के साथ कुछ चुनौतियां क्या थीं?
हमने स्टेबल डिफ्यूजन 1.3 का उपयोग करके स्टेबिलिटी.एआई से आधिकारिक एपीआई का उपयोग करके लॉन्च किया। मैं कहूंगा कि तब और अब की पीढ़ियों की गुणवत्ता रात और दिन की तरह है। जब हम पहली बार शुरू किया, तो हमारे क्यूए प्रबंधकों ने अक्सर चित्रों के सौंदर्य मूल्य या विशिष्ट अवधारणाओं और विशेषताओं के प्रतिनिधित्व में असंगतताओं से संबंधित मुद्दों की सूचना दी। हालांकि, यह उस समय स्टेबल डिफ्यूजन के लिए मानक था। अब, पीढ़ी का आउटपुट सभी पहलुओं में, शैलीगत पुनरुत्पादन, संरचनात्मक संगति, दृश्य विश्वसनीयता, विवरण के स्तर में बहुत बेहतर है।
ऐप की रिलीज़ के तुरंत बाद, हमने अमेज़न पर सर्वर किराए पर लेना शुरू किया, और उन्हें सपोर्ट करना काफी चुनौतीपूर्ण साबित हुआ। यहां तक कि पर्याप्त धन के साथ, जब आपको इसकी आवश्यकता होती है, तो कोई मुफ्त ए 100 उपलब्ध नहीं हो सकता है, और आपको कुछ दिनों तक प्रतीक्षा करनी होगी। इसलिए, हमें ऑटोस्केल के बिना जीना पड़ा और हमारे भागीदारों के एपीआई को सभी अधिक यातायात को पुनर्निर्देशित करना पड़ा।
सभी को बनाए रखना अभी भी काफी मुश्किल है, हर महीने या तो एक या दूसरे छोर पर छोटे मुद्दे होते हैं। उदाहरण के लिए, हमें कभी-कभी अस्थायी समस्याओं का सामना करना पड़ता है जब प्रदाता सर्वर को अपडेट करता है, वजन का परीक्षण करता है, या पीढ़ी के आउटपुट को प्रभावित करने वाले अन्य परिवर्तनों को लागू करता है। ऐसे त्रुटियां एक घंटे से लेकर आधे दिन तक चल सकती हैं और अप्रत्याशित और ट्रैक करने में मुश्किल हैं। आमतौर पर, जब हमारा समर्थन विभाग एक उपयोगकर्ता रिपोर्ट प्राप्त करता है कि धुंधली छवियों या होने वाली किसी अन्य समस्या के बारे में, एपीआई प्रदाता ने पहले ही समस्या का समाधान कर दिया होता है। हालांकि, यह हमारे उपयोगकर्ताओं के लिए एक गंभीर चिंता का विषय है। इसलिए, हम अब एक प्रणाली का निर्माण कर रहे हैं जो कई प्रदाताओं और हमारे अपने सर्वर को विशेष पीढ़ियों के लिए जोड़ती है, जिससे हमें चीजों के हमारे पक्ष में अधिक नियंत्रण मिलता है।
उत्पाद प्रबंधक के रूप में, आर्टा को उसकी रिलीज़ के तुरंत बाद शीर्ष रैंकिंग स्थिति में ले जाने में कौन से रणनीतिक निर्णय महत्वपूर्ण रहे हैं?
आर्टा (तब एआईबी कहा जाता था) की शुरुआती वृद्धि वायरल अवतार सुविधा को लागू करने के समय पर निर्णय के परिणामस्वरूप हुई जब यह सोशल मीडिया पर बस शुरू हो रही थी। हमने जल्दी से इस कार्यक्षमता में बढ़ती रुचि को पहचाना। हमारी पूरी टीम, जिसमें उत्पाद, विपणन और विकास शामिल थे, एक ही तरंगदैर्ध्य पर थी और इसकी सफलता के बारे में दूरदर्शी थी। हमने यह भी स्वीकार किया कि बाजार में समय एक महत्वपूर्ण कारक था। इसलिए, दिन एक से, हमने इस सुविधा को प्राप्त करने के लिए सभी संसाधनों को समर्पित किया, इसे अन्य कार्यों से ऊपर प्राथमिकता दी।
चूंकि हमारी समय सीमा यथासंभव जल्दी थी ताकि हम एआई अवतार अपने शिखर पर पहुंचने के क्षण को न चूकें, इसलिए हमने तीसरे पक्ष के समाधान का उपयोग करने और इसे हमारे ऐप के लिए अनुकूलित करने का विकल्प चुना। जबकि अवतार मोबाइल पर प्रासंगिक हो रहे थे, प्रौद्योगिकी पहले से ही वेब पर उपलब्ध थी, यहां तक कि एक एपीआई के साथ भी। हमारी टीम के केंद्रित प्रयासों के लिए धन्यवाद, हमारा पहला कार्यशील संस्करण केवल पांच दिनों में ऐप स्टोर में था, जो अत्यधिक प्रतिस्पर्धी अवतार आउटपुट प्रदान करता था। यह हमें अमेरिकी शीर्ष चार्ट में #2 स्थान हासिल करने में मदद करता है और एक सप्ताह के लिए यूएस में दूसरा सबसे अधिक डाउनलोड किया गया ऐप बना रहता है।
आपकी टीम ने हाल ही में आर्टा की एआई अवतार पीढ़ी सुविधा में एक अपग्रेड जारी किया है। क्या आप इसके बारे में कुछ जानकारी साझा कर सकते हैं?
एआई मॉडल प्रशिक्षण के दौरान जेनेरिक चेहरे की विशेषताओं को जोड़ते हैं, जिससे अवतार मूल फोटो से अलग दिखते हैं, और जितना अधिक विशिष्ट किसी की विशेषताएं होती हैं, उतना ही अधिक एआई व्याख्या से अलग दिख सकता है। इस मुद्दे को हल करने के लिए, हमने अपनी खुद की अवतार सेवा बनाने का फैसला किया। हम लंबे समय से एक तीसरे पक्ष के एपीआई का उपयोग कर रहे थे लेकिन कोई महत्वपूर्ण सुधार नहीं देखा। सर्वर के साथ, हम अधिक अनुकूल प्रशिक्षण प्रौद्योगिकी स्थापित करने में सक्षम थे ताकि उपयोगकर्ता के वास्तविक चेहरे की समानता को अवतार आउटपुट में बेहतर ढंग से बनाए रखा जा सके। जबकि मैं अपने अनूठे पाइपलाइन के बारे में विस्तार से नहीं बता सकता, यह एसडीएक्सएल सेटिंग्स, एलओआरए और चेहरे के बढ़ावा देने वालों के एक विशिष्ट संयोजन के कारण संभव हुआ, और हमने अभी तक कहीं और बेहतर परिणाम नहीं देखे हैं।
नए सर्वर के साथ, हम एक निश्चित लागत से एक अवतार पैक के लिए स्थानांतरित हो गए और अब एक मासिक सर्वर शुल्क के माध्यम से अवतार प्रदान कर सकते हैं और एक सप्ताहिक सदस्यता के माध्यम से अवतार प्रदान कर सकते हैं, न कि अलग-अलग इन-ऐप खरीदारी की आवश्यकता है। यह एक अधिक संतोषजनक अनुभव बनाता है और यदि वे एक सप्ताह के भीतर पांच अवतार पैक जेनरेट करना चाहते हैं या जाने के दौरान फोटो इनपुट बदलना चाहते हैं तो यह हमारे उपयोगकर्ताओं के लिए बहुत सस्ता है। ऊपर बताए गए सभी को ध्यान में रखते हुए, हमारा अवतार ऑफर वर्तमान में बाजार में सर्वश्रेष्ठ मूल्य-प्रदर्शन अनुपात का दावा करता है। जबकि ऐसे ऐप हैं जो उच्च गुणवत्ता वाले वास्तविक अवतार बना सकते हैं, आर्टा वास्तविक शैलियों के अलावा उज्ज्वल और रंगीन आउटपुट संस्करणों की एक विविध श्रृंखला प्रदान करके भी प्रतिष्ठित है, सभी एक ही सटीक स्तर के चेहरे की पहचान के साथ।
क्या अन्य तरीकों से टीम ने ऐप की क्षमताओं में सुधार किया है?
हमने निष्कर्ष निकाला कि सामान्य उपयोग के मामलों जैसे टेक्स्ट-टू-इमेज जनरेशन, इमेज रूपांतरण और इनपेंटिंग के लिए तीसरे पक्ष के एपीआई का उपयोग करना अधिक कुशल है। यह हमें यह जानने की आवश्यकता से बचाता है कि इन कार्यों को हमारे सर्वर इन्फ्रास्ट्रक्चर में कैसे एकीकृत किया जाए। इसके अलावा, यह उन स्थितियों में लागत को कम करता है जब एक नई सुविधा अपेक्षित रूप से नहीं चलती है और हम इसे हटाने का निर्णय लेते हैं। एआई इमेज जनरेशन उद्योग तेजी से विकसित हो रहा है, जिसमें कई समर्पित सेवाएं उपलब्ध हैं, इसलिए हम उन्हें खोजते हैं और धीरे-धीरे उन्हें अपनाते हैं जो हमारे उद्देश्यों से मेल खाते हैं।
एक ही समय में, आर्टा की जरूरतें अक्सर काफी अनोखी निकलती हैं, जिन्हें इन-हाउस खोज की आवश्यकता होती है। जब तीसरे पक्ष के एपीआई या तो अस्तित्व में नहीं होते हैं या संतोषजनक आउटपुट गुणवत्ता प्रदान नहीं करते हैं, तो हम अपनी आंतरिक सेवाओं को विशेषज्ञता प्रदान करते हैं और अपने स्वयं के समाधान विकसित करते हैं ताकि हमें वांछित परिणाम मिल सकें। उदाहरण के लिए, एआई अवतार को अपग्रेड करने के अलावा, हमारे एमएल और प्रॉम्प्ट इंजीनियरों ने ऐप की एआई फिल्टर (सेल्फी) सुविधा के लिए एक नई पाइपलाइन के साथ आने का तरीका खोजा। हमने अपनी आगामी एआई बेबी सुविधा के लिए एक अनोखा अल्गोरिथम भी विकसित किया है – एक जेनरेटिंग कार्यक्षमता जो दो लोगों को अपनी तस्वीरें मिलाने और देखने की अनुमति देती है कि उनका बच्चा कैसा दिख सकता है। एक उत्पाद प्रबंधक के रूप में मेरी दुनिया की धारणा के आधार पर, मैंने पहले इसकी सफलता पर संदेह किया, लेकिन विज्ञापन रचनाएं जो इस अवधारणा को दर्शाती हैं, बहुत लोकप्रिय हैं। इसलिए, विपणन अंतर्दृष्टि पर जांच करना सामग्री-संबंधित मामलों में विशेष रूप से सहायक है।
क्या उपयोगकर्ता आर्टा में कलात्मक प्रक्रिया को प्रभावित कर सकते हैं? यदि हां, तो उपयोगकर्ताओं के लिए अपने एआई-जनित कलाकृति को अनुकूलित करने के लिए कौन से उपकरण और विकल्प उपलब्ध हैं?
हम जटिल पहलुओं से संबंधित पीढ़ी को संभालते हैं, उपयोगकर्ताओं को एक सरल कलात्मक अनुभव प्रदान करने का लक्ष्य रखते हुए, बिना अनावश्यक तकनीकी अधिभार के। इसलिए, आउटपुट को प्रभावित करने का प्राथमिक तरीका प्रॉम्प्ट के माध्यम से है। हम प्रॉम्प्ट की सटीक शब्द अनुरोध को दिखाकर इस प्रक्रिया को पारदर्शी बनाते हैं जो पीढ़ी के लिए मॉडल को भेजा जाएगा और केवल तभी प्रॉम्प्ट की रचना में सहायता प्रदान करते हैं जब इसकी आवश्यकता हो।
हम प्रत्येक एकीकृत मॉडल के लिए सर्वोत्तम डिफ़ॉल्ट सेटिंग्स का चयन करते हैं ताकि उपयोगकर्ताओं को इसके बारे में चिंता न करनी पड़े। आमतौर पर, परिणामों को अधिकतम करने के लिए उन्हें समायोजित करने की आवश्यकता नहीं है, क्योंकि वे पहले से ही एक आदर्श पीढ़ी आउटपुट प्रदान करते हैं। फिर भी, यदि उपयोगकर्ता प्रयोग करना चाहता है, तो एक उन्नत मोड एक टैप दूर है, और कुछ गहरे पैरामीटर सेटिंग्स अनुभाग में हैं।
जल्द ही, हम एक बीज पैरामीटर जोड़ेंगे, जिससे उपयोगकर्ताओं को एक ही छवि को शुरू से पुनः उत्पन्न करने पर पूर्ण नियंत्रण मिलेगा। इसके अलावा, हम पहले से ही नियमित पीढ़ियों में नियंत्रण नेटवर्क जोड़ने पर विचार कर रहे हैं। वे सर्वर साइड पर पहले से ही समर्थित हैं, क्योंकि हम उन्हें एआई फिल्टर और स्केच बनाने के लिए उपयोग करते हैं, लेकिन वे अभी तक अंतिम उपयोगकर्ताओं को वितरित नहीं किए गए हैं।
आप पारंपरिक कला बाजार पर आर्टा जैसे एआई के प्रभाव को कैसे देखते हैं? क्या आप एआई कला पीढ़ी को कला उद्योग में व्यवधान या सुधार के रूप में देखते हैं?
मैं इसे एक सुधार के रूप में देखता हूं। जनरेटिव एआई ने कलात्मक प्रक्रिया को बढ़ाने के लिए नए और मूल्यवान अवसर पेश किए हैं, साथ ही साथ कार्यों के निपटान का समय काफी कम कर दिया है। यह डिजिटल कलाकारों, डिजाइनरों, चित्रकारों और अन्य दृश्य सामग्री निर्माताओं की विभिन्न कार्यों में सहायता करता है, विचारों की खोज और अवधारणाओं के विकास से लेकर स्केचअप और तैयार छवियों की पीढ़ी तक। अंततः, इसकी प्रगति का लाभ उठाने की हमारी क्षमता केवल हमारी कल्पना से ही सीमित है।
उदाहरण के लिए, मुझे पीसी गेम बनाने का शौक है, और हाल ही में मैंने आर्टा का उपयोग कौशल और आइटम के लिए आइकन का एक सेट उत्पन्न करने के लिए किया। मैं उन्हें स्वयं एडोब इलस्ट्रेटर का उपयोग करके डिज़ाइन कर सकता था, लेकिन एक छवि जनरेटर के साथ, मुझे जो चाहिए था वह लगभग तुरंत मिल गया। मेरी पत्नी, बदले में, एक रेटचर-फोटोग्राफर है। जेनरेटिव फिल के लिए फोटोशॉप के लिए धन्यवाद, वह तेजी से काम करती है और उसके पास अधिक खाली समय है (या अधिक आय यदि वह अधिक रेटचिंग ऑर्डर स्वीकार करने का निर्णय लेती है)।
जब अच्छी तरह से किया जाता है, तो एआई-जनित छवियां पेशेवर कला से भिन्न नहीं दिख सकती हैं। हालांकि, मेरे विचार में, एआई कभी भी एक सच्चे पेशेवर को प्रतिस्थापित नहीं करेगा। चाहे न्यूरल नेटवर्क कितने भी कुशल क्यों न हो जाएं, वे अभी भी मानव द्वारा बनाई गई डेटा पर प्रशिक्षित होते हैं, जिसका अर्थ है कि वे जो कुछ भी उत्पन्न करते हैं वह पहले से ही कहीं न कहीं मौजूद है। जैसा कि तब और अब, वास्तव में अभिनव विचार केवल लोगों द्वारा ही उत्पन्न किए जा सकते हैं। जबकि कला का पारंपरिक अर्थ मानव निर्मित टुकड़ों से जुड़ा हुआ है, एआई कला एक प्रत्याशित स्पिनऑफ़ की तरह है, जो सभी को एक रोमांचक नई अनुभव की कोशिश करने के लिए आमंत्रित करती है, चाहे उनकी कलात्मक पृष्ठभूमि कुछ भी हो।
केवल छवि गुणवत्ता में सुधार से परे, एआई छवि पीढ़ी का भविष्य कहां जा रहा है?
छवि गुणवत्ता के साथ, पीढ़ियों की गति बढ़ेगी, जो स्वचालित रूप से अधिक लागत प्रभावी आउटपुट की ओर ले जाएगी।
मुझे लगता है कि यह बहुत लंबा समय नहीं होगा जब एक ही पात्रों को विभिन्न परिवेशों और स्थितियों में उत्पन्न करने का एक आसान तरीका होगा, इसलिए हम कॉमिक्स, बच्चों की किताबों, गेम ग्राफिक्स और अधिक में एआई का उदय देखेंगे। इंटीरियर डिज़ाइन और विज्ञापन रचना उत्पादन पहले से ही सक्रिय रूप से जनरेटिव एआई का लाभ उठा रहे हैं, लेकिन जैसे-जैसे तकनीक आगे बढ़ती है, हमारे सामने और भी बहुत कुछ है।
चूंकि सभी पीढ़ियों के लिए मजबूत जीपीयू की आवश्यकता होती है, यह प्रौद्योगिकियां एआई के साथ लंबे समय तक विकसित होंगी। हम इस यात्रा की शुरुआत में ही हैं। शायद नई एप्पल हमारे समय का नेविगा होगा, नेविडा के साथ, जिसमें प्रत्येक, या कम से कम आईटी उद्योग में, नए वीडियो कार्ड रिलीज की प्रतीक्षा कर रहा है, जैसा कि हम सभी ने आईफोन के साथ किया था।
एआई छवि जनरेटर आगे भी मजेदार और आकर्षक अनुभव प्रदान करते रहेंगे, चाहे वह पॉप संस्कृति से उभरने वाली नई अवधारणाओं को पेश करके हो या बेहतर प्रौद्योगिकी के साथ पुराने विचारों को पुनर्जीवित करके। उदाहरण के लिए, एआई बेबी पीढ़ियों में रुचि वर्तमान में बढ़ रही है। स्टेबल डिफ्यूजन पर आधारित एक हालिया प्रौद्योगिकी ने दो व्यक्तियों की विशेषताओं को मिलाकर उनके जैविक बच्चे की संभावित उपस्थिति को प्रकट करने के लिए प्रभावशाली आउटपुट दिखाया है। परिणाम कुछ वर्षों पहले होरोस्कोप साइटों पर उपलब्ध चीजों से बहुत आगे निकल गए हैं, और लोग इसे फिर से आजमाने के लिए उत्सुक हैं।
आप जनरेटिव एआई से क्या अपेक्षा करते हैं?
वीडियो पीढ़ी की लोकप्रियता की लहर क्षितिज पर है। प्रौद्योगिकी पर्याप्त स्तर तक पहुंचने के साथ, निश्चित रूप से लोगों के चेहरे की अभिव्यक्तियों और इशारों का उपयोग करके वीडियो अवतार बनाने के लिए न्यूरल नेटवर्क को प्रशिक्षित करने के प्रयास होंगे, संभावित रूप से甚至 विशिष्ट उपयोगकर्ता आवाज के साथ।
एआई ऑडियो एक और महत्वपूर्ण सफलता है जो संगीत उत्पादन उद्योग के लिए एक नए युग की शुरुआत कर रही है। यह प्रौद्योगिकी पहले से ही केवल पाठ इनपुट पर आधारित गीतों की रचना के लिए उत्कृष्ट उपकरण प्रदान करती है, जो विभिन्न प्रकार की वीडियो सामग्री के लिए कस्टम गैर-स्टॉक साउंडट्रैक बनाने के लिए एक उत्कृष्ट उपकरण है। समग्र रूप से, यह सुनने में वास्तव में मजेदार है कि कुछ इतना साधारण जैसे नियम और शर्तों को रैप या रोमांटिक स्वर में गाया जा सकता है।
धन्यवाद इस शानदार साक्षात्कार के लिए, पाठक जो अधिक जानना चाहते हैं या कुछ छवियां उत्पन्न करना चाहते हैं उन्हें आर्टा पर जाना चाहिए।












