рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдСрд╕реНрдкреНрд░реЗ: рд╡рд┐рдЬрд╝реБрдЕрд▓ рдЗрдВрд╕реНрдЯреНрд░рдХреНрд╢рди рдЯреНрдпреВрдирд┐рдВрдЧ рдХреЗ рд╕рд╛рде рдкрд┐рдХреНрд╕реЗрд▓-рд▓реЗрд╡рд▓ рд╕рдордЭ

mm

विज़ुअल इंस्ट्रक्शन ट्यूनिंग विधियों के हालिया सुधार के साथ, मल्टीमॉडल लार्ज लैंग्वेज मॉडल (एमएलएलएम) ने उल्लेखनीय सामान्य-उद्देश्य दृष्टि-भाषा क्षमताओं का प्रदर्शन किया है। ये क्षमताएं उन्हें आधुनिक सामान्य-उद्देश्य दृश्य सहायकों के लिए महत्वपूर्ण निर्माण खंड बनाती हैं। हाल के मॉडल, जिनमें मिनी जीपीटी-4, एलएलएवीए, इंस्ट्रक्टब्लिप और अन्य शामिल हैं, दृश्य तर्क और निर्देश-अनुसरण क्षमताओं का प्रदर्शन करते हैं। हालांकि उनमें से अधिकांश छवि-पाठ जोड़े पर छवि-स्तर के दृष्टि-भाषा संरेखण के लिए निर्भर करते हैं, वे इस डोमेन में अच्छा प्रदर्शन करते हैं। हालांकि, उनकी बॉक्स-स्तर और छवि-स्तर की समझ पर निर्भरता एमएलएलएम को फाइन-ग्रेनेड दृष्टि-भाषा संरेखण कार्यों पर अपने प्रदर्शन को दोहराने में विफल होने का प्राथमिक कारण है। इसके अलावा, मास्क-आधारित निर्देश डेटा की सीमित उपलब्धता प्रशिक्षण में एमएलएलएम को और बढ़ाने में चुनौतियों का कारण बनती है।

ऑस्प्रे एक मास्क-टेक्स्ट निर्देश प्रशिक्षण विधि है जिसका प्राथमिक उद्देश्य एमएलएलएम का विस्तार करना है। यह भाषा निर्देश में महीन-दाने वाले मास्क क्षेत्रों को शामिल करके पिक्सेल-स्तर की दृश्य-भाषा समझ हासिल करने का उद्देश्य रखता है। इसे प्राप्त करने के लिए, ऑस्प्रे फ्रेमवर्क 700,000 से अधिक नमूनों के साथ एक मास्क-आधारित क्षेत्र-पाठ डेटासेट तैयार करता है। यह एलएलएम में पिक्सेल-स्तर का प्रतिनिधित्व इंजेक्ट करता है ताकि एक दृष्टि-भाषा मॉडल को डिज़ाइन किया जा सके। उल्लेखनीय रूप से, ऑस्प्रे फ्रेमवर्क अपने आर्किटेक्चर में एक कन्वोल्यूशनल सीएलआईपी मॉडल को अपनाता है और एक मास्क-जागरूक दृश्य निर्देशक को एकीकृत करता है। इससे उच्च-रिज़ॉल्यूशन इनपुट से दृश्य मास्क विशेषताओं का सटीक निष्कर्षण संभव हो जाता है।

इस लेख में, हम ऑस्प्रे फ्रेमवर्क और इसके आर्किटेक्चर पर गहराई से चर्चा करेंगे। हम 700,000 से अधिक नमूनों के साथ तैयार किए गए मास्क-आधारित क्षेत्र-पाठ डेटासेट की भी खोज करेंगे और विभिन्न क्षेत्र समझ कार्यों में इसके प्रदर्शन की तुलना करेंगे। तो आइए शुरू करें.

ऑस्प्रे: विज़ुअल इंस्ट्रक्शन ट्यूनिंग के साथ पिक्सेल-स्तर की समझ

मल्टीमॉडल लार्ज लैंग्वेज मॉडल जैसे मिनी जीपीटी-4, ओटर, क्वेन-एलवी, इंस्ट्रक्टब्लिप और अन्य सामान्य-उद्देश्य दृश्य सहायकों के विकास के लिए अग्रणी हैं, और वे अपनी असाधारण मल्टीमॉडल और दृश्य उत्पन्न करने वाली क्षमताओं के लिए प्रसिद्ध हैं। हालांकि, मल्टीमॉडल लार्ज लैंग्वेज मॉडल एक बड़ी चुनौती का सामना करते हैं क्योंकि वे विस्तृत छवि समझ जैसे कैप्शनिंग, क्षेत्र वर्गीकरण और तर्क जैसे कार्यों पर असंतोषजनक परिणाम प्रदान करते हैं। विस्तृत छवि समझ कार्यों पर कमजोर प्रदर्शन का एक प्रमुख कारण क्षेत्र-स्तर की संरेखण की कमी है। हाल के एमएलएलएम जैसे जीपीटी4आरओआई, शिक्रा और अन्य दृश्य-भाषा मॉडलों में क्षेत्र-स्तर की समझ को सक्षम करने के लिए वस्तु-स्तर पर स्थानिक विशेषताओं के साथ बाउंडिंग-बॉक्स निर्दिष्ट क्षेत्रों को संसाधित करने और दृश्य निर्देश ट्यूनिंग का लाभ उठाने का लक्ष्य रखते हैं।

हालांकि, संदर्भित इनपुट क्षेत्र के रूप में सीधे खाली बाउंडिंग बॉक्स का उपयोग करने से बड़े पैमाने पर दृश्य-भाषा मॉडलों पर दृश्य निर्देश ट्यूनिंग के लिए क्षेत्र-पाठ जोड़ी संरेखण के लिए अनुपयुक्त पृष्ठभूमि विशेषताओं का परिचय देने के लिए परिणाम हो सकता है। अनुमान प्रक्रिया के दौरान, बॉक्स-स्तर के संदर्भित इनपुट वस्तु का सटीक पता लगाने और प्रतिनिधित्व करने में असमर्थ हो सकता है; इससे सेमेंटिक विचलन हो सकता है, जैसा कि निम्नलिखित छवि में दिखाया गया है।

इसके विपरीत, खाली बाउंडिंग बॉक्स के बजाय महीन-दाने वाले मास्क का उपयोग करने से वस्तुओं को अधिक सटीकता से प्रस्तुत किया जा सकता है। हाल ही में विकसित एसएएम या सेगमेंट एनीथिंग मॉडल अरबों उच्च-गुणवत्ता वाले मास्क पर प्रशिक्षित होता है, जो शून्य-शॉट वस्तुओं पर उल्लेखनीय खंडन गुणवत्ता प्रदर्शित करता है और बिंदुओं या सरल बाउंडिंग बॉक्स को प्रॉम्प्ट के रूप में समर्थन करता है। हालांकि, एसएएम फ्रेमवर्क प्राथमिक सेमेंटिक लेबल उत्पन्न नहीं कर सकता है, न ही वे विस्तृत सेमेंटिक कैप्शन और विशेषताओं प्रदान कर सकते हैं। परिणामस्वरूप, मौजूदा मॉडल में अंतर्निहित मल्टीमॉडल विस्तृत जानकारी का अभाव है, और वास्तविक दुनिया के दृश्यों की सीमित समझ है।

मौजूदा एमएलएलएम का सामना करने वाली चुनौतियों का सामना करने के लिए, ऑस्प्रे एक नए मास्क-टेक्स्ट निर्देश प्रशिक्षण विधि है जिसका प्राथमिक उद्देश्य मल्टीमॉडल लार्ज लैंग्वेज मॉडल की क्षमताओं को विस्तारित करना है। ऑस्प्रे फ्रेमवर्क एक मास्क-जागरूक दृश्य निर्देशक पेश करता है जो विभिन्न दानों के साथ दृश्य मास्क विशेषताओं को सटीक रूप से पकड़ता है। फ्रेमवर्क तब दृश्य विशेषताओं को भाषा निर्देशों के साथ मिलाता है और बड़े भाषा मॉडल में इनपुट अनुक्रम उत्पन्न करने के लिए कन्वोल्यूशनल सीएलआईपी वास्तुकला का लाभ उठाता है। अपने डिजाइन और वास्तुकला के कारण, ऑस्प्रे फ्रेमवर्क वस्तु-स्तर और भाग-स्तर के क्षेत्रों के लिए विस्तृत सेमेंटिक समझ हासिल करने में सक्षम है, और जटिल दृश्यों के साथ-साथ प्राथमिक वस्तु श्रेणी और विस्तृत वस्तु विशेषताओं का विवरण प्रदान करता है।

दृश्य निर्देश ट्यूनिंग की क्षमताओं का लाभ उठाकर, ऑस्प्रे फ्रेमवर्क छवि-स्तर और बॉक्स-स्तर की समझ से परे नई क्षमताएं प्रदान करता है क्योंकि ऑस्प्रे फ्रेमवर्क ऑफ-द-शेल्फ एसएएम से वर्ग-एज्ञेय मास्क का उपयोग करके विस्तृत सेमेंटिक्स उत्पन्न कर सकता है। इसके अलावा, ऑस्प्रे संदर्भित वस्तु वर्गीकरण, खुले शब्दकोश मान्यता, क्षेत्र-स्तर के कैप्शनिंग और विस्तृत क्षेत्र विवरण कार्यों में उल्लेखनीय क्षमता प्रदर्शित करता है।

ऑस्प्रे: विधि और वास्तुकला

निम्नलिखित चित्र ऑस्प्रे फ्रेमवर्क की वास्तुकला का अवलोकन प्रदर्शित करता है, जिसमें एक बड़ा भाषा मॉडल, पिक्सेल-स्तर मास्क जागरूक दृश्य निर्देशक और एक छवि-स्तर दृश्य एनकोडर शामिल है।

एक दिए गए छवि के लिए, इनपुट भाषा और संदर्भित मास्क क्षेत्र, फ्रेमवर्क रूपांतरण और टोकनीकरण करता है ताकि एम्बेडिंग उत्पन्न की जा सके और फिर भाषा एम्बेडिंग अनुक्रम और मिले हुए मास्क विशेषताओं को बड़े भाषा मॉडल में भेजा जा सके ताकि विस्तृत सेमेंटिक समझ प्राप्त की जा सके।

कन्वोल्यूशनल सीएलआईपी दृश्य एनकोडर

अधिकांश मल्टीमॉडल बड़े भाषा मॉडलों में तैनात दृश्य एनकोडर को वीआईटी-आधारित सीएलआईपी मॉडल का उपयोग करके प्रदर्शित किया जाता है। परिणामस्वरूप, फ्रेमवर्क 224×224 पिक्सेल या 336 x 336 पिक्सेल के छवि रिज़ॉल्यूशन को अपनाता है। हालांकि, वीआईटी-आधारित सीएलआईपी मॉडल का उपयोग करने से पिक्सेल-स्तर की छवि समझ को प्राप्त करने में मॉडल के लिए कठिनाई होती है, जो छोटे क्षेत्रों में और भी बढ़ जाती है। इसके अलावा, वीआईटी आर्किटेक्चर से जुड़ा गणनात्मक अधिभार संभावना को बढ़ाता है इनपुट छवि रिज़ॉल्यूशन को बढ़ाने की।

इस चुनौती का सामना करने के लिए, ऑस्प्रे फ्रेमवर्क अपनी वास्तुकला में एक कन्वोल्यूशनल सीएलआईपी मॉडल को लागू करता है। पारंपरिक रूप से, सीएनएन-आधारित सीएलआईपी मॉडल विभिन्न इनपुट रिज़ॉल्यूशन पर उल्लेखनीय सामान्यीकरण क्षमता प्रदर्शित करते हैं जब वे दृश्य ट्रांसफॉर्मर-आधारित सीएलआईपी मॉडल के खिलाफ होते हैं। एक सीएनएन-आधारित सीएलआईपी मॉडल लागू करने से तेज़ अनुमान और कुशल प्रशिक्षण के लिए जगह बन जाती है बिना मॉडल के प्रदर्शन को समझौता किए। इसके अलावा, एक सीएनएन-आधारित सीएलआईपी मॉडल मल्टी-स्केल फीचर मैप उत्पन्न करने में सक्षम है जो फ्रेमवर्क तब प्रत्येक बाद के वस्तु क्षेत्र में विशेषता निष्कर्षण के लिए सीधे उपयोग करता है।

मास्क जागरूक दृश्य निर्देशक

मौजूदा क्षेत्र-आधारित मॉडल के विपरीत जो संदर्भित इनपुट के रूप में खाली बाउंडिंग बॉक्स का उपयोग करते हैं, ऑस्प्रे फ्रेमवर्क वस्तु-आधारित प्रतिनिधित्व को लागू करने के लिए विस्तृत मास्क क्षेत्रों का उपयोग करता है। ऑस्प्रे मॉडल एक मास्क जागरूक दृश्य निर्देशक घटक को नियुक्त करता है ताकि प्रत्येक वस्तु क्षेत्र के भीतर पिक्सेल-स्तर की विशेषताओं को पकड़ा जा सके। मास्क जागरूक दृश्य निर्देशक घटक मास्क-स्तर की दृश्य विशेषताओं को एन्कोड करता है और प्रत्येक क्षेत्र की स्थानिक स्थिति जानकारी भी एकत्र करता है।

इसे लागू करने के लिए, ऑस्प्रे पहले दृश्य एनकोडर द्वारा उत्पन्न मल्टी-स्तरीय छवि विशेषताओं का उपयोग करके मास्क-पूलिंग ऑपरेशन को अपनाता है, और प्रत्येक एकल-स्तरीय विशेषता के लिए, फ्रेमवर्क मास्क क्षेत्र के भीतर सभी विशेषताओं को पूल करता है। मॉडल तब विभिन्न परतों में विशेषताओं को एन्कोड करता है ताकि प्रत्येक विशेषता को एक रैखिक प्रोजेक्शन परत के माध्यम से पारित किया जा सके जो क्षेत्र-स्तर के एम्बेडिंग उत्पन्न करता है, और यौगिक-स्तरीय विशेषताओं को योग द्वारा जोड़ता है। मॉडल तब एक एमएलपी परत का उपयोग करके दृश्य मास्क टोकन का उत्पादन करता है। इसके अलावा, ऑस्प्रे प्रत्येक वस्तु क्षेत्र के लिए एक बाइनरी मास्क को लागू करके वस्तु क्षेत्र की स्थानिक ज्यामिति को संरक्षित करता है। अंत में, ऑस्प्रे प्रत्येक मास्क क्षेत्र एम्बेडिंग के लिए दृश्य मास्क टोकन और इसके संबंधित स्थानिक टोकन को शामिल करता है।

एलएलएम टोकनीकरण

जैसा कि पहले उल्लेख किया गया है, मॉडल एक पूर्व-प्रशिक्षित सीएनएन-आधारित दृश्य एनकोडर का उपयोग करके एक छवि के छवि-स्तर के एम्बेडिंग को निकालता है। पाठ संबंधी जानकारी के लिए, मॉडल पहले पूर्व-प्रशिक्षित एलएलएम टोकनाइज़र का उपयोग करके पाठ अनुक्रमों को टोकनाइज़ करता है, और फिर इन टोकनाइज्ड पाठ अनुक्रमों को पाठ एम्बेडिंग में प्रोजेक्ट करता है। मास्क-आधारित क्षेत्रों के लिए, मॉडल एक विशेष टोकन को एक प्लेसहोल्डर के रूप में परिभाषित करता है, और फिर इसे एक स्थानिक टोकन के साथ एक मास्क टोकन से बदल देता है। जब मॉडल पाठ इनपुट में एक वस्तु क्षेत्र को संदर्भित करता है, तो यह अपने क्षेत्र नाम के बाद प्लेसहोल्डर जोड़ता है जो मास्क क्षेत्रों को पाठ के साथ अच्छी तरह से मिलाने में सक्षम बनाता है जिससे टोकनीकरण स्थान के बिना पूरे वाक्य बनते हैं। इसके अलावा, उपयोगकर्ता निर्देशों के अलावा, मॉडल में एक प्रीफिक्स प्रॉम्प्ट भी शामिल होता है, जो एक विशेष टोकन है जो एक प्लेसहोल्डर के रूप में कार्य करता है, जिसे बाद में दृश्य एनकोडर के छवि-स्तर के एम्बेडिंग द्वारा प्रतिस्थापित किया जाता है। अंत में, फ्रेमवर्क क्षेत्र-स्तर और छवि-स्तर के दृश्य टोकन को पाठ टोकन के साथ मिलाता है और उन्हें बड़े भाषा मॉडल में भेजता है ताकि उपयोगकर्ता निर्देशों और वस्तु में विभिन्न क्षेत्रों के साथ छवि को समझा जा सके।

ऑस्प्रे: तीन चरण प्रशिक्षण प्रक्रिया

ऑस्प्रे फ्रेमवर्क एक तीन चरण प्रशिक्षण प्रक्रिया को तैनात करता है, जिसमें प्रत्येक प्रशिक्षण चरण एक अगले टोकन पूर्वानुमान हानि को कम करके पर्यवेक्षित होता है।

चरण 1: छवि-पाठ संरेखण प्रशिक्षण

पहले चरण में, ऑस्प्रे फ्रेमवर्क सीएनएन-आधारित सीएलआईपी दृश्य एनकोडर का उपयोग छवि-स्तर की विशेषताओं को प्रशिक्षित करने और भाषा कनेक्टर को प्रशिक्षित करने के लिए करता है ताकि मॉडल को छवि-पाठ सुविधा संरेखण के लिए प्रशिक्षित किया जा सके। पहले चरण में, फ्रेमवर्क तीन घटकों को नियुक्त करता है: एक पूर्व-प्रशिक्षित बड़ा भाषा मॉडल, एक पूर्व-प्रशिक्षित दृश्य एनकोडर, और एक छवि-स्तर परियोजना। फ्रेमवर्क एक एमएलपी परत को भी अपनाता है जो दृश्य-भाषा कनेक्टर के रूप में कार्य करता है जो ऑस्प्रे की मल्टीमॉडल उत्पन्न क्षमताओं को बढ़ाने में मदद करता है।

चरण 2: मास्क-टेक्स्ट संरेखण पूर्व-प्रशिक्षण

दूसरे चरण में, ऑस्प्रे पहले चरण में प्रशिक्षित वजन को लोड करता है और मास्क जागरूक दृश्य निर्देशक घटक का उपयोग करके पिक्सेल-स्तर की क्षेत्र विशेषताओं को पकड़ने के लिए करता है। दूसरे चरण में, फ्रेमवर्क केवल मास्क जागरूक दृश्य निर्देशक को प्रशिक्षित करता है ताकि भाषा एम्बेडिंग को मास्क-आधारित क्षेत्र विशेषताओं के साथ संरेखित किया जा सके। इसके अलावा, मॉडल पिक्सेल-स्तर की मास्क जोड़े और छोटे पाठों को एकत्र करता है और उन्हें निर्देश-अनुसरण डेटा में परिवर्तित करता है ताकि मॉडल को आगे प्रशिक्षित किया जा सके।

चरण 3: एंड-टू-एंड फाइन-ट्यूनिंग

तीसरे और अंतिम चरण में, मॉडल दृश्य एनकोडर के वजन को तय करता है और अपनी वास्तुकला में बड़े भाषा मॉडल, मास्क-आधारित क्षेत्र विशेषता निर्देशक, और छवि-स्तर परियोजना घटकों को फाइन-ट्यून करता है। तीसरे चरण में प्रशिक्षण का प्राथमिक उद्देश्य मॉडल की क्षमता को बढ़ाना है ताकि यह उपयोगकर्ता निर्देशों का सटीक रूप से पालन कर सके और पिक्सेल-स्तर की क्षेत्र समझ कार्यों को कुशलता से कर सके।

तीन प्रशिक्षण चरणों को लागू करने के बाद, ऑस्प्रे फ्रेमवर्क जटिल दृश्यों को समझने में सक्षम हो जाता है जो उपयोगकर्ता निर्देशों द्वारा परिभाषित किए जाते हैं और पिक्सेल-स्तर के मास्क क्षेत्रों पर आधारित होते हैं।

ऑस्प्रे: प्रयोगात्मक परिणाम

इसके प्रदर्शन का मूल्यांकन करने के लिए, ऑस्प्रे डेवलपर्स विभिन्न प्रयोगों का संचालन करते हैं ताकि मॉडल की क्षमताओं को वर्गीकरण, पिक्सेल-स्तर की क्षेत्र-आधारित मान्यता और जटिल विवरण में प्रदर्शित किया जा सके।

खुले शब्दकोश खंडन

खुले शब्दकोश खंडन का प्राथमिक उद्देश्य मास्क-आधारित क्षेत्र मान्यता और इसके संबंधित वर्ग को स्पष्ट रूप से उत्पन्न करना है। खुले शब्दकोश खंडन को प्राप्त करने के लिए, ऑस्प्रे पहले एक इनपुट पाठ प्रॉम्प्ट का उपयोग करता है, जिसके बाद मॉडल मॉडल के प्रदर्शन का मूल्यांकन करने के लिए मॉडल अंतराफल के लिए ग्राउंड-ट्रुथ मास्क क्षेत्रों को अपनाता है। डेटासेट के प्रत्येक आउटपुट के आधार पर, ऑस्प्रे शब्दकोश सूची और आउटपुट के बीच सेमेंटिक समानता की गणना करता है। निम्नलिखित चित्र ऑस्प्रे की तुलना राज्य-оф-द-आर्ट मल्टीमॉडल बड़े भाषा मॉडल के साथ करता है।

जैसा कि देखा जा सकता है, ऑस्प्रे फ्रेमवर्क सिटीस्केप्स और एडीई20के -150 डेटासेट दोनों पर मौजूदा तरीकों से काफी अंतर से बेहतर प्रदर्शन करता है। परिणाम ऑस्प्रे की क्षमता को दर्शाते हैं ताकि यह मौजूदा दृष्टिकोणों से बेहतर हो और विस्तृत वस्तु क्षेत्रों पर मजबूत समझ और मान्यता प्राप्त कर सके।

संदर्भित वस्तु वर्गीकरण

संदर्भित वस्तु वर्गीकरण कार्य में, मॉडल को एक विशिष्ट छवि क्षेत्र में वस्तु को वर्गीकृत करने की आवश्यकता होती है। इसकी वर्गीकरण क्षमताओं का मूल्यांकन करने के लिए, ऑस्प्रे फ्रेमवर्क दो सेमेंटिक प्रासंगिकता मेट्रिक्स का उपयोग करता है, जिनमें सेमेंटिक आईओयू या एस-आईओयू और सेमेंटिक समानता या एसएस शामिल हैं। सेमेंटिक आईओयू ग्राउंड-ट्रुथ और पूर्वानुमान लेबल के बीच शब्दों के ओवरलैप का प्रतिनिधित्व करता है, जबकि सेमेंटिक समानता सेमेंटिक स्थान में पूर्वानुमान और/या ग्राउंड-ट्रुथ लेबल के बीच समानता को मापता है। निम्नलिखित छवि ऑस्प्रे के संदर्भित वस्तु वर्गीकरण कार्य में प्रदर्शन को दर्शाती है जब इसे बॉक्स-स्तर और छवि-स्तर के दृष्टिकोणों के साथ तुलना की जाती है।

विस्तृत क्षेत्र विवरण

विस्तृत क्षेत्र विवरण कार्य में, मॉडल को निर्देश-अनुसरण विस्तृत विवरण क्षमताओं का मूल्यांकन करने के लिए अन्य क्षेत्र-स्तर के दृष्टिकोणों के साथ तुलना की जाती है। मॉडल एक इनपुट अनुमान प्रॉम्प्ट को यादृच्छिक रूप से चुनता है और जीपीटी -4 एलएलएम फ्रेमवर्क का उपयोग करके मॉडल द्वारा उत्पन्न प्रतिक्रिया की गुणवत्ता को संदर्भित क्षेत्रों के खिलाफ व्यापक रूप से मापता है। निर्देश पीढ़ी पाइपलाइन का उपयोग करके, मॉडल प्रश्न उत्पन्न करता है और जीपीटी -4 के उत्तरों की मांग करता है, जिसके बाद एलएलएम संदर्भित समझ की सेमेंटिक्स और संदर्भित वस्तु क्षेत्रों की सटीकता का मूल्यांकन करता है। निम्नलिखित तालिका विस्तृत क्षेत्र विवरण कार्यों पर ऑस्प्रे के प्रदर्शन को राज्य-оф-द-आर्ट मॉडल के साथ तुलना करती है।

क्षेत्र-स्तर कैप्शनिंग

ऑस्प्रे फ्रेमवर्क क्षेत्र-स्तर कैप्शनिंग कार्यों पर भी मौजूदा दृष्टिकोणों से बेहतर प्रदर्शन करता है, जैसा कि निम्नलिखित छवि में दिखाया गया है।

अंतिम विचार

इस लेख में, हमने ऑस्प्रे पर चर्चा की है, जो एक मास्क-टेक्स्ट निर्देश प्रशिक्षण विधि है जिसका प्राथमिक उद्देश्य एमएलएलएम को विस्तारित करना है। ऑस्प्रे फ्रेमवर्क एक मास्क-आधारित क्षेत्र-पाठ डेटासेट तैयार करता है जिसमें 700,000 से अधिक नमूने होते हैं और एलएलएम में पिक्सेल-स्तर का प्रतिनिधित्व इंजेक्ट करता है ताकि एक दृश्य-भाषा मॉडल को डिज़ाइन किया जा सके। ऑस्प्रे फ्रेमवर्क एमएलएलएम को विस्तृत दृश्य समझ के लिए काफी हद तक बढ़ाने का लक्ष्य रखता है, और एक सीएनएन-आधारित सीएलआईपी मॉडल और एक मास्क जागरूक दृश्य निर्देशक को लागू करके, ऑस्प्रे वस्तु-स्तर और भाग-स्तर के क्षेत्रों में छवियों को समझने की क्षमता प्राप्त करता है।

рдПрдХ рдЗрдВрдЬреАрдирд┐рдпрд░ рдкреЗрд╢реЗ рд╕реЗ, рдПрдХ рд▓реЗрдЦрдХ рджрд┐рд▓ рд╕реЗред рдХреБрдирд╛рд▓ рдПрдХ рддрдХрдиреАрдХреА рд▓реЗрдЦрдХ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдЖрдИ рдФрд░ рдПрдордПрд▓ рдХреЗ рдкреНрд░рддрд┐ рдЧрд╣рд░рд╛ рдкреНрдпрд╛рд░ рдФрд░ рд╕рдордЭ рд╣реИ, рдЬреЛ рдЕрдкрдиреЗ рдЖрдХрд░реНрд╖рдХ рдФрд░ рдЬрд╛рдирдХрд╛рд░реАрдкреВрд░реНрдг рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЗрди рдХреНрд╖реЗрддреНрд░реЛрдВ рдореЗрдВ рдЬрдЯрд┐рд▓ рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рд╕рд░рд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИрдВред