ठूंठ फेरेट: किसी भी ग्रैन्युलैरिटी पर देखें और ग्राउंड करें - Unite.AI
हमसे जुडे

Artificial Intelligence

फेर्रेट: किसी भी ग्रैन्युलैरिटी पर देखें और ग्राउंड करें

mm

प्रकाशित

 on

फेर्रेट: किसी भी ग्रैन्युलैरिटी पर देखें और ग्राउंड करें

दृष्टि-भाषा सीखने के मॉडल में स्थानिक समझ को सक्षम करना एक मुख्य शोध चुनौती बनी हुई है। यह समझ दो महत्वपूर्ण क्षमताओं को रेखांकित करती है: ग्राउंडिंग और रेफरिंग। रेफरिंग मॉडल को विशिष्ट क्षेत्रों के शब्दार्थ की सटीक व्याख्या करने में सक्षम बनाता है, जबकि ग्राउंडिंग में इन क्षेत्रों को स्थानीयकृत करने के लिए अर्थ संबंधी विवरणों का उपयोग करना शामिल है।

डेवलपर्स ने फेरेट, एक मल्टीमॉडल लार्ज लैंग्वेज मॉडल (एमएलएलएम) पेश किया है, जो किसी छवि में किसी भी ग्रैन्युलैरिटी या आकार में स्थानिक संदर्भ को समझने और खुले-शब्दावली विवरणों को सटीक रूप से समझने में सक्षम है। फेरेट छवि क्षेत्रों का प्रतिनिधित्व करने के लिए निरंतर सुविधाओं और अलग निर्देशांक के संयोजन से एक उपन्यास हाइब्रिड प्रतिनिधित्व का उपयोग करता है। इसका स्थानिक-जागरूक दृश्य नमूना आकार में अलग-अलग विरलता को संभालता है, जिससे यह मुक्त-रूप आकार, बाउंडिंग बॉक्स और बिंदुओं जैसे विविध क्षेत्र इनपुट को संसाधित करने की अनुमति देता है।

फेरेट का दृष्टिकोण इसे शास्त्रीय ग्राउंडिंग और रेफरिंग कार्यों में उत्कृष्टता प्राप्त करने और स्थानीयकरण-मांग और क्षेत्र-आधारित मल्टीमॉडल संचार में अन्य एमएलएलएम से आगे निकलने में सक्षम बनाता है। यह लेख विभिन्न मल्टीमॉडल भाषा कार्यों में इसके प्रभावशाली प्रदर्शन पर प्रकाश डालते हुए, फेरेट की वास्तुकला और कार्यप्रणाली पर प्रकाश डालता है। आइए इसे आगे जानें।

फेरेट: रेफरिंग और ग्राउंडिंग कार्यों में बेहतर प्रदर्शन

किसी मॉडल में रेफर करना एक क्षमता है जो मॉडल को दिए गए विशिष्ट क्षेत्रों के शब्दार्थ को सटीक रूप से समझने की अनुमति देता है जबकि ग्राउंडिंग मॉडल के लिए क्षेत्रों को स्थानीयकृत करने के लिए दिए गए अर्थ संबंधी विवरणों का उपयोग करना आवश्यक बनाता है। यद्यपि वे अपने-अपने कार्यों में भिन्न हो सकते हैं, रेफरिंग और ग्राउंडिंग दोनों की मूल अवधारणा एक ही है: स्थानिक शब्दार्थ और सूचना का संरेखण। हालाँकि, समान अवधारणा साझा करने के बावजूद, मौजूदा मॉडल व्यक्तिगत रूप से ग्राउंडिंग और रेफर करना सीखते हैं। यद्यपि विधि काम करती है, यह मानव जैसी क्षमताओं को प्राप्त करने में बाधा उत्पन्न करती है क्योंकि मनुष्य एक कार्य से सीख सकते हैं, और सीख को अन्य कार्यों में निर्बाध रूप से लागू कर सकते हैं, और तर्क और दैनिक संवाद के साथ ग्राउंडिंग/रेफ़रिंग क्षमताओं को सहजता से एकीकृत करने में सक्षम हैं। फेर्रेट ढांचा मौजूदा एमएलएलएम ढांचे में उपर्युक्त अंतर से प्रेरणा लेता है और तीन मुख्य प्रश्नों का अध्ययन करता है:

  1. फ्रेमवर्क में ग्राउंडिंग और रेफरिंग क्षमताओं को कैसे एकीकृत किया जाए, और उनकी एकजुटता से एक दूसरे को कैसे लाभ होगा?
  2. मनुष्य संदर्भित करने के लिए बॉक्स, पॉइंट, स्क्रिबल, फ्री-फॉर्म आकृतियों जैसे बहुमुखी प्रकार के क्षेत्रों का उपयोग करते हैं? इन बहुमुखी क्षेत्रों का प्रतिनिधित्व कैसे करें?
  3. ग्राउंडिंग और रेफरिंग इंस्ट्रक्शन-फॉलोइंग, मजबूत और खुली-शब्दावली कैसे बनाएं, जो उनके व्यावहारिक और वास्तविक समय के अनुप्रयोगों के लिए महत्वपूर्ण हैं?

फेर्रेट फ्रेमवर्क एक नया रेफरेंस और ग्राउंड मल्टीमॉडल लार्ज लैंग्वेज मॉडल है जो इन सवालों को लक्षित करने का प्रयास करता है। फेर्रेट ढांचा एक चुनता है मल्टीमॉडल लार्ज लैंग्वेज मॉडल उनकी उल्लेखनीय वैश्विक दृष्टि और भाषा समझ क्षमताओं के कारण इसकी नींव के रूप में। इसके अलावा, ग्राउंडिंग और रेफरिंग क्षमताओं को एकीकृत करने के लिए, फेरेट ढांचा प्राकृतिक भाषा संख्यात्मक रूप में क्षेत्रों के निर्देशांक का प्रतिनिधित्व करता है। हालाँकि, व्यवहार में, स्क्रिबल्स, स्ट्रोक्स या जटिल बहुभुज जैसी बहुमुखी क्षेत्र आकृतियों का प्रतिनिधित्व करने के लिए बॉक्स निर्देशांक या यहां तक ​​कि एकल बिंदुओं का उपयोग करना अक्षम है क्योंकि ये आकार बढ़ी हुई सटीकता और अधिक सार्वभौमिक मानव-मॉडल इंटरैक्शन के लिए महत्वपूर्ण हैं। इस समस्या से निपटने के लिए, फेरेट फ्रेमवर्क एक स्थानिक-जागरूक दृश्य नमूना का उपयोग करता है जो आकार के बावजूद क्षेत्रों के लिए दृश्य क्षेत्रों को प्राप्त करता है, इस प्रकार इन आकृतियों में अलग-अलग विरलता के साथ बातचीत करता है। इसके बाद फ्रेमवर्क इनपुट में दृश्य क्षेत्रों का प्रतिनिधित्व करने के लिए निरंतर दृश्य सुविधाओं को अलग निर्देशांक के साथ जोड़ता है, जिसके परिणामस्वरूप फेरेट में एक हाइब्रिड क्षेत्र प्रतिनिधित्व का निर्माण होता है। 

फेरेट फ्रेमवर्क इनपुट को हल करने के लिए उपरोक्त तरीकों को तैनात करता है जो संदर्भित क्षेत्रों के साथ फ्री-फॉर्म टेक्स्ट को मिश्रित करता है, और आउटपुट में उल्लिखित ऑब्जेक्ट को ग्राउंड करने के लिए टेक्स्ट उत्पन्न करने के साथ प्रत्येक ग्राउंडेबल ऑब्जेक्ट के लिए निर्देशांक उत्पन्न करने में सक्षम है। ऐसा करके, फेरेट मल्टीमॉडल लार्ज लैंग्वेज मॉडल में मुक्त-निर्मित इनपुट क्षेत्रों को संसाधित करने वाला पहला ढांचा है। इसके अलावा, फेर्रेट ढांचा स्थानिक स्थानीयकरण और समझ की उल्लेखनीय खुली-शब्दावली क्षमताओं को अवशोषित करता है, जिससे पारंपरिक ग्राउंडिंग और रेफरिंग कार्यों पर मूल्यांकन करने पर ढांचे को बेहतर प्रदर्शन प्राप्त करने की अनुमति मिलती है। 

आगे बढ़ते हुए, फेरेट फ्रेमवर्क तीन मौजूदा एआई फ्रेमवर्क से प्रेरणा लेता है जिसमें मल्टीमॉडल लार्ज लैंग्वेज मॉडल, रेफरिंग और ग्राउंडिंग के लिए एमएलएलएम और यूनिफाइंग ग्राउंडिंग और वीएल अंडरस्टैंडिंग शामिल हैं। 

GPT, DALL-E, PaLM, LLaMA और BLOOM सहित बड़े भाषा मॉडल की शुरूआत ने एनएलपी अनुसंधान में परिदृश्य को बदल दिया है, जिसके परिणामस्वरूप मल्टीमॉडल भाषा मॉडल में महत्वपूर्ण प्रगति हुई है। पहले के मल्टीमॉडल भाषा मॉडल मुख्य रूप से बड़े पैमाने पर छवि-पाठ पीढ़ी पर केंद्रित थे, जिनमें कुछ उल्लेखनीय उदाहरण PaLI, SimVLM, GIT, BLIP-2, FLAMINGO, CM3 और PaLI-X थे। हालाँकि, चूंकि फ्लेमिंगो ढांचे ने क्रॉस-गेटेड ध्यान ब्लॉकों के माध्यम से पूर्व-प्रशिक्षित सीएलआईपी छवि एनकोडर के साथ एलएलएम का कुशल एकीकरण हासिल किया, जिसके परिणामस्वरूप उल्लेखनीय मल्टीमॉडल कुछ-शॉट सीखने की क्षमताएं पैदा हुईं। वर्तमान शोध उल्लेखनीय उदाहरणों के साथ दृश्य निर्देश ट्यूनिंग के लिए पूर्व-प्रशिक्षित बड़े भाषा मॉडल का उपयोग करने के तरीकों की तलाश कर रहा है मिनीजीपीटी-4, ओटर, इंस्ट्रक्टबीएलआईपी और बहुत कुछ। इससे भी बड़ी बात यह है कि एमु और गिल जैसे हालिया मॉडलों ने छवि निर्माण और छवि पुनर्प्राप्ति के लिए एमएलएलएम का उपयोग करने में उल्लेखनीय सफलता दिखाई है। फेरेट फ्रेमवर्क पूर्व शोध को भी संदर्भित करता है जो विज़न लैंग्वेज मॉडल के लिए टेक्स्ट को एकीकृत करने और बॉक्स आउटपुट को बाउंड करने पर केंद्रित है। 

फेर्रेट: कार्यप्रणाली और वास्तुकला

हाइब्रिड-क्षेत्र प्रतिनिधित्व

पॉइंट, बॉक्स और फ़्री-फ़ॉर्म आकृतियाँ तीन प्रमुख प्रारूप हैं जिनका उपयोग एक भाषा मॉडल विशिष्ट क्षेत्रों का संदर्भ देते समय करता है। एक ओर, बिंदु और बॉक्स प्रारूप को निर्देशांक द्वारा सटीक रूप से दर्शाया जा सकता है, मुक्त रूप आकृतियों को मैप करना थोड़ा चुनौतीपूर्ण है क्योंकि मुक्त-रूप आकार बहुमुखी हैं। बहुमुखी होने के कारण, मुक्त रूप वाली आकृतियाँ मुखौटे, बहुभुज और स्क्रिबल्स सहित क्षेत्रों की एक विस्तृत श्रृंखला को शामिल कर सकती हैं। मुक्त-रूप आकृतियों को चित्रित करने के लिए निर्देशांक का उपयोग करना एक जटिल कार्य है जो क्षेत्रों और संबंधित निर्देशांकों के बीच संबंध स्थापित करने के लिए सीखने की मॉडल की क्षमता में बाधा डालता है। इसके अलावा, मुक्त-रूप आकृतियों के लिए निर्देशांक का उपयोग कम्प्यूटेशनल रूप से महंगा और अस्पष्ट है। 

इस समस्या से निपटने और सभी तीन प्रारूपों में सामान्यीकरण करने के लिए, फेरेट फ्रेमवर्क एक हाइब्रिड क्षेत्र प्रतिनिधित्व का प्रस्ताव करता है जो किसी विशेष क्षेत्र को संदर्भित करने के लिए अलग-अलग निर्देशांक के साथ निरंतर दृश्य सुविधाओं को समन्वयित करता है। 

निरंतर दृश्य सुविधाओं के लिए, किसी दिए गए क्षेत्र के लिए, फेरेट फ्रेमवर्क पहले छवि के समान आकार का 2डी बाइनरी मास्क बनाता है, और क्षेत्र के बाहर 1 मान निर्दिष्ट करते हुए लक्षित क्षेत्र के भीतर 0 मान चिह्नित करता है। मॉडल तब निकाले गए छवि फ़ीचर मानचित्र के साथ बाइनरी मास्क निकालता है, और फिर इसे स्थानिक-जागरूक विज़ुअल सैंपलर को भेजता है। 

आर्किटेक्चर

फेरेट मॉडल की वास्तुकला में तीन मुख्य घटक शामिल हैं

  1. छवि एम्बेडिंग निकालने के लिए एक छवि एनकोडर। 
  2. क्षेत्रीय सतत विशेषताओं को निकालने के लिए एक स्थानिक जागरूक दृश्य नमूने। 
  3. पाठ, छवि और क्षेत्र सुविधाओं को संयुक्त रूप से मॉडल करने के लिए एक बड़ा भाषा मॉडल। 

छवि एम्बेडिंग को निकालने के लिए छवि को पहले पूर्व-प्रशिक्षित विज़ुअल एनकोडर में फीड किया जाता है। टेक्स्ट इनपुट के लिए, फ्रेमवर्क पहले टेक्स्ट अनुक्रम को टोकनाइज़ करने के लिए पूर्व-प्रशिक्षित एलएलएम टोकननाइज़र का उपयोग करता है, और फिर इन टोकन को टेक्स्ट एम्बेडिंग में प्रोजेक्ट करता है। संदर्भित क्षेत्रों के लिए, फ़ेरेट एक विशेष टोकन जोड़ता है और क्षेत्र के नाम के बाद निरंतर सुविधाओं के लिए प्लेसहोल्डर के रूप में निर्देशांक जोड़ता है। यदि क्षेत्र का नाम अज्ञात है या कई वस्तुओं को शामिल करने के परिणामस्वरूप वर्णन करना जटिल है, तो ढांचा केवल क्षेत्र या क्षेत्र के नाम का उपयोग करता है। 

संदर्भित क्षेत्रों से निपटने वाली प्रमुख चुनौतियों में से एक यह है कि उनका आकार काफी भिन्न हो सकता है, जिसका अर्थ है कि उनके अलग-अलग आकार हो सकते हैं, और वे केवल आयताकार बक्से या बिंदुओं तक सीमित नहीं हैं। अनियमित आकार वाले संदर्भित क्षेत्रों को ग्रिड-आधारित प्रसंस्करण जैसे पैच ध्यान या कनवल्शन तकनीकों सहित पारंपरिक तरीकों से संसाधित नहीं किया जा सकता है। इस समस्या से निपटने के लिए, फेर्रेट फ्रेमवर्क एक स्थानिक-जागरूक विज़ुअल सैम्पलर का प्रस्ताव करता है। बाइनरी रीजन मास्क के साथ दिए गए निकाले गए फ़ीचर मैप के लिए, फेरेट मॉडल पहले बाइनरी रीजन मास्क के भीतर यादृच्छिक रूप से एन अंकों का नमूना लेता है। 

प्रत्येक व्यक्तिगत बिंदु के लिए, मॉडल द्विरेखीय प्रक्षेप करके अपनी विशेषता प्राप्त करता है। फिर एन बिंदुओं को ब्लॉकों के झरने में डाला जाता है, जिनमें से प्रत्येक तीन अलग-अलग चरणों से गुजरता है: नमूनाकरण, एकत्रीकरण और पूलिंग। सैंपलिंग चरण में, एफपीएस या सबसे दूर बिंदु सैंपलिंग एल्गोरिदम का उपयोग करके उपलब्ध एन अंकों में से एक निश्चित संख्या में बिंदुओं का नमूना लिया जाता है जो पर्याप्त कवरेज की गारंटी देता है। दूसरे चरण में, प्रत्येक नमूना बिंदु के लिए, फ्रेमवर्क उपलब्ध एन बिंदुओं के पूल से अपने निकटतम पड़ोसियों की खोज करता है। प्रत्येक समूह के लिए, मॉडल एक नमूना बिंदु की विशेषताओं को उसके पड़ोसी बिंदुओं के साथ जोड़ता है। अंतिम चरण में, फ़ेरेट फ़्रेमवर्क, नमूना बिंदु के प्रतिनिधित्व के रूप में कार्य करने के लिए k पड़ोसी सुविधाओं को एक सुविधा में फ़्यूज़ करने के लिए एक अधिकतम पूलिंग आयोजित करता है। इन तीन चरणों को निष्पादित करने से, फेर्रेट ढांचे में कम अंक बचते हैं लेकिन इसमें उच्च घनत्व के साथ स्थान होता है क्योंकि इसमें न केवल स्थानीय पड़ोसियों की विशेषताएं बल्कि उनकी सापेक्ष स्थिति भी शामिल होती है। 

GPT-असिस्टेड विज़ुअल डेटा जेनरेशन

डायलॉग इंस्ट्रक्शन ट्यूनिंग डेटा मल्टीमॉडल के लिए अत्यंत महत्वपूर्ण है बड़े भाषा मॉडल क्या वे न केवल मौजूदा डेटासेट को टेम्प्लेट द्वारा परिवर्तित करने में मदद करते हैं, बल्कि वे मॉडल को मानवीय इरादे को समझने और उचित प्रतिक्रिया उत्पन्न करने में भी मदद करते हैं। अधिकांश एमएलएलएम विज़ुअल इंस्ट्रक्शन ट्यूनिंग डेटा प्राप्त करने के लिए कुछ-शॉट प्रॉम्प्टिंग विधि का उपयोग करते हैं, जहां मॉडल कुछ-शॉट प्रदर्शनों के रूप में मानव एनोटेटेड संवादों के साथ छवि में दृश्यों का पाठ्य विवरण प्रदान करता है। हालाँकि, मौजूदा निर्देश ट्यूनिंग विधियाँ मुख्य रूप से स्थानिक-संबंधित जानकारी को स्पष्ट रूप से निर्दिष्ट किए बिना संपूर्ण छवि का वर्णन करने पर ध्यान केंद्रित करती हैं। फेर्रेट ढांचा तीन चरणों में संदर्भ और ग्राउंड इंस्ट्रक्शन ट्यूनिंग डेटा एकत्र करने के लिए क्षेत्र-आधारित ज्ञान पर जोर देता है। 

  1. वैश्विक कैप्शन और ऑब्जेक्ट का उपयोग करने के अलावा, फ्रेमवर्क प्रतीकात्मक दृश्य विवरण प्रदान करता है जो क्षेत्र कैप्शन और ऑब्जेक्ट के बीच भौतिक संबंध का वर्णन करता है जबकि उनके निर्देशांक भी प्रदान करता है। 
  2. मानव-एनोटेटेड संवादों के लिए, फ्रेमवर्क ग्राउंडेबल ऑब्जेक्ट्स या क्षेत्रों के बाद इनपुट या आउटपुट या दोनों में निर्देशांक जोड़ता है, जिसमें मुख्य रूप से विशिष्ट क्षेत्रों पर ध्यान केंद्रित करने वाले संवाद होते हैं जो नई संवाद पीढ़ी के लिए समान पैटर्न का पालन करने के लिए भाषा मॉडल को प्रेरित करने में मदद करते हैं। 
  3. यह संभव हो सकता है कि फ्रेमवर्क द्वारा उत्पन्न संवाद कुछ-शॉट उदाहरणों और सिस्टम संकेतों द्वारा निर्देशित नियमों और पैटर्न का पालन न करे। इस समस्या से निपटने के लिए, प्रारंभ में मॉडल द्वारा उत्पन्न संवादों को परिष्कृत करने के लिए फ्रेमवर्क फिर से एक भाषा मॉडल का उपयोग करता है। 

स्थानिक नकारात्मक खनन

पहले के शोध से पता चला है कि मल्टीमॉडल बड़े भाषा मॉडल में हां या ना के सवालों का जवाब देते समय मतिभ्रम की संभावना अधिक होती है। यह सुनिश्चित करने के लिए कि फेर्रेट मॉडल समान परिस्थितियों में मतिभ्रम न करे, फ्रेमवर्क छवि-वातानुकूलित श्रेणी स्थानीयकरण और शब्दार्थ-वातानुकूलित श्रेणी स्थानीयकरण के साथ स्थानिक नकारात्मक खनन दृष्टिकोण को नियोजित करता है। ये दोनों विधियाँ मॉडल को विशिष्ट ऑब्जेक्ट श्रेणियों को स्थानीयकृत करने के लिए कहती हैं जो मॉडल को छवि में कुछ वस्तुओं की अनुपस्थिति को पहचानने में सक्षम बनाती हैं। 

फेर्रेट: परिणाम और प्रयोग

इसके प्रदर्शन का विश्लेषण करने के लिए, फेरेट फ्रेमवर्क का मूल्यांकन पारंपरिक ग्राउंडिंग और रेफरिंग बेंचमार्क पर किया जाता है जिसके बाद फ्रेमवर्क का मूल्यांकन अधिक जटिल मल्टीमॉडल चैटिंग कार्य में किया जाता है और इसकी रेफर-एंड-ग्राउंड क्षमताओं का परीक्षण किया जाता है। 

संदर्भ को समझने की मॉडल की क्षमता का मूल्यांकन इस बात से किया जाता है कि कोई मॉडल छवि या प्रश्न में संदर्भित क्षेत्र के शब्दार्थ को कितनी सटीकता से समझ सकता है। मॉडल की सटीकता को मापने के लिए, वस्तुओं, सबसे बुनियादी शब्दार्थ को पहले माना जाता है क्योंकि यह न केवल मौलिक है बल्कि परिभाषित करना भी आसान है। मानव-स्तर की बहुमुखी प्रतिभा की नकल करने के लिए, फ्रेमवर्क छवि के भीतर वस्तु के स्थान को एक मुक्त रूप आकार, एक बॉक्स और एक बिंदु से बदल देता है। एक मुक्त-रूप आकार के लिए, मॉडल सिमुलेशन के लिए ग्राउंड ट्रुथ ऑब्जेक्ट के भीतर यादृच्छिक रूप से स्ट्रोक उत्पन्न करता है। बॉक्स के लिए, फेरेट फ्रेमवर्क एलवीआईएस घटक द्वारा प्रदान किए गए ग्राउंड ट्रुथ बाउंडिंग बॉक्स का उपयोग करता है। अंत में, बिंदु के लिए, मॉडल जमीनी सच्चाई वस्तु के भीतर एक बिंदु का यादृच्छिक रूप से नमूना लेता है जो जमीनी सच्चाई वस्तु की सीमा के पास भी है। तीन प्रकार के रेफ़रिंग के परिणाम निम्नलिखित छवि में प्रदर्शित किए गए हैं। 

फेरेट फ्रेमवर्क संदर्भात्मक संवाद कार्यों में उल्लेखनीय प्रदर्शन प्रदर्शित करता है, जो विभिन्न दृश्य शिक्षण कार्यों, विशेष रूप से ग्राउंडिंग आउटपुट वाले कार्यों के साथ एकीकरण के लिए जगह बनाता है। अपनी ग्राउंडिंग क्षमता का आकलन करने के लिए, फेरेट फ्रेमवर्क पहले स्वयं को जेनरेटिव प्रतिमान के साथ दृश्य ग्राउंडिंग कार्यों को बेंचमार्क करने के अधीन करता है। इसके बाद फ्रेमवर्क क्षेत्रों और शब्दों के बीच संरेखण को मापने के लिए ग्राउंडेड कैप्शनिंग कार्यों पर अपनी क्षमता का मूल्यांकन करता है। 

विज़ुअल ग्राउंडिंग कार्यों में, फ्रेमवर्क का लक्ष्य भाषा के प्रश्नों को छवि के संरेखित क्षेत्रों में ग्राउंड करना है, और जैसा कि निम्नलिखित छवि में देखा जा सकता है, फेर्रेट फ्रेमवर्क सभी बेंचमार्क में उल्लेखनीय प्रदर्शन प्रदर्शित करता है, और प्रदर्शन हासिल किए गए प्रदर्शन के बराबर है। विशिष्ट फाइन-ट्यूनिंग विधियाँ। 

ग्राउंडेड कैप्शनिंग कार्यों के लिए, मॉडल को एक कैप्शन तैयार करना होगा, और फिर उत्पन्न संज्ञा वाक्यांशों को छवि क्षेत्रों में ग्राउंड करना होगा। मॉडल द्वारा की गई अंतिम भविष्यवाणी में तीन घटक शामिल हैं: बॉक्स के रूप में दृश्य क्षेत्र, टेक्स्ट कैप्शन, और बॉक्स और शब्दों के बीच ग्राउंडिंग संरेखण। परिणाम निम्नलिखित छवि में प्रदर्शित किए गए हैं, और जैसा कि देखा जा सकता है, ढांचा अत्याधुनिक तरीकों के बराबर प्रदर्शन प्रदान करता है। 

अंत में, मल्टीमॉडल चैटिंग एमएलएलएम के भीतर सबसे वांछित क्षमताओं में से एक है, और मौजूदा एमएलएलएम मुख्य रूप से एक न्यायाधीश के रूप में भाषा मॉडल के साथ विस्तृत विवरण, बातचीत और जटिल तर्क का मूल्यांकन करते हैं। हालाँकि, चूंकि कोई भी डेटासेट अनिवार्य रेफरिंग या ग्राउंडिंग क्रियाओं के साथ मल्टीमॉडल चैटिंग का मूल्यांकन नहीं करता है, यह एक अंतर छोड़ देता है। इस अंतर को पाटने के लिए, फेरेट फ्रेमवर्क मल्टीमॉडल चैटिंग कार्यों में इसकी रेफरिंग और ग्राउंडिंग क्षमताओं का मूल्यांकन करने के लिए तीन क्षेत्र-आधारित प्रश्नों को शामिल करता है। परिणाम निम्नलिखित छवि में प्रदर्शित किए गए हैं। 

अंत में, फेर्रेट ढांचे की तुलना सीधे अत्याधुनिक जीपीटी ढांचे से की जाती है, और परिणाम नीचे दिखाए गए हैं। 

निष्कर्ष

इस लेख में, हमने फेर्रेट के बारे में बात की है, जो एक मल्टीमॉडल बड़ा भाषा मॉडल है जो उल्लेखनीय ग्राउंडिंग और रेफरिंग क्षमताओं का प्रदर्शन करता है। फ़ेरेट फ़्रेमवर्क अपने आकार की परवाह किए बिना छवि क्षेत्रों को संदर्भित कर सकता है, और मॉडल द्वारा अनुमानित पाठ के लिए स्वचालित रूप से ग्राउंडिंग स्थापित कर सकता है। फेर्रेट एक स्थानिक-जागरूक दृश्य नमूना का उपयोग करता है जो बहुमुखी क्षेत्रों की निरंतर विशेषताओं को निकालने के लिए विभिन्न आकृतियों द्वारा प्रदर्शित अलग-अलग विरलता को संभालने में सक्षम है। नतीजतन, फेरेट फ्रेमवर्क फ्री-फॉर्म शेपर्स, बाउंडिंग बॉक्स और पॉइंट्स सहित विविध क्षेत्र इनपुट इनपुट कर सकता है। 

"पेशे से एक इंजीनियर, दिल से एक लेखक"। कुणाल एआई और एमएल के प्रति गहरा प्रेम और समझ रखने वाले एक तकनीकी लेखक हैं, जो अपने आकर्षक और सूचनात्मक दस्तावेज़ीकरण के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।