ठूंठ मिनी-मिथुन: मल्टी-मोडैलिटी विजन लैंग्वेज मॉडल की क्षमता का खनन - यूनाइट.एआई
हमसे जुडे

Artificial Intelligence

मिनी-मिथुन: मल्टी-मोडैलिटी विजन भाषा मॉडल की क्षमता का खनन

mm

प्रकाशित

 on

मिनी-मिथुन: मल्टी-मोडैलिटी विजन भाषा मॉडल की क्षमता का खनन

में उन्नति बड़े भाषा मॉडल के विकास में उल्लेखनीय तेजी लाई है प्राकृतिक भाषा प्रसंस्करण, या एनएलपी। ट्रांसफार्मर ढांचे की शुरूआत एक मील का पत्थर साबित हुई, जिससे ओपीटी और बीईआरटी सहित भाषा मॉडल की एक नई लहर के विकास की सुविधा मिली, जो गहन भाषाई समझ को प्रदर्शित करती है। इसके अलावा, जीपीटी, या जेनरेटिव प्री-प्रशिक्षित ट्रांसफार्मर मॉडल की स्थापना ने ऑटोरेग्रेसिव मॉडलिंग के साथ एक नया प्रतिमान पेश किया और भाषा भविष्यवाणी और पीढ़ी के लिए एक मजबूत विधि स्थापित की। GPT-4, ChatGPT, Mixtral, LLaMA और अन्य जैसे भाषा मॉडलों के आगमन ने तेजी से विकास को बढ़ावा दिया है, प्रत्येक मॉडल जटिल भाषा प्रसंस्करण से जुड़े कार्यों में बेहतर प्रदर्शन प्रदर्शित करता है। मौजूदा तरीकों के बीच, निर्देश ट्यूनिंग पूर्व-प्रशिक्षित बड़े भाषा मॉडल के आउटपुट को परिष्कृत करने के लिए एक प्रमुख तकनीक के रूप में उभरी है, और दृश्य कार्यों के लिए विशिष्ट उपकरणों के साथ इन मॉडलों के एकीकरण ने उनकी अनुकूलनशीलता पर प्रकाश डाला है और भविष्य के अनुप्रयोगों के लिए दरवाजे खोल दिए हैं। ये मल्टीमॉडल इंटरैक्शन को शामिल करने के लिए एलएलएम के पारंपरिक पाठ-आधारित प्रसंस्करण से कहीं आगे तक विस्तारित हैं।

इसके अलावा, प्राकृतिक भाषा प्रसंस्करण और कंप्यूटर विज़न मॉडल के अभिसरण ने वीएलएम, या विज़न लैंग्वेज मॉडल को जन्म दिया है, जो क्रॉस-मोडल समझ और तर्क क्षमताओं को प्राप्त करने के लिए भाषाई और विज़न मॉडल को जोड़ते हैं। दृश्य और भाषाई मॉडल के एकीकरण और आगमन ने उन कार्यों को आगे बढ़ाने में महत्वपूर्ण भूमिका निभाई है जिनके लिए भाषा प्रसंस्करण और दृश्य समझ दोनों की आवश्यकता होती है। सीएलआईपी जैसे क्रांतिकारी मॉडल के उद्भव ने क्रॉस-मोडल अनुप्रयोगों की व्यवहार्यता और व्यावहारिकता को प्रदर्शित करते हुए दृष्टि कार्यों और भाषा मॉडल के बीच अंतर को और कम कर दिया है। एलएलएएमए और बीएलआईपी जैसे हालिया ढांचे कुशल रणनीतियों को तैयार करने के लिए अनुरूप निर्देश डेटा का लाभ उठाते हैं जो मॉडल की शक्तिशाली क्षमताओं को प्रदर्शित करते हैं। इसके अतिरिक्त, छवि आउटपुट के साथ बड़े भाषा मॉडल का संयोजन हाल के मल्टीमॉडल अनुसंधान का फोकस है, हाल की विधियां छवि आउटपुट और इंटरलीव्ड टेक्स्ट का उत्पादन करने के लिए छवि पुनर्प्राप्ति दृष्टिकोण का उपयोग करके प्रत्यक्ष पीढ़ी को बायपास करने में सक्षम हैं।

ऐसा कहा जा रहा है, और बुनियादी तर्क और दृश्य संवाद की सुविधा प्रदान करने वाले विज़न भाषा मॉडल में तेजी से प्रगति के बावजूद, GPT-4 जैसे उन्नत मॉडल और विज़न भाषा मॉडल के बीच अभी भी एक महत्वपूर्ण प्रदर्शन अंतर मौजूद है। मिनी-जेमिनी तीन पहलुओं से बेहतर प्रदर्शन के लिए वीएलएम की क्षमता का खनन करके दृष्टि भाषा मॉडल और अधिक उन्नत मॉडल के बीच मौजूद अंतर को कम करने का एक प्रयास है: वीएलएम-निर्देशित पीढ़ी, उच्च-गुणवत्ता डेटा और उच्च-रिज़ॉल्यूशन विज़ुअल टोकन। विज़ुअल टोकन को बढ़ाने के लिए, मिनी-जेमिनी फ्रेमवर्क विज़ुअल टोकन की गिनती बढ़ाए बिना उच्च-रिज़ॉल्यूशन परिशोधन के लिए एक अतिरिक्त विज़ुअल एनकोडर का उपयोग करने का प्रस्ताव करता है। मिनी-जेमिनी फ्रेमवर्क छवियों की सटीक समझ और तर्क-आधारित पीढ़ी को बढ़ावा देने के प्रयास में एक उच्च गुणवत्ता वाले डेटासेट का निर्माण करता है। कुल मिलाकर, मिनी-जेमिनी ढांचा दृष्टि भाषा मॉडल की क्षमता का पता लगाने का प्रयास करता है, और इसका उद्देश्य मौजूदा ढांचे को छवि तर्क, समझ और जेनरेटर क्षमताओं के साथ सशक्त बनाना है। इस लेख का उद्देश्य मिनी-जेमिनी ढांचे को गहराई से कवर करना है, और हम आधुनिक ढांचे के साथ इसकी तुलना के साथ-साथ तंत्र, कार्यप्रणाली, ढांचे की वास्तुकला का पता लगाते हैं। तो चलो शुरू हो जाओ। 

मिनी-मिथुन: मल्टी-मोडेलिटी वीएलएम में तेजी लाना

इन वर्षों में, बड़े भाषा मॉडल विकसित हुए हैं, और वे अब उल्लेखनीय मल्टी-मोडल क्षमताओं का दावा करते हैं, और वर्तमान दृष्टि भाषा मॉडल का एक अनिवार्य हिस्सा बन रहे हैं। हालाँकि, बड़े भाषा मॉडल और विज़न भाषा मॉडल के मल्टी-मोडल प्रदर्शन के बीच एक अंतर मौजूद है, हाल के शोध में छवियों और वीडियो का उपयोग करके बड़े भाषा मॉडल के साथ विज़न को संयोजित करने के तरीकों की तलाश की जा रही है। स्वयं दृष्टि कार्यों के लिए, न्यूनतम दृश्य मतिभ्रम के साथ आसपास के वातावरण के बावजूद स्पष्ट रूप से छवि रिज़ॉल्यूशन एक महत्वपूर्ण तत्व है। अंतर को पाटने के लिए, शोधकर्ता वर्तमान में दृश्य समझ को बेहतर बनाने के लिए मॉडल विकसित कर रहे हैं दृष्टि भाषा मॉडल, और दो सबसे आम दृष्टिकोण हैं: रिज़ॉल्यूशन बढ़ाना, और विज़ुअल टोकन की संख्या बढ़ाना। हालाँकि उच्च रिज़ॉल्यूशन वाली छवियों के साथ विज़ुअल टोकन की संख्या बढ़ाने से दृश्य समझ में वृद्धि होती है, लेकिन बढ़ावा अक्सर बढ़ी हुई कम्प्यूटेशनल आवश्यकताओं और संबंधित लागतों के साथ होता है, खासकर जब कई छवियों को संसाधित करते हैं। इसके अलावा, मौजूदा मॉडलों की क्षमताएं, मौजूदा डेटा की गुणवत्ता और प्रयोज्यता त्वरित विकास प्रक्रिया के लिए अपर्याप्त बनी हुई है, जिससे शोधकर्ताओं के सामने यह सवाल है, "स्वीकार्य लागत पर विज़न भाषा मॉडल के विकास को कैसे तेज़ किया जाए? "

मिनी-जेमिनी फ्रेमवर्क प्रश्न का उत्तर देने का एक प्रयास है क्योंकि यह तीन पहलुओं से दृष्टि भाषा मॉडल की क्षमता का पता लगाने का प्रयास करता है: वीएलएम-निर्देशित पीढ़ी या विस्तारित अनुप्रयोग, उच्च-गुणवत्ता डेटा और उच्च-रिज़ॉल्यूशन विज़ुअल टोकन। सबसे पहले, मिनी-जेमिनी फ्रेमवर्क उच्च-रिज़ॉल्यूशन वाले उम्मीदवारों को कुशलतापूर्वक उत्पन्न करने के लिए एक कॉन्वनेट आर्किटेक्चर को लागू करता है, जो बड़े भाषा मॉडल के लिए विज़ुअल टोकन गिनती को बनाए रखते हुए दृश्य विवरण को बढ़ाता है। मिनी-जेमिनी फ्रेमवर्क डेटा की गुणवत्ता बढ़ाने के प्रयास में सार्वजनिक रूप से उपलब्ध उच्च-गुणवत्ता वाले डेटासेट को एकीकृत करता है, और वीएलएम के प्रदर्शन को बढ़ाने और सुधार करने के प्रयास के साथ इन संवर्द्धनों को अत्याधुनिक जनरेटिव और बड़े भाषा मॉडल के साथ एकीकृत करता है। उपयोगकर्ता अनुभव. मिनी-जेमिनी फ्रेमवर्क द्वारा कार्यान्वित बहुआयामी रणनीति इसे दृष्टि भाषा मॉडल की छिपी क्षमताओं का पता लगाने में सक्षम बनाती है, और स्पष्ट संसाधन बाधाओं के साथ महत्वपूर्ण प्रगति हासिल करती है। 

सामान्य तौर पर, मिनी-जेमिनी फ्रेमवर्क किसी भी से किसी भी प्रतिमान को नियोजित करता है क्योंकि यह टेक्स्ट और छवियों दोनों को इनपुट और आउटपुट के रूप में संभालने में सक्षम है। विशेष रूप से, मिनी-जेमिनी फ्रेमवर्क इनपुट छवियों के लिए दृश्य टोकन को बढ़ाने के लिए एक कुशल पाइपलाइन पेश करता है, और जुड़वां एनकोडर से युक्त एक दोहरी-एनकोडर प्रणाली की सुविधा देता है: पहला एनकोडर उच्च-रिज़ॉल्यूशन छवियों के लिए है, जबकि दूसरा एनकोडर कम-रिज़ॉल्यूशन छवियों के लिए है। गुणवत्ता दृश्य एम्बेडिंग। अनुमान के दौरान, एनकोडर एक ध्यान तंत्र में काम करते हैं, जहां कम-रिज़ॉल्यूशन वाला एनकोडर दृश्य प्रश्न उत्पन्न करता है, जबकि उच्च-रिज़ॉल्यूशन एनकोडर संदर्भ के लिए कुंजी और मान प्रदान करता है। डेटा की गुणवत्ता बढ़ाने के लिए, मिनी-जेमिनी फ्रेमवर्क सार्वजनिक संसाधनों के आधार पर अधिक डेटा एकत्र करता है और उत्पादन करता है, जिसमें कार्य-उन्मुख निर्देश, पीढ़ी-संबंधित डेटा और उच्च-रिज़ॉल्यूशन प्रतिक्रियाएं शामिल हैं, बढ़ी हुई मात्रा और बढ़ी हुई गुणवत्ता के साथ समग्र प्रदर्शन में सुधार होता है और मॉडल की क्षमताएं. इसके अलावा, मिनी-जेमिनी फ्रेमवर्क उन्नत जेनरेटर मॉडल के साथ विज़न भाषा मॉडल के एकीकरण के परिणामस्वरूप समवर्ती पाठ और छवि निर्माण का समर्थन करता है। 

मिनी-मिथुन: कार्यप्रणाली और वास्तुकला

इसके मूल में, मिनी-जेमिनी ढांचा वैचारिक रूप से सरल है, और इसमें तीन घटक शामिल हैं। 

  1. फ्रेमवर्क कम-रिज़ॉल्यूशन दृश्य एम्बेडिंग और उच्च-रिज़ॉल्यूशन वाले उम्मीदवारों को प्रदान करने के लिए दोहरी दृष्टि एनकोडर को नियोजित करता है। 
  2. फ्रेमवर्क कम-रिज़ॉल्यूशन वाले दृश्य प्रश्नों और उच्च-रिज़ॉल्यूशन वाले क्षेत्रों के बीच पैच स्तर पर खनन करने के लिए पैच जानकारी खनन को लागू करने का प्रस्ताव करता है। 
  3. मिनी-जेमिनी ढांचा पीढ़ी और समझ दोनों के लिए छवियों के साथ पाठ को संयोजित करने के लिए एक बड़े भाषा मॉडल का उपयोग करता है। 

डुअल-विज़न एनकोडर

मिनी-जेमिनी फ्रेमवर्क टेक्स्ट और छवि इनपुट दोनों को संसाधित कर सकता है, उन्हें व्यक्तिगत रूप से या संयोजन में संभालने के विकल्प के साथ। जैसा कि निम्नलिखित छवि में दिखाया गया है, मिनी-जेमिनी फ्रेमवर्क अपनी संबंधित उच्च-रिज़ॉल्यूशन छवि से कम-रिज़ॉल्यूशन छवि उत्पन्न करने के लिए बिलिनियर इंटरपोलेशन को नियोजित करके प्रक्रिया शुरू करता है। 

फिर फ्रेमवर्क इन छवियों को संसाधित करता है और उन्हें दो समानांतर छवि प्रवाह में मल्टी-ग्रिड विज़ुअल एम्बेडिंग में एन्कोड करता है। अधिक विशेष रूप से, मिनी-जेमिनी फ्रेमवर्क कम-रिज़ॉल्यूशन प्रवाह के लिए पारंपरिक पाइपलाइन को बनाए रखता है और दृश्य एम्बेडिंग को एन्कोड करने के लिए एक सीएलआईपी-पूर्व-प्रशिक्षित विज़ुअल ट्रांसफार्मर को नियोजित करता है, जिससे मॉडल को बड़ी भाषा में बाद की बातचीत के लिए दृश्य पैच के बीच लंबी दूरी के संबंध को संरक्षित करने की सुविधा मिलती है। मॉडल। उच्च-रिज़ॉल्यूशन प्रवाह के लिए, मिनी-जेमिनी फ्रेमवर्क अनुकूली और कुशल उच्च रिज़ॉल्यूशन छवि प्रसंस्करण के लिए सीएनएन या कन्वोल्यूशन न्यूरल नेटवर्क आधारित एनकोडर को अपनाता है। 

पैच जानकारी खनन

एलआर एम्बेडिंग और एचआर सुविधाओं को उत्पन्न करने वाले दोहरे विज़न एनकोडर के साथ, मिनी-जेमिनी फ्रेमवर्क उन्नत विज़ुअल टोकन के साथ विज़न भाषा मॉडल की क्षमता को बढ़ाने के उद्देश्य से पैच जानकारी खनन को लागू करने का प्रस्ताव करता है। बड़े भाषा मॉडल में दक्षता के लिए विज़ुअल टोकन की संख्या को बनाए रखने के लिए, मिनी-जेमिनी फ्रेमवर्क कम-रिज़ॉल्यूशन विज़ुअल एम्बेडिंग को क्वेरी के रूप में लेता है, और एचआर फीचर उम्मीदवारों से प्रासंगिक दृश्य संकेतों को पुनः प्राप्त करने का लक्ष्य रखता है, जिसमें फ्रेमवर्क लेता है। कुंजी और मूल्य के रूप में एचआर फीचर मैप।

जैसा कि उपरोक्त छवि में दिखाया गया है, सूत्र दृश्य संकेतों को परिष्कृत और संश्लेषित करने की प्रक्रिया को समाहित करता है, जो बाद के बड़े भाषा मॉडल प्रसंस्करण के लिए उन्नत दृश्य टोकन की पीढ़ी की ओर ले जाता है। प्रक्रिया यह सुनिश्चित करती है कि फ्रेमवर्क प्रत्येक क्वेरी के लिए खनन को पिक्सेल-वार फीचर गणना के साथ एचआर फीचर मैप में उसके संबंधित उपक्षेत्र तक सीमित करने में सक्षम है, जिसके परिणामस्वरूप दक्षता में वृद्धि होती है। इस डिज़ाइन के कारण, मिनी-जेमिनी फ्रेमवर्क विज़ुअल टोकन की गिनती को बढ़ाए बिना एचआर सुविधा विवरण निकालने में सक्षम है, और कम्प्यूटेशनल व्यवहार्यता और विस्तार की समृद्धि के बीच संतुलन बनाए रखता है। 

पाठ और छवि निर्माण

मिनी-जेमिनी फ्रेमवर्क ऑटो-रिग्रेसिव जेनरेशन के लिए बड़े भाषा मॉडल के इनपुट के रूप में विज़ुअल टोकन और इनपुट टेक्स्ट टोकन को जोड़ता है। पारंपरिक दृष्टि भाषा मॉडल के विपरीत, मिनी-जेमिनी ढांचा इनपुट और आउटपुट के रूप में टेक्स्ट-ओनली के साथ-साथ टेक्स्ट-इमेज जेनरेशन का समर्थन करता है, यानी किसी भी अनुमान के लिए, और यह इस उत्कृष्ट छवि-पाठ समझ और तर्क क्षमताओं का परिणाम है, मिनी-मिथुन उच्च गुणवत्ता वाली छवियां उत्पन्न करने में सक्षम है। हाल के कार्यों के विपरीत, जो पीढ़ी के मॉडल और बड़े भाषा मॉडल के पाठ एम्बेडिंग के बीच डोमेन अंतर पर ध्यान केंद्रित करते हैं, मिनी-जेमिनी फ्रेमवर्क उपयोगकर्ता के निर्देशों को उच्च गुणवत्ता वाले संकेतों में अनुवाद करके भाषा संकेतों के क्षेत्र में अंतर को अनुकूलित करने का प्रयास करता है जो संदर्भ प्रासंगिक छवियां उत्पन्न करता है। अव्यक्त प्रसार मॉडल में. इसके अलावा, इंस्ट्रक्शन फ़ाइनट्यूनिंग और क्रॉस मॉडेलिटी अलाइनमेंट की बेहतर समझ के लिए, मिनी-जेमिनी फ्रेमवर्क सार्वजनिक रूप से उपलब्ध उच्च गुणवत्ता वाले डेटासेट से नमूने एकत्र करता है, और छवि निर्माण का समर्थन करने के लिए 4K इंस्ट्रक्शन फॉलोइंग डेटासेट के निर्माण के लिए GPT-13 टर्बो फ्रेमवर्क का उपयोग करता है। 

मिनी-मिथुन: प्रयोग और परिणाम

इसके प्रदर्शन का मूल्यांकन करने के लिए, मिनी-जेमिनी फ्रेमवर्क को एचआर विज़न एनकोडर के लिए पूर्व-प्रशिक्षित कन्वनेक्स्ट-एल फ्रेमवर्क और सीएलआईपी-पूर्व-प्रशिक्षित के साथ त्वरित किया जाता है। विज़न ट्रांसफार्मर एलआर विज़न एनकोडर के लिए। प्रशिक्षण दक्षता सुनिश्चित करने के लिए, मिनी-जेमिनी फ्रेमवर्क दो विज़न एनकोडर को स्थिर रखता है, और सभी चरणों में पैच जानकारी खनन के प्रोजेक्टर को अनुकूलित करता है, और निर्देश ट्यूनिंग चरण के दौरान ही बड़े भाषा मॉडल को अनुकूलित करता है। 

निम्नलिखित तालिका विभिन्न सेटिंग्स में अत्याधुनिक मॉडलों के मुकाबले मिनी-जेमिनी ढांचे के प्रदर्शन की तुलना करती है, और निजी मॉडलों पर भी विचार करती है। जैसा कि देखा जा सकता है, मिनी-जेमिनी सामान्य रिज़ॉल्यूशन पर लगातार एलएलएम की एक विस्तृत श्रृंखला में मौजूदा ढांचे से बेहतर प्रदर्शन करता है, और कुशल मॉडल की श्रेणी में जेम्मा-2बी के साथ कॉन्फ़िगर किए जाने पर बेहतर प्रदर्शन प्रदर्शित करता है। इसके अलावा, जब बड़े भाषा मॉडल नियोजित होते हैं, तो मिनी-जेमिनी ढांचे की स्केलेबिलिटी स्पष्ट होती है। 

उच्च रिज़ॉल्यूशन और विस्तारित विज़ुअल टोकन पर इसके प्रदर्शन का मूल्यांकन करने के लिए, एलआर विज़न एनकोडर के लिए 672 के इनपुट आकार और विज़ुअल एनकोडर के लिए 1536 के इनपुट आकार के साथ प्रयोग किए जाते हैं। जैसा कि पहले बताया गया है, एचआर विज़ुअल एनकोडर का मुख्य उद्देश्य उम्मीदवार को उच्च-रिज़ॉल्यूशन वाली जानकारी प्रदान करना है। जैसा कि देखा जा सकता है, मिनी-जेमिनी फ्रेमवर्क अत्याधुनिक फ्रेमवर्क की तुलना में बेहतर प्रदर्शन प्रदान करता है। 

इसके अलावा, वास्तविक दुनिया की सेटिंग में मिनी-जेमिनी ढांचे की दृश्य समझ क्षमता का आकलन करने के लिए, डेवलपर्स मॉडल को विभिन्न प्रकार के तर्क और समझने वाले कार्यों पर लागू करते हैं जैसा कि निम्नलिखित छवि में दिखाया गया है। जैसा कि देखा जा सकता है, मिनी-जेमिनी फ्रेमवर्क पैच जानकारी खनन और उच्च गुणवत्ता वाले डेटा के कार्यान्वयन के कारण जटिल कार्यों की एक विस्तृत श्रृंखला को हल करने में सक्षम है। लेकिन इससे भी अधिक प्रभावशाली तथ्य यह है कि मिनी-जेमिनी ढांचा विस्तार में एक गहरी वृद्धि को प्रदर्शित करता है जो केवल मान्यता कौशल से परे फैला हुआ है, और जटिल तत्वों का जटिल रूप से वर्णन करता है। 

निम्नलिखित आंकड़ा मिनी-जेमिनी ढांचे की उत्पादक क्षमताओं का व्यापक मूल्यांकन प्रदान करता है। 

जब ChatIllusion और AnyGPT जैसे हाल के मॉडलों के साथ तुलना की जाती है, तो मिनी-जेमिनी फ्रेमवर्क मजबूत मल्टी-मोडल समझ क्षमताओं को प्रदर्शित करता है, जो इसे उत्पन्न करने की अनुमति देता है। छवि के लिए पाठ ऐसे कैप्शन जो इनपुट निर्देशों के साथ बेहतर ढंग से संरेखित होते हैं, और मजबूत वैचारिक समानता के साथ छवि से पाठ के उत्तरों में परिणत होते हैं। अधिक प्रभावशाली तथ्य यह है कि मिनी-मिथुन ढांचा केवल पाठ प्रशिक्षण डेटा के साथ बहु-मॉडल मानव निर्देशों का उपयोग करके उच्च-गुणवत्ता की सामग्री तैयार करने में उल्लेखनीय दक्षता प्रदर्शित करता है, एक क्षमता जो मिनी-मिथुन की मजबूत अर्थ व्याख्या और छवि-पाठ संरेखण कौशल को दर्शाती है। 

निष्कर्ष

इस लेख में हमने मिनी-जेमिनी के बारे में बात की है, जो मल्टी-मोडैलिटी विजन भाषा मॉडल के लिए एक शक्तिशाली और सुव्यवस्थित ढांचा है। मिनी-जेमिनी फ्रेमवर्क का प्राथमिक उद्देश्य उच्च गुणवत्ता वाले डेटा, फ्रेमवर्क के रणनीतिक डिजाइन और विस्तारित कार्यात्मक दायरे का उपयोग करके दृष्टि भाषा मॉडल की गुप्त क्षमताओं का उपयोग करना है। मिनी-जेमिनी तीन पहलुओं से बेहतर प्रदर्शन के लिए वीएलएम की क्षमता का खनन करके दृष्टि भाषा मॉडल और अधिक उन्नत मॉडल के बीच मौजूद अंतर को कम करने का एक प्रयास है: वीएलएम-निर्देशित पीढ़ी, उच्च-गुणवत्ता डेटा और उच्च-रिज़ॉल्यूशन विज़ुअल टोकन। विज़ुअल टोकन को बढ़ाने के लिए, मिनी-जेमिनी फ्रेमवर्क विज़ुअल टोकन की गिनती बढ़ाए बिना उच्च-रिज़ॉल्यूशन परिशोधन के लिए एक अतिरिक्त विज़ुअल एनकोडर का उपयोग करने का प्रस्ताव करता है। मिनी-जेमिनी फ्रेमवर्क छवियों की सटीक समझ और तर्क-आधारित पीढ़ी को बढ़ावा देने के प्रयास में एक उच्च गुणवत्ता वाले डेटासेट का निर्माण करता है। कुल मिलाकर, मिनी-जेमिनी ढांचा दृष्टि भाषा मॉडल की क्षमता का पता लगाने का प्रयास करता है, और इसका उद्देश्य मौजूदा ढांचे को छवि तर्क, समझ और जेनरेटर क्षमताओं के साथ सशक्त बनाना है।

"पेशे से एक इंजीनियर, दिल से एक लेखक"। कुणाल एआई और एमएल के प्रति गहरा प्रेम और समझ रखने वाले एक तकनीकी लेखक हैं, जो अपने आकर्षक और सूचनात्मक दस्तावेज़ीकरण के माध्यम से इन क्षेत्रों में जटिल अवधारणाओं को सरल बनाने के लिए समर्पित हैं।