рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
LLaVA-UHD: рдПрдХ рдПрд▓рдПрдордПрдо рдЬреЛ рдХрд┐рд╕реА рднреА рдЖрд╕реНрдкреЗрдХреНрдЯ рдЕрдиреБрдкрд╛рдд рдФрд░ рдЙрдЪреНрдЪ-рд░рд┐рдЬрд╝реЙрд▓реНрдпреВрд╢рди рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рд╕рдордЭрддрд╛ рд╣реИ
बड़े भाषा मॉडल की हालिया प्रगति और उन्नति ने दृष्टि-भाषा तर्क, समझ, और इंटरैक्शन क्षमताओं में एक महत्वपूर्ण वृद्धि का अनुभव किया है। आधुनिक फ्रेमवर्क इसे एलएलएम या बड़े भाषा मॉडल में दृश्य संकेतों को प्रोजेक्ट करके प्राप्त करते हैं ताकि उन्हें दृश्य रूप से दुनिया को समझने में सक्षम बनाया जा सके, एक विविध दृश्यों की श्रृंखला जहां दृश्य एन्कोडिंग रणनीतियों का एक महत्वपूर्ण भूमिका निभाती है। हालांकि, वास्तविक दुनिया की छवियों में न केवल विभिन्न दृश्यों की एक विस्तृत श्रृंखला होती है, वे संकल्पन और आस्पेक्ट अनुपात के संदर्भ में भी महत्वपूर्ण रूप से भिन्न होती हैं, जो विभिन्न डोमेन और कार्यों में एलएलएम के लिए महत्वपूर्ण चुनौतियां प्रस्तुत करती हैं। वास्तविक दुनिया की छवियों द्वारा प्रस्तुत की गई महत्वपूर्ण विचरण को संबोधित करने के लिए, आधुनिक बड़े भाषा मॉडल छवियों को कम रिज़ॉल्यूशन में समझते हैं, अर्थात 224×224, और एक निश्चित आस्पेक्ट अनुपात, अर्थात 1:1। यद्यपि कम रिज़ॉल्यूशन और निश्चित आस्पेक्ट अनुपात के साथ समझौता करना वास्तविक दुनिया के अनुप्रयोगों में एलएलएम की सामान्यता को सुनिश्चित करने के लिए उपयोगी है, यह अक्सर छवि की सामग्री को महत्वपूर्ण रूप से धुंधला करता है और गंभीर आकार विकृति का कारण बनता है। यह समझौता विशेष रूप से ऑप्टिकल चार्टर पहचान और छोटे वस्तु समझ जैसे सूक्ष्म कार्यों के लिए अनुकूलित बड़े बहु-मोडल मॉडल या एलएमएम की क्षमताओं पर महत्वपूर्ण प्रभाव डालता है। इसके अलावा, चूंकि रिज़ॉल्यूशन और आस्पेक्ट अनुपात पूर्व-निर्धारित हैं, मॉडल केवल धुंधली छवियों का अनुमान लगा सकता है, जिससे मॉडल हॉलुसिनेशन की स्थिति उत्पन्न होती है, जिसमें मॉडल छवियों में तथ्यात्मक रूप से आधारित नहीं होने वाले पाठ उत्पन्न करता है।
… (rest of the translation remains the same, following the exact structure and format as the original)












