Connect with us

LLaVA-UHD: рдПрдХ рдПрд▓рдПрдордПрдо рдЬреЛ рдХрд┐рд╕реА рднреА рдЖрд╕реНрдкреЗрдХреНрдЯ рдЕрдиреБрдкрд╛рдд рдФрд░ рдЙрдЪреНрдЪ-рд░рд┐рдЬрд╝реЙрд▓реНрдпреВрд╢рди рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рд╕рдордЭрддрд╛ рд╣реИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

LLaVA-UHD: рдПрдХ рдПрд▓рдПрдордПрдо рдЬреЛ рдХрд┐рд╕реА рднреА рдЖрд╕реНрдкреЗрдХреНрдЯ рдЕрдиреБрдкрд╛рдд рдФрд░ рдЙрдЪреНрдЪ-рд░рд┐рдЬрд╝реЙрд▓реНрдпреВрд╢рди рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рд╕рдордЭрддрд╛ рд╣реИ

mm
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

बड़े भाषा मॉडल की हालिया प्रगति और उन्नति ने दृष्टि-भाषा तर्क, समझ, और इंटरैक्शन क्षमताओं में एक महत्वपूर्ण वृद्धि का अनुभव किया है। आधुनिक फ्रेमवर्क इसे एलएलएम या बड़े भाषा मॉडल में दृश्य संकेतों को प्रोजेक्ट करके प्राप्त करते हैं ताकि उन्हें दृश्य रूप से दुनिया को समझने में सक्षम बनाया जा सके, एक विविध दृश्यों की श्रृंखला जहां दृश्य एन्कोडिंग रणनीतियों का एक महत्वपूर्ण भूमिका निभाती है। हालांकि, वास्तविक दुनिया की छवियों में न केवल विभिन्न दृश्यों की एक विस्तृत श्रृंखला होती है, वे संकल्पन और आस्पेक्ट अनुपात के संदर्भ में भी महत्वपूर्ण रूप से भिन्न होती हैं, जो विभिन्न डोमेन और कार्यों में एलएलएम के लिए महत्वपूर्ण चुनौतियां प्रस्तुत करती हैं। वास्तविक दुनिया की छवियों द्वारा प्रस्तुत की गई महत्वपूर्ण विचरण को संबोधित करने के लिए, आधुनिक बड़े भाषा मॉडल छवियों को कम रिज़ॉल्यूशन में समझते हैं, अर्थात 224×224, और एक निश्चित आस्पेक्ट अनुपात, अर्थात 1:1। यद्यपि कम रिज़ॉल्यूशन और निश्चित आस्पेक्ट अनुपात के साथ समझौता करना वास्तविक दुनिया के अनुप्रयोगों में एलएलएम की सामान्यता को सुनिश्चित करने के लिए उपयोगी है, यह अक्सर छवि की सामग्री को महत्वपूर्ण रूप से धुंधला करता है और गंभीर आकार विकृति का कारण बनता है। यह समझौता विशेष रूप से ऑप्टिकल चार्टर पहचान और छोटे वस्तु समझ जैसे सूक्ष्म कार्यों के लिए अनुकूलित बड़े बहु-मोडल मॉडल या एलएमएम की क्षमताओं पर महत्वपूर्ण प्रभाव डालता है। इसके अलावा, चूंकि रिज़ॉल्यूशन और आस्पेक्ट अनुपात पूर्व-निर्धारित हैं, मॉडल केवल धुंधली छवियों का अनुमान लगा सकता है, जिससे मॉडल हॉलुसिनेशन की स्थिति उत्पन्न होती है, जिसमें मॉडल छवियों में तथ्यात्मक रूप से आधारित नहीं होने वाले पाठ उत्पन्न करता है।

… (rest of the translation remains the same, following the exact structure and format as the original)

рдПрдХ рдЗрдВрдЬреАрдирд┐рдпрд░ рдкреЗрд╢реЗ рд╕реЗ, рдПрдХ рд▓реЗрдЦрдХ рджрд┐рд▓ рд╕реЗред рдХреБрдирд╛рд▓ рдПрдХ рддрдХрдиреАрдХреА рд▓реЗрдЦрдХ рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рдПрдЖрдИ рдФрд░ рдПрдордПрд▓ рдХреЗ рдкреНрд░рддрд┐ рдЧрд╣рд░рд╛ рдкреНрдпрд╛рд░ рдФрд░ рд╕рдордЭ рд╣реИ, рдЬреЛ рдЕрдкрдиреЗ рдЖрдХрд░реНрд╖рдХ рдФрд░ рдЬрд╛рдирдХрд╛рд░реАрдкреВрд░реНрдг рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рдЗрди рдХреНрд╖реЗрддреНрд░реЛрдВ рдореЗрдВ рдЬрдЯрд┐рд▓ рдЕрд╡рдзрд╛рд░рдгрд╛рдУрдВ рдХреЛ рд╕рд░рд▓ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИрдВред