विचार नेता

एलएलएम के लिए बेंचमार्क

Published August 28, 2024

Updated May 20, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

एलएलएम प्रदर्शन मूल्यांकन में बेंचमार्क की भूमिका और सीमाओं को समझें। एलएलएम के लिए विकसित करने के लिए तकनीकों का अन्वेषण करें।

बड़े भाषा मॉडल हाल के वर्षों में बहुत लोकप्रिय हो गए हैं। मैं इसका मतलब है, आपने इसका उपयोग देखा है। एलएलएम की मानव भाषा कमांड को समझने की असाधारण क्षमता ने उन्हें व्यवसायों के लिए एकदम सही एकीकरण बना दिया, जो महत्वपूर्ण कार्य प्रवाहों को समर्थन देते हैं और कार्यों को अधिकतम दक्षता के साथ स्वचालित करते हैं। इसके अलावा, औसत उपयोगकर्ता की समझ से परे, एलएलएम के लिए बहुत कुछ है जो वे कर सकते हैं। और जैसा कि हम उन पर निर्भर करते हैं, हमें सटीकता और विश्वसनीयता सुनिश्चित करने के लिए उपायों पर अधिक ध्यान देना होगा। यह एक वैश्विक कार्य है जो पूरे संस्थानों को चिंतित करता है, लेकिन व्यवसायों के क्षेत्र में अब कई बेंचमार्क हैं जिनका उपयोग एलएलएम के प्रदर्शन का मूल्यांकन विभिन्न डोमेन में किया जा सकता है। वे मॉडल की क्षमताओं का परीक्षण कर सकते हैं जैसे कि समझ, तर्क निर्माण, गणित, और इस तरह के अन्य क्षेत्रों में, और परिणाम यह निर्धारित करते हैं कि क्या एलएलएम व्यवसायिक तैनाती के लिए तैयार है।

इस लेख में, मैंने एलएलएम मूल्यांकन के लिए सबसे लोकप्रिय बेंचमार्क की एक व्यापक सूची इकट्ठा की है। हम प्रत्येक बेंचमार्क का विस्तार से चर्चा करेंगे और देखेंगे कि विभिन्न एलएलएम मूल्यांकन मानदंडों के खिलाफ कैसे खड़े होते हैं। लेकिन पहले, एलएलएम मूल्यांकन के बारे में अधिक विस्तार से जानने दें।

एलएलएम मूल्यांकन क्या है?

अन्य एआई मॉडलों की तरह, एलएलएम को भी विशिष्ट बेंचमार्क के खिलाफ मूल्यांकन किया जाना चाहिए जो भाषा मॉडल के प्रदर्शन के विभिन्न पहलुओं का आकलन करते हैं: ज्ञान, सटीकता, विश्वसनीयता, और निरंतरता। मानक आमतौर पर शामिल होता है:

उपयोगकर्ता प्रश्नों को समझना: मॉडल की क्षमता का मूल्यांकन करना कि यह विभिन्न उपयोगकर्ता इनपुट को सटीक रूप से समझ और व्याख्या कर सकता है।
आउटपुट सत्यापन: एआई-जनरेटेड प्रतिक्रियाओं को एक विश्वसनीय ज्ञान आधार के खिलाफ सत्यापित करना ताकि यह सुनिश्चित किया जा सके कि वे सही और प्रासंगिक हैं।
लचीलापन: यह मापना कि मॉडल अस्पष्ट, अधूरे, या शोरदार इनपुट के साथ कितनी अच्छी तरह प्रदर्शन करता है।

एलएलएम मूल्यांकन विकासकर्ताओं को सीमाओं की पहचान करने और उन्हें कुशलता से संबोधित करने की शक्ति देता है, ताकि वे समग्र उपयोगकर्ता अनुभव में सुधार कर सकें। यदि एलएलएम का彻पूरी तरह से मूल्यांकन किया जाता है, तो यह विभिन्न वास्तविक दुनिया के अनुप्रयोगों को संभालने के लिए पर्याप्त सटीक और लचीला होगा, जिसमें अस्पष्ट या अप्रत्याशित इनपुट वाले भी शामिल हैं।

बेंचमार्क

एलएलएम सबसे जटिल प्रौद्योगिकी में से एक है और यहां तक कि सबसे कठिन अनुप्रयोगों को भी शक्ति प्रदान कर सकता है। इसलिए, मूल्यांकन प्रक्रिया को समान रूप से जटिल होना चाहिए, जो इसकी सोच प्रक्रिया और तकनीकी सटीकता का परीक्षण करता है।

एक बेंचमार्क विशिष्ट डेटासेट, मेट्रिक्स, और मूल्यांकन कार्यों का उपयोग करके एलएलएम प्रदर्शन का परीक्षण करता है, जो विभिन्न एलएलएम की तुलना करने और उनकी सटीकता को मापने की अनुमति देता है, जो उद्योग में सुधार को बढ़ावा देता है।

एलएलएम प्रदर्शन के कुछ सबसे आम पहलू हैं:

ज्ञान: मॉडल को विभिन्न डोमेन में ज्ञान का परीक्षण करने की आवश्यकता है। यही ज्ञान बेंचमार्क का उद्देश्य है। यह मॉडल की क्षमता का मूल्यांकन करता है कि यह विभिन्न क्षेत्रों से जानकारी को कितनी प्रभावी ढंग से याद रख सकता है, जैसे कि भौतिकी, प्रोग्रामिंग, भूगोल, आदि।
तार्किक तर्क: मॉडल की क्षमता का परीक्षण करना कि यह क्रमिक रूप से सोच सकता है और एक तार्किक निष्कर्ष निकाल सकता है। वे आमतौर पर दैनिक ज्ञान और तार्किक तर्क के आधार पर सबसे संभावित निरंतरता या व्याख्या का चयन करने के लिए मॉडल की आवश्यकता होती है।
पढ़ने की समझ: मॉडल को प्राकृतिक भाषा व्याख्या में उत्कृष्ट होना चाहिए और फिर प्रतिक्रिया के अनुसार उत्पन्न करना चाहिए। परीक्षण पारित करने के लिए पासेजों पर आधारित प्रश्नों के उत्तर देने की कोशिश करता है, जो समझ, अनुमान, और विवरण को बनाए रखने की क्षमता का आकलन करता है।
कोड समझ: मॉडल की कोडिंग कौशल का मूल्यांकन करने के लिए यह आवश्यक है। ये बेंचमार्क मॉडल को कोडिंग कार्य या समस्याएं देते हैं जिन्हें मॉडल को सटीक रूप से हल करना होगा, अक्सर विभिन्न प्रोग्रामिंग भाषाओं और दृष्टिकोणों को कवर करते हैं।
विश्व ज्ञान: मॉडल की विश्व के बारे में सामान्य ज्ञान का मूल्यांकन करने के लिए। ये डेटासेट आमतौर पर व्यापक, विश्वकोश ज्ञान की आवश्यकता वाले प्रश्नों के साथ आते हैं जो उन्हें विशिष्ट ज्ञान बेंचमार्क से अलग बनाते हैं।

“ज्ञान” बेंचमार्क

एमएमएलयू (मल्टीमॉडल भाषा समझ)

यह बेंचमार्क एलएलएम की विभिन्न विषयों जैसे मानविकी, सामाजिक विज्ञान, इतिहास, कंप्यूटर विज्ञान, और यहां तक कि कानून में तथ्यात्मक ज्ञान की पकड़ का परीक्षण करने के लिए बनाया गया है। 57 प्रश्न और 15k कार्य सभी मॉडल की तर्क क्षमता को सुनिश्चित करने के लिए निर्देशित हैं। यह एमएमएलयू को एलएलएम के तथ्यात्मक ज्ञान और विभिन्न विषयों के साथ तर्क का मूल्यांकन करने के लिए एक अच्छा उपकरण बनाता है।

हाल ही में, यह एलएलएम के लिए उपरोक्त क्षेत्रों के मूल्यांकन के लिए एक प्रमुख बेंचमार्क बन गया है। विकासकर्ता हमेशा अपने मॉडलों को इस बेंचमार्क में अन्य मॉडलों से बेहतर प्रदर्शन करने के लिए अनुकूलित करना चाहते हैं, जो इसे एलएलएम में उन्नत तर्क और ज्ञान के मूल्यांकन के लिए एक डी फैक्टो मानक बनाता है। बड़े उद्यम-ग्रेड मॉडल ने इस बेंचमार्क पर प्रभावशाली स्कोर दिखाए हैं, जिनमें जीपीटी-4-ओम्नी 88.7%, क्लॉड 3 ओपस 86.8%, जेमिनी 1.5 प्रो 85.9%, और लामा-3 70बी 82% शामिल हैं। छोटे मॉडल आमतौर पर इस बेंचमार्क पर इतना अच्छा प्रदर्शन नहीं करते हैं, आमतौर पर 60-65% से अधिक नहीं जाते हैं, लेकिन फाई-3-स्मॉल-7बी का 75.3% का हालिया प्रदर्शन कुछ सोचने के लिए है।

हालांकि, एमएमएलयू के अपने नुकसान हैं: इसमें ज्ञात मुद्दे जैसे अस्पष्ट प्रश्न, गलत उत्तर, और गुम हुए संदर्भ हैं। और, कई लोग सोचते हैं कि इसके कुछ कार्य एलएलएम मूल्यांकन के लिए बहुत आसान हैं।

मैं यह स्पष्ट करना चाहता हूं कि एमएमएलयू जैसे बेंचमार्क वास्तविक दुनिया के परिदृश्यों को पूरी तरह से चित्रित नहीं करते हैं। यदि एक एलएलएम इस पर एक महान स्कोर प्राप्त करता है, तो यह हमेशा नहीं माना जा सकता है कि यह एक विषय-विशेषज्ञ बन गया है। बेंचमार्क दायरे में सीमित होते हैं और अक्सर बहुविकल्पी प्रश्नों पर निर्भर करते हैं, जो वास्तविक दुनिया के इंटरैक्शन की जटिलता और संदर्भ को पूरी तरह से पकड़ नहीं सकते हैं। सच्ची समझ के लिए तथ्यों को जानना और ज्ञान को गतिशील रूप से लागू करना आवश्यक है, जिसमें महत्वपूर्ण सोच, समस्या-समाधान, और संदर्भ समझ शामिल है। इन कारणों से, एलएलएम को निरंतर रूप से परिष्कृत और अद्यतन किया जाना चाहिए ताकि मॉडल बेंचमार्क की प्रासंगिकता और प्रभावशीलता को बनाए रखे।

जीपीक्यूए (स्नातक-स्तर का गूगल-प्रूफ क्यू एंड ए बेंचमार्क)

यह बेंचमार्क जीपीक्यूए डेटासेट का उपयोग करके एलएलएम का तार्किक तर्क पर मूल्यांकन करता है, जिसमें केवल 448 प्रश्न हैं। डोमेन विशेषज्ञों ने इसे विकसित किया और यह जीव विज्ञान, भौतिकी, और रसायन विज्ञान जैसे विषयों को कवर करता है।

प्रत्येक प्रश्न निम्नलिखित सत्यापन प्रक्रिया से गुजरता है:

एक विशेषज्ञ उसी विषय में प्रश्न का उत्तर देता है और विस्तृत प्रतिक्रिया प्रदान करता है।
प्रश्न लेखक प्रतिक्रिया के आधार पर प्रश्न को संशोधित करता है।
एक दूसरा विशेषज्ञ संशोधित प्रश्न का उत्तर देता है।

यह प्रक्रिया वास्तव में यह सुनिश्चित कर सकती है कि प्रश्न विषयगत हैं, सटीक हैं, और मॉडल के लिए चुनौतीपूर्ण हैं। यहां तक कि अनुभवी पीएचडी विद्वान भी इन प्रश्नों पर केवल 65% सटीकता प्राप्त करते हैं, जबकि जीपीटी-4-ओम्नी 53.6% तक ही पहुंच पाता है, जो मानव और मशीन बुद्धिमत्ता के बीच की खाई को उजागर करता है।

उच्च योग्यता आवश्यकताओं के कारण, डेटासेट वास्तव में बहुत छोटा है, जो इसकी सांख्यिकीय शक्ति को सीमित करता है और बड़े प्रभाव आकार की आवश्यकता होती है। जिन विशेषज्ञों ने इन प्रश्नों को बनाया और मान्य किया, वे अपवर्क से आए, इसलिए उन्होंने अपनी विशेषज्ञता और कवर किए गए विषयों के आधार पर पूर्वाग्रह पेश किए होंगे।

कोड बेंचमार्क

ह्यूमनइवल

164 प्रोग्रामिंग समस्याएं, एलएलएम की कोडिंग क्षमता के लिए एक वास्तविक परीक्षण। यह ह्यूमनइवल है। यह बड़े भाषा मॉडल (एलएलएम) की बुनियादी कोडिंग क्षमता का परीक्षण करने के लिए डिज़ाइन किया गया है। यह पास@के मेट्रिक का उपयोग करके उत्पन्न कोड की कार्यात्मक सटीकता का निर्धारण करता है, जो एलएलएम द्वारा उत्पन्न शीर्ष के कोड नमूनों में से कम से कम एक के परीक्षण मामलों को पास करने की संभावना को आउटपुट करता है।

ह्यूमनइवल डेटासेट में फंक्शन सिग्नेचर, डॉकस्ट्रिंग, कोड बॉडी, और कई यूनिट टेस्ट शामिल हैं, लेकिन यह वास्तविक दुनिया की कोडिंग समस्याओं की पूरी श्रृंखला को शामिल नहीं करता है, जो मॉडल की क्षमता का पर्याप्त रूप से परीक्षण नहीं करेगा।

एमबीपीपी (मोस्टली बेसिक पाइथन प्रोग्रामिंग)

एमबीपीपी बेंचमार्क में 1,000 क्राउड-सोर्स्ड पाइथन प्रोग्रामिंग प्रश्न शामिल हैं। ये प्रवेश-स्तर की समस्याएं हैं और वे मूल प्रोग्रामिंग कौशल पर केंद्रित हैं। यह फ़ेव-शॉट और फ़ाइन-ट्यूनिंग दृष्टिकोणों का उपयोग करके मॉडल के प्रदर्शन का मूल्यांकन करता है, जिसमें बड़े मॉडल आमतौर पर इस डेटासेट पर बेहतर प्रदर्शन करते हैं। हालांकि, चूंकि डेटासेट में मुख्य रूप से प्रवेश-स्तर के कार्यक्रम हैं, यह वास्तविक दुनिया के अनुप्रयोगों की जटिलता और चुनौतियों का पूरी तरह से प्रतिनिधित्व नहीं करता है।

गणित बेंचमार्क

जबकि अधिकांश एलएलएम मानक प्रतिक्रियाओं को संरचित करने में बहुत अच्छे हैं, गणितीय तर्क एक बहुत बड़ा मुद्दा है जिसका सामना उन्हें करना पड़ता है। क्यों? क्योंकि यह प्रश्न समझ, एक क्रमिक तार्किक दृष्टिकोण के साथ गणितीय तर्क, और सही उत्तर का निर्धारण करने की क्षमता से संबंधित कौशल की आवश्यकता होती है।

“चेन ऑफ थॉट” (सीओटी) विधि गणित से संबंधित बेंचमार्क पर एलएलएम का मूल्यांकन करने के लिए बनाई गई है, जिसमें मॉडल को समस्या को हल करने के दौरान अपनी चरण-दर-चरण तर्क प्रक्रिया की व्याख्या करने के लिए प्रेरित किया जाता है। इसके कई लाभ हैं। यह तर्क प्रक्रिया को अधिक पारदर्शी बनाता है, मॉडल के तर्क में दोषों की पहचान करने में मदद करता है, और समस्या समाधान कौशल का अधिक विस्तृत मूल्यांकन प्रदान करता है। जटिल समस्याओं को सरल चरणों की एक श्रृंखला में तोड़कर, सीओटी गणित बेंचमार्क पर मॉडल के प्रदर्शन में सुधार कर सकता है और इसकी तर्क क्षमताओं में गहरी अंतर्दृष्टि प्रदान कर सकता है।

जीएसएम8के: एक लोकप्रिय गणित बेंचमार्क

एलएलएम की गणितीय क्षमता का मूल्यांकन करने के लिए जीएसएम8के एक प्रसिद्ध बेंचमार्क है। जीएसएम8के में 8.5k मध्य-स्तर की गणित समस्याएं हैं, जिन्हें हल करने के लिए कुछ चरणों की आवश्यकता होती है, और समाधान मुख्य रूप से मूल गणितीय गणनाओं की एक श्रृंखला को निष्पादित करने में शामिल हैं। आमतौर पर, बड़े मॉडल या विशेष रूप से गणितीय तर्क के लिए प्रशिक्षित मॉडल इस बेंचमार्क पर बेहतर प्रदर्शन करते हैं, जैसे कि जीपीटी-4 मॉडल 96.5% का स्कोर रखते हैं, जबकि डीपसीकमाथ-आरएल-7बी 88.2% पर थोड़ा पीछे है।

हालांकि, जीएसएम8के केवल मध्य-स्तर की गणित समस्याओं को संभालने की मॉडल की क्षमता को पूरी तरह से नहीं पकड़ पाता है, जो इसकी गणितीय क्षमता के एक व्यापक उपाय के रूप में इसकी प्रभावशीलता को सीमित करता है।

गणित डेटासेट: एक व्यापक विकल्प

गणित डेटासेट ने जीएसएम8के की कमियों को संबोधित किया। यह डेटासेट अधिक व्यापक है, जो प्राथमिक गणित से लेकर उच्च विद्यालय और यहां तक कि कॉलेज-स्तर की समस्याओं तक कवर करता है। यह मानवों के खिलाफ भी तुलना की जाती है, जिसमें एक कंप्यूटर विज्ञान पीएचडी छात्र जो गणित में रुचि नहीं रखता 40% सटीकता प्राप्त करता है और एक स्वर्ण पदक विजेता 90% सटीकता प्राप्त करता है।

यह एलएलएम की गणितीय क्षमताओं का एक अधिक व्यापक मूल्यांकन प्रदान करता है। यह सुनिश्चित करता है कि मॉडल मूल गणित में प्रवीण है और जटिल क्षेत्रों जैसे बीजगणित, ज्यामिति, और कैलकुलस में सक्षम है। हालांकि, डेटासेट में समस्याओं की बढ़ी हुई जटिलता और विविधता मॉडल के लिए उच्च सटीकता प्राप्त करना चुनौतीपूर्ण बना सकती है, खासकर उन मॉडलों के लिए जो व्यापक गणितीय अवधारणाओं पर विशेष रूप से प्रशिक्षित नहीं हैं। इसके अलावा, गणित डेटासेट में समस्या प्रारूपों में असंगति मॉडल के प्रदर्शन में असंगति पेश कर सकती है, जो मॉडल की समग्र गणितीय प्रवीणता के बारे में निश्चित निष्कर्ष निकालना अधिक कठिन बना देती है।

गणित डेटासेट के साथ सीओटी विधि का उपयोग करना मूल्यांकन को बढ़ाता है क्योंकि यह विभिन्न गणितीय चुनौतियों के प्रति एलएलएम की चरण-दर-चरण तर्क क्षमता को प्रकट करता है। इस तरह के संयुक्त दृष्टिकोण से यह सुनिश्चित होता है कि एलएलएम की वास्तविक गणितीय क्षमताओं का एक अधिक मजबूत और विस्तृत मूल्यांकन हो।

पढ़ने की समझ बेंचमार्क

मॉडल की जटिल पाठ को समझने और संसाधित करने की क्षमता का मूल्यांकन करने के लिए एक पढ़ने की समझ मूल्यांकन आवश्यक है, जो ग्राहक सहायता, सामग्री जेनरेशन, और जानकारी पुनर्प्राप्ति जैसे अनुप्रयोगों के लिए विशेष रूप से मौलिक है। पढ़ने की समझ कौशल का मूल्यांकन करने के लिए कई बेंचमार्क डिज़ाइन किए गए हैं, प्रत्येक में विशिष्ट विशेषताएं हैं जो मॉडल की क्षमताओं के एक व्यापक मूल्यांकन में योगदान करती हैं।

रेस (पढ़ने की समझ डेटासेट से परीक्षा)

रेस बेंचमार्क में लगभग 28,000 पासेज और 100,000 प्रश्न हैं जो 12 से 18 वर्ष की आयु के चीनी छात्रों के लिए अंग्रेजी परीक्षाओं से एकत्र किए गए हैं। यह प्रश्नों और उत्तरों को दिए गए पासेज से निकालने की सीमा नहीं रखता है, जो कार्यों को और अधिक चुनौतीपूर्ण बनाता है।

यह एक विस्तृत श्रृंखला của विषयों और प्रश्न प्रकारों को कवर करता है, जो एक व्यापक मूल्यांकन प्रदान करता है और इसमें विभिन्न कठिनाई स्तरों के प्रश्न शामिल हैं। इसके अलावा, रेस में प्रश्न मानव पढ़ने की क्षमता का परीक्षण करने के लिए डोमेन विशेषज्ञों द्वारा विशेष रूप से डिज़ाइन किए गए हैं।

हालांकि, बेंचमार्क में कुछ कमियां हैं। चूंकि यह चीनी शैक्षिक सामग्री पर विकसित किया गया है, यह सांस्कृतिक पूर्वाग्रह पेश कर सकता है जो वैश्विक संदर्भ को प्रतिबिंबित नहीं करता है। इसके अलावा, कुछ प्रश्नों में उच्च कठिनाई स्तर वास्तविक दुनिया के कार्यों का प्रतिनिधित्व नहीं करता है, जो मूल्यांकन को कम सटीक बना सकता है।

ड्रॉप (पैराग्राफ पर विचारशील तर्क)

एक अन्य महत्वपूर्ण दृष्टिकोण ड्रॉप (विचारशील तर्क पैराग्राफ पर) है, जो मॉडल को पैराग्राफ पर विचारशील तर्क करने के लिए चुनौती देता है। इसमें एलएलएम की तर्क क्षमताओं का परीक्षण करने के लिए 96,000 प्रश्न हैं। प्रश्न विकिपीडिया से और अमेज़न मैकेनिकल टर्क से क्राउडसोर्स किए जाते हैं। ड्रॉप प्रश्न अक्सर मॉडल से पैराग्राफ में बिखरे हुए जानकारी के आधार पर गणितीय संचालन जैसे जोड़, घटाव, और तुलना करने की अपेक्षा करते हैं।

प्रश्न चुनौतीपूर्ण हैं। उन्हें पैराग्राफ में कई संख्याओं का पता लगाने और उन्हें जोड़ने या घटाने की आवश्यकता होती है ताकि अंतिम उत्तर प्राप्त किया जा सके। बड़े मॉडल जैसे जीपीटी-4 और पाम 80% और 85% हासिल करते हैं, जबकि मानव 96% ड्रॉप डेटासेट पर हासिल करते हैं।

सामान्य ज्ञान बेंचमार्क

भाषा मॉडल में सामान्य ज्ञान का परीक्षण करना दिलचस्प है लेकिन महत्वपूर्ण भी है क्योंकि यह मॉडल की मानवीय तर्क के साथ संरेखण और निर्णय लेने की क्षमता का मूल्यांकन करता है। हमारे विपरीत, जो व्यावहारिक अनुभवों के माध्यम से एक व्यापक दुनिया मॉडल विकसित करते हैं, भाषा मॉडल बड़े डेटासेट पर प्रशिक्षित होते हैं लेकिन संदर्भ को स्वाभाविक रूप से नहीं समझते हैं। यह मॉडल को दैनिक स्थितियों, तार्किक तर्क, और व्यावहारिक ज्ञान की मांग वाले कार्यों में संघर्ष करने का कारण बनता है, जो विश्वसनीय एआई अनुप्रयोगों के लिए महत्वपूर्ण हैं।

हेलास्वैग (हार्डर एंडिंग, लॉन्गर कॉन्टेक्स्ट, और लो-शॉट एक्टिविटीज़ फॉर सिचुएशन्स विद एडवर्सेरियल जेनरेशन)

हेलास्वैग वाशिंगटन विश्वविद्यालय और एलेन इंस्टीट्यूट फॉर आर्टिफिशियल इंटेलिजेंस में रोवन ज़ेलर्स और उनके सहयोगियों द्वारा विकसित किया गया था। यह मॉडल की क्षमता का परीक्षण करने के लिए डिज़ाइन किया गया है कि यह एक दिए गए परिदृश्य की सबसे संभावित निरंतरता का अनुमान लगा सकता है। यह बेंचमार्क प्रतिकूल फिल्टरिंग (एएफ) का उपयोग करके बनाया गया है, जहां एक श्रृंखला में भेदभावपूर्ण मशीन-जनरेटेड गलत उत्तरों का चयन करने के लिए प्रतिकूल फिल्टर का उपयोग किया जाता है। यह विधि एक डेटासेट बनाती है जो मानवों के लिए सरल है लेकिन मॉडल के लिए चुनौतीपूर्ण है, जो एक “गोल्डिलॉक्स ज़ोन” ऑफ डिफिकल्टी बनाता है।

हालांकि हेलास्वैग ने पहले के मॉडलों के लिए चुनौतीपूर्ण साबित हुआ, राज्य-ऑफ-द-आर्ट मॉडल जैसे जीपीटी-4 ने मानव सटीकता के करीब प्रदर्शन स्तर हासिल किया है, जो क्षेत्र में महत्वपूर्ण प्रगति को दर्शाता है। हालांकि, ये परिणाम एआई क्षमताओं में प्रगति के साथ तालमेल रखने के लिए बेंचमार्क को निरंतर विकसित करने की आवश्यकता को रेखांकित करते हैं।

ओपनबुक

ओपनबुक डेटासेट में 5957 प्राथमिक-स्तर के विज्ञान के बहुविकल्पी प्रश्न हैं। प्रश्न खुली किताब परीक्षाओं से एकत्र किए जाते हैं और मानव समझ का मूल्यांकन करने के लिए विकसित किए जाते हैं।

ओपनबुक बेंचमार्क ज्ञान पुनर्प्राप्ति से परे तर्क क्षमता की मांग करता है। जीपीटी-4 ने अब तक 95.9% की उच्चतम सटीकता हासिल की है।

ओपनबुकक्यूए मॉडल को खुली किताब परीक्षाओं के अनुरूप है और इसमें 5,957 प्राथमिक-स्तर के विज्ञान के बहुविकल्पी प्रश्न शामिल हैं। ये प्रश्न 1,326 मूल विज्ञान तथ्यों और उनके नए स्थितियों में अनुप्रयोग की जांच करने के लिए डिज़ाइन किए गए हैं।

हेलास्वैग की तरह, पहले के मॉडलों ने ओपनबुकक्यूए को चुनौतीपूर्ण पाया, लेकिन आधुनिक मॉडल जैसे जीपीटी-4 ने लगभग मानव स्तर के प्रदर्शन स्तर हासिल किए हैं। यह प्रगति एआई समझ में सीमाओं को आगे बढ़ाने के लिए और अधिक जटिल और सूक्ष्म बेंचमार्क विकसित करने के महत्व को रेखांकित करती है।

क्या बेंचमार्क एलएलएम प्रदर्शन मूल्यांकन के लिए पर्याप्त हैं?

हां, जबकि वे एलएलएम प्रदर्शन का मूल्यांकन करने के लिए एक मानक दृष्टिकोण प्रदान करते हैं, वे भ्रामक भी हो सकते हैं। लार्ज मॉडल सिस्टम्स ऑर्गनाइजेशन का कहना है कि एक अच्छा एलएलएम बेंचमार्क स्केलेबल होना चाहिए, नए मॉडलों का मूल्यांकन करने में सक्षम होना चाहिए जिसमें अपेक्षाकृत कम परीक्षणों की आवश्यकता होती है, और सभी मॉडलों के लिए एक अद्वितीय रैंकिंग क्रम प्रदान करना चाहिए। लेकिन, ऐसे कारण हैं जिनकी वजह से वे पर्याप्त नहीं हो सकते हैं:

बेंचमार्क लीकेज

यह एक सामान्य समस्या है, और यह तब होता है जब प्रशिक्षण डेटा परीक्षण डेटा के साथ ओवरलैप होता है, जो एक भ्रामक मूल्यांकन बनाता है। यदि एक मॉडल ने पहले से ही प्रशिक्षण के दौरान कुछ परीक्षण प्रश्नों का सामना किया है, तो इसका परिणाम हमेशा इसकी वास्तविक क्षमताओं को प्रतिबिंबित नहीं कर सकता है। लेकिन एक आदर्श बेंचमार्क को स्मृति को कम से कम करना चाहिए और वास्तविक दुनिया के परिदृश्यों को प्रतिबिंबित करना चाहिए।

मूल्यांकन पूर्वाग्रह

एलएलएम बेंचमार्क लीडरबोर्ड एलएलएम के प्रदर्शन की तुलना विभिन्न कार्यों पर करने के लिए उपयोग किए जाते हैं। हालांकि, इन लीडरबोर्ड पर मॉडल तुलना के लिए भरोसा करना भ्रामक हो सकता है। बेंचमार्क परीक्षणों में सरल परिवर्तन, जैसे प्रश्नों के क्रम को बदलना, मॉडल की रैंकिंग को आठ स्थितियों तक बदल सकता है। इसके अलावा, एलएलएम विभिन्न स्कोरिंग विधियों के आधार पर अलग तरह से प्रदर्शन कर सकते हैं, मूल्यांकन पूर्वाग्रहों के महत्व को रेखांकित करते हैं।

खुलापन

वास्तविक दुनिया में एलएलएम इंटरैक्शन में प्रोम्प्ट डिज़ाइनिंग शामिल है ताकि वांछित एआई आउटपुट उत्पन्न किया जा सके। एलएलएम के आउटपुट प्रोम्प्ट की प्रभावशीलता पर निर्भर करते हैं, और बेंचमार्क मॉडल की संदर्भ जागरूकता का परीक्षण करने के लिए डिज़ाइन किए गए हैं। हालांकि, बेंचमार्क वास्तविक दुनिया के प्रदर्शन में अनुवाद नहीं करते हैं। उदाहरण के लिए, एक मॉडल जो बेंचमार्क डेटासेट पर 100% स्कोर प्राप्त करता है, जैसे कि एलएसएटी, व्यावहारिक अनुप्रयोगों में उसी स्तर की सटीकता की गारंटी नहीं देता है। यह वास्तविक दुनिया के कार्यों की खुली प्रकृति को मूल्यांकन में शामिल करने के महत्व को रेखांकित करता है।

रोबस्ट एलएलएम के लिए प्रभावी मूल्यांकन

तो, अब आप जानते हैं कि बेंचमार्क हमेशा सबसे अच्छा विकल्प नहीं हो सकते हैं क्योंकि वे सभी समस्याओं पर सामान्य नहीं हो सकते हैं। लेकिन, अन्य तरीके हैं:

कस्टम बेंचमार्क

वे विशिष्ट व्यवहार और कार्यक्षमता का परीक्षण करने के लिए आदर्श हैं जो कार्य-विशिष्ट परिदृश्यों में होते हैं। उदाहरण के लिए, यदि एलएलएम चिकित्सा अधिकारियों के लिए डिज़ाइन किया गया है, तो चिकित्सा सेटिंग्स से एकत्र किए गए डेटासेट वास्तविक दुनिया के परिदृश्यों का प्रभावी ढंग से प्रतिनिधित्व करेंगे। ये कस्टम बेंचमार्क डोमेन-विशिष्ट भाषा समझ, प्रदर्शन, और विशिष्ट संदर्भ आवश्यकताओं पर केंद्रित हो सकते हैं। बेंचमार्क को संभावित वास्तविक दुनिया के परिदृश्यों के साथ संरेखित करके, आप सुनिश्चित कर सकते हैं कि एलएलएम सामान्य रूप से अच्छा प्रदर्शन करता है और इसके इरादित कार्यों में उत्कृष्टता प्राप्त करता है। यह मॉडल की क्षमताओं में अंतराल और कमजोरियों की पहचान और संबोधन में मदद कर सकता है।

डेटा लीकेज डिटेक्शन पाइपलाइन

यदि आप अपने मूल्यांकन को “दिखाना” चाहते हैं तो एक डेटा लीकेज-मुक्त बेंचमार्क पाइपलाइन होना बहुत महत्वपूर्ण है। डेटा लीकेज तब होता है जब बेंचमार्क डेटा मॉडल के प्री-ट्रेनिंग कॉर्पस में शामिल होता है, जिससे कृत्रिम रूप से उच्च प्रदर्शन स्कोर होते हैं। इसे避टने के लिए, बेंचमार्क को प्री-ट्रेनिंग डेटा के खिलाफ क्रॉस-रेफरेंस किया जाना चाहिए। इसके अलावा, पहले से देखी गई जानकारी से बचने के लिए कदम। यह मॉडल के प्रशिक्षण पाइपलाइन से अलग रखे गए स्वामित्व या हाल ही में क्यूरेट किए गए डेटासेट का उपयोग करने में शामिल हो सकता है – यह सुनिश्चित करता है कि प्रदर्शन मेट्रिक्स मॉडल की सामान्यीकरण क्षमता को प्रतिबिंबित करते हैं।

मानव मूल्यांकन

स्वचालित मेट्रिक्स अपने आप मॉडल के प्रदर्शन के पूर्ण स्पेक्ट्रम को पकड़ नहीं सकते हैं, खासकर जब यह भाषा समझ और जेनरेशन के बहुत ही सूक्ष्म और विषयगत पहलुओं की बात आती है। यहां मानव मूल्यांकन एक बेहतर मूल्यांकन प्रदान करता है:

पेशेवरों को नियुक्त करना जो विशेषज्ञता के विशिष्ट क्षेत्रों में विस्तृत और विश्वसनीय मूल्यांकन प्रदान कर सकते हैं।
भीड़सोर्सिंग! प्लेटफ़ॉर्म जैसे अमेज़न मैकेनिकल टर्क आपको विविध मानव निर्णय तेजी से और कम लागत पर इकट्ठा करने की अनुमति देते हैं।
समुदाय प्रतिक्रिया: एलएमएसवाईएस लीडरबोर्ड एरेना जैसे प्लेटफ़ॉर्म का उपयोग करके, जहां उपयोगकर्ता वोट कर सकते हैं और मॉडल की तुलना कर सकते हैं, एक अतिरिक्त परत जोड़ता है। एलएमएसवाईएस चैटबॉट एरेना हार्ड, विशेष रूप से, शीर्ष मॉडल के बीच सूक्ष्म अंतरों को उजागर करने में विशेष रूप से प्रभावी है सीधे उपयोगकर्ता इंटरैक्शन और वोटों के माध्यम से।

निष्कर्ष

मूल्यांकन और बेंचमार्किंग के बिना, हमें कोई तरीका नहीं होगा कि हम जानते हैं कि एलएलएम वास्तविक दुनिया के कार्यों को संभालने में उतना ही सटीक और लागू है जितना हम सोचते हैं। लेकिन, जैसा कि मैंने कहा, बेंचमार्क एक पूरी तरह से फूलप्रूफ तरीका नहीं हो सकता है कि एलएलएम के प्रदर्शन में अंतराल का कारण बन सकता है। यह एलएलएम के विकास को धीमा कर सकता है जो वास्तव में काम के लिए मजबूत है।

यह एक आदर्श दुनिया में होना चाहिए। एलएलएम उपयोगकर्ता प्रश्नों को समझते हैं, प्रोम्प्ट में त्रुटियों की पहचान करते हैं, निर्देशित कार्यों को पूरा करते हैं, और विश्वसनीय आउटपुट उत्पन्न करते हैं। परिणाम पहले से ही बहुत अच्छे हैं लेकिन आदर्श नहीं हैं। यहां पर कार्य-विशिष्ट बेंचमार्क, मानव मूल्यांकन, और बेंचमार्क लीकेज का पता लगाना बहुत मददगार साबित हो सकता है। इन्हें उपयोग करके, हम वास्तव में मजबूत एलएलएम का उत्पादन करने का मौका प्राप्त करते हैं।

Irina Barskaya, PhD, Head Data Scientist at Yandex

इरिना बार्सकाया, पीएचडी, एक प्रतिष्ठित डेटा वैज्ञानिक हैं जिनके पास एक दशक से अधिक का अनुभव है, जिसमें उत्पाद विश्लेषण और आगामी प्रौद्योगिकियों के लिए विश्लेषण शामिल है। उन्होंने सऊदी अरब के लिए पहले पूरी तरह से कार्यात्मक स्थानीयकृत एआई-आधारित वॉयस असिस्टेंट यास्मीना के निर्माण और विश्लेषण का नेतृत्व किया, जिसमें आधुनिक मानक अरबी और सऊदी बोलियों के लिए जटिल डेटा स्थानीयकरण और लेबलिंग शामिल थी। वर्तमान में, इरिना Yandex में गुणवत्ता विश्लेषण का नेतृत्व करती हैं, एआई प्रौद्योगिकियों में प्रगति को बढ़ावा दे रही हैं।