Connect with us

एआई का उपयोग करके एक ब्लॉकबस्टर मूवी की भविष्यवाणी करना

Anderson का एंगल

एआई का उपयोग करके एक ब्लॉकबस्टर मूवी की भविष्यवाणी करना

mm
ChatGPT-4o and Adobe Firefly

यद्यपि फिल्म और टेलीविजन अक्सर रचनात्मक और खुले उद्योग के रूप में देखे जाते हैं, लेकिन वे लंबे समय से जोखिम-विरक्त रहे हैं। उच्च उत्पादन लागत (जो शायद यूएस परियोजनाओं के लिए कम से कम सस्ते विदेशी स्थानों के लाभ को खो देगी) और एक खंडित उत्पादन परिदृश्य के कारण स्वतंत्र कंपनियों के लिए एक महत्वपूर्ण नुकसान को अवशोषित करना मुश्किल है।

इसलिए, पिछले दशक में, उद्योग ने यह जानने में बढ़ती रुचि ली है कि क्या मशीन लर्निंग दर्शकों की प्रतिक्रिया में रुझान या पैटर्न का पता लगा सकती है या नहीं।

मुख्य डेटा स्रोत नीलसन सिस्टम (जो पैमाने पर प्रदान करता है, हालांकि इसकी जड़ें टीवी और विज्ञापन में हैं) और नमूना-आधारित विधियों जैसे फोकस समूहों के रूप में बने हुए हैं, जो पैमाने के लिए क्यूरेटेड जनसांख्यिकी का व्यापार करते हैं। यह बाद की श्रेणी में मुफ्त मूवी पूर्वावलोकन से स्कोरकार्ड प्रतिक्रिया भी शामिल है – हालांकि, उस बिंदु पर, उत्पादन के बजट का अधिकांश हिस्सा पहले से ही खर्च किया जा चुका है।

बिग हिट सिद्धांत/सिद्धांत

शुरू में, एमएल सिस्टम ने पारंपरिक विश्लेषण विधियों जैसे कि रेखीय प्रतिगमन, के-निकटतम पड़ोसी, स्टोकास्टिक ग्रेडिएंट डिसेंट, निर्णय पेड़ और जंगल, और न्यूरल नेटवर्क का लाभ उठाया, जो आमतौर पर पूर्व-एआई सांख्यिकीय विश्लेषण की शैली में करीब थे, जैसे कि 2019 में फ्लोरिडा विश्वविद्यालय की एक पहल सफल टीवी शो की भविष्यवाणी करने के लिए अभिनेताओं और लेखकों (अन्य कारकों के बीच) के संयोजन पर आधारित थी।

[कैप्शन id=”attachment_217152″ align=”alignnone” width=”642″]एक 2018 के अध्ययन में पात्रों और/या लेखक (अधिकांश एपिसोड एक से अधिक व्यक्ति द्वारा लिखे गए थे) के संयोजन के आधार पर एपिसोड का प्रदर्शन दर्जा दिया गया था। स्रोत: https://arxiv.org/pdf/1910.12589 एक 2018 के अध्ययन में पात्रों और/या लेखक (अधिकांश एपिसोड एक से अधिक व्यक्ति द्वारा लिखे गए थे) के संयोजन के आधार पर एपिसोड का प्रदर्शन दर्जा दिया गया था। स्रोत: https://arxiv.org/pdf/1910.12589[/कैप्शन]

सबसे प्रासंगिक संबंधित कार्य, कम से कम जो कि जंगल में तैनात है, (हालांकि अक्सर आलोचना) सिफारिश प्रणालियों के क्षेत्र में है:

[कैप्शन id=”attachment_217153″ align=”alignnone” width=”753″]एक विशिष्ट वीडियो सिफारिश पाइपलाइन। कैटलॉग में वीडियो सुविधाओं का उपयोग करके सूचीबद्ध किया जाता है जो हाथ से एनोटेट किया जा सकता है या स्वचालित रूप से निकाला जा सकता है। सिफारिशें दो चरणों में उत्पन्न की जाती हैं - पहले उम्मीदवार वीडियो का चयन करके और फिर दृश्य वरीयताओं से अनुमानित उपयोगकर्ता प्रोफ़ाइल के अनुसार उन्हें रैंक करके। स्रोत: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full एक विशिष्ट वीडियो सिफारिश पाइपलाइन। कैटलॉग में वीडियो सुविधाओं का उपयोग करके सूचीबद्ध किया जाता है जो हाथ से एनोटेट किया जा सकता है या स्वचालित रूप से निकाला जा सकता है। सिफारिशें दो चरणों में उत्पन्न की जाती हैं – पहले उम्मीदवार वीडियो का चयन करके और फिर दृश्य वरीयताओं से अनुमानित उपयोगकर्ता प्रोफ़ाइल के अनुसार उन्हें रैंक करके। स्रोत: https://www.frontiersin.org/journals/big-data/articles/10.3389/fdata.2023.1281614/full[/कैप्शन]

हालांकि, इस तरह के दृष्टिकोण पहले से ही सफल परियोजनाओं का विश्लेषण करते हैं। नए शो या मूवी के मामले में, यह स्पष्ट नहीं है कि किस तरह का मैदानी सच सबसे उपयुक्त होगा – कम से कम इसलिए कि सार्वजनिक स्वाद में परिवर्तन, डेटा स्रोतों में सुधार और वृद्धि के साथ, आमतौर पर तैयार डेटा के दशक नहीं होते हैं।

यह कोल्ड स्टार्ट समस्या का एक उदाहरण है, जहां सिफारिश प्रणालियों को पूर्व बातचीत डेटा के बिना उम्मीदवारों का मूल्यांकन करना होता है। ऐसे मामलों में, पारंपरिक सहयोगी फिल्टरिंग टूट जाती है, क्योंकि यह उपयोगकर्ता व्यवहार (जैसे देखने, रेटिंग या साझा करने) में पैटर्न पर निर्भर करता है ताकि भविष्यवाणियां उत्पन्न की जा सकें। समस्या यह है कि अधिकांश नए मूवी या शो के मामले में, इन विधियों का समर्थन करने के लिए अभी तक पर्याप्त दर्शक प्रतिक्रिया नहीं है।

कॉमकास्ट भविष्यवाणी करता है

कॉमकास्ट टेक्नोलॉजी एआई से एक नई पेपर, जॉर्ज वॉशिंगटन विश्वविद्यालय के साथ संयोजन में, इस समस्या का समाधान प्रस्तावित करता है जिसमें एक भाषा मॉडल को संरचित मेटाडेटा के साथ प्रेरित किया जाता है जारी नहीं की गई फिल्मों के बारे में।

इनपुट में कास्ट, जीनर, सिनॉप्सिस, कंटेंट रेटिंग, मूड, और पुरस्कार शामिल हैं, मॉडल एक संभावित भविष्य के हिट की एक रैंक की सूची लौटाता है।

लेखक मॉडल के आउटपुट का उपयोग दर्शक हित के लिए एक स्टैंड-इन के रूप में करते हैं जब कोई जुड़ाव डेटा उपलब्ध नहीं होता है, पहले से ही जाने जाने वाले शीर्षकों की ओर प्रारंभिक पूर्वाग्रह से बचने की उम्मीद करते हैं।

बहुत छोटा (तीन-पृष्ठ) पेपर, जिसका शीर्षक एलएलएम के साथ मूवी हिट की भविष्यवाणी करना है, कॉमकास्ट टेक्नोलॉजी एआई में छह शोधकर्ताओं और जीडब्ल्यूयू से एक से आता है, और यह कहता है:

‘हमारे परिणाम दिखाते हैं कि एलएलएम, जब मूवी मेटाडेटा का उपयोग करते हैं, तो बेसलाइन से काफी बेहतर प्रदर्शन कर सकते हैं। यह दृष्टिकोण विभिन्न उपयोग के मामलों के लिए एक सहायक प्रणाली के रूप में कार्य कर सकता है, जो दैनिक और साप्ताहिक रूप से जारी नए सामग्री की बड़ी मात्रा को स्वचालित रूप से स्कोर करने में सक्षम बनाता है।

‘संपादकीय टीमों या एल्गोरिदम द्वारा पर्याप्त बातचीत डेटा एकत्र करने से पहले प्रारंभिक अंतर्दृष्टि प्रदान करके, एलएलएम सामग्री समीक्षा प्रक्रिया को सुव्यवस्थित कर सकते हैं।

‘एलएलएम की दक्षता में निरंतर सुधार और सिफारिश एजेंटों के उदय के साथ, इस कार्य से अंतर्दृष्टि विभिन्न डोमेन में मूल्यवान और अनुकूलनीय हैं। ‘

यदि दृष्टिकोण मजबूत साबित होता है, तो यह उद्योग को पूर्वावलोकन से पहले वादा करने वाली सामग्री को फ्लैग करने के लिए एक मापनीय तरीका पेश करके प्रतिगामी मेट्रिक्स और भारी रूप से प्रचारित शीर्षकों पर अपनी निर्भरता को कम कर सकता है। इस प्रकार, उपयोगकर्ता व्यवहार के संकेत देने की प्रतीक्षा करने के बजाय, संपादकीय टीमें मेटाडेटा-संचालित दर्शक हित की प्रारंभिक भविष्यवाणियां प्राप्त कर सकती हैं, संभावित रूप से नए रिलीज़ की एक व्यापक श्रृंखला में एक्सपोज़र को पुनः वितरित कर सकती हैं।

विधि और डेटा

लेखक एक चार-चरण के कार्य प्रवाह का रूपरेखा तैयार करते हैं: एक समर्पित डेटासेट का निर्माण अप्रकाशित मूवी मेटाडेटा से; एक बेसलाइन मॉडल की स्थापना के लिए तुलना के लिए; एलएलएम का मूल्यांकन दोनों प्राकृतिक भाषा तर्क और एम्बेडिंग-आधारित भविष्यवाणी का उपयोग करके; और प्रोम्प्ट इंजीनियरिंग के माध्यम से आउटपुट का अनुकूलन, मेटा के लामा 3.1 और 3.3 भाषा मॉडल का उपयोग करके।

चूंकि लेखकों का कहना है कि कोई सार्वजनिक रूप से उपलब्ध डेटासेट उनके परिकल्पना का परीक्षण करने का एक सीधा तरीका प्रदान नहीं करता है (क्योंकि अधिकांश मौजूदा संग्रह एलएलएम से पहले के हैं और विस्तृत मेटाडेटा की कमी है), उन्होंने कॉमकास्ट मनोरंजन प्लेटफ़ॉर्म से एक बेंचमार्क डेटासेट बनाया, जो प्रत्यक्ष और तृतीय-पक्ष इंटरफेस के माध्यम से दस लाख से अधिक उपयोगकर्ताओं की सेवा करता है।

डेटासेट नए रिलीज़ मूवी को ट्रैक करता है, और बाद में वे लोकप्रिय हो गए या नहीं। लोकप्रियता को उपयोगकर्ता इंटरैक्शन के माध्यम से परिभाषित किया गया है।

संग्रह मूवी पर केंद्रित है, न कि श्रृंखला पर, और लेखकों का कहना है:

‘हमने मूवी पर ध्यान केंद्रित किया क्योंकि वे टीवी श्रृंखला की तुलना में बाहरी ज्ञान से कम प्रभावित होते हैं, जो प्रयोगों की विश्वसनीयता में सुधार करता है।’

लेबल को विभिन्न समय खिड़कियों और सूची आकारों में एक शीर्षक के लोकप्रिय होने में समय का विश्लेषण करके सौंपा गया था। एलएलएम को जीनर, सिनॉप्सिस, रेटिंग, युग, कास्ट, क्रू, मूड, पुरस्कार, और पात्र प्रकार जैसे मेटाडेटा फ़ील्ड के साथ प्रेरित किया गया था।

तुलना के लिए, लेखकों ने दो बेसलाइन का उपयोग किया: एक यादृच्छिक क्रम; और एक लोकप्रिय एम्बेडिंग (पीई) मॉडल (जिसे हम जल्द ही देखेंगे)।

परियोजना ने बड़े भाषा मॉडल को प्राथमिक रैंकिंग विधि के रूप में उपयोग किया, जो भविष्यवाणी की गई लोकप्रियता स्कोर और साथ ही साथ औचित्य के साथ ऑर्डर की गई सूची उत्पन्न करता है – और इन आउटपुट को प्रोम्प्ट इंजीनियरिंग रणनीतियों द्वारा आकार दिया गया था जो संरचित मेटाडेटा का उपयोग करके मॉडल की भविष्यवाणियों को मार्गदर्शन करने के लिए डिज़ाइन किया गया था।

प्रेरणा रणनीति ने मॉडल को एक ‘संपादकीय सहायक’ के रूप में फ्रेम किया, जिसे आगामी मूवी की पहचान करने के लिए सौंपा गया था जो केवल संरचित मेटाडेटा के आधार पर सबसे अधिक लोकप्रिय होने की संभावना है, और फिर एक निश्चित सूची को पुनः क्रमित करने के लिए कार्य किया जाता है, नया आइटम पेश किए बिना, और आउटपुट को जेएसओएन प्रारूप में लौटाने के लिए।

परीक्षण

प्रयोग दो मुख्य चरणों का अनुसरण किया: पहले, लेखकों ने एक बेसलाइन स्थापित करने के लिए कई मॉडल वेरिएंट का परीक्षण किया, जिसमें एक संस्करण की पहचान की गई जो एक यादृच्छिक-क्रम विधि से बेहतर प्रदर्शन करता है।

दूसरा, उन्होंने बड़े भाषा मॉडल का परीक्षण उत्पादक मोड में किया, जो एक मजबूत बेसलाइन की तुलना में उनके आउटपुट की तुलना करता है, न कि एक यादृच्छिक रैंकिंग के साथ। इसका मतलब है कि मॉडल को एक प्रणाली से बेहतर प्रदर्शन करना था जो पहले से ही लोकप्रिय होने की संभावना वाली मूवी की भविष्यवाणी करने में कुछ क्षमता दिखा चुकी थी।

इस प्रकार, लेखकों का तर्क है, मूल्यांकन वास्तविक दुनिया की स्थितियों को बेहतर ढंग से दर्शाता है, जहां संपादकीय टीमें और सिफारिश प्रणालियां अक्सर एक मॉडल और अवसर के बीच नहीं चुन रही हैं, बल्कि विभिन्न स्तरों की भविष्यसूचक क्षमता वाली प्रतिस्पर्धी प्रणालियों के बीच हैं।

अज्ञान का लाभ

इस सेटअप में एक प्रमुख प्रतिबंध मॉडल के ज्ञान कट-ऑफ और मूवी की वास्तविक रिलीज़ तिथियों के बीच समय अंतराल था। क्योंकि भाषा मॉडल को मूवी के जारी होने से छह से बारह महीने पहले डेटा पर प्रशिक्षित किया गया था, उनके पास कोई पोस्ट-रिलीज़ जानकारी तक पहुंच नहीं थी, यह सुनिश्चित करते हुए कि भविष्यवाणियां पूरी तरह से मेटाडेटा पर आधारित थीं, न कि किसी भी सीखे गए दर्शक प्रतिक्रिया पर।

बेसलाइन मूल्यांकन

एक बेसलाइन का निर्माण करने के लिए, लेखकों ने तीन एम्बेडिंग मॉडल का उपयोग करके मूवी मेटाडेटा के सेमांटिक प्रतिनिधित्व उत्पन्न किए: बेर्ट वी4; लिंक-एम्बेड-मिस्ट्रल 7बी; और लामा 3.3 70बी, 8-बिट सटीकता में क्वांटाइज़ किया गया ताकि प्रायोगिक वातावरण की सीमाओं से मेल खाता है।

लिंक-एम्बेड-मिस्ट्रल को एमटीईबी (मैसिव टेक्स्ट एम्बेडिंग बेंचमार्क) लीडरबोर्ड पर अपनी शीर्ष स्थिति के कारण शामिल किया गया था।

प्रत्येक मॉडल ने उम्मीदवार मूवी के वेक्टर एम्बेडिंग उत्पन्न किए, जो फिर प्रत्येक मूवी रिलीज़ से पहले के सप्ताहों में शीर्ष सौ सबसे लोकप्रिय शीर्षकों के औसत एम्बेडिंग की तुलना में किया गया था।

लोकप्रियता कोसाइन समानता के बीच एम्बेडिंग का उपयोग करके अनुमानित किया गया था, जिसमें उच्च समानता स्कोर उच्च अनुमानित अपील को इंगित करते थे। प्रत्येक मॉडल की रैंकिंग सटीकता का मूल्यांकन एक यादृच्छिक क्रम बेसलाइन के खिलाफ प्रदर्शन को मापकर किया गया था।

[कैप्शन id=”attachment_217154″ align=”alignnone” width=”691″]लोकप्रिय एम्बेडिंग मॉडल के प्रदर्शन में सुधार एक यादृच्छिक बेसलाइन की तुलना में। प्रत्येक मॉडल का चार मेटाडेटा कॉन्फ़िगरेशन का उपयोग करके परीक्षण किया गया था: वी1 केवल जीनर शामिल है; वी2 केवल सिनॉप्सिस शामिल है; वी3 जीनर, सिनॉप्सिस, सामग्री रेटिंग, पात्र प्रकार, मूड, और रिलीज़ युग को जोड़ती है; वी4 वी3 कॉन्फ़िगरेशन में कास्ट, क्रू, और पुरस्कार जोड़ती है। परिणाम दिखाते हैं कि समृद्ध मेटाडेटा इनपुट रैंकिंग सटीकता को कैसे प्रभावित करते हैं। स्रोत: https://arxiv.org/pdf/2505.02693 लोकप्रिय एम्बेडिंग मॉडल के प्रदर्शन में सुधार एक यादृच्छिक बेसलाइन की तुलना में। प्रत्येक मॉडल का चार मेटाडेटा कॉन्फ़िगरेशन का उपयोग करके परीक्षण किया गया था: वी1 केवल जीनर शामिल है; वी2 केवल सिनॉप्सिस शामिल है; वी3 जीनर, सिनॉप्सिस, सामग्री रेटिंग, पात्र प्रकार, मूड, और रिलीज़ युग को जोड़ती है; वी4 वी3 कॉन्फ़िगरेशन में कास्ट, क्रू, और पुरस्कार जोड़ती है। परिणाम दिखाते हैं कि समृद्ध मेटाडेटा इनपुट रैंकिंग सटीकता को कैसे प्रभावित करते हैं। स्रोत: https://arxiv.org/pdf/2505.02693[/कैप्शन]

परिणाम (ऊपर दिखाया गया है), यह दिखाते हैं कि बेर्ट वी4 और लिंक-एम्बेड-मिस्ट्रल 7बी ने शीर्ष तीन सबसे लोकप्रिय शीर्षकों की पहचान करने में सबसे मजबूत सुधार दिया, हालांकि दोनों ने थोड़ा कम प्रदर्शन किया एकल सबसे लोकप्रिय आइटम की भविष्यवाणी करने में।

बेर्ट को अंततः एलएलएम के साथ तुलना के लिए बेसलाइन मॉडल के रूप में चुना गया था, क्योंकि इसकी दक्षता और समग्र लाभ इसकी सीमाओं से अधिक थे।

एलएलएम मूल्यांकन

शोधकर्ताओं ने दो रैंकिंग दृष्टिकोणों का उपयोग करके प्रदर्शन का मूल्यांकन किया: पेयरवाइज और लिस्टवाइज. पेयरवाइज रैंकिंग यह मूल्यांकन करती है कि क्या मॉडल एक आइटम को दूसरे के सापेक्ष सही ढंग से ऑर्डर करता है; और लिस्टवाइज रैंकिंग उम्मीदवारों की पूरी ऑर्डर की सूची की सटीकता पर विचार करती है।

इस संयोजन ने यह संभव बनाया कि न केवल यह मूल्यांकन किया जाए कि क्या व्यक्तिगत मूवी जोड़े सही ढंग से रैंक किए गए थे (स्थानीय सटीकता), बल्कि यह भी कि पूरी सूची वास्तविक लोकप्रियता क्रम को कितनी अच्छी तरह दर्शाती है (वैश्विक सटीकता).

पूर्ण, गैर-क्वांटाइज़ मॉडल का उपयोग किया गया ताकि प्रदर्शन हानि को रोका जा सके, जो एलएलएम-आधारित भविष्यवाणियों और एम्बेडिंग-आधारित बेसलाइन के बीच एक सुसंगत और पुनरुत्पादक तुलना सुनिश्चित करता है।

मेट्रिक्स

यह मूल्यांकन करने के लिए कि एलएलएम मूवी लोकप्रियता की भविष्यवाणी कितनी अच्छी तरह करते हैं, रैंकिंग-आधारित और वर्गीकरण-आधारित दोनों मेट्रिक्स का उपयोग किया गया था, विशेष रूप से शीर्ष तीन सबसे लोकप्रिय शीर्षकों की पहचान करने पर ध्यान केंद्रित किया गया था।

चार मेट्रिक्स लागू किए गए: सटीकता@1 ने मापा कि सबसे लोकप्रिय आइटम पहली स्थिति में कितनी बार दिखाई दिया; प्रत्युत्तर रैंक ने मापा कि शीर्ष वास्तविक आइटम को कितनी उच्च रैंक दी गई थी, इसकी स्थिति के व्युत्क्रम को लेकर; सामान्यीकृत छूट संचयी लाभ (एनडीसीजी@के) ने मूल्यांकन किया कि रैंकिंग वास्तविक लोकप्रियता से कितनी अच्छी तरह मेल खाती है, उच्च स्कोर बेहतर संरेखण को इंगित करते हैं; और रिकॉल@3 ने मापा कि कितने वास्तविक लोकप्रिय शीर्षक मॉडल की शीर्ष तीन भविष्यवाणियों में दिखाई दिए।

चूंकि अधिकांश उपयोगकर्ता जुड़ाव रैंक की गई मेनू के शीर्ष पर होता है, मूल्यांकन ने व्यावहारिक उपयोग के मामलों को प्रतिबिंबित करने के लिए के के निम्न मान पर केंद्रित किया।
[कैप्शन id=”attachment_217155″ align=”alignnone” width=”654″]बेर्ट वी4 पर बड़े भाषा मॉडल के प्रदर्शन में सुधार, रैंकिंग मेट्रिक्स में प्रतिशत लाभ के रूप में मापा जाता है। परिणाम प्रत्येक मॉडल-प्रोम्प्ट संयोजन के लिए दस रन के औसत हैं, और शीर्ष दो मूल्यों को हाइलाइट किया गया है। रिपोर्ट किए गए आंकड़े सभी मेट्रिक्स में औसत प्रतिशत सुधार को दर्शाते हैं। स्रोत: https://arxiv.org/pdf/2505.02693 बेर्ट वी4 पर बड़े भाषा मॉडल के प्रदर्शन में सुधार, रैंकिंग मेट्रिक्स में प्रतिशत लाभ के रूप में मापा जाता है। परिणाम प्रत्येक मॉडल-प्रोम्प्ट संयोजन के लिए दस रन के औसत हैं, और शीर्ष दो मूल्यों को हाइलाइट किया गया है। रिपोर्ट किए गए आंकड़े सभी मेट्रिक्स में औसत प्रतिशत सुधार को दर्शाते हैं। स्रोत: https://arxiv.org/pdf/2505.02693[/कैप्शन]

लामा मॉडल 3.1 (8बी), 3.1 (405बी), और 3.3 (70बी) के प्रदर्शन का मूल्यांकन बेर्ट वी4 बेसलाइन के सापेक्ष मेट्रिक्स में सुधार को मापकर किया गया था। प्रत्येक मॉडल का एक श्रृंखला प्रोम्प्ट का उपयोग करके परीक्षण किया गया था, जो न्यूनतम से लेकर जानकारीपूर्ण तक था, मेटाडेटा विवरण के प्रभाव को भविष्यवाणी की गुणवत्ता पर परीक्षण करने के लिए।

लेखकों का कहना है:

‘सर्वोत्तम प्रदर्शन तब हासिल किया जाता है जब लामा 3.1 (405बी) का उपयोग सबसे जानकारीपूर्ण प्रोम्प्ट के साथ किया जाता है, इसके बाद लामा 3.3 (70बी) होता है। देखे गए रुझान के आधार पर, जब एक जटिल और लंबे प्रोम्प्ट (एमडी वी4) का उपयोग किया जाता है, तो एक अधिक जटिल भाषा मॉडल आमतौर पर विभिन्न मेट्रिक्स में बेहतर प्रदर्शन करता है। हालांकि, यह जोड़े जाने वाली जानकारी के प्रकार के प्रति संवेदनशील है। ‘

प्रदर्शन में सुधार हुआ जब प्रोम्प्ट में पुरस्कार शामिल किए गए, जिसमें प्रत्येक फिल्म में शीर्ष पांच बिल किए गए अभिनेताओं द्वारा प्राप्त प्रमुख पुरस्कारों की संख्या शामिल थी। यह समृद्ध मेटाडेटा सबसे विस्तृत प्रोम्प्ट कॉन्फ़िगरेशन का हिस्सा था, जो एक सरल संस्करण से बेहतर प्रदर्शन करता था जिसने कास्ट मान्यता को बाहर रखा था।

इसके विपरीत, सबसे छोटा मॉडल, लामा 3.1 (8बी), जेनर से लेकर सिनॉप्सिस तक प्रोम्प्ट के थोड़े विस्तार के साथ बेहतर प्रदर्शन करता था, लेकिन जब अधिक क्षेत्र जोड़े गए तो यह कमजोर हो गया, यह दर्शाता है कि मॉडल जटिल प्रोम्प्ट को प्रभावी ढंग से एकीकृत करने में सक्षम नहीं था, जिससे कमजोर सामान्यीकरण हुआ।

जब प्रोम्प्ट को केवल जीनर तक सीमित किया गया था, सभी मॉडल बेसलाइन के खिलाफ खराब प्रदर्शन करते थे, यह दर्शाते हुए कि सीमित मेटाडेटा को अर्थपूर्ण भविष्यवाणियों का समर्थन करने के लिए पर्याप्त नहीं था।

निष्कर्ष

एलएलएम जनरेटिव एआई के लिए पोस्टर चाइल्ड बन गए हैं, जो यह समझाने में मदद कर सकता है कि वे उन क्षेत्रों में क्यों तैनात किए जा रहे हैं जहां अन्य विधियां बेहतर फिट हो सकती हैं। फिर भी, अभी भी बहुत कुछ है जो हम नहीं जानते हैं कि वे विभिन्न उद्योगों में क्या कर सकते हैं, इसलिए उन्हें एक शॉट देना समझ में आता है।

इस विशेष मामले में, जैसे कि स्टॉक मार्केट और मौसम पूर्वानुमान में, ऐतिहासिक डेटा केवल एक सीमित स्तर तक भविष्य की भविष्यवाणियों का आधार बन सकता है। मूवी और टीवी शो के मामले में, वितरण विधि अब एक चलती लक्ष्य है, 1978-2011 की अवधि के विपरीत, जब केबल, सैटेलाइट और पोर्टेबल मीडिया (वीएचएस, डीवीडी, आदि) एक श्रृंखला का प्रतिनिधित्व करते थे। ऐतिहासिक विक्षोभ जो स्थानांतरित हो गए थे या विकसित हो रहे थे।

हालांकि, जब सावधानी से उपयोग किया जाता है, तो एलएलएम कोल्ड-स्टार्ट चरण के दौरान सिफारिश प्रणालियों को मजबूत करने में मदद कर सकते हैं, विभिन्न भविष्यसूचक विधियों के पार एक उपयोगी समर्थन प्रदान करते हैं।

 

मंगलवार, 6 मई, 2025 को पहली बार प्रकाशित

मशीन लर्निंग पर लेखक, मानव इमेज सिंथेसिस में डोमेन विशेषज्ञ। मेटाफिजिक.एआई में अनुसंधान सामग्री के पूर्व प्रमुख।
व्यक्तिगत साइट: martinanderson.ai
संपर्क: [email protected]
ट्विटर: @manders_ai