Connect with us

जनरेटिव-ऑगमेंटेड रिट्रीवल डेटा एनालिटिक्स का अगला मोर्चा क्यों है

विचार नेता

जनरेटिव-ऑगमेंटेड रिट्रीवल डेटा एनालिटिक्स का अगला मोर्चा क्यों है

mm

चार में से तीन लोग कहते हैं कि उनके संगठन एआई का उपयोग करते हैं। फिर भी अधिकांश गतिविधि अभी भी असंरचित सामग्री पर केंद्रित है: बैठकों का सारांश, ईमेल की रूपरेखा, या ग्राहक सहायता को स्वचालित करना।

लेकिन विडंबना यह है कि व्यवसायिक निर्णय लेने के लिए जो डेटा वास्तव में उपयोग किया जाता है – वित्तीय रिपोर्ट, वेयरहाउस टेबल, और केपीआई – अभी भी बड़े पैमाने पर एआई द्वारा अनछुआ है।

कारण महत्वाकांक्षा की कमी नहीं है, बल्कि विश्वास की कमी है। जब एक मॉडल एक वाक्य को हॉलुसिनेट करता है, तो अक्सर इसे ठीक किया जा सकता है; जब यह एक संख्या को हॉलुसिनेट करता है, तो यह विनाशकारी है। एक सीएफओ किसी ऐसे उत्तर पर हस्ताक्षर नहीं कर सकता जिसे वह सत्यापित नहीं कर सकता।

आज, संरचित डेटा दर्जनों प्रणालियों में रहता है, प्रत्येक के अपने नियम और संबंध हैं। एआई को उस जटिलता के पार सही तरीके से तर्क करने के लिए प्राप्त करना किसी भी चैटबॉट से अधिक कठिन चुनौती है।

व्यवसाय और उनकी टीमें, जिसमें गैर-तकनीकी उपयोगकर्ता भी शामिल हैं, अपने डेटा के साथ एक सरल तरीके से बातचीत करने में सक्षम होने की आवश्यकता है ताकि बोतलनेक को कम किया जा सके और तेज़, सटीक अंतर्दृष्टि प्राप्त की जा सके। बिना एसक्यूएल सीखे।

कुछ समाधान उभर रहे हैं – आइए कुछ प्रमुख उदाहरणों पर एक नज़र डालें, उनके लाभों और उनकी कमियों के साथ।

एआई और संरचित डेटा – एक पुल बहुत दूर

पिछले दो वर्षों में, एआई अंतर्दृष्टि और संरचित डेटा को पुल करने के लिए कई प्रयास सामने आए हैं।

बहुत से लोग महत्वपूर्ण संसाधनों और डेटा वाले टेक दिग्गजों से आते हैं। स्नोफ्लेक, उदाहरण के लिए, अपने कोर्टेक्स विश्लेषक के साथ आया, जो उपयोगकर्ताओं को स्नोफ्लेक डेट वेयरहाउस के खिलाफ प्राकृतिक भाषा प्रश्न पूछने की अनुमति देने का प्रयास करता है।

सटीकता में सुधार करने के लिए, कोर्टेक्स में सेमेंटिक मेटाडेटा प्रदान करने का एक तरीका है – लेकिन मॉडल भारी रूप से सीमित है। एक के लिए, इसे मैन्युअल रूप से बनाया जाना होगा, और यहां तक ​​कि ऐसा करने पर भी, यह केवल 10 टेबल पर काम कर सकता है, जो मध्यम आकार की कंपनी के लिए भी पर्याप्त नहीं है। इससे अधिक, और विश्वास टूट जाता है, क्योंकि सटीकता कम हो जाती है।

यह कहानी डाटाब्रिक्स के प्रयासों के साथ दोहराई जाती है, जिसने एआई/बीआई जीनी के साथ एक टेक्स्ट-टू-एसक्यूएल दृष्टिकोण लिया। यह समाधान केवल छोटे डोमेन पर प्रभावी ढंग से तैनात किया जा सकता है, बड़े डेटासेट के साथ सटीकता खो देता है।

माइक्रोसॉफ्ट पावर बीआई कोपायलट एक सतह-स्तरीय जनरेटिव दृष्टिकोण लेता है, डैशबोर्ड के भीतर सीधे एआई को एम्बेड करता है ताकि दृश्यों का वर्णन किया जा सके, उपायों का सुझाव दिया जा सके और रिपोर्ट तैयार की जा सके। यह अन्वेषण को बढ़ाता है लेकिन विश्लेषण को कैसे तर्क दिया जाता है या सत्यापित किया जाता है, इसमें कोई बदलाव नहीं आता है। प्रत्येक प्रतिक्रिया अभी भी मॉडल के निर्णय पर निर्भर करती है, और जब उस निर्णय में विफलता होती है, तो कोई ऑडिट ट्रेल या निर्धारित तर्क नहीं होता है जिस पर वापस गिरा जा सके।

सामूहिक रूप से, ये सिस्टम सही दिशा में इशारा करते हैं: संरचित उद्यम डेटा पर एआई को तैनात करना। लेकिन वे एक महत्वपूर्ण दोष भी साझा करते हैं। वे प्राकृतिक भाषा से एसक्यूएल को जनरेट करने के लिए एआई मॉडल पर निर्भर करते हैं, और जब वह एसक्यूएल गलत होता है, जो अक्सर होता है, तो व्यवसाय उपयोगकर्ता फंस जाता है। जो कार्यकारी एसक्यूएल नहीं पढ़ सकता है उसके पास परिणाम का निदान या सुधार करने का कोई तरीका नहीं है। बातचीत ठंडे बस्ते में चली जाती है।

समस्या के समाधान का एक और तरीका है संभावित प्रश्न-उत्तर जोड़े को पूर्व-इंडेक्स करना। एडा का जीएआरएजी, अन्य लोगों के बीच, इस विधि का पालन करता है। यह संकीर्ण डोमेन में काम करता है जहां प्रश्न पredictable होते हैं, लेकिन जैसे ही डेटा जटिलता बढ़ती है, प्रदर्शन गिर जाता है। एक बार जब टेबल और स्कीमा गुणा हो जाते हैं, तो पूर्व-इंडेक्सिंग जल्दी ही अप्रबंधनीय हो जाती है।

एक अलग मार्ग: जनरेटिव-ऑगमेंटेड रिट्रीवल

जनरेटिव-ऑगमेंटेड रिट्रीवल (जीएआर) वर्तमान आरएजी दृष्टिकोण को अपने सिर पर रखता है (रिट्रीवल-ऑगमेंटेड जेनरेशन प्रासंगिक जानकारी का स्रोत है और इसे बढ़ी हुई सटीकता के लिए एलएलएम में शामिल करता है)।

एलएलएम को एसक्यूएल लिखने के लिए कहने के बजाय, जीएआर उपयोगकर्ता के प्रश्न के इरादे को समझने के लिए जनरेटिव एआई का उपयोग करता है, और फिर उत्तर को जनरेट करने के लिए तर्क कदम बनाता है।

जीएआर में, प्रश्न सीधे ज्ञान आधार के साथ बातचीत करते हैं। वे संकलित किए जाते हैं, न कि उत्पन्न किए जाते हैं, एक ही प्रश्न हमेशा एक ही उत्तर देता है। जीएआर में एक तर्क श्रृंखला एक स्थायी रूप से समीक्षा की जाने वाली कलाकृति है, एक अस्थायी बातचीत नहीं है, इसलिए तर्क की पूरी श्रृंखला को पुन: उत्पन्न किया जा सकता है।

इसका मतलब है कि परिणाम सामान्यीकृत जेनएआई इंजनों की तुलना में असीम रूप से अधिक सटीक हैं।

इसके मूल में, जीएआर तीन चीजें करता है:

  1. स्वचालित रूप से एक सेमेंटिक परत बनाता है। जीएआर उपयोगकर्ता के प्रश्न के इरादे को समझने के लिए एआई का उपयोग करता है, और फिर उत्तर को जनरेट करने के लिए तर्क कदम बनाता है
  2. व्यावसायिक इरादे को उच्च-स्तरीय विश्लेषणात्मक भाषा में अनुवादित करता है। यह भाषा व्यावसायिक अवधारणा स्तर (“राजस्व प्रति दौरे से प्रदाता के लिए क्यू 2”) पर प्रश्न को पकड़ती है और सीधे एसक्यूएल में संकलित होती है
  3. प्रत्येक तर्क चरण के लिए लॉग्स। प्रत्येक प्रतिक्रिया का मूल स्पष्ट है

यह क्यों मायने रखता है

व्यवसाय के अपने आंतरिक ज्ञान मॉडल के लिए तर्क को प्रतिबंधित करके, जीएआर हॉलुसिनेशन को समाप्त कर सकता है और साबित रूप से सही उत्तर प्रदान कर सकता है।

परिभाषाएं, मेट्रिक्स और प्रश्न पैटर्न समय के साथ जुड़ते हैं, जिससे भविष्य के उत्तर अपने विशिष्ट उपयोगकर्ता के लिए और अधिक अनुकूलित हो जाते हैं।

व्यवसायिक उपयोगकर्ताओं के लिए जो अपने संरचित डेटा पर सूचित व्यवसायिक निर्णय लेने पर निर्भर करते हैं, विश्वास का तत्व महत्वपूर्ण है। जैसे ही अधिक से अधिक संगठन उन्नत एआई समाधान लागू करते हैं, वे ऐसे फ्रेमवर्क की मांग करेंगे जो हॉलुसिनेशन और त्रुटि के जोखिम को लगभग शून्य तक ले जाएं।

यह तब होता है जब प्रश्न सीधे आपके डेटा से जुड़ते हैं, जब एआई बड़े डेटासेट पर काम कर सकता है बिना टूटे, और जब उत्तर निरंतरता और साबित करने योग्य होते हैं।

रोब जियार्डिना Claritype के सह-संस्थापक और सीईओ हैं, एक कंपनी जो एआई सिस्टम विकसित कर रही है जो उद्यम डेटा विश्लेषण में व्याख्या और लेखा परीक्षा की सुविधा प्रदान करते हैं। उन्होंने पहले पालंटिर टेक्नोलॉजीज में एक फॉरवर्ड डिप्लॉयड इंजीनियर के रूप में काम किया था।