рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдбреЙрдХрд▓реИрдВрдЧ рдПрдЖрдИ-рд░реЗрдбреА рдбреЙрдХреНрдпреВрдореЗрдВрдЯреНрд╕ рдХреЗ рд▓рд┐рдП рдпреВрдирд┐рд╡рд░реНрд╕рд▓ рднрд╛рд╖рд╛ рдмрдирдиреЗ рдХрд╛ рд▓рдХреНрд╖реНрдп рд░рдЦрддрд╛ рд╣реИ

mm

दशकों से, उद्यमों ने मानव पाठकों के लिए डिज़ाइन किए गए दस्तावेज़ प्रारूपों पर निर्भर किया है, न कि एआई प्रणालियों के लिए। अनुबंध, चालान, रिपोर्ट, प्रस्तुतियाँ, फॉर्म, और कई अन्य व्यावसायिक दस्तावेज़ मूल्यवान जानकारी से भरे हुए हैं, लेकिन उस ज्ञान को एआई अनुप्रयोगों के लिए निकालने के लिए अक्सर जटिल प्रसंस्करण पाइपलाइनों की आवश्यकता होती है जो लागत, विलंबता, और त्रुटि के अवसर जोड़ते हैं।

जैसे ही संगठन बढ़ते हुए जनरेटिव एआई और स्वायत्त एजेंटों को तैनात करते हैं, वह डिस्कनेक्ट एक बढ़ती हुई चुनौती बन गई है। इसे संबोधित करने के लिए, एबीबीवाई ने आईबीएम, एनवीडिया, रेड हैट, ह्यूमनसिग्नल, और लिनक्स फाउंडेशन के एलएफ एआई एंड डेटा फाउंडेशन के साथ मिलकर डॉकलैंग लॉन्च किया है, जो एक नई ओपन स्टैंडर्ड है जो दस्तावेजों का एआई-मूलभूत प्रतिनिधित्व बनाने के लिए डिज़ाइन किया गया है। इस पहल के समर्थकों का मानना है कि यह एचटीएमएल के वेब सामग्री के मानकीकरण के समान भूमिका निभा सकता है, जो एक सामान्य भाषा बनाता है जो एआई प्रणालियों को दस्तावेजों को अधिक संगत और कुशलता से समझने में मदद कर सकता है।

दस्तावेज़ एआई समस्या क्यों बन गए हैं

दुनिया के अधिकांश व्यवसायिक ज्ञान पीडीएफ, स्कैन्ड इमेज, स्प्रेडशीट, और प्रस्तुतियों जैसे प्रारूपों में मौजूद है। जबकि ये प्रारूप मानव उपभोग के लिए अच्छा काम करते हैं, वे मशीन समझ के लिए डिज़ाइन नहीं किए गए थे।

मानव तुरंत शीर्षक, तालिकाएं, अनुभागों के बीच संबंध, और जानकारी के महत्व को उसके दस्तावेज़ के भीतर स्थान के आधार पर पहचान सकते हैं। एआई प्रणालियों, हालांकि, अक्सर एक ही सामग्री को विश्वसनीय रूप से व्याख्या करने से पहले कई परतों के ओसीआर, लेआउट विश्लेषण, दस्तावेज़ पार्सिंग, और पोस्ट-प्रोसेसिंग की आवश्यकता होती है।

यह चुनौती तब और भी महत्वपूर्ण हो जाती है जब संगठन एआई एजेंटों को अपनाते हैं जो बड़े उद्यम डेटा संग्रहों पर तर्क कर सकते हैं। प्रत्येक दस्तावेज़ को पहले एक संरचित प्रतिनिधित्व में परिवर्तित किया जाना चाहिए trước कि यह भाषा मॉडल, पुनर्प्राप्ति प्रणाली, या स्वचालित कार्य प्रवाह द्वारा प्रभावी ढंग से उपयोग किया जा सके।

परिणाम एक खंडित पारिस्थितिकी तंत्र है जिसमें विभिन्न उपकरण अक्सर अपने स्वयं के दस्तावेज़ प्रतिनिधित्व बनाते हैं, जो अंतरपरिवर्तनीयता को कठिन बनाता है और असंगतता की संभावना को बढ़ाता है।

एबीबीवाई ने दृष्टि को आकार देने में कैसे मदद की

एबीबीवाई डॉकलैंग पहल के पीछे एक प्रमुख योगदानकर्ता के रूप में उभरा है। कंपनी ने दस्तावेज़ बुद्धिमत्ता, ओसीआर, और स्वचालन प्रौद्योगिकियों का विकास करने में दशकों बिताए हैं, जो इसे पारंपरिक दस्तावेजों और आधुनिक एआई प्रणालियों के बीच की खाई को पाटने की कोशिश करने वाले उद्यमों के सामने आने वाली चुनौतियों पर एक अनोखा दृष्टिकोण प्रदान करता है।

एबीबीवाई के एआई रणनीति के उपाध्यक्ष मैक्सिम वर्मीर के अनुसार, डॉकलैंग का विचार दस्तावेज़ एआई समुदाय के भीतर एक सामान्य प्रतिनिधित्व परत की आवश्यकता के बारे में बातचीत से निकला है जो कच्चे दस्तावेजों और एआई अनुप्रयोगों के बीच बैठ सकती है।

“डॉकलैंग दस्तावेज़ के लिए एक सामान्य प्रतिनिधित्व परत बनाने के लिए डिज़ाइन किया गया है जो एआई प्रणालियों के लिए समझने में आसान हो,” वर्मीर ने समझाया।

इसका उद्देश्य दस्तावेज़ समझने को अधिक विश्वसनीय बनाना, खोए हुए संदर्भ के कारण होने वाले हॉलुसिनेशन को कम करना, और उसी जानकारी को बार-बार प्रसंस्करण करने से जुड़े गणनात्मक लागत को कम करना है।

लक्ष्य यह है कि दस्तावेज़ समझने को अधिक विश्वसनीय बनाना, खोए हुए संदर्भ के कारण होने वाले हॉलुसिनेशन को कम करना, और उसी जानकारी को बार-बार प्रसंस्करण करने से जुड़े गणनात्मक लागत को कम करना।

डॉकलैंग क्या है?

डॉकलैंग एआई प्रणालियों के लिए अनुकूलित प्रारूप में दस्तावेजों का प्रतिनिधित्व करने के लिए एक ओपन स्पेसिफिकेशन है।

पारंपरिक प्रारूपों के विपरीत जो मुख्य रूप से दृश्य प्रस्तुति पर केंद्रित हैं, डॉकलैंग एक ही समय में कई परतों की जानकारी को संरक्षित करने के लिए डिज़ाइन किया गया है, जिसमें शामिल हैं:

  • सेमेंटिक अर्थ
  • दस्तावेज़ संरचना और पदानुक्रम
  • ज्यामितीय लेआउट और स्थिति
  • तालिकाएं और जटिल दस्तावेज़ तत्व
  • मेटाडेटा
  • शासन और उपयोग नियंत्रण

यह दृष्टिकोण एआई प्रणालियों को यह समझने में मदद करता है कि दस्तावेज़ में क्या जानकारी है, साथ ही साथ यह भी कि वह जानकारी कैसे संगठित और संबंधित है।

उदाहरण के लिए, एक वित्तीय तालिका में एक मान अपने आप में महत्वपूर्ण होता है, लेकिन इसके आसपास के पंक्तियों, स्तंभों, शीर्षकों, और संदर्भ जानकारी के संबंध में भी इसका महत्व होता है। उन संबंधों को एक मानक प्रारूप में संरक्षित करने से एआई प्रणालियों को दस्तावेज़ सामग्री के बारे में अधिक सटीक रूप से तर्क करने में मदद मिल सकती है।

डॉकलैंग में शासन नियंत्रण भी शामिल हैं जो संगठनों को यह निर्दिष्ट करने की अनुमति देते हैं कि दस्तावेज़ सामग्री का उपयोग कैसे किया जा सकता है, जिसमें गोपनीयता, निकासी, और एआई मॉडल प्रशिक्षण से संबंधित नीतियां शामिल हैं।

एचटीएमएल तुलना

इस पहल के समर्थक अक्सर डॉकलैंग की तुलना वेब सामग्री के मानकीकरण में एचटीएमएल की भूमिका से करते हैं।

एचटीएमएल व्यापक रूप से अपनाया जाने से पहले, ब्राउज़रों के लिए सामग्री को संगत रूप से व्याख्या और प्रदर्शित करने का कोई सार्वभौमिक तरीका नहीं था। एचटीएमएल ने एक सामान्य संरचना पेश की जिसने विभिन्न प्रणालियों और प्लेटफार्मों पर वेबसाइटों को समझने की अनुमति दी।

डॉकलैंग उद्यम दस्तावेजों में उसी स्तर के मानकीकरण को लाने का लक्ष्य रखता है। एआई प्लेटफ़ॉर्म द्वारा दस्तावेज़ संरचना की अपनी व्याख्या विकसित करने के बजाय, एक साझा प्रारूप दस्तावेज़ समझने के लिए एक सामान्य आधार प्रदान कर सकता है।

एआई अपनाने के त्वरण के साथ, समर्थकों का तर्क है कि मानकीकृत दस्तावेज़ प्रतिनिधित्व मॉडल, अनुप्रयोगों और स्वायत्त एजेंटों के बीच अंतरपरिवर्तनीयता सुनिश्चित करने के लिए बढ़ती हुई महत्वपूर्णता का सामना कर सकते हैं।

डॉकलैंग और डॉकलिंग कैसे एक साथ काम करते हैं

इस पहल में डॉकलिंग पर भी निर्माण किया गया है, जो आईबीएम रिसर्च ज़ुरिख द्वारा विकसित और 2024 में ओपन सोर्स के रूप में जारी किया गया एक ओपन-सोर्स दस्तावेज़ प्रोसेसिंग टूलकिट है।

डॉकलिंग दस्तावेज़ अंतर्ग्रहण और रूपांतरण पर केंद्रित है। यह पीडीएफ, वर्ड दस्तावेज़, स्प्रेडशीट, प्रस्तुतियों, एचटीएमएल फ़ाइलों, और छवियों को संसाधित कर सकता है, उन्हें उन्नत लेआउट विश्लेषण और दस्तावेज़ समझ मॉडल का उपयोग करके संरचित प्रतिनिधित्व में परिवर्तित कर सकता है।

डॉकलैंग उस क्षमता को पूरक करता है जो संरचित आउटपुट के प्रतिनिधित्व और आदान-प्रदान के लिए एक मानक प्रारूप प्रदान करता है जो डॉकलिंग जैसे टूल द्वारा उत्पन्न किया जाता है।

एक साथ, परियोजनाएं एक अधिक पूर्ण दस्तावेज़ एआई स्टैक बनाती हैं:

  • डॉकलिंग दस्तावेज़ अंतर्ग्रहण और समझ को संभालता है
  • डॉकलैंग एक सार्वभौमिक प्रतिनिधित्व परत प्रदान करता है
  • एआई मॉडल और एजेंट परिणामी संरचित जानकारी का उपभोग करते हैं

यह विभाजन खंडितता को कम करते हुए एक सामान्य फ्रेमवर्क बनाता है जिसे विभिन्न विक्रेताओं और विकासकर्ताओं द्वारा अपनाया जा सकता है।

उद्यम एआई के लिए ओपन स्टैंडर्ड्स क्यों महत्वपूर्ण हैं

जैसे ही उद्यम एआई तैनाती प्रयोग से उत्पादन में जाती है, अंतरपरिवर्तनीयता बढ़ती हुई महत्वपूर्णता का सामना कर रही है।

संगठन अक्सर एक ही एआई मॉडल, दस्तावेज़ प्लेटफ़ॉर्म, या सॉफ़्टवेयर विक्रेता पर निर्भर नहीं रहते हैं। इसके बजाय, वे जटिल पारिस्थितिकी तंत्र संचालित करते हैं जिन्हें सिस्टम के बीच सूचना को निर्बाध रूप से स्थानांतरित करने की आवश्यकता होती है।

ओपन स्टैंडर्ड्स ने ऐतिहासिक रूप से प्रौद्योगिकी अपनाने को सक्षम करने में महत्वपूर्ण भूमिका निभाई है bằng एक सामान्य फ्रेमवर्क बनाकर एकीकरण जटिलता और विक्रेता लॉक-इन को कम करते हैं। कुबेरनेट्स ने क्लाउड-मूलभूत बुनियादी ढांचे को मानकीकृत करने में मदद की, जबकि एचटीएमएल आधुनिक वेब का आधार बन गया।

डॉकलैंग के समर्थकों का मानना है कि एआई-मूलभूत दस्तावेज़ मानक उद्यम बुद्धिमत्ता और एजेंटिक एआई कार्य प्रवाह के लिए एक समान कार्य कर सकते हैं।

आगे की ओर देखते हुए

एआई उद्योग ने मशीनों को दस्तावेजों की व्याख्या करने के लिए जो कभी मशीनों के लिए डिज़ाइन नहीं किए गए थे, उन्हें सिखाने में बड़ी मेहनत की है। डॉकलैंग उस चुनौती का सामना करने का प्रयास है जो इसके मूल में है – एक दस्तावेज़ भाषा बनाना जो विशेष रूप से एआई के लिए डिज़ाइन की गई है।

यदि सफल होता है, तो यह पहल दस्तावेज़ व्याख्या में सुधार, खोए हुए संरचनात्मक संदर्भ के कारण होने वाले हॉलुसिनेशन को कम करने, प्रसंस्करण लागत को कम करने, और एआई प्रणालियों को प्लेटफ़ॉर्म के पार सूचना का आदान-प्रदान करने में मदद कर सकती है।

एक समय जब संगठन व्यावसायिक ज्ञान के विशाल संग्रहों को नेविगेट करने के लिए एआई एजेंटों पर बढ़ती हुई निर्भरता रखते हैं, दस्तावेजों का प्रतिनिधित्व कैसे किया जाता है यह मॉडलों को आगे बढ़ाने के रूप में ही महत्वपूर्ण साबित हो सकता है। एबीबीवाई और इसके सहयोगियों के लिए, डॉकलैंग उस भविष्य को संभव बनाने के लिए आधार बनाने का प्रयास है।

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ рдпреВрдирд╛рдЗрдЯ.рдПрдЖрдИ рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХш┐Юч╗н рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдмрд┐рдЬрд▓реА рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рднрд╡рд┐рд╖реНрдпрд╡рд╛рдгреА рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЬрд╛рдирдиреЗ рдХреЗ рд▓рд┐рдП рд╕рдорд░реНрдкрд┐рдд рд╣реИ рдХрд┐ рд╡реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдХреИрд╕реЗ рдЖрдХрд╛рд░ рджреЗрдВрдЧреЗред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдкреБрдирд░рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдкреБрдирдГ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдирд╡реАрдирддрдо рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред