рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░

рдЗрдВрдЬреА рдЬрд╝реАрджрд╛рди, рдкреАрдПрдЪрдбреА, рдкреНрд░реЛрдЯреЗрдЧреЗ рдХреЗ рдореБрдЦреНрдп рд╡реИрдЬреНрдЮрд╛рдирд┐рдХ рдЕрдзрд┐рдХрд╛рд░реА рдФрд░ рд╕рд╣-рд╕рдВрд╕реНрдерд╛рдкрдХ – рд╕рд╛рдХреНрд╖рд╛рддреНрдХрд╛рд░ рд╢реНрд░реГрдВрдЦрд▓рд╛

mm

इंजी ज़ीदान, पीएचडी, प्रोटेगे के मुख्य वैज्ञानिक अधिकारी और सह-संस्थापक, एक अनुप्रयुक्त माइक्रोइकॉनोमिस्ट हैं जिनका काम शिक्षा विज्ञान, व्यवहारिक अर्थशास्त्र और बड़े पैमाने पर डेटा विश्लेषण के बीच के giao क्षेत्र में है, जो तेजी से विकसित हो रहे एआई डेटा परत में अकादमिक कठोरता लाता है। इंडियाना विश्वविद्यालय में सहायक प्रोफेसर के रूप में और पहले टुलेन विश्वविद्यालय में, उनके शोध ने स्वास्थ्य नीति, प्रोत्साहन और जटिल डेटासेट का उपयोग करके वास्तविक दुनिया के परिणामों पर केंद्रित किया है। प्रोटेगे में, वह प्रशिक्षण डेटा प्रणालियों को मापनीय, पुनरुत्पादक और वैज्ञानिक रूप से मान्य बनाने के लिए कारणात्मक अनुमान और अर्थमितीय विधियों को लागू करती है। वह डेटालैब, कंपनी की अनुसंधान शाखा का भी नेतृत्व करती है, जहां वह अर्थशास्त्रियों, मशीन लर्निंग शोधकर्ताओं और डोमेन विशेषज्ञों की अंतरविषयक टीमों का मार्गदर्शन करती है जो एआई डेटासेट को बेहतर ढंग से डिज़ाइन, मूल्यांकन और तैनात करने के लिए काम कर रहे हैं, डेटा को मॉडल प्रदर्शन और विश्वसनीयता के मुख्य चालक के रूप में नहीं मानते हैं।

प्रोटेगे एक एआई डेटा प्लेटफ़ॉर्म है जो उच्च गुणवत्ता वाले वास्तविक दुनिया के डेटासेट को बड़े पैमाने पर अनलॉक करने पर केंद्रित है, जो आधुनिक एआई विकास में सबसे बड़ी बोतलेंक को संबोधित करता है: डेटा गुणवत्ता। अपनी डेटालैब पहल के माध्यम से, कंपनी डेटासेट निर्माण, मूल्यांकन और बेंचमार्किंग के लिए एक अनुसंधान-संचालित ढांचा बना रही है, जो एआई प्रणालियों को वास्तविक दुनिया के वातावरण में अधिक विश्वसनीय रूप से प्रदर्शन करने में मदद कर रही है। प्लेटफ़ॉर्म स्वास्थ्य सेवा, मीडिया और वैज्ञानिक अनुसंधान जैसे उद्योगों में काम करता है, जो वास्तविक दुनिया की जटिलता की तुलना में सिंथेटिक अनुमानों को प्रतिबिंबित करने वाले संरचित डेटासेट और बेंचमार्क का उत्पादन करता है। वैज्ञानिक विधियों को व्यावसायिक अनुप्रयोगों के साथ जोड़कर, प्रोटेगे डेटा को मॉडल और कंप्यूट के समान महत्व के स्तर पर उठाने का लक्ष्य रखता है, खुद को अगली पीढ़ी के एआई सिस्टम के लिए महत्वपूर्ण बुनियादी ढांचे के रूप में स्थापित करता है।

आपका शैक्षणिक कार्य स्वास्थ्य अर्थशास्त्र, कारणात्मक अनुमान और बड़े वास्तविक दुनिया के डेटासेट में फैला हुआ है, और अब आपने एक कंपनी बनाने में मदद की है जो एआई को शक्ति देने वाले डेटा परत पर केंद्रित है। आपके शोध और करियर में कौन से अनुभव आपको प्रोटेगे बनाने में मदद करने के लिए ले आए, और उन अंतर्दृष्टियों ने कंपनी के दृष्टिकोण और इसकी प्रारंभिक वित्तपोषण सुरक्षित करने की क्षमता को कैसे आकार दिया?

मेरी अकादमिक प्रशिक्षण एक अर्थशास्त्री के रूप में सब कुछ के लिए आधार था। जो मैं प्रशिक्षित हूं और जो मैं सिखाता हूं वह मूल अर्थमितीय तकनीकें हैं। अर्थशास्त्रियों को जो करने के लिए प्रशिक्षित किया जाता है वह पूर्वाग्रह, शास्त्रीय और गैर-शास्त्रीय माप त्रुटि, और दोनों के परिणामस्वरूप नीचे के परिणामों को समझना है। यह आधार स्वास्थ्य सेवा या यहां तक कि पारंपरिक अर्थों में डेटा विज्ञान के लिए विशिष्ट नहीं है। यह समझने के बारे में है कि क्या होता है जब एक मॉडल में खिलाया जाने वाला डेटा व्यवस्थित रूप से बंद हो जाता है। एआई अनुसंधान क्षेत्र में अब जो अल्गोरिदमिक पूर्वाग्रह कहा जाता है, उसका मूल रूप से वही समस्या है जिसका अर्थशास्त्रियों ने दशकों से सामना किया है: एक पूर्वाग्रहित प्रतिगमन। जब आप डेटा स्वच्छता में किसी को लाते हैं जो इस तरह से सोचने के लिए प्रशिक्षित है, तो वे जो डेटा उत्पन्न करते हैं वह डिफ़ॉल्ट रूप से उस कठोरता को ले जाता है।

कंपनी के दृष्टिकोण के बारे में, मैं यहां कैसे वास्तव में शुरू हुआ, इसके बारे में ईमानदार होना चाहता हूं। जब आप तीन लोग शुरू कर रहे हैं, तो कोई दस्तावेज़ नहीं है जिसमें एक ग्रैंड दृष्टिकोण हो। बस यह करने की बात है। असली संकेत यह था कि जो हम बना रहे थे वह प्रतिध्वनित हो रहा था। इसलिए हमने बस और अधिक किया।

प्रोटेगे ने हाल ही में डेटालैब को एआई डेटा के विज्ञान को आगे बढ़ाने पर केंद्रित एक नए अनुसंधान संस्थान के रूप में पेश किया है। आज के एआई पारिस्थितिकी तंत्र में डेटासेट और मूल्यांकन को एक समर्पित अनुसंधान प्रयास की आवश्यकता के लिए आपको कौन सी विशिष्ट चुनौतियाँ दिखाई दीं?

डेटालैब जिस समस्या का समाधान करने के लिए बनाया गया था, वह अर्थशास्त्रियों के लिए एक नाम है: नींबू के लिए बाजार। अर्थशास्त्री जॉर्ज अकेरलोफ की “नींबू के लिए बाजार” समस्या एक उपयोग की गई कार बाजार का वर्णन करती है जहां खरीदार खरीदने से पहले अच्छी कारों को खराब “नींबू” कारों से नहीं बता सकते हैं, इसलिए वे औसत मूल्य का भुगतान करते हैं। जब ऐसा होता है, तो वास्तव में अच्छी कारों के विक्रेताओं को भाग लेने का कोई प्रोत्साहन नहीं होता है क्योंकि बाजार उन्हें उचित रूप से पुरस्कृत नहीं करता है, और गुणवत्ता समय के साथ नीचे की ओर बढ़ जाती है। यह ठीक वही है जो एआई के कुछ क्षेत्रों में डेटा बाजार में हो रहा है, जहां अच्छे प्रशिक्षण डेटा को खराब डेटा से अलग बताना मुश्किल है।

डेटा की गुणवत्ता का आकलन करना बहुत मुश्किल है जब तक आप वास्तव में इसका उपयोग नहीं करते हैं। आपको गहरा डोमेन ज्ञान, महत्वपूर्ण समय, और फिर भी आप धोखा दे सकते हैं। इसलिए, मॉडल निर्माताओं के लिए, यह असममित जानकारी समस्या पूरे पाइपलाइन को धीमा कर देती है। यह प्रोक्योरमेंट को दर्दनाक बनाता है, यह वास्तव में अच्छा डेटा उत्पादकों को कम आंकता है, और यह समग्र रूप से बाजार में विश्वास को कमजोर करता है। बेंचमार्क अक्सर वास्तविक उपयोग के मामलों की जटिलता को पकड़ने में विफल रहते हैं, जहां स्थिर प्रतिक्रियाएं दीर्घकालिक, बहुस्तरीय निर्णय लेने को प्रतिबिंबित नहीं करती हैं।

डेटालैब को डेटा के वास्तविक मूल्य में बाजार विश्वास को बहाल करने के लिए एक तंत्र के रूप में बनाया गया था, जो इसके डोमेन, संदर्भ और दोषों को समझकर, और उस लूप को एक कठोर, पुनरावृत्ति योग्य तरीके से बंद करके। यह एक प्रोक्योरमेंट फ़ंक्शन नहीं है। यह एक वैज्ञानिक चुनौती है, जो गुणवत्ता, प्रतिनिधित्व, दूषण नियंत्रण और सुरक्षा पर आधारित है। यही कारण है कि हमें लगता है कि डेटा को अपने स्वयं के समर्पित अनुसंधान प्रयास की आवश्यकता है।

वर्षों से, उद्योग की बातचीत मॉडल और कंप्यूट पर केंद्रित रही है। आप क्यों मानते हैं कि एआई में प्रगति का अगला चरण डेटा की गुणवत्ता, संरचना और मूल्यांकन पर अधिक निर्भर करेगा?

आप कंप्यूट को मॉडल के आकार से गुणा डेटा के रूप में सोच सकते हैं। डेटा एक मूल घटक है। इसलिए, खराब डेटा पर कंप्यूट को स्केल करना प्रगति नहीं है; यह एक अपशिष्ट है।

क्षेत्र में एक चल रही बहस है कि मॉडल के आकार की तुलना में डेटा की गुणवत्ता बुद्धिमत्ता में लाभ के लिए अधिक योगदान देती है या नहीं। किसी भी बाजार खंड में, उपयोग किए जाने वाले पहले डेटासेट हमेशा सबसे आसान डेटा होते हैं जो पाए जा सकते हैं। यह बस इतना है कि बाजार कैसे काम करते हैं। जो डेटासेट आगे की प्रगति को बढ़ावा देंगे, वे अधिक कठिन हैं और अधिक कठिन हैं और अधिक कठिन हैं।

स्वास्थ्य सेवा एक स्पष्ट उदाहरण है। आज हमारे पास जो मॉडल हैं वे एक चिकित्सा निवासी के स्तर पर प्रदर्शन करते हैं, और यह प्रभावशाली है। लेकिन वे अभी तक एक मुख्य चिकित्सक के स्तर पर प्रदर्शन नहीं कर रहे हैं। यह इसलिए है क्योंकि जो एक वरिष्ठ चिकित्सक जानता है वह वर्षों से जमा हुई अनुभव से आता है, जो कम हैंगिंग फ्रूट डेटा में कैप्चर करना असाधारण रूप से कठिन है। यह अंतर एक मॉडल आर्किटेक्चर समस्या नहीं है – यह एक डेटा समस्या है।

डेटालैब पहले से ही कई फ्रंटियर एआई कंपनियों के साथ सहयोग कर रहा है। इन प्रयोगशालाओं के साथ अपनी चर्चाओं से, आप वर्तमान में प्रशिक्षण और मूल्यांकन डेटासेट के डिजाइन में सबसे आम कमजोरियों को क्या देखते हैं?

सबसे ईमानदार उत्तर यह है कि डेटा का मूल्यांकन करना बहुत समय लेने वाला है। मुझे लगता है कि यदि आप एक शोधकर्ता हैं जो एक मॉडल को एक डेटासेट पर प्रशिक्षित करते हैं और आपने वास्तव में डेटा को उसी तरह नहीं पढ़ा है जिस तरह आप एक समाचार पत्र पढ़ते हैं, तो आप शायद एक गंभीर गलती कर रहे हैं। और न्याय के लिए, अधिकांश शोधकर्ता उस प्रयास को करते हैं। समस्या यह है कि इसे अच्छी तरह से करना, पैमाने पर, वास्तव में कठिन है।

एक विस्तृत मूल्यांकन के लिए क्या आवश्यक है, पर विचार करें। आपको यह आकलन करने की आवश्यकता है कि क्या डेटा पूर्वाग्रह से मुक्त है, क्या यह स्पष्ट नहीं होने वाले तरीकों से सेंसर किया गया है, और क्या इसमें विषाक्त या अन्य समस्याग्रस्त तत्व हैं। किसी भी तरह से विश्वसनीय रूप से ऐसा करने के लिए, आपको वास्तविक डोमेन ज्ञान की आवश्यकता है। आपको यह जानने की आवश्यकता है कि डेटा कहां से आया, किन प्रोत्साहनों के तहत, किन अंतराल के साथ, और मूल रूप से इसके लिए क्या मकसद था। एक बार जब आप सभी घटकों को इकट्ठा कर लेते हैं और उन्हें सावधानी से काम करते हैं, तो तीन से चार सप्ताह बीत चुके होते हैं। और फिर आपको यह फिर से अगले डेटासेट के लिए करना होगा।

यह घर्षण एक संगठन भर में जुड़ जाता है। यह प्रशिक्षण पाइपलाइन को धीमा कर देता है, यह मूल्यांकन पर कोनों को काटने के लिए दबाव बनाता है, और इसका मतलब है कि एक डेटासेट की कमजोरियां अक्सर तभी दिखाई देती हैं जब एक मॉडल पहले से ही उन पर बन चुका है। चुनौती यह नहीं है कि लोग डेटा गुणवत्ता की परवाह नहीं करते हैं। यह है कि डेटा का मूल्यांकन करने के लिए बुनियादी ढांचे और टूलिंग बस मौजूद नहीं हैं।

आप अक्सर डेटा को एक वैज्ञानिक अनुशासन के रूप में व्यवहार करने की आवश्यकता का वर्णन करते हैं। जब संगठन डेटासेट डिजाइन और मूल्यांकन को अन्य वैज्ञानिक क्षेत्रों के समान कठोरता से देखना शुरू करते हैं, तो क्या बदलता है?

जब संगठन डेटा को अन्य वैज्ञानिक क्षेत्रों के समान कठोरता से देखना शुरू करते हैं, तो जो पहली चीज बदलती है वह संस्कृति है। सबसे स्पष्ट मॉडल जो इसके लिए दिखाई देता है वह 1980 के दशक में अर्थशास्त्र से आता है, जिसे विश्वसनीयता क्रांति के रूप में जाना जाता है। उस समय सामाजिक विज्ञान लगभग कुछ भी प्रकाशित करेगा – एक परिकल्पना, कुछ समर्थन उदाहरण, और एक निष्कर्ष जो एक समय श्रृंखला प्रवृत्ति से निकाला गया था। शोधकर्ता कहने लगे, “मुझे एक समय श्रृंखला प्रवृत्ति न दिखाएं, मुझे क्वазी-प्रयोग दिखाएं।” इससे अधिक काउंटरफैक्चुअल्स और उपचारित बनाम अनुपचारित तुलनाएं हुईं जो वास्तव में कारण और प्रभाव को अलग कर सकती थीं।

मूल सबक यह है कि यह बहुत आसान है खुद को यह सोचने में धोखा देना कि आपके पास अच्छा डेटा है जब आपके पास वास्तव में नहीं है। इसका हल एक नकारात्मक संस्कृति और मजबूती जांच है – अपने स्वयं के निष्कर्षों को तोड़ने का प्रयास करना, उन परीक्षणों को चलाना जो आपके परिणामों को खराब दिखा सकते हैं, न कि केवल उन लोगों को जो आपको जो उम्मीद थी वही दिखाते हैं। यदि आप उस चरण को छोड़ देते हैं, तो आप विज्ञान नहीं कर रहे हैं। आप एक कहानी सुना रहे हैं जो आप पहले से ही बताना चाहते थे।

यही वह अंतर है जो कठोरता वास्तव में बनाती है, और यह डेटासेट डिजाइन और मूल्यांकन पर लागू होता है। प्रश्न यह नहीं है कि आपका डेटासेट सतह पर अच्छा दिखता है या नहीं। प्रश्न यह है कि क्या आपने उन जांचों को चलाया जो दिखा सकती हैं कि यह नहीं है, और क्या आपने उन परिणामों को ईमानदारी से रिपोर्ट किया है। दो टीमें एक ही कच्चे माल के साथ काम कर सकती हैं, और जो टीम ने शुरू से ही नकारात्मकता को शामिल किया है, वह कुछ मूल रूप से अधिक विश्वसनीय उत्पादन करेगी। वैज्ञानिक अखंडता का अर्थ है गलत होने की संभावना को खोजने के लिए तैयार रहना।

बेंचमार्किंग एआई सिस्टम में प्रगति को मापने के लिए उद्योग में एक प्रमुख भूमिका निभाता है। वर्तमान मूल्यांकन ढांचे कहां कम पड़ते हैं, और कौन से नए दृष्टिकोण अधिक विश्वसनीय मॉडल प्रदर्शन का आकलन कर सकते हैं?

बेंचमार्किंग बाजार तेजी से विस्तार कर रहा है, और यह वास्तव में प्रोत्साहित करने वाला है। किया जा रहा काम एक विस्तृत स्पेक्ट्रम को कवर करता है – आंतरिक वैधता से, जहां लक्ष्य मूल्यांकन डिजाइन करना है जो वास्तव में परिणाम पर विश्वास करने योग्य है, बाहरी वैधता तक, जहां मॉडल लाइव डिप्लॉयमेंट स्थितियों में परीक्षण किए जाते हैं और उनकी उपयोगिता का मूल्यांकन किया जाता है। पूरे रेंज में महत्वपूर्ण काम हो रहा है, और सबसे सरल उत्तर यह है कि हमें बस इसकी अधिक आवश्यकता है।

लेकिन गहरी समस्या यह नहीं है कि बेंचमार्क की मात्रा है – यह है कि हर कोई उन्हें अलग तरह से बना रहा है। बेंचमार्क के निर्माण के लिए कोई मानक नहीं है, इसलिए परिणाम उपाय बहुत भिन्न होते हैं, और उन्हें विश्वसनीय रूप से मूल्यांकन करना मुश्किल है। मेरे पास एक प्रोफेसर था जो सार्वजनिक अर्थशास्त्र में कहते थे, “आप कभी नहीं जानते कि पीछे के कमरे में क्या हुआ।” यह वाक्य बेंचमार्किंग समस्या को सटीक रूप से पकड़ता है। एक प्रयोगशाला एक मॉडल को सत्तर परिणामों के खिलाफ परीक्षण कर सकती है, फिर शीर्ष तीस को प्रकाशित कर सकती है और कह सकती है कि मॉडल इन तीस चीजों में उत्कृष्ट है। सही में, मॉडल प्रदाताओं को यह बताने के लिए है कि पीछे के कमरे में क्या हुआ।

एक अंपायर की आवश्यकता है जो कठोरता के लिए है। वैज्ञानिक अनुसंधान में प्रकाशन पूर्वाग्रह ने बार-बार दिखाया है कि चयनात्मक रिपोर्टिंग यह बताती है कि क्या काम करता है। वही गतिविधि एआई मूल्यांकन में खेल रही है। समाधान यह नहीं है कि मॉडल प्रदाताओं से अधिक पारदर्शिता के लिए कहा जाए क्योंकि उनके पास अपने परिणामों को अनुकूल रूप से प्रस्तुत करने के लिए हर प्रोत्साहन है। जो क्षेत्र को चाहिए वह मॉडल प्रदाताओं के मूल्यांकन के लिए एक मानक मूल्यांकन डिजाइन और रिपोर्टिंग मानक है, जो मूल्यांकन किए जा रहे मॉडल के संगठनों के बाहर विकसित और लागू किया जाता है। इसके बिना, बेंचमार्किंग तब तक जारी रहेगी जब तक कि यह उन चीजों को मापती है जो प्रयोगशालाएं दिखाना चाहती हैं, न कि वास्तव में मॉडल क्या करते हैं।

डेटालैब शोधकर्ताओं, नए डेटासेट और डेटा उत्पादों के विकास, और अकादमिक अनुसंधान पर केंद्रित है। ये क्षेत्र कैसे एक साथ मिलकर एआई सिस्टम में मापनीय सुधार बनाते हैं?

डेटालैब की एआई शोधकर्ताओं के साथ साझेदारी, हमारे द्वारा विकसित डेटा उत्पाद, और हमारा स्वयं का अकादमिक अनुसंधान सभी एक प्रणाली के हिस्से हैं जो डेटा बाजार में सममित जानकारी बनाने की कोशिश कर रहे हैं। अभी डेटा बाजार में वही समस्या है जो किसी भी बाजार में असममित जानकारी के साथ होती है: डेटा हासिल करने वाले लोग विश्वसनीय रूप से इसकी गुणवत्ता का आकलन नहीं कर सकते हैं जब वे इसका उपयोग करते हैं, और जो लोग अच्छा डेटा उत्पादित करते हैं उन्हें इसके लिए पर्याप्त रूप से पुरस्कृत नहीं किया जाता है।

हमारा काम एआई शोधकर्ताओं के साथ मॉडल प्रदाताओं में डेटालैब को सीधे डेटा परत में रखता है। यह निकटता महत्वपूर्ण है क्योंकि मॉडल बनाने वाले लोग वे हैं जो जानते हैं कि डेटा उन्हें कहां विफल कर रहा है – कौन सी क्षमताएं अपेक्षित रूप से विकसित नहीं हो रही हैं, कौन से मूल्यांकन लगातार परिणाम दे रहे हैं जो तैनाती में नहीं टिके रहते हैं। उनके साथ काम करने से प्रतिक्रिया तुरंत और विशिष्ट होती है, न कि दूसरे हाथ से सामान्य।

हम अकादमिक अनुसंधान करते हैं और डोमेन विशेषज्ञों के साथ काम करते हैं ताकि एक स्वतंत्र परत की जांच लाई जा सके, जो एक डेटासेट के बारे में प्रश्न पूछते हैं जो परिणाम में हिस्सेदारी रखने वाला कोई व्यक्ति सोचेगा। डेटा उत्पाद वह है जहां उस सोच का परीक्षण किया जाता है।

मापनीय सुधार उस लूप को बार-बार बंद करने से आता है। हम कुछ बनाते हैं, नकारात्मकता जांच चलाते हैं, यह पता लगाते हैं कि यह कहां टूट जाता है, और फिर उसे शोध में वापस डालते हैं। जो डेटासेट इस चक्र से गुजरा है वह मूल सामग्री से बेहतर नहीं है – यह प्रक्रिया है जो समस्याओं को खोजने के लिए डिज़ाइन की गई है, न कि उन्हें अनदेखा करने के लिए।

आपके शोध पृष्ठभूमि में इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड, दावा डेटा और इमेजिंग डेटा जैसे जटिल वास्तविक दुनिया के डेटासेट के साथ काम करना शामिल है। इस अनुभव ने आपके दृष्टिकोण को एआई के लिए विश्वसनीय डेटासेट बनाने के बारे में कैसे प्रभावित किया है?

इलेक्ट्रॉनिक स्वास्थ्य रिकॉर्ड, दावा डेटा और इमेजिंग डेटा के साथ काम करने से एक बात तुरंत स्पष्ट हो जाती है: कोई भी डेटा इसका उपयोग करने के उद्देश्य के लिए नहीं बनाया गया था। नैदानिक नोट्स बिलिंग के लिए लिखे गए थे। दावा डेटा पुनर्भुगतान के लिए उत्पन्न किया गया था। इमेजिंग को निदान के लिए कब्जा कर लिया गया था। प्रत्येक डेटासेट एक प्रॉक्सी है – एक रिकॉर्ड जो प्रणाली को क्या दस्तावेज करने की आवश्यकता थी, न कि आप वास्तव में जानना चाहते हैं। डेटा और आप जो चाहते हैं कि यह क्या हो जाए, इसके बीच का अंतर वह जगह है जहां अधिकांश कठिन काम रहता है।

यह अनुभव ने एक विशिष्ट प्रवृत्ति को आकार दिया: डेटासेट के साथ कुछ भी करने से पहले, आपको इसके मूल उद्देश्य को समझना होगा। डेटा किसने एकत्र किया, किन प्रोत्साहनों के तहत, किन अंतराल के साथ, और मूल रूप से इसका उद्देश्य क्या था? एक दावा डेटासेट जो व्यापक दिखाई दे सकता है वह सिस्टम के साथ कम बार-बार बातचीत करने वाली आबादी को प्रणालीगत रूप से कम कर सकता है। एक इमेजिंग डेटासेट जो साफ दिखाई दे सकता है उसे पहले से ही ऐसे तरीकों से प्रीप्रोसेस किया जा सकता है जो सबसे महत्वपूर्ण संकेत को हटा देते हैं जो आपके प्रश्न के लिए मायने रखता है।

विश्वसनीय डेटासेट बनाने के लिए व्यावहारिक निहितार्थ यह है कि पैमाना डिजाइन का विकल्प नहीं है। एक बड़ा डेटासेट जो प्रोवेनेंस के बिना बनाया गया है केवल बड़ा होता है क्योंकि यह गलत हो जाता है। जो वास्तव में विश्वास बनाता है वह बार-बार ऑडिटिंग है, सीमाओं का ईमानदारी से दस्तावेजीकरण, और डोमेन विशेषज्ञता जो आपको बता सकती है कि डेटा क्या नहीं देख सकता है, न कि केवल यह कि यह क्या देख सकता है।

प्रोटेगे का व्यापक दृष्टिकोण विभिन्न डोमेन जैसे क्लिनिकल नोट्स, जीनोमिक्स, इमेजिंग और दावा डेटा में विविध डेटासेट को जोड़ना शामिल है। एआई के लिए मल्टीमॉडल डेटा क्या नई संभावनाएं प्रदान करता है, और जुड़े जोखिमों को प्रबंधित करने के लिए कौन से सुरक्षा उपाय आवश्यक हैं?

दुनिया मल्टीमॉडल है। आप केवल पाठ के आधार पर एक नैदानिक निदान प्राप्त नहीं करेंगे। अन्य विशेषताएं भी मायने रखती हैं, जैसे कि इमेजिंग परिणाम, प्रयोगशाला मूल्य, दावा इतिहास, जीनोमिक मार्कर, आदि। यहां तक कि उन सभी को मिलाकर भी एक व्यक्ति के शरीर में हो रही चीजों का एक पूर्ण प्रतिनिधित्व नहीं है। मैंने एक शोधकर्ता के साथ काम किया जिसने इसे अच्छी तरह से रखा: सभी स्वास्थ्य डेटा एक पूर्ण प्रॉक्सी नहीं है; यह सिर्फ स्वास्थ्य के लिए एक प्रॉक्सी है। इसका अर्थ यह है कि जितने अधिक मॉडल आप एक साथ जोड़ सकते हैं, उतना ही आप वास्तविक वास्तविकता के करीब पहुंच जाते हैं जिसे आप वास्तव में मॉडल करने की कोशिश कर रहे हैं।

जब एआई सिस्टम को मल्टीमॉडल डेटा पर प्रशिक्षित किया जाता है, तो वे उसी स्तरित, दीर्घकालिक चित्र पर कारण करने में सक्षम होते हैं जिससे चिकित्सक काम करते हैं।

सुरक्षा प्रश्न यह है जहां दांव बहुत मूर्त हो जाते हैं। किसी भी डेटासेट के इंटरनेट पर दिखाई देने की संभावना नगण्य नहीं है – हाल के सुरक्षा उल्लंघनों ने यह स्पष्ट कर दिया है। और जिस किसी ने भी गंभीरता से चिकित्सा रिकॉर्ड पढ़े हैं, उन्हें यह समझ में आया होगा कि यह जानकारी कितनी संवेदनशील है। जो लोग अपने डॉक्टरों के साथ साझा करते हैं वह करियर तोड़ सकता है, रिश्तों को नुकसान पहुंचा सकता है, और यदि यह कभी सार्वजनिक हो जाए तो वास्तविक नुकसान पहुंचा सकता है।

प्रोटेगे में, एक सिद्धांत यह है कि हम अपने स्वयं के डेटा को स्वयं प्रमाणित नहीं करते हैं। हम एक तीसरे पक्ष के प्रमाणीकरणकर्ता का उपयोग करते हैं, जो कानूनी रूप से हमें स्वयं ऐसा करने की अनुमति देता है। तर्क सीधा है: अनुकूलन कार्य केवल डेटा उपयोगिता को अधिकतम करने के लिए नहीं है। यह डेटा उपयोगिता को अधिकतम करने के लिए है जो एक गोपनीयता प्रतिबंध के अधीन है।

जैसे ही एआई सिस्टम उच्च जोखिम वाले उद्योगों में एकीकृत होते हैं, डेटासेट डिजाइन, मूल्यांकन और पारदर्शिता के आसपास कौन से मानक उभरने चाहिए ताकि यह सुनिश्चित किया जा सके कि भविष्य के एआई सिस्टम विश्वसनीय और सुरक्षित दोनों हैं?

एआई में मानकों पर चर्चा तकनीकी विफलता मोड, जैसे कि एक प्रॉम्प्ट जो एक असटीक उत्तर उत्पन्न करता है या एक मॉडल जो तैनाती में अप्रत्याशित रूप से व्यवहार करता है, पर केंद्रित है। वे महत्वपूर्ण हैं, और क्षेत्र ने डेटा प्रलेखन, मूल्यांकन कठोरता और गोपनीयता प्रतिबंधों पर विचार करने में वास्तविक प्रगति की है। लेकिन एक व्यापक मानक है जिसे उद्योग ने अभी तक ईमानदारी से चर्चा नहीं किया है – यह सबसे अधिक लोगों के लिए परिणामों से भरा है।

एआई काम को फिर से बनाने जा रहा है। आपके पास “काम” के लिए कई पर्यायवाची हैं – यह एक जीवन यापन का तरीका है, लेकिन यह लोगों का जीवन का उद्देश्य भी है। आशावादी की कहानी इस बात पर जोर देती है कि एक गुफा आदमी ने एक चाकू बनाना सीखा, फिर देखा कि विनिर्माण ने उस कौशल को पुराना बना दिया, और फिर पूरी तरह से नए विशेषज्ञता में विकसित हुआ। मानव श्रम की धारा हमेशा अनुकूलन की ओर बढ़ी है। लेकिन जब व्यक्ति को विस्थापित किया जाता है जिसके पास दशकों का रनवे नहीं है या मौजूदा विशेषज्ञता में पिवट करने के लिए शैक्षिक आधार नहीं है, तो यह फ्रेमिंग कठिन हो जाती है। ईमानदार संस्करण इस बात को स्वीकार करता है कि दोनों चीजें एक साथ हैं।

उद्योग को डेटासेट और बेंचमार्क के लिए तकनीकी मानकों की आवश्यकता नहीं है। यह श्रम उत्पादकता मानकों की आवश्यकता है। आपको यह पूछने की आवश्यकता है कि कौन से कार्य प्रतिस्थापित किए जा रहे हैं, किस गति से, और जिन लोगों और समुदायों पर इसका प्रभाव पड़ रहा है। यह एक मानक है। क्या श्रम उत्पादकता मानक डॉक्यूमेंटेशन आवश्यकताओं और मूल्यांकन ढांचे के साथ-साथ चलते हैं? हम डेटालैब में इस बारे में बात करने के लिए स्थिति में नहीं हैं। हम प्रोटेगे में डेटा बेचते हैं, जिसका अर्थ है कि हम तटस्थ पक्ष नहीं हैं। लेकिन हम इस अर्थव्यवस्था का हिस्सा भी हैं, और हमारे परिवार भी। कम से कम हम यह कर सकते हैं कि जटिलता के बारे में ईमानदार रहें और व्यापार को स्पष्ट रूप से नाम दें, और इस प्रश्न की वास्तविक आवश्यकता के अनुसार क्रॉस-सेक्टर संवाद के लिए दबाव डालें।

धन्यवाद महान साक्षात्कार के लिए, पाठक जो अधिक जानना चाहते हैं उन्हें प्रोटेगे, डेटालैब पहल या इंजी ज़ीदान व्यक्तिगत वेबसाइट पर जाना चाहिए।

рдПрдВрдЯреЛрдиреА рдПрдХ рджреВрд░рджрд░реНрд╢реА рдиреЗрддрд╛ рдФрд░ Unite.AI рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рднрд╛рдЧреАрджрд╛рд░ рд╣реИрдВ, рдЬреЛ рдХрд┐ рдПрдЖрдИ рдФрд░ рд░реЛрдмреЛрдЯрд┐рдХреНрд╕ рдХреЗ рднрд╡рд┐рд╖реНрдп рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдФрд░ рдмрдврд╝рд╛рд╡рд╛ рджреЗрдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЯреВрдЯ рдЬреБрдиреВрди рд╕реЗ рдкреНрд░реЗрд░рд┐рдд рд╣реИрдВред рдПрдХ рд╢реНрд░реГрдВрдЦрд▓рд╛ рдЙрджреНрдпрдореА, рд╡рд╣ рдорд╛рдирддрд╛ рд╣реИ рдХрд┐ рдПрдЖрдИ рд╕рдорд╛рдЬ рдХреЗ рд▓рд┐рдП рдЙрддрдирд╛ рд╣реА рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рд╣реЛрдЧрд╛ рдЬрд┐рддрдирд╛ рдХрд┐ рдмрд┐рдЬрд▓реА, рдФрд░ рдЕрдХреНрд╕рд░ рд╡рд┐рдШрдЯрдирдХрд╛рд░реА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдФрд░ рдПрдЬреАрдЖрдИ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЙрддреНрд╕рд╛рд╣рд┐рдд рд╣реЛрддрд╛ рд╣реИред

рдПрдХ рдлреНрдпреВрдЪрд░рд┐рд╕реНрдЯ рдХреЗ рд░реВрдк рдореЗрдВ, рд╡рд╣ рдЗрди рдирд╡рд╛рдЪрд╛рд░реЛрдВ рдХреЗ рдорд╛рдзреНрдпрдо рд╕реЗ рд╣рдорд╛рд░реА рджреБрдирд┐рдпрд╛ рдХреЛ рдЖрдХрд╛рд░ рджреЗрдиреЗ рдХреА рдЦреЛрдЬ рдореЗрдВ рд╕рдорд░реНрдкрд┐рдд рд╣реИред рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рд╡рд╣ рд╕рд┐рдХреНрдпреЛрд░рд┐рдЯреАрдЬрд╝.io рдХреЗ рд╕рдВрд╕реНрдерд╛рдкрдХ рд╣реИрдВ, рдПрдХ рдордВрдЪ рдЬреЛ рднрд╡рд┐рд╖реНрдп рдХреЛ рдлрд┐рд░ рд╕реЗ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдФрд░ рдкреВрд░реЗ рдХреНрд╖реЗрддреНрд░реЛрдВ рдХреЛ рдлрд┐рд░ рд╕реЗ рдЖрдХрд╛рд░ рджреЗрдиреЗ рд╡рд╛рд▓реА рдЕрддреНрдпрд╛рдзреБрдирд┐рдХ рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдореЗрдВ рдирд┐рд╡реЗрд╢ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд╣реИред