рд╕реНрд╡рд╛рд╕реНрдереНрдп
рдЬрд┐рдВрдХрдЧреЛ рдбреЗрдЯрд╛рдкреЙрдЗрдВрдЯреНрд╕ рдкреЗрд╢ рдХрд░рддрд╛ рд╣реИ рд╡реАрд╕реАрдкреАрдЖрдИ: рдПрдЖрдИ рджрд╡рд╛ рдЦреЛрдЬ рдХреА рдбреЗрдЯрд╛ рд╕рдорд╕реНрдпрд╛ рдХреЛ рдареАрдХ рдХрд░рдиреЗ рдХреА рдПрдХ рд╕рд╛рд╣рд╕рд┐рдХ рдпреЛрдЬрдирд╛

वर्षों से, एआई इन ड्रग डिस्कवरी एक धोखाधड़ी से सरल समस्या से पीछे रह गया है: डेटा पर्याप्त अच्छा नहीं है। अनुक्रमण, पूल्ड परेशानी अध्ययन, और मिश्रित-सेल प्रयोगों के पर्वतों ने प्रगति का भ्रम दिया बिना वास्तविक सफलता प्राप्त की। इसके बजाय स्पष्टता, क्षेत्र ने शोर उत्पन्न किया। इसके बजाय पुनरुत्पादकता, यह ड्रिफ्ट उत्पन्न किया। और इसके बजाय सटीक, फार्माकोलॉजी-विशिष्ट माप जो विश्वसनीय आभासी सेल मॉडल को प्रशिक्षित करने के लिए आवश्यक हैं, यह डेटासेट उत्पन्न किया जो वैज्ञानिक अखंडता की तुलना में पैमाने के लिए अधिक अनुकूलित है।
यह पर्यावरण है जिसमें जिंकगो डेटापॉइंट्स वर्चुअल सेल फार्माकोलॉजी इंस्टीट्यूट (वीसीपीआई) लॉन्च कर रहा है – एक परियोजना जो न केवल अधिक डेटा का वादा करती है, बल्कि बेहतर डेटा देने का लक्ष्य रखती है, जो एआई मॉडल के लिए विशेष रूप से डिज़ाइन किया गया है जो वास्तविक दवा-जैसे अणुओं को वास्तविक जैविक प्रणालियों में परेशान करने की कोशिश कर रहे हैं। कंपनी की आधिकारिक घोषणा में यह रेखांकित किया गया है कि वीसीपीआई 12 अरब डेटा बिंदु और 100,000 यौगिकों को उत्पन्न करेगा, जो आभासी सेल मॉडलिंग के लिए पहला मानकीकृत फार्माकोलॉजी डेटासेट स्थापित करेगा।
क्यों “अधिक डेटा” विफल रहा
वीसीपीआई की शुरुआत में ब्लॉग पोस्ट में, जिंकगो एक समानता का उपयोग करता है जो क्षेत्र की गलत दिशा को पूरी तरह से पकड़ लेता है। कल्पना कीजिए कि एक माउस के पिंजरे में एक मुट्ठी भर गोलियां फेंक दी जाती हैं – फिर यह पता लगाने की कोशिश की जाती है कि कौन सा माउस ने क्या खाया। अब इसे एक लाख माउस तक बढ़ा दें एक विशाल पिंजरे में। यह पूल्ड सिंगल-सेल फार्माकोलॉजी प्रयोगों के पीछे की मूल समस्या है। वे प्रभावशाली मात्रा में डेटा उत्पन्न करते हैं, लेकिन अंतर्निहित डिज़ाइन संयुग्म और फेनोटाइप के बीच साफ़ विशेषता को रोकता है।
समस्या प्रौद्योगिकी नहीं है; यह प्रायोगिक वास्तुकला है। यह धारणा कि बड़े डेटासेट स्वचालित रूप से बेहतर मॉडल सिखाते हैं, झूठी साबित हुई है। ब्लॉग इस मानसिकता को सीधे तौर पर “डेटा आदी” कहता है, यह तर्क देते हुए कि अच्छी तरह से संरचित, उच्च-संकेत इनपुट के बिना, यहां तक कि सबसे उन्नत एआई भी गलत पैटर्न सीखेगा।
वीसीपीआई इस तर्क से एक तेज़ विचलन का प्रतिनिधित्व करता है। आकार का महिमामंडन करने के बजाय, यह जैविक ट्रेसबिलिटी, प्रायोगिक कठोरता और नियंत्रित संरचना पर दोगुना हो जाता है जो एआई को वास्तव में फार्माकोलॉजी सीखने की आवश्यकता होती है।
वीसीपीआई डेटा पाइपलाइन को कैसे फिर से बनाता है
पूल्ड सिंगल-सेल असेस में निर्भर रहने के बजाय, वीसीपीआई ड्रग-सीक का उपयोग करता है, एक उच्च-थ्रूपुट बल्क आरएनए-सीक्वेंसिंग विधि जिसमें प्रत्येक यौगिक को एक अलग बार्कोडेड वेल में इलाज किया जाता है। यह जिंकगो को पूल्ड डिज़ाइनों की पेशकश की तुलना में बहुत साफ़ सिग्नल-टू-शोर के साथ उपचार-विशिष्ट प्रतिक्रियाओं को मापने की अनुमति देता है। प्रेस रिलीज़ के अनुसार, कंपनी का स्वचालन बुनियादी ढांचा प्रति सप्ताह 100 पूर्ण 384-वेल प्लेट चला सकता है, जो औद्योगिक पैमाने पर लाखों उच्च-विश्वासता आरएनए माप उत्पन्न करता है।
उतना ही महत्वपूर्ण है वी-रेफ़293 की शुरुआत, एक नई तरह से इंजीनियर्ड, मानक संदर्भ सेल लाइन। इसके बजाय प्रत्येक प्रयोगशाला अपनी खुद की उत्परिवर्तित, ड्रिफ्टेड संस्करण चला रही है same सेल लाइन का, वीसीपीआई एक सार्वभौमिक जैविक बेसलाइन बनाता है – एक “जैविक जुड़वां” जो आभासी सेल के उभरते वर्ग के लिए है। यह फार्माकोजेनोमिक्स में एक लंबे समय से चली आ रही अस्थिरता के स्रोतों में से एक को समाप्त करता है और एआई मॉडल को जो स्थिर मूल सत्य की आवश्यकता होती है वह प्रदान करता है।
इस पहल के तहत, जिंकगो एक सामुदायिक-निर्देशित डेटासेट के लिए दरवाजे खोल रहा है जिसमें कई परिभाषित घटक हैं:
- शोधकर्ताओं, फार्मा टीमों और एआई डेवलपर्स के लिए खुला भागीदारी
- जमा किए गए यौगिकों के लिए नि:शुल्क उच्च-थ्रूपुट आरएनए प्रोफाइलिंग
- योगदानकर्ताओं के लिए वैकल्पिक एम्बार्गो या स्थायी प्रोप्राइटरी एक्सेस
- सामुदायिक मतदान द्वारा आकार दिए गए मासिक डेटा रिलीज
- मॉडल साझा करने, यौगिक प्राथमिकता निर्धारित करने और शुरुआती पहुंच “सुपर-यूज़र” स्थिति के अवसर
एक सामुदायिक-निर्मित मॉडल, एक डेटा डंप नहीं
वीसीपीआई की सबसे असामान्य बातों में से एक यह है कि इसे डेटासेट के अस्तित्व से पहले लॉन्च किया जा रहा है। एक पूर्ण संसाधन अपलोड करने के बजाय, जिंकगो वैज्ञानिक समुदाय से यह निर्धारित करने में मदद मांग रहा है कि कौन से यौगिक सबसे ज्यादा मायने रखते हैं और डेटासेट के बढ़ने के दौरान वास्तविक समय में सहयोग करने के लिए।
यह दृष्टिकोण भागीदारी को जोखिम से मुक्त करता है। प्रारंभिक चरण के बायोटेक उच्च-थ्रूपुट स्क्रीनिंग पर अपने मूल्यवान बजट को जलाए बिना यौगिक जमा कर सकते हैं और वास्तविक फार्माकोलॉजी डेटा प्राप्त कर सकते हैं। एआई टीमें सुनिश्चित कर सकती हैं कि डेटासेट वास्तव में मॉडल प्रशिक्षण के लिए आवश्यक परेशानियों को प्रतिबिंबित करता है। और अकादमिक प्रयोगशालाएं योगदान कर सकती हैं जबकि अभी भी 90-दिन की विशेष खिड़की की संभावना को बनाए रख सकती हैं।
संरचना डेटा पीढ़ी को एक सहयोगी वैज्ञानिक प्रक्रिया में बदल देती है – एक स्थिर उत्पाद नहीं।
इसका भविष्य के लिए बायो-एआई का क्या अर्थ है
वीसीपीआई के व्यापक निहितार्थ जिंकगो या किसी एक आभासी सेल पहल से परे हैं। आभासी सेल मॉडल वैज्ञानिक रूप से विश्वसनीय बनने के लिए, उन्हें पुनरुत्पादक, उपचार-विशिष्ट और एक स्थिर जैविक संदर्भ से जुड़े डेटा पर प्रशिक्षित किया जाना चाहिए। इसके बिना, एआई हॉलुसिनेट, मिसप्रेडिक्ट या आर्टिफैक्ट्स के लिए ओवरफिट होगा।
वीसीपीआई जैसी पहलें क्षेत्र में डेटा के बारे में सोच के परिवर्तन का संकेत देती हैं। प्रायोगिक डिज़ाइन मॉडल आर्किटेक्चर के रूप में महत्वपूर्ण हो रहा है। पुनरुत्पादकता एक केंद्रीय आवश्यकता के रूप में लौट रही है, एक वैकल्पिक आदर्श के रूप में नहीं। और सामुदायिक-निर्देशित, खुले बुनियादी ढांचे की परियोजनाएं बंद प्रोप्राइटरी डेटासेट की तुलना में नवाचार को तेज़ करने में आगे निकल रही हैं।
यदि आभासी सेल अंततः विश्वसनीय भविष्यसूचक इंजन बन जाते हैं – जो यौगिकों को रैंक करने, विषाक्तता को झंडा दिखाने या मानव के पिपेट को छूने से पहले मार्गों को रोशन करने में मदद करने वाले उपकरण – तो यह इसलिए होगा क्योंकि वीसीपीआई जैसी परियोजनाओं ने उन्हें बढ़ने के लिए आवश्यक संरचित, विश्वसनीय डेटा वातावरण बनाया है।
बेहतर डेटा पर जोर देकर, जिंकगो एआई-संचालित जीव विज्ञान के आधार को पुन: परिभाषित कर रहा है। वीसीपीआई न केवल दवा खोज में डेटा संकट का जवाब देता है; यह एक नए युग के लिए मंच तैयार करता है जहां जैविक प्रयोग और एआई प्रशिक्षण पाइपलाइन एक साथ, खुलकर और उद्देश्य से विकसित होते हैं।




