рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдУрдкрд╕ рек.рео рдХреНрдпрд╛ рдмрджрд▓реЗрдЧрд╛ рдЙрди рд▓реЛрдЧреЛрдВ рдХреЗ рд▓рд┐рдП рдЬреЛ рдХреНрд▓рд╛рдЙрдб рдкрд░ рдПрдЬреЗрдВрдЯ рдЪрд▓рд╛ рд░рд╣реЗ рд╣реИрдВ

mm

एंथ्रोपिक ने २८ मई, २०२६ को ओपस ४.८ जारी किया, जो ओपस ४.७ के छह सप्ताह से अधिक समय बाद आया है। यह एक तेजी से बदलाव है, जो सोनेट और हाइकु लाइनों की तुलना में तेजी से है, और बेंचमार्क संख्या उसी तरह बढ़ गई है जैसे हर रिलीज़ में होता है। यदि आप एआई प्रेस पढ़ते हैं, तो यही कहानी है। नया मॉडल, उच्च स्कोर, अगले एक पर चले जाएं।

यह गलत कहानी है।

जब आप पहले से ही क्लाउड पर अपना काम बना चुके हैं, तो एक मॉडल रिलीज़ समाचार नहीं है जिसे आप पढ़ते हैं, बल्कि यह एक अपग्रेड है जो एक प्रणाली के भीतर आता है जिसे आपने पहले से ही बनाया है। प्रश्न यह नहीं है कि ओपस ४.८ कैसे स्कोर करता है। यह है कि यह पहले से चल रहे काम को क्या बदलता है। यह एक अलग प्रश्न है, और अधिकांश कवरेज इसे नहीं पूछ रहा है।

इस रिलीज़ में दो चीजें हैं जो उस काम को बदलती हैं। न ही यह बेंचमार्क है।

मॉडल ने सीखा है कि वह क्या नहीं जानता

लॉन्च नोट्स में, एंथ्रोपिक के शुरुआती परीक्षकों ने पाया कि ओपस ४.८ “अपने काम के बारे में अनिश्चितताओं को झंडा देने के लिए अधिक प्रवण था और असमर्थित दावों को कम करने के लिए था।” ब्रिजवाटर के एक परीक्षक, जिन्हें कवरेज में उद्धृत किया गया था, ने कहा कि सबसे बड़ा अंतर यह था कि मॉडल ने विश्लेषण के इनपुट और आउटपुट के साथ समस्याओं को सक्रिय रूप से झंडा दिया, “कुछ ऐसा जो अन्य मॉडल अक्सर याद करते थे और उपयोगकर्ताओं को पकड़ने के लिए छोड़ देते थे।”

इसे एक ऑपरेटर के रूप में पढ़ें और यह पोस्ट में सबसे महत्वपूर्ण पंक्ति है।

यहाँ क्यों। जो एक स्वचालित पाइपलाइन को तोड़ता है वह एक मॉडल नहीं है जो गलत है। यह एक मॉडल है जो आत्मविश्वास से गलत है और इसके बारे में नहीं कहता है। एक एजेंट की कल्पना करें जो समाचार निकालता है, एक लेख तैयार करता है, और बिना मानव निगरानी के मध्यवर्ती चरणों की जांच करता है। प्रत्येक असमर्थित दावा जो मॉडल बनाता है और इसके बारे में नहीं कहता है वह एक दावा है जिसे डाउनस्ट्रीम पकड़ना होगा या जहाज पर चढ़ना होगा। एक मॉडल जो अपना हाथ उठाता है और कहता है “यह इनपुट दिखता है” उस पाइपलाइन के लिए दो बेंचमार्क बिंदुओं से अधिक मूल्य का है।

यही सिद्धांत है जिस पर पूरी चीज़ चलती है: उपकरण बेहतर हो जाते हैं, आपकी प्रणाली बेहतर हो जाती है। लेकिन केवल तभी जब आप सही सुधार पर ध्यान दे रहे हों। अधिकांश कवरेज ने ओपस ४.८ को कच्ची क्षमता पर ग्रेड किया। जो लोग इसे अनुप्रविष्ट चला रहे हैं उन्हें यह देखना चाहिए कि क्या यह जानता है कि यह क्या नहीं जानता है, और इस पर, यह रिलीज़ आगे बढ़ गई है।

डायनामिक वर्कफ्लोज़ सबएजेंट स्वार्म को एक वास्तविक प्रिमिटिव बनाता है

मॉडल के साथ, एंथ्रोपिक ने डायनामिक वर्कफ्लोज़ को शोध पूर्वावलोकन में लॉन्च किया, जो क्लाउड कोड में सैकड़ों समानांतर सबएजेंट्स के माध्यम से जटिल कार्यों के समन्वय के लिए एक प्रणाली है। उदाहरण जो उन्होंने इसके साथ किया था: सैकड़ों हजारों पंक्तियों के कोडबेस-स्तरीय संचालन के माध्यम से संचालन, प्रारंभ से विलय तक, मौजूदा परीक्षण सूट के रूप में बार।

जिसने भी हाथ से सबएजेंट्स को समन्वयित करने की कोशिश की है, वह जानता है कि यह क्यों मायने रखता है। आकार हमेशा एक ही होता है: एक समन्वयक जो एक चयन एजेंट, एक लेखक, एक तथ्य-जांचकर्ता को सौंपता है। यह काम करता है, लेकिन यह विश्वसनीय हाथों को बदलने के लिए वास्तविक इंजीनियरिंग लेता है, और हर नई पाइपलाइन का अर्थ है कि समन्वय तर्क को फिर से तार करना। सबएजेंट ऑर्केस्ट्रेशन एक चीज़ है जिसे आप बोल्ट करते हैं, न कि एक चीज़ जो प्लेटफ़ॉर्म आपको देता है।

डायनामिक वर्कफ्लोज़ उस समन्वय को प्लेटफ़ॉर्म में खींचता है। यही बदलाव है। जब ऑर्केस्ट्रेशन परत एक कस्टम बिल्ड के बजाय एक प्रिमिटिव बन जाती है, तो एजेंटों के बजाय चैट में सोचने वाले ऑपरेटरों को उस हिस्से को छोड़ना पड़ता है जो पहले मुश्किल हुआ करता था। जिन लोगों की यह सबसे ज्यादा मदद करता है वे वे नहीं हैं जो आज शुरू कर रहे हैं। वे लोग हैं जिन्होंने पहले से ही स्वार्म को हाथ से बनाया है और अब स्कैफ़ोल्डिंग को फेंक सकते हैं।

एक पकड़ है जिसे नाम देने योग्य है। यह एक शोध पूर्वावलोकन है, इसलिए यह जल्दी है, और एंथ्रोपिक अभी भी अपने सबसे उन्नत मिथोस मॉडल को साइबर सुरक्षा चिंताओं पर रोक रहा है। सैकड़ों स्वायत्त सबएजेंट्स का समन्वय करना वही क्षमता है जो शक्तिशाली और थोड़ा खतरनाक है। “शोध पूर्वावलोकन में उपलब्ध” एंथ्रोपिक आपको बता रहा है कि उत्पादन पर दांव लगाने से पहले इसे आजमाएं। यही सही वृत्ति है। इसे करें।

रिलीज़ के नीचे का पैटर्न

संस्करण संख्या से दूर कदम और दिशा पर नजर डालें। हाल के ओपस रिलीज़ ने जानबूझकर एजेंटों की ओर कदम बढ़ाया है जो लंबे समय तक चलते हैं, व्यापक रूप से समन्वय करते हैं और कम देखभाल की आवश्यकता होती है। स्व-फ्लैगिंग और एक वास्तविक ऑर्केस्ट्रेशन परत दो नए कदम हैं जो उस पथ पर चलते हैं।

यदि आप इसके शीर्ष पर बना रहे हैं, तो यौगिक ही पूरा खेल है। प्रत्येक क्षमता जो उतरती है वह एक और चीज़ है जिसके चारों ओर आपको इंजीनियरिंग करने की आवश्यकता नहीं है। जिस ऑपरेटर ने पिछले महीने अपनी पाइपलाइन में अनिश्चितता-जांच को हाथ से बनाया था, उसे इस महीने इसका एक संस्करण मुफ्त में मिलता है और एक स्तर ऊपर जाता है। जिसने सबएजेंट समन्वय बनाया है उसे इसे मिटा देना चाहिए। यही लीवरेज है जो एक प्रणाली के माध्यम से यौगिक होता है जिसे आप पहले से ही sở hữu करते हैं: मॉडल में सुधार होता है, और आपके द्वारा उस पर ढेर की गई हर चीज़ में सुधार होता है।

अधिकांश लोग “ओपस ४.८” को एक संख्या के रूप में पढ़ेंगे जो बढ़ गई है। जो लोग क्लाउड पर वास्तविक संचालन चला रहे हैं उन्हें यह पढ़ना चाहिए कि प्लेटफ़ॉर्म उनके लिए अपना काम अधिक कर रहा है। यही होता है जब आप एक प्रणाली के प्रति प्रतिबद्ध रहते हैं जो लंबे समय तक सुधार को एक दूसरे के ऊपर जमा करने की अनुमति देती है, इसके बजाय कि हर बार जब क्षेत्र चलता है तो शुरू से शुरू करें।

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред