Connect with us

OpenAI рдФрд░ Anthropic рдиреЗ Dueling Models рдХреЛ рдЫреЛрдбрд╝ рджрд┐рдпрд╛ рдХреНрдпреЛрдВрдХрд┐ AI Arms Race рддреЗрдЬ рд╣реЛ рдЧрдИ

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

OpenAI рдФрд░ Anthropic рдиреЗ Dueling Models рдХреЛ рдЫреЛрдбрд╝ рджрд┐рдпрд╛ рдХреНрдпреЛрдВрдХрд┐ AI Arms Race рддреЗрдЬ рд╣реЛ рдЧрдИ

mm

OpenAI और Anthropic ने आज नए फ्लैगशिप मॉडल्स को रिलीज़ किया, जबकि OpenAI ने एक एंटरप्राइज़ एजेंट प्लेटफ़ॉर्म और Perplexity ने एक मल्टी-मॉडल रिसर्च फीचर लॉन्च किया। आज एक ही दोपहर में अधिक महत्वपूर्ण AI उत्पाद घोषणाएं हुईं, जितनी कि अधिकांश सप्ताहों में कुल मिलाकर होती हैं।

यहाँ क्या हुआ और इसका क्या अर्थ है।

Anthropic का Opus 4.6: एजेंट टीम्स और एक मिलियन-टोकन विंडो

Anthropic ने Claude Opus 4.6 रिलीज़ किया, जो इसका सबसे क्षमतावान मॉडल है, जिसमें दो मुख्य विशेषताएं हैं: एक मिलियन-टोकन संदर्भ विंडो और एक नई क्षमता जिसे एजेंट टीम्स कहा जाता है।

संदर्भ विंडो तकनीकी रूप से बड़ी उपलब्धि है। एक मिलियन टोकन पर, Opus 4.6 एक ही प्रॉम्प्ट में लगभग 3,000 पेज का टेक्स्ट प्रोसेस कर सकता है — इसके पूर्ववर्ती की 256,000-टोकन सीमा से चार गुना। 128,000-टोकन आउटपुट सपोर्ट के साथ मिलकर, मॉडल अब पूरे कोडबेस, नियामक फाइलिंग, या रिसर्च कॉर्पोरा को बिना चंकिंग या सारांश के प्रोसेस कर सकता है।

एजेंट टीम्स, जो क्लॉड कोड में उपलब्ध है, मultiple क्लॉड इंस्टेंसेस को एक साझा कोडबेस पर समानांतर में काम करने की अनुमति देता है। एक एजेंट के कार्यों को क्रमिक रूप से निष्पादित करने के बजाय, डेवलपर एक टीम बना सकते हैं जहां एक एजेंट फ्रंटेंड परिवर्तनों को संभालता है, दूसरा परीक्षण लिखता है, और तीसरा बैकएंड तर्क को पुनर्गठित करता है — सभी एक ही परियोजना पर समन्वय करते हैं।

Opus 4.6 में अनुकूलनीय सोच भी पेश की गई है, जो मॉडल को एक दिए गए प्रॉम्प्ट में कितना तर्क प्रयास निवेश करना है, इसकी गणना करने देती है। सरल प्रश्नों के लिए तेजी से प्रतिक्रियाएं मिलती हैं; जटिल समस्याएं गहरी विस्तारित सोच को ट्रिगर करती हैं। डेवलपर्स इसे प्रयास नियंत्रण के माध्यम से चार स्तरों पर समायोजित कर सकते हैं: कम, मध्यम, उच्च, और अधिकतम।

बेंचमार्क पर, Opus 4.6 टर्मिनल-बेंच 2.0 पर एजेंटिक कोडिंग के लिए उच्चतम स्कोर करता है और मानवता की आखिरी परीक्षा में अग्रणी है, जो एक जटिल तर्क मूल्यांकन है। Anthropic दावा करता है कि जीडीपीवैल-एए मूल्यांकन पर जीपीटी-5.2 के साथ 144-पॉइंट एलो लाभ है और ओपस 4.5 की तुलना में 190-पॉइंट सुधार है।

एपीआई मूल्य निर्धारण अपरिवर्तित रहता है — प्रति मिलियन इनपुट टोकन $5 और प्रति मिलियन आउटपुट टोकन $25, हालांकि 200,000 टोकन से अधिक के प्रॉम्प्ट के लिए प्रीमियम दर $10/$37.50 है।

एक उल्लेखनीय एंटरप्राइज़ चाल में, Anthropic ने माइक्रोसॉफ्ट पॉवरपॉइंट में क्लॉड का एक रिसर्च प्रीव्यू घोषित किया, जहां मॉडल मौजूदा स्लाइड लेआउट और टेम्पलेट्स को पढ़ सकता है और प्रस्तुतियों को जनरेट या संपादित कर सकता है, ब्रांड फॉर्मेटिंग को संरक्षित करते हुए।

OpenAI का GPT-5.3-Codex: वह मॉडल जिसने खुद को बनाने में मदद की

Anthropic की घोषणा के कुछ मिनट बाद, OpenAI ने GPT-5.3-Codex लॉन्च किया, जो इसका सबसे क्षमतावान कोडिंग मॉडल है। रिलीज़ GPT-5.2-Codex के फ्रंटियर कोडिंग प्रदर्शन को GPT-5.2 की तर्क और पेशेवर ज्ञान क्षमताओं के साथ एक ही सिस्टम में एकीकृत करता है, जो 25 प्रतिशत तेज़ भी है।

सबसे उल्लेखनीय दावा: GPT-5.3-Codex ने खुद को बनाने में मदद की। OpenAI की Codex टीम ने अपने प्रशिक्षण प्रक्रिया के दौरान मॉडल के प्रारंभिक संस्करणों का उपयोग किया — प्रशिक्षण रनों को डीबग करना, तैनाती इंफ्रास्ट्रक्चर का प्रबंधन करना, और मूल्यांकन परिणामों का निदान करना। यह OpenAI की पहली सार्वजनिक स्वीकृति है कि एक मॉडल अपने स्वयं के विकास में महत्वपूर्ण था, एक मील का पत्थर जो कार्यक्षमता और सुरक्षा प्रश्नों को उठाता है।

GPT-5.3-Codex SWE-Bench Pro और Terminal-Bench पर नए उद्योग उच्चतम स्थापित करता है, जो वास्तविक दुनिया के सॉफ्टवेयर इंजीनियरिंग कार्यों का मूल्यांकन करते हैं। मॉडल लंबे समय तक चलने वाले कार्यों को संभाल सकता है जिनमें अनुसंधान, टूल उपयोग, और जटिल निष्पादन शामिल है, और उपयोगकर्ता कार्य के बीच में बिना संदर्भ खोए मॉडल के साथ बातचीत कर सकते हैं — एक सहयोगी के साथ काम करने जैसा अधिक।

मॉडल अब सभी ChatGPT भुगतान योजना उपयोगकर्ताओं के लिए Codex ऐप, CLI, IDE एक्सटेंशन, और वेब इंटरफ़ेस के माध्यम से उपलब्ध है। API एक्सेस जल्द ही आने वाला है।

AI कोड जनरेटर्स के बीच चयन करने वाले डेवलपर्स के लिए, प्रतिस्पर्धी चित्र अब तेजी से परिभाषित हो गया है: Opus 4.6 एजेंट समन्वय और लंबे संदर्भ कार्य पर अग्रणी है, जबकि GPT-5.3-Codex गति और एकीकृत तर्क पर जोर देता है। दोनों ओवरलैपिंग बेंचमार्क पर शीर्ष अंक हासिल करते हैं, और टूल्स जैसे Cursor और Apple का Xcode दोनों का समर्थन करते हैं, इसलिए डेवलपर्स स्वतंत्र रूप से स्विच कर सकते हैं।

OpenAI फ्रंटियर: एंटरप्राइज़ एजेंट्स को अपना प्लेटफ़ॉर्म मिला

मॉडल लॉन्च के साथ, OpenAI ने फ्रंटियर पेश किया, जो एआई एजेंट्स को बनाने, तैनात करने, और प्रबंधित करने के लिए एक एंटरप्राइज़ प्लेटफ़ॉर्म है। फ्रंटियर डेटाबेस, CRM सिस्टम, एचआर प्लेटफ़ॉर्म, टिकटिंग टूल्स, और अन्य व्यवसायिक अनुप्रयोगों से जुड़ता है, फिर एआई एजेंट्स को उन पर प्रक्रियाओं को निष्पादित करने देता है।

OpenAI ने फ्रंटियर को “एंटरप्राइज़ के लिए एक सेमेंटिक परत” के रूप में वर्णित किया जहां मानव कर्मचारी और एआई एजेंट एक ही प्लेटफ़ॉर्म पर साझा डेटा एक्सेस और सुरक्षा नियंत्रण के साथ काम करते हैं। एजेंट्स को कर्मचारी-जैसी पहचान, साझा संगठनात्मक संदर्भ, और एंटरप्राइज़-ग्रेड अनुमतियां मिलती हैं।

प्लेटफ़ॉर्म मॉडल-एज्नोस्टिक है — कंपनियां OpenAI के मॉडल्स के साथ बनाए गए एजेंट्स को Google, Microsoft, और Anthropic से उन लोगों के साथ प्रबंधित कर सकती हैं। प्रारंभिक ग्राहकों में Intuit, State Farm, Thermo Fisher, और Uber शामिल हैं।

फ्रंटियर OpenAI को Salesforce के Agentforce और ServiceNow के AI एजेंट्स जैसे एंटरप्राइज़ प्लेटफ़ॉर्म्स के साथ直接 प्रतिस्पर्धा करने के लिए स्थिति देता है। अंतर: OpenAI मॉडल परत से निर्माण कर रहा है, जबकि स्थापित कंपनियां मौजूदा वर्कफ़्लो टूल्स में AI जोड़ रही हैं। यह निर्धारित करेगा कि एंटरप्राइज़ अपने एजेंट इंफ्रास्ट्रक्चर को अपने AI प्रदाता से या अपने सॉफ़्टवेयर विक्रेता से पसंद करते हैं या नहीं।

Perplexity का मॉडल काउंसिल: तीन मॉडल्स, एक उत्तर

Perplexity ने मॉडल काउंसिल लॉन्च किया, जो एक फीचर है जो एक ही क्वेरी को तीन मॉडल्स — Claude Opus, GPT, और Gemini — पर समानांतर में चलाता है, फिर एक सिंथेसाइज़र मॉडल का उपयोग करके उनके आउटपुट्स को एक ही उत्तर में मिलाता है जो सहमति और असहमति के क्षेत्रों को फ्लैग करता है।

Image: Perplexity

यह धारणा है कि कोई एक मॉडल सभी प्रश्नों पर विश्वसनीय रूप से सर्वश्रेष्ठ नहीं है। जब तीन फ्रंटियर मॉडल्स एक ही उत्तर पर पहुंचते हैं, तो विश्वास उच्च होता है। जब वे भिन्न होते हैं, तो उपयोगकर्ता को आगे की जांच करने के लिए पता चलता है। मॉडल काउंसिल Max ग्राहकों के लिए उपलब्ध है और निवेश अनुसंधान, रणनीतिक विश्लेषण, और जटिल निर्णय लेने के लिए स्थिति दी गई है।

यह फीचर Perplexity की रणनीति को प्रतिबिंबित करता है जो फाउंडेशन मॉडल्स के निर्माण के बजाय मल्टी-मॉडल ऑर्केस्ट्रेशन के माध्यम से अंतर करने पर जोर देता है। यदि मॉडल काउंसिल उपयोगी साबित होता है, तो यह सुझाव देता है कि भविष्य Claude और GPT के बीच चयन करने के बारे में नहीं है — यह दोनों का उपयोग करने के बारे में है।

यह क्या मतलब है

इन रिलीज़ ने पुष्टि की है कि AI प्रतिस्पर्धा मॉडल क्षमता से उत्पाद इंफ्रास्ट्रक्चर में स्थानांतरित हो गई है। OpenAI और Anthropic दोनों के पास ऐसे मॉडल्स हैं जो एक ही बेंचमार्क पर शीर्ष स्थान हासिल करते हैं; अब विभेदन उनके ऊपर क्या बनाया जा सकता है, इस पर निर्भर करता है।

Perplexity, जबकि, एक शांत तर्क दे रहा है कि मॉडल युद्ध उतने महत्वपूर्ण नहीं हो सकते हैं जितना कि मॉडल्स को कैसे जोड़ा जाए। यदि मॉडल काउंसिल उपयोगी साबित होता है, तो यह सुझाव देता है कि भविष्य में एकल प्रदाता का चयन करने के बजाय मॉडल्स के आउटपुट्स को एकत्रित करना अधिक मूल्यवान हो सकता है।

डेवलपर्स और एंटरप्राइज़ जो अपने AI स्टैक का मूल्यांकन कर रहे हैं, यह निर्णय लेना अब और भी कठिन बना देता है।

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред