рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдерд┐рдВрдХрд┐рдВрдЧ рдореИрд╢реАрдиреНрд╕ рд▓реИрдм рдиреЗ 200ms рд░рд┐рдпрд▓-рдЯрд╛рдЗрдо рдЗрдВрдЯрд░реИрдХреНрд╢рди рдХреЗ рд╕рд╛рде рдкрд╣рд▓рд╛ рдореЙрдбрд▓ рд╢рд┐рдк рдХрд┐рдпрд╛

mm

थिंकिंग मैशीन्स लैब, एआई स्टार्टअप जिसकी स्थापना पूर्व ओपनएआई सीटीओ मीरा मुराती ने की थी, ने 11 मई, 2026 को अपने पहले इन-हाउस मॉडल का एक शोध पूर्वावलोकन जारी किया, जो कि एक साल से अधिक समय से चली आ रही चुप्पी को तोड़ता है कि लैब वास्तव में क्या बनाएगी। कंपनी इस प्रणाली को एक “इंटरैक्शन मॉडल” कहती है – एक मल्टीमोडल आर्किटेक्चर जो 200-मिलीसेकंड के हिस्सों में ऑडियो, वीडियो और पाठ को संसाधित करने के लिए स्क्रैच से प्रशिक्षित किया गया है, न कि उपयोगकर्ता के पूरा होने की प्रतीक्षा करते हुए।

मॉडल, जिसे टीएमएल-इंटरैक्शन-स्मॉल नाम दिया गया है, एक 276 बिलियन-पैरामीटर मिक्सचर-ऑफ-एक्सपर्ट सिस्टम है जिसमें 12 बिलियन सक्रिय पैरामीटर हैं। कंपनी के अनुसार घोषणा ब्लॉग पोस्ट, यह एक लैब से पहला उत्पाद है जिसने लगभग $2 बिलियन की फंडिंग के साथ $12 बिलियन के मूल्यांकन पर एक फाइन-ट्यूनिंग टूल के अलावा कुछ भी शिप नहीं किया है। रिलीज़ दबाव के बीच आता है प्रतिभा के प्रस्थान और एक अनुवर्ती फंडिंग राउंड के ठप होने से।

इंटरैक्शन मॉडल वास्तव में क्या करता है

थिंकिंग मैशीन्स का तर्क है कि आज के फ्रंटियर मॉडल – जिनमें ओपनएआई का जीपीटी-रियलटाइम और गूगल का जेमिनी लाइव शामिल हैं – वास्तविक समय के व्यवहार को मोड़-आधारित वास्तुकला में बाहरी घटकों जैसे वॉइस-एक्टिविटी डिटेक्शन के “हार्नेस” का उपयोग करके जोड़ते हैं। ये घटक तय करते हैं कि उपयोगकर्ता कब बोलना बंद कर दिया है, फिर एक पूर्ण कथन को मॉडल को सौंप दें। जबकि मॉडल एक प्रतिक्रिया उत्पन्न करता है, इसकी दुनिया की धारणा जम जाती है।

इंटरैक्शन मॉडल उस स्कैफोल्डिंग को समय-समय पर माइक्रो-मोड़ के साथ बदलता है जिसे कंपनी कहती है। प्रणाली निरंतर 200 मिलीसेकंड के इनपुट को संसाधित करती है जबकि 200 मिलीसेकंड के आउटपुट का उत्पादन करती है, दोनों टोकन स्ट्रीम एक ही क्लॉक चक्र पर अंतर्निहित होती हैं। उस संरचना को मॉडल को एक उपयोगकर्ता को मध्य वाक्य में बाधित करने, दृश्य संकेतों का जवाब देने की अनुमति देती है या लाइव अनुवाद जैसे कार्यों के लिए उपयोगकर्ता के साथ एक ही समय में बोलती है।

वास्तुकला भारी स्टैंडअलोन एनकोडर्स को छोड़ देती है। ऑडियो को डीएमईल सुविधाओं के रूप में एक हल्के एम्बेडिंग परत के माध्यम से खिलाया जाता है, छवियों को 40×40 पैच में विभाजित किया जाता है, और सभी घटकों को स्क्रैच से ट्रांसफॉर्मर के साथ सह-प्रशिक्षित किया जाता है। एक अलग पृष्ठभूमि मॉडल असिंक्रोनस रूप से चलता है, जो गहरे तर्क, टूल कॉल और वेब ब्राउजिंग को संभालता है जबकि इंटरैक्शन मॉडल बातचीत में मौजूद रहता है।

कंपनी के रिपोर्ट किए गए बेंचमार्क पर, टीएमएल-इंटरैक्शन-स्मॉल एफडी-बेंच वी1 पर 0.40 सेकंड की टर्न-टेकिंग लेटेंसी पोस्ट करता है, जो जीपीटी-रियलटाइम-2.0 के 1.18 सेकंड और जेमिनी-3.1-फ्लैश-लाइव के 0.57 सेकंड की तुलना में है। एफडी-बेंच वी1.5 पर, जो उपयोगकर्ता बाधाओं, बैकचैनल और पृष्ठभूमि भाषण के माध्यम से इंटरैक्शन गुणवत्ता को स्कोर करता है, मॉडल 77.8 स्कोर करता है, जो जीपीटी-रियलटाइम-2.0 के 46.8 और जेमिनी-3.1-फ्लैश-लाइव के 45.5 की तुलना में है। आंकड़े स्व-rिपोर्ट किए गए हैं।

एक लंबे समय से प्रतीक्षित पहली शिप

रिलीज़ एक लंबे समय से चली आ रही फंडिंग और उत्पाद के बीच की खाई को बंद करता है। थिंकिंग मैशीन्स की स्थापना फरवरी 2025 में हुई थी और उसी वर्ष जुलाई में इसने $2 बिलियन का सीड राउंड $12 बिलियन के मूल्यांकन पर बंद किया था – जिसे व्यापक रूप से रिकॉर्ड पर सबसे बड़ा सीड राउंड के रूप में बताया गया था। राउंड का नेतृत्व एंड्रेसेन होरोविट्ज़ ने किया था, जिसमें एनवीडिया, एएमडी, सिस्को, एक्सेल, सर्विसनाउ और जेन स्ट्रीट ने भाग लिया था। अब तक, कंपनी का एकमात्र शिप किया गया उत्पाद टिंकर है, एक एपीआई जो अक्टूबर 2025 में लॉन्च हुआ था।

बीच के महीनों में उथल-पुथल आई। सह-संस्थापक बैरेट ज़ोफ और ल्यूक मेट्ज़ जनवरी 2026 में ओपनएआई में लौट आए, जिसमें मुराती ने घोषणा की कि कंपनी ने “तरीके से अलग” किया है। एंड्रू टुलोच मेटा की सुपरइंटेलिजेंस लैब्स के लिए चले गए, जब मार्क जुकरबर्ग के अनुसार $1 बिलियन की रिपोर्ट की गई पेशकश को सीधे कंपनी को अधिग्रहित करने के लिए अस्वीकार कर दिया गया था। मेटा ने तब से लैब के पांच संस्थापक सदस्यों को नियुक्त किया है। मुराती ने पायटोर्च के सह-संस्थापक सौमित चिंताला को सीटीओ के रूप में पदोन्नत करके प्रतिक्रिया दी। एक अनुवर्ती राउंड जो लगभग $50 बिलियन के मूल्यांकन पर बंद हुआ, 2025 के अंत तक बंद नहीं हुआ।

कंप्यूटे की कहानी विपरीत दिशा में चली गई। मार्च में, थिंकिंग मैशीन्स ने एनवीडिया के साथ एक साझेदारी की घोषणा की, जिसमें एक अनुशंसित निवेश और कम से कम एक गीगावाट अगली पीढ़ी के वेरा रूबिन सिस्टम की तैनाती शामिल थी। लैब ने अपने गूगल क्लाउड संबंध को भी विस्तारित किया ताकि एनवीडिया जीबी300 हार्डवेयर पर फ्रंटियर मॉडल प्रशिक्षण शामिल किया जा सके।

क्या देखना है

इंटरैक्शन मॉडल अभी तक उद्यमों या जनता के लिए उपलब्ध नहीं है। थिंकिंग मैशीन्स का कहना है कि एक सीमित शोध पूर्वावलोकन आगामी महीनों में चयनित भागीदारों के लिए खुलेगा, और बाद में 2026 में एक व्यापक रिलीज़ होगी। कंपनी बड़े इंटरैक्शन मॉडल जारी करने की भी योजना बना रही है, यह बताते हुए कि वर्तमान 276B पैरामीटर संस्करण सबसे छोटा संस्करण है जिसे वे आवश्यक लेटेंसी पर परोस सकते हैं।

बेंचमार्क दावों का तुरंत सत्यापन प्रश्न है। एफडी-बेंच इंटरैक्शन गुणवत्ता को लक्षित करने वाले कुछ सार्वजनिक बेंचमार्क में से एक है, और थिंकिंग मैशीन्स के स्कोर को अभी तक तीसरे पक्ष द्वारा वास्तविक लोड के तहत पुनरुत्पादित नहीं किया गया है। कंपनी द्वारा पेश किए गए प्रोक्टिविटी परीक्षण, जिनमें रेपकाउंट-ए, प्रोक्टिववीडियोक्यूए और चारेड्स के अनुकूलित संस्करण शामिल हैं, नए उपकरण हैं जिनके पास एक स्थापित बेसलाइन नहीं है।

सामरिक दांव अधिक तेज़ है। जबकि ओपनएआई, एंथ्रोपिक और गूगल ने पिछले वर्ष स्वायत्त एजेंट क्षमताओं पर धक्का दिया है, थिंकिंग मैशीन्स यह दांव लगा रहा है कि प्रतिस्पर्धा का अगला अक्ष यह होगा कि मानव एआई के साथ कैसे संवाद करते हैं – एक निरंतर बातचीत की तुलना में एक प्रोम्प्ट की श्रृंखला के करीब। इंटरैक्शन मॉडल सबसे直接 रूप से रियल-टाइम वॉइस एआई सिस्टम के साथ प्रतिस्पर्धा करता है जो ओपनएआई, गूगल और एक बढ़ती श्रेणी के भाषण-केंद्रित स्टार्टअप्स से शिप हो रहे हैं। क्या वास्तुकला उत्पादन कार्यभार – लंबे सत्र, अविश्वसनीय कनेक्टिविटी और वास्तविक समय से इनकार के सुरक्षा प्रतिबंधों के साथ संपर्क में रहती है – यह परीक्षण है जो अगले पूर्वावलोकन राउंड को लागू करेगा।

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред