рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛
рдерд┐рдВрдХрд┐рдВрдЧ рдореИрд╢реАрдиреНрд╕ рд▓реИрдм рдиреЗ 200ms рд░рд┐рдпрд▓-рдЯрд╛рдЗрдо рдЗрдВрдЯрд░реИрдХреНрд╢рди рдХреЗ рд╕рд╛рде рдкрд╣рд▓рд╛ рдореЙрдбрд▓ рд╢рд┐рдк рдХрд┐рдпрд╛

थिंकिंग मैशीन्स लैब, एआई स्टार्टअप जिसकी स्थापना पूर्व ओपनएआई सीटीओ मीरा मुराती ने की थी, ने 11 मई, 2026 को अपने पहले इन-हाउस मॉडल का एक शोध पूर्वावलोकन जारी किया, जो कि एक साल से अधिक समय से चली आ रही चुप्पी को तोड़ता है कि लैब वास्तव में क्या बनाएगी। कंपनी इस प्रणाली को एक “इंटरैक्शन मॉडल” कहती है – एक मल्टीमोडल आर्किटेक्चर जो 200-मिलीसेकंड के हिस्सों में ऑडियो, वीडियो और पाठ को संसाधित करने के लिए स्क्रैच से प्रशिक्षित किया गया है, न कि उपयोगकर्ता के पूरा होने की प्रतीक्षा करते हुए।
मॉडल, जिसे टीएमएल-इंटरैक्शन-स्मॉल नाम दिया गया है, एक 276 बिलियन-पैरामीटर मिक्सचर-ऑफ-एक्सपर्ट सिस्टम है जिसमें 12 बिलियन सक्रिय पैरामीटर हैं। कंपनी के अनुसार घोषणा ब्लॉग पोस्ट, यह एक लैब से पहला उत्पाद है जिसने लगभग $2 बिलियन की फंडिंग के साथ $12 बिलियन के मूल्यांकन पर एक फाइन-ट्यूनिंग टूल के अलावा कुछ भी शिप नहीं किया है। रिलीज़ दबाव के बीच आता है प्रतिभा के प्रस्थान और एक अनुवर्ती फंडिंग राउंड के ठप होने से।
इंटरैक्शन मॉडल वास्तव में क्या करता है
थिंकिंग मैशीन्स का तर्क है कि आज के फ्रंटियर मॉडल – जिनमें ओपनएआई का जीपीटी-रियलटाइम और गूगल का जेमिनी लाइव शामिल हैं – वास्तविक समय के व्यवहार को मोड़-आधारित वास्तुकला में बाहरी घटकों जैसे वॉइस-एक्टिविटी डिटेक्शन के “हार्नेस” का उपयोग करके जोड़ते हैं। ये घटक तय करते हैं कि उपयोगकर्ता कब बोलना बंद कर दिया है, फिर एक पूर्ण कथन को मॉडल को सौंप दें। जबकि मॉडल एक प्रतिक्रिया उत्पन्न करता है, इसकी दुनिया की धारणा जम जाती है।
इंटरैक्शन मॉडल उस स्कैफोल्डिंग को समय-समय पर माइक्रो-मोड़ के साथ बदलता है जिसे कंपनी कहती है। प्रणाली निरंतर 200 मिलीसेकंड के इनपुट को संसाधित करती है जबकि 200 मिलीसेकंड के आउटपुट का उत्पादन करती है, दोनों टोकन स्ट्रीम एक ही क्लॉक चक्र पर अंतर्निहित होती हैं। उस संरचना को मॉडल को एक उपयोगकर्ता को मध्य वाक्य में बाधित करने, दृश्य संकेतों का जवाब देने की अनुमति देती है या लाइव अनुवाद जैसे कार्यों के लिए उपयोगकर्ता के साथ एक ही समय में बोलती है।
वास्तुकला भारी स्टैंडअलोन एनकोडर्स को छोड़ देती है। ऑडियो को डीएमईल सुविधाओं के रूप में एक हल्के एम्बेडिंग परत के माध्यम से खिलाया जाता है, छवियों को 40×40 पैच में विभाजित किया जाता है, और सभी घटकों को स्क्रैच से ट्रांसफॉर्मर के साथ सह-प्रशिक्षित किया जाता है। एक अलग पृष्ठभूमि मॉडल असिंक्रोनस रूप से चलता है, जो गहरे तर्क, टूल कॉल और वेब ब्राउजिंग को संभालता है जबकि इंटरैक्शन मॉडल बातचीत में मौजूद रहता है।
कंपनी के रिपोर्ट किए गए बेंचमार्क पर, टीएमएल-इंटरैक्शन-स्मॉल एफडी-बेंच वी1 पर 0.40 सेकंड की टर्न-टेकिंग लेटेंसी पोस्ट करता है, जो जीपीटी-रियलटाइम-2.0 के 1.18 सेकंड और जेमिनी-3.1-फ्लैश-लाइव के 0.57 सेकंड की तुलना में है। एफडी-बेंच वी1.5 पर, जो उपयोगकर्ता बाधाओं, बैकचैनल और पृष्ठभूमि भाषण के माध्यम से इंटरैक्शन गुणवत्ता को स्कोर करता है, मॉडल 77.8 स्कोर करता है, जो जीपीटी-रियलटाइम-2.0 के 46.8 और जेमिनी-3.1-फ्लैश-लाइव के 45.5 की तुलना में है। आंकड़े स्व-rिपोर्ट किए गए हैं।
एक लंबे समय से प्रतीक्षित पहली शिप
रिलीज़ एक लंबे समय से चली आ रही फंडिंग और उत्पाद के बीच की खाई को बंद करता है। थिंकिंग मैशीन्स की स्थापना फरवरी 2025 में हुई थी और उसी वर्ष जुलाई में इसने $2 बिलियन का सीड राउंड $12 बिलियन के मूल्यांकन पर बंद किया था – जिसे व्यापक रूप से रिकॉर्ड पर सबसे बड़ा सीड राउंड के रूप में बताया गया था। राउंड का नेतृत्व एंड्रेसेन होरोविट्ज़ ने किया था, जिसमें एनवीडिया, एएमडी, सिस्को, एक्सेल, सर्विसनाउ और जेन स्ट्रीट ने भाग लिया था। अब तक, कंपनी का एकमात्र शिप किया गया उत्पाद टिंकर है, एक एपीआई जो अक्टूबर 2025 में लॉन्च हुआ था।
बीच के महीनों में उथल-पुथल आई। सह-संस्थापक बैरेट ज़ोफ और ल्यूक मेट्ज़ जनवरी 2026 में ओपनएआई में लौट आए, जिसमें मुराती ने घोषणा की कि कंपनी ने “तरीके से अलग” किया है। एंड्रू टुलोच मेटा की सुपरइंटेलिजेंस लैब्स के लिए चले गए, जब मार्क जुकरबर्ग के अनुसार $1 बिलियन की रिपोर्ट की गई पेशकश को सीधे कंपनी को अधिग्रहित करने के लिए अस्वीकार कर दिया गया था। मेटा ने तब से लैब के पांच संस्थापक सदस्यों को नियुक्त किया है। मुराती ने पायटोर्च के सह-संस्थापक सौमित चिंताला को सीटीओ के रूप में पदोन्नत करके प्रतिक्रिया दी। एक अनुवर्ती राउंड जो लगभग $50 बिलियन के मूल्यांकन पर बंद हुआ, 2025 के अंत तक बंद नहीं हुआ।
कंप्यूटे की कहानी विपरीत दिशा में चली गई। मार्च में, थिंकिंग मैशीन्स ने एनवीडिया के साथ एक साझेदारी की घोषणा की, जिसमें एक अनुशंसित निवेश और कम से कम एक गीगावाट अगली पीढ़ी के वेरा रूबिन सिस्टम की तैनाती शामिल थी। लैब ने अपने गूगल क्लाउड संबंध को भी विस्तारित किया ताकि एनवीडिया जीबी300 हार्डवेयर पर फ्रंटियर मॉडल प्रशिक्षण शामिल किया जा सके।
क्या देखना है
इंटरैक्शन मॉडल अभी तक उद्यमों या जनता के लिए उपलब्ध नहीं है। थिंकिंग मैशीन्स का कहना है कि एक सीमित शोध पूर्वावलोकन आगामी महीनों में चयनित भागीदारों के लिए खुलेगा, और बाद में 2026 में एक व्यापक रिलीज़ होगी। कंपनी बड़े इंटरैक्शन मॉडल जारी करने की भी योजना बना रही है, यह बताते हुए कि वर्तमान 276B पैरामीटर संस्करण सबसे छोटा संस्करण है जिसे वे आवश्यक लेटेंसी पर परोस सकते हैं।
बेंचमार्क दावों का तुरंत सत्यापन प्रश्न है। एफडी-बेंच इंटरैक्शन गुणवत्ता को लक्षित करने वाले कुछ सार्वजनिक बेंचमार्क में से एक है, और थिंकिंग मैशीन्स के स्कोर को अभी तक तीसरे पक्ष द्वारा वास्तविक लोड के तहत पुनरुत्पादित नहीं किया गया है। कंपनी द्वारा पेश किए गए प्रोक्टिविटी परीक्षण, जिनमें रेपकाउंट-ए, प्रोक्टिववीडियोक्यूए और चारेड्स के अनुकूलित संस्करण शामिल हैं, नए उपकरण हैं जिनके पास एक स्थापित बेसलाइन नहीं है।
सामरिक दांव अधिक तेज़ है। जबकि ओपनएआई, एंथ्रोपिक और गूगल ने पिछले वर्ष स्वायत्त एजेंट क्षमताओं पर धक्का दिया है, थिंकिंग मैशीन्स यह दांव लगा रहा है कि प्रतिस्पर्धा का अगला अक्ष यह होगा कि मानव एआई के साथ कैसे संवाद करते हैं – एक निरंतर बातचीत की तुलना में एक प्रोम्प्ट की श्रृंखला के करीब। इंटरैक्शन मॉडल सबसे直接 रूप से रियल-टाइम वॉइस एआई सिस्टम के साथ प्रतिस्पर्धा करता है जो ओपनएआई, गूगल और एक बढ़ती श्रेणी के भाषण-केंद्रित स्टार्टअप्स से शिप हो रहे हैं। क्या वास्तुकला उत्पादन कार्यभार – लंबे सत्र, अविश्वसनीय कनेक्टिविटी और वास्तविक समय से इनकार के सुरक्षा प्रतिबंधों के साथ संपर्क में रहती है – यह परीक्षण है जो अगले पूर्वावलोकन राउंड को लागू करेगा।












