कृत्रिम बुद्धिमत्ता

थिंकिंग मैशीन्स लैब ने 200ms रियल-टाइम इंटरैक्शन के साथ पहला मॉडल शिप किया

प्रकाशित 12 मई 2026

अपडेट किया गया 15 मई 2026

Alex McFarland

थिंकिंग मैशीन्स लैब, एआई स्टार्टअप जिसकी स्थापना पूर्व ओपनएआई सीटीओ मीरा मुराती ने की थी, ने 11 मई, 2026 को अपने पहले इन-हाउस मॉडल का एक शोध पूर्वावलोकन जारी किया, जो कि एक साल से अधिक समय से चली आ रही चुप्पी को तोड़ता है कि लैब वास्तव में क्या बनाएगी। कंपनी इस प्रणाली को एक “इंटरैक्शन मॉडल” कहती है – एक मल्टीमोडल आर्किटेक्चर जो 200-मिलीसेकंड के हिस्सों में ऑडियो, वीडियो और पाठ को संसाधित करने के लिए स्क्रैच से प्रशिक्षित किया गया है, न कि उपयोगकर्ता के पूरा होने की प्रतीक्षा करते हुए।

मॉडल, जिसे टीएमएल-इंटरैक्शन-स्मॉल नाम दिया गया है, एक 276 बिलियन-पैरामीटर मिक्सचर-ऑफ-एक्सपर्ट सिस्टम है जिसमें 12 बिलियन सक्रिय पैरामीटर हैं। कंपनी के अनुसार घोषणा ब्लॉग पोस्ट, यह एक लैब से पहला उत्पाद है जिसने लगभग $2 बिलियन की फंडिंग के साथ $12 बिलियन के मूल्यांकन पर एक फाइन-ट्यूनिंग टूल के अलावा कुछ भी शिप नहीं किया है। रिलीज़ दबाव के बीच आता है प्रतिभा के प्रस्थान और एक अनुवर्ती फंडिंग राउंड के ठप होने से।

इंटरैक्शन मॉडल वास्तव में क्या करता है

थिंकिंग मैशीन्स का तर्क है कि आज के फ्रंटियर मॉडल – जिनमें ओपनएआई का जीपीटी-रियलटाइम और गूगल का जेमिनी लाइव शामिल हैं – वास्तविक समय के व्यवहार को मोड़-आधारित वास्तुकला में बाहरी घटकों जैसे वॉइस-एक्टिविटी डिटेक्शन के “हार्नेस” का उपयोग करके जोड़ते हैं। ये घटक तय करते हैं कि उपयोगकर्ता कब बोलना बंद कर दिया है, फिर एक पूर्ण कथन को मॉडल को सौंप दें। जबकि मॉडल एक प्रतिक्रिया उत्पन्न करता है, इसकी दुनिया की धारणा जम जाती है।

इंटरैक्शन मॉडल उस स्कैफोल्डिंग को समय-समय पर माइक्रो-मोड़ के साथ बदलता है जिसे कंपनी कहती है। प्रणाली निरंतर 200 मिलीसेकंड के इनपुट को संसाधित करती है जबकि 200 मिलीसेकंड के आउटपुट का उत्पादन करती है, दोनों टोकन स्ट्रीम एक ही क्लॉक चक्र पर अंतर्निहित होती हैं। उस संरचना को मॉडल को एक उपयोगकर्ता को मध्य वाक्य में बाधित करने, दृश्य संकेतों का जवाब देने की अनुमति देती है या लाइव अनुवाद जैसे कार्यों के लिए उपयोगकर्ता के साथ एक ही समय में बोलती है।

वास्तुकला भारी स्टैंडअलोन एनकोडर्स को छोड़ देती है। ऑडियो को डीएमईल सुविधाओं के रूप में एक हल्के एम्बेडिंग परत के माध्यम से खिलाया जाता है, छवियों को 40×40 पैच में विभाजित किया जाता है, और सभी घटकों को स्क्रैच से ट्रांसफॉर्मर के साथ सह-प्रशिक्षित किया जाता है। एक अलग पृष्ठभूमि मॉडल असिंक्रोनस रूप से चलता है, जो गहरे तर्क, टूल कॉल और वेब ब्राउजिंग को संभालता है जबकि इंटरैक्शन मॉडल बातचीत में मौजूद रहता है।

कंपनी के रिपोर्ट किए गए बेंचमार्क पर, टीएमएल-इंटरैक्शन-स्मॉल एफडी-बेंच वी1 पर 0.40 सेकंड की टर्न-टेकिंग लेटेंसी पोस्ट करता है, जो जीपीटी-रियलटाइम-2.0 के 1.18 सेकंड और जेमिनी-3.1-फ्लैश-लाइव के 0.57 सेकंड की तुलना में है। एफडी-बेंच वी1.5 पर, जो उपयोगकर्ता बाधाओं, बैकचैनल और पृष्ठभूमि भाषण के माध्यम से इंटरैक्शन गुणवत्ता को स्कोर करता है, मॉडल 77.8 स्कोर करता है, जो जीपीटी-रियलटाइम-2.0 के 46.8 और जेमिनी-3.1-फ्लैश-लाइव के 45.5 की तुलना में है। आंकड़े स्व-rिपोर्ट किए गए हैं।

एक लंबे समय से प्रतीक्षित पहली शिप

रिलीज़ एक लंबे समय से चली आ रही फंडिंग और उत्पाद के बीच की खाई को बंद करता है। थिंकिंग मैशीन्स की स्थापना फरवरी 2025 में हुई थी और उसी वर्ष जुलाई में इसने $2 बिलियन का सीड राउंड $12 बिलियन के मूल्यांकन पर बंद किया था – जिसे व्यापक रूप से रिकॉर्ड पर सबसे बड़ा सीड राउंड के रूप में बताया गया था। राउंड का नेतृत्व एंड्रेसेन होरोविट्ज़ ने किया था, जिसमें एनवीडिया, एएमडी, सिस्को, एक्सेल, सर्विसनाउ और जेन स्ट्रीट ने भाग लिया था। अब तक, कंपनी का एकमात्र शिप किया गया उत्पाद टिंकर है, एक एपीआई जो अक्टूबर 2025 में लॉन्च हुआ था।

बीच के महीनों में उथल-पुथल आई। सह-संस्थापक बैरेट ज़ोफ और ल्यूक मेट्ज़ जनवरी 2026 में ओपनएआई में लौट आए, जिसमें मुराती ने घोषणा की कि कंपनी ने “तरीके से अलग” किया है। एंड्रू टुलोच मेटा की सुपरइंटेलिजेंस लैब्स के लिए चले गए, जब मार्क जुकरबर्ग के अनुसार $1 बिलियन की रिपोर्ट की गई पेशकश को सीधे कंपनी को अधिग्रहित करने के लिए अस्वीकार कर दिया गया था। मेटा ने तब से लैब के पांच संस्थापक सदस्यों को नियुक्त किया है। मुराती ने पायटोर्च के सह-संस्थापक सौमित चिंताला को सीटीओ के रूप में पदोन्नत करके प्रतिक्रिया दी। एक अनुवर्ती राउंड जो लगभग $50 बिलियन के मूल्यांकन पर बंद हुआ, 2025 के अंत तक बंद नहीं हुआ।

कंप्यूटे की कहानी विपरीत दिशा में चली गई। मार्च में, थिंकिंग मैशीन्स ने एनवीडिया के साथ एक साझेदारी की घोषणा की, जिसमें एक अनुशंसित निवेश और कम से कम एक गीगावाट अगली पीढ़ी के वेरा रूबिन सिस्टम की तैनाती शामिल थी। लैब ने अपने गूगल क्लाउड संबंध को भी विस्तारित किया ताकि एनवीडिया जीबी300 हार्डवेयर पर फ्रंटियर मॉडल प्रशिक्षण शामिल किया जा सके।

क्या देखना है

इंटरैक्शन मॉडल अभी तक उद्यमों या जनता के लिए उपलब्ध नहीं है। थिंकिंग मैशीन्स का कहना है कि एक सीमित शोध पूर्वावलोकन आगामी महीनों में चयनित भागीदारों के लिए खुलेगा, और बाद में 2026 में एक व्यापक रिलीज़ होगी। कंपनी बड़े इंटरैक्शन मॉडल जारी करने की भी योजना बना रही है, यह बताते हुए कि वर्तमान 276B पैरामीटर संस्करण सबसे छोटा संस्करण है जिसे वे आवश्यक लेटेंसी पर परोस सकते हैं।

बेंचमार्क दावों का तुरंत सत्यापन प्रश्न है। एफडी-बेंच इंटरैक्शन गुणवत्ता को लक्षित करने वाले कुछ सार्वजनिक बेंचमार्क में से एक है, और थिंकिंग मैशीन्स के स्कोर को अभी तक तीसरे पक्ष द्वारा वास्तविक लोड के तहत पुनरुत्पादित नहीं किया गया है। कंपनी द्वारा पेश किए गए प्रोक्टिविटी परीक्षण, जिनमें रेपकाउंट-ए, प्रोक्टिववीडियोक्यूए और चारेड्स के अनुकूलित संस्करण शामिल हैं, नए उपकरण हैं जिनके पास एक स्थापित बेसलाइन नहीं है।

सामरिक दांव अधिक तेज़ है। जबकि ओपनएआई, एंथ्रोपिक और गूगल ने पिछले वर्ष स्वायत्त एजेंट क्षमताओं पर धक्का दिया है, थिंकिंग मैशीन्स यह दांव लगा रहा है कि प्रतिस्पर्धा का अगला अक्ष यह होगा कि मानव एआई के साथ कैसे संवाद करते हैं – एक निरंतर बातचीत की तुलना में एक प्रोम्प्ट की श्रृंखला के करीब। इंटरैक्शन मॉडल सबसे直接 रूप से रियल-टाइम वॉइस एआई सिस्टम के साथ प्रतिस्पर्धा करता है जो ओपनएआई, गूगल और एक बढ़ती श्रेणी के भाषण-केंद्रित स्टार्टअप्स से शिप हो रहे हैं। क्या वास्तुकला उत्पादन कार्यभार – लंबे सत्र, अविश्वसनीय कनेक्टिविटी और वास्तविक समय से इनकार के सुरक्षा प्रतिबंधों के साथ संपर्क में रहती है – यह परीक्षण है जो अगले पूर्वावलोकन राउंड को लागू करेगा।

Alex McFarland

एलेक्स मैकफारलैंड एक एआई पत्रकार और लेखक हैं जो कृत्रिम बुद्धिमत्ता में नवीनतम विकासों का अन्वेषण कर रहे हैं। उन्होंने विश्वभर के कई एआई स्टार्टअप्स और प्रकाशनों के साथ सहयोग किया है।

Unite.AI

थिंकिंग मैशीन्स लैब ने 200ms रियल-टाइम इंटरैक्शन के साथ पहला मॉडल शिप किया

इंटरैक्शन मॉडल वास्तव में क्या करता है

एक लंबे समय से प्रतीक्षित पहली शिप

क्या देखना है

और जानें