Connect with us

рдерд┐рдВрдХрд┐рдВрдЧ рдорд╢реАрдиреНрд╕ рд▓реИрдм рдиреЗ 200ms рд░рд┐рдпрд▓-рдЯрд╛рдЗрдо рдЗрдВрдЯрд░реИрдХреНрд╢рди рдХреЗ рд╕рд╛рде рдкрд╣рд▓рд╛ рдореЙрдбрд▓ рд╢рд┐рдк рдХрд┐рдпрд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдерд┐рдВрдХрд┐рдВрдЧ рдорд╢реАрдиреНрд╕ рд▓реИрдм рдиреЗ 200ms рд░рд┐рдпрд▓-рдЯрд╛рдЗрдо рдЗрдВрдЯрд░реИрдХреНрд╢рди рдХреЗ рд╕рд╛рде рдкрд╣рд▓рд╛ рдореЙрдбрд▓ рд╢рд┐рдк рдХрд┐рдпрд╛

mm

थिंकिंग मशीन्स लैब, एआई स्टार्टअप जिसकी स्थापना पूर्व ओपनएआई सीटीओ मीरा मुराती ने की थी, ने 11 मई, 2026 को अपने पहले इन-हाउस मॉडल का एक शोध पूर्वावलोकन जारी किया, जो कि लैब द्वारा वास्तव में क्या बनाया जाएगा, इस पर एक साल से अधिक समय से चली आ रही चुप्पी को समाप्त करता है। कंपनी इस सिस्टम को “इंटरैक्शन मॉडल” कहती है – एक मल्टीमॉडल आर्किटेक्चर जो 200-मिलीसेकंड के टुकड़ों में ऑडियो, वीडियो और टेक्स्ट को संसाधित करने के लिए स्क्रैच से प्रशिक्षित किया गया है, न कि उपयोगकर्ता के एक मोड़ को पूरा करने की प्रतीक्षा करता है।

मॉडल, जिसे टीएमएल-इंटरैक्शन-स्मॉल नाम दिया गया है, 276 बिलियन-पैरामीटर मिक्सचर-ऑफ-एक्सपर्ट सिस्टम है जिसमें 12 बिलियन सक्रिय पैरामीटर हैं। कंपनी के घोषणा ब्लॉग पोस्ट के अनुसार, यह लैब का पहला उत्पाद है जिसने लगभग $2 बिलियन जुटाया है और $12 बिलियन के मूल्यांकन पर एक फाइन-ट्यूनिंग टूल के अलावा कुछ भी शिप नहीं किया है। रिलीज़ दबाव के बीच आता है प्रतिभा के प्रस्थान और एक रुके हुए अनुवर्ती फंडिंग राउंड से।

इंटरैक्शन मॉडल वास्तव में क्या करता है

थिंकिंग मशीन्स का तर्क है कि आज के फ्रंटियर मॉडल – जिनमें ओपनएआई का जीपीटी-रियलटाइम और गूगल का जेमिनी लाइव शामिल हैं – वास्तविक समय के व्यवहार को मोड़-आधारित आर्किटेक्चर पर एक “हार्नेस” के माध्यम से बाहरी घटकों जैसे वॉइस-एक्टिविटी डिटेक्शन का उपयोग करके जोड़ते हैं। वे घटक तय करते हैं कि उपयोगकर्ता कब बोलना बंद कर दिया है, फिर एक पूर्ण कथन को मॉडल को सौंप दें। जबकि मॉडल एक प्रतिक्रिया उत्पन्न करता है, उसकी दुनिया की धारणा जम जाती है।

इंटरैक्शन मॉडल उस स्कैफोल्डिंग को समय-समय पर माइक्रो-मोड़ के साथ बदल देता है जिसे कंपनी “समय-समय पर माइक्रो-मोड़” कहती है। सिस्टम लगातार 200 मिलीसेकंड के इनपुट को संसाधित करता है जबकि 200 मिलीसेकंड के आउटपुट का उत्पादन करता है, दोनों टोकन स्ट्रीम एक ही क्लॉक चक्र पर इंटरलीव्ड होते हैं। उस संरचना को मॉडल को एक उपयोगकर्ता को मध्य वाक्य में बाधित करने, दृश्य संकेतों का जवाब देने की अनुमति देता है जब उन्हें नहीं पूछा जाता है, या लाइव अनुवाद जैसे कार्यों के लिए उपयोगकर्ता के साथ एक ही समय में बोलता है।

आर्किटेक्चर भारी स्टैंडअलोन एनकोडर्स को छोड़ देता है। ऑडियो को डीएमेल सुविधाओं के रूप में एक हल्के एम्बेडिंग परत के माध्यम से खिलाया जाता है, छवियों को 40×40 पैच में विभाजित किया जाता है, और सभी घटकों को स्क्रैच से ट्रांसफॉर्मर के साथ सह-प्रशिक्षित किया जाता है। एक अलग बैकग्राउंड मॉडल असिंक्रोनस रूप से चलता है, जो गहरे तर्क, टूल कॉल और वेब ब्राउज़िंग को संभालता है जबकि इंटरैक्शन मॉडल बातचीत में मौजूद रहता है।

कंपनी के रिपोर्ट किए गए बेंचमार्क पर, टीएमएल-इंटरैक्शन-स्मॉल एफडी-बेंच वी1 पर 0.40 सेकंड की मोड़-लेने वाली देरी पोस्ट करता है, जो जीपीटी-रियलटाइम-2.0 के लिए 1.18 सेकंड और जेमिनी-3.1-फ्लैश-लाइव के लिए 0.57 सेकंड है। एफडी-बेंच वी1.5 पर, जो उपयोगकर्ता बाधाओं, बैकचैनल और पृष्ठभूमि भाषण के माध्यम से इंटरैक्शन गुणवत्ता को स्कोर करता है, मॉडल 77.8 स्कोर करता है जीपीटी-रियलटाइम-2.0 के लिए 46.8 और जेमिनी-3.1-फ्लैश-लाइव के लिए 45.5 के मुकाबले। आंकड़े स्व-rapported हैं।

एक लंबे समय से प्रतीक्षित पहली जहाज

रिलीज़ एक लंबे समय से चली आ रही फंडिंग और उत्पाद के बीच के अंतर को बंद कर देता है। थिंकिंग मशीन्स की स्थापना फरवरी 2025 में हुई थी और उसी वर्ष जुलाई में इसने $2 बिलियन का सीड राउंड बंद किया था, जो $12 बिलियन के मूल्यांकन पर था – जिसे रिकॉर्ड पर सबसे बड़ा सीड राउंड के रूप में व्यापक रूप से बताया गया था। राउंड का नेतृत्व एंड्रेसेन होरोविट्ज़ ने किया था, जिसमें एनवीडिया, एएमडी, सिस्को, एक्सेल, सर्विसनाउ और जेन स्ट्रीट ने भाग लिया था। अब तक, कंपनी का एकमात्र शिप किया गया उत्पाद टिंकर है, एक एपीआई जो अक्टूबर 2025 में लॉन्च हुआ था जो ओपन-वेट मॉडल को फाइन-ट्यून करने के लिए है।

बीच के महीनों में उथल-पुथल आई। सह-संस्थापक बैरेट ज़ोफ और ल्यूक मेट्ज़ जनवरी 2026 में ओपनएआई में वापस आने के लिए चले गए, जिसमें मुराती ने घोषणा की कि कंपनी ने “ज़ोफ के साथ तरीके अलग कर लिए हैं”। एंड्रू टुलोच मेटा की सुपरइंटेलिजेंस लैब्स के लिए चले गए, जब मार्क जुकरबर्ग के द्वारा कंपनी को सीधे खरीदने के लिए $1 बिलियन की रिपोर्ट की गई पेशकश को अस्वीकार कर दिया गया था। मेटा ने तब से लैब के पांच संस्थापक सदस्यों को नियुक्त किया है। मुराती ने पाइथन के सह-संस्थापक सौमिथ चिंताला को सीटीओ के रूप में पदोन्नत करके प्रतिक्रिया दी। एक अनुवर्ती राउंड जो लगभग $50 बिलियन के मूल्यांकन पर बंद नहीं हुआ था, 2025 के अंत तक नहीं हुआ था।

कंप्यूटे की कहानी विपरीत दिशा में चली गई। मार्च में, थिंकिंग मशीन्स ने एनवीडिया के साथ साझेदारी की घोषणा की, जिसमें एक अनुशंसित निवेश और कम से कम एक गीगावाट नेक्स्ट-जेन वेरा रूबिन सिस्टम की तैनाती शामिल थी। लैब ने अपने गूगल क्लाउड संबंध का विस्तार किया ताकि एनवीडिया जीबी300 हार्डवेयर पर फ्रंटियर मॉडल प्रशिक्षण शामिल किया जा सके।

क्या देखना है

इंटरैक्शन मॉडल अभी तक उद्यमों या जनता के लिए उपलब्ध नहीं है। थिंकिंग मशीन्स कहती है कि एक सीमित शोध पूर्वावलोकन आगामी महीनों में चयनित भागीदारों के लिए खुलेगा, और बाद में 2026 में एक व्यापक रिलीज़ होगी। कंपनी बड़े इंटरैक्शन मॉडल जारी करने की भी योजना बना रही है, यह बताते हुए कि वर्तमान 276B पैरामीटर संस्करण सबसे छोटा संस्करण है जिसे वह आवश्यक देरी पर परोस सकती है।

बेंचमार्क दावों का स्वतंत्र सत्यापन तत्काल प्रश्न है। एफडी-बेंच इंटरैक्शन गुणवत्ता को लक्षित करने वाले कुछ सार्वजनिक बेंचमार्क में से एक है, और थिंकिंग मशीन्स के स्कोर को अभी तक तीसरे पक्ष द्वारा वास्तविक भार के तहत पुनः उत्पादित नहीं किया गया है। कंपनी द्वारा दृश्य संकेतों के लिए पेश किए गए प्रोक्टिविटी परीक्षण, जिनमें रेपकाउंट-ए, प्रोक्टिववीडियोक्यूए और चारेड्स के अनुकूलित संस्करण शामिल हैं, नए उपकरण हैं जिनके पास एक स्थापित बेसलाइन नहीं है।

स्ट्रेटजिक दांव अधिक तेज है। जबकि ओपनएआई, एंथ्रोपिक और गूगल ने पिछले वर्ष स्वायत्त एजेंट क्षमताओं को आगे बढ़ाने में बिताया है, थिंकिंग मशीन्स यह दांव लगा रही है कि प्रतिस्पर्धा का अगला अक्ष यह होगा कि मानव एआई के साथ कैसे संवाद करते हैं – एक निरंतर बातचीत की तुलना में एक श्रृंखला के प्रॉम्प्ट के करीब। इंटरैक्शन मॉडल ओपनएआई, गूगल और एक बढ़ती श्रेणी के भाषण-केंद्रित स्टार्टअप्स से वास्तविक समय वॉइस एआई सिस्टम के साथ सबसे直接 प्रतिस्पर्धा करता है। क्या आर्किटेक्चर उत्पादन कार्यभार – लंबे सत्र, अनिश्चित कनेक्टिविटी और वास्तविक समय इनकार के सुरक्षा प्रतिबंधों के साथ संपर्क में रहता है – यह परीक्षण है जो अगले पूर्वावलोकन राउंड को लागू करेगा।

рдПрд▓реЗрдХреНрд╕ рдореИрдХрдлрд╛рд░рд▓реИрдВрдб рдПрдХ рдПрдЖрдИ рдкрддреНрд░рдХрд╛рд░ рдФрд░ рд▓реЗрдЦрдХ рд╣реИрдВ рдЬреЛ рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛ рдореЗрдВ рдирд╡реАрдирддрдо рд╡рд┐рдХрд╛рд╕реЛрдВ рдХрд╛ рдЕрдиреНрд╡реЗрд╖рдг рдХрд░ рд░рд╣реЗ рд╣реИрдВред рдЙрдиреНрд╣реЛрдВрдиреЗ рд╡рд┐рд╢реНрд╡рднрд░ рдХреЗ рдХрдИ рдПрдЖрдИ рд╕реНрдЯрд╛рд░реНрдЯрдЕрдкреНрд╕ рдФрд░ рдкреНрд░рдХрд╛рд╢рдиреЛрдВ рдХреЗ рд╕рд╛рде рд╕рд╣рдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИред