Umělá inteligence

Thinking Machines Lab Spustí První Model S Reálným Časem Interakce 200ms

Publikováno 12. května 2026

Aktualizováno 15. května 2026

Alex McFarland

Thinking Machines Lab, startup založený bývalým technickým ředitelem OpenAI Mira Murati, vydal výzkumnou předzvěst své první interní modelu 11. května 2026, čímž ukončil více než roční ticho o tom, co laboratoř vlastně postaví. Společnost nazývá systém “interakčním modelem” – multimodální architekturou, která byla vyškolena od začátku, aby zpracovávala audio, video a text v blocích po 200 milisekundách, místo aby čekala, až uživatel dokončí svůj tah.

Model, nazvaný TML-Interaction-Small, je systém se 276 miliardami parametrů a 12 miliardami aktivních parametrů. Podle oznámení na blogu společnosti se jedná o první produkt laboratoře, která získala asi 2 miliardy dolarů při valuaci 12 miliard dolarů, aniž by vydala něco jiného než nástroj pro jemné ladění. Vývoj přichází uprostřed neustálého tlaku ze strany odchodu talentů a zablokovaného následného kola financování.

Co vlastně dělá interakční model

Thinking Machines tvrdí, že současné modely na hranici – včetně OpenAI GPT-Realtime a Google Gemini Live – přidávají reálné chování k architekturám založeným na tazích pomocí “harnessu” externích komponent, jako je detekce hlasové aktivity. Tyto komponenty rozhodují, kdy uživatel přestal mluvit, a poté předávají dokončenou výpověď modelu. Zatímco model generuje odpověď, jeho vnímání světa se zastaví.

Interakční model nahrazuje tuto konstrukci tím, co společnost nazývá časově sladěné mikro-tahy. Systém nepřetržitě zpracovává 200 milisekund vstupu, zatímco generuje 200 milisekund výstupu, přičemž obě tokenové proudy jsou propleteny ve stejném taktu. Tato struktura umožňuje modelu přerušit uživatele uprostřed věty, reagovat na vizuální signály bez vyžádání, nebo mluvit současně s uživatelem pro úkoly, jako je živý překlad.

Architektura přeskočí těžké samostatné kódéry. Audio je krmeno jako dMel funkce prostřednictvím lehké vrstvy vloženého kódu, obrázky jsou rozděleny do 40×40 patche, a všechny komponenty jsou školeny od začátku s transformátorem. Zvláštní pozadí modelu běží asynchronně, zpracovává hlubší úsudky, nástrojové volání a procházení webu, zatímco interakční model zůstává přítomen v konverzaci.

Na základě výsledků společnosti TML-Interaction-Small dosahuje zpoždění při střídání tahů 0,40 sekundy na FD-bench V1, ve srovnání s 1,18 sekundami pro GPT-Realtime-2.0 v režimu minimálního myšlení a 0,57 sekundami pro Gemini-3.1-flash-live. Na FD-bench V1.5, který hodnotí kvalitu interakce napříč přerušením uživatele, backkanály a pozadí řeči, model dosahuje 77,8 proti 46,8 pro GPT-Realtime-2.0 minimální a 45,5 pro Gemini-3.1-flash-live v režimu vysokého myšlení. Čísla jsou samoohlašovaná.

Dlouho očekávaná první dodávka

Vývoj uzavírá dlouhou mezeru mezi financováním a produktem. Thinking Machines byla založena v únoru 2025 a v červenci téhož roku uzavřela kolo financování ve výši 2 miliard dolarů při valuaci 12 miliard dolarů – široce hlášené jako největší kolo financování v historii. Kolo bylo vedené Andreessen Horowitz s účastí Nvidia, AMD, Cisco, Accel, ServiceNow a Jane Street. Do teď jediným produktem, který společnost vydala, byl Tinker, API pro jemné ladění otevřených modelů, které bylo spuštěno v říjnu 2025.

Mezitím nastaly turbulence. Spoluzakladatelé Barret Zoph a Luke Metz opustili v lednu 2026, aby se vrátili do OpenAI, s Murati, který oznámil, že společnost “rozešla” se Zophem. Andrew Tulloch odešel do Meta Superintelligence Labs poté, co Mark Zuckerbergova nabídka ve výši 1 miliardy dolarů na odkoupení společnosti byla odmítnuta. Meta od té doby najala pět zakládajících členů laboratoře. Murati reagoval tím, že povýšil Soumith Chintalu, spoluzakladatele PyTorch, na technického ředitele. Ohlášené následné kolo financování při valuaci asi 50 miliard dolarů se nezavřelo do konce roku 2025.

Příběh o výpočtech se vyvíjel opačným směrem. V březnu Thinking Machines ohlasila partnerství s Nvidia, které zahrnuje nezveřejněné investice a nasazení nejméně jednoho gigawattu systémů Vera Rubin nové generace. Laboratoř také rozšířila svou spolupráci s Google Cloud, aby zahrnovala školení modelů na hranici na hardwaru Nvidia GB300.

Co sledovat

Interakční model ještě není k dispozici pro podniky nebo veřejnost. Thinking Machines říká, že omezená výzkumná předzvěst bude otevřena vybraným partnerům v následujících měsících, s širšími vydáními později v roce 2026. Společnost také plánuje vydat větší interakční modely, přičemž uvádí, že současná verze s 276 miliardami parametrů je nejmenší variantou, kterou může poskytnout při požadovaném zpoždění.

Nezávislé ověření tvrzení o benchmarkingu je okamžitou otázkou. FD-bench je jedním z mála veřejných benchmarků zaměřených na kvalitu interakce, a výsledky Thinking Machines ještě nebyly reprodukovány třetími stranami v realistickém zatížení. Testy proaktivního chování, které společnost zavedla pro vizuální signály, včetně adaptovaných verzí RepCount-A, ProactiveVideoQA a Charades, jsou nové nástroje bez zavedené báze.

Strategická sázka je ostřejší. Zatímco OpenAI, Anthropic a Google strávili minulý rok rozvojem schopností autonomních agentů, Thinking Machines sází na to, že další osa soutěže bude to, jak lidé komunikují s AI – blíže k nepřetržité konverzaci než k sérii tahů. Interakční model soutěží nejvíce přímo s systémy reálného času pro hlasovou AI, které jsou dodávány OpenAI, Google a rostoucí vrstvou startupů zaměřených na řeč. Zda architektura přežije kontakt s produkčními pracovními úlohami – dlouhými relacemi, nestabilními připojeními a bezpečnostními omezeními odmítnutí v reálném čase – je test, který bude kladen v následujícím kola předzvěstí.

Alex McFarland

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.

Unite.AI

Thinking Machines Lab Spustí První Model S Reálným Časem Interakce 200ms

Co vlastně dělá interakční model

Dlouho očekávaná první dodávka

Co sledovat

Objevte více