Connect with us

Laboratoř Thinking Machines dodává první model s reálnou interakcí v čase 200 ms

Umělá inteligence

Laboratoř Thinking Machines dodává první model s reálnou interakcí v čase 200 ms

mm

Laboratoř Thinking Machines, startup založený bývalým technickým ředitelem OpenAI Mira Murati, vydal výzkumnou předzvěst svého prvního interního modelu 11. května 2026, čímž ukončil více než roční ticho o tom, co laboratoř vlastně postaví. Společnost nazývá systém “interakčním modelem” – multimodální architekturou, která je trénována od začátku, aby zpracovávala audio, video a text v blocích po 200 milisekundách, místo aby čekala, až uživatel dokončí svůj tah.

Model, nazvaný TML-Interaction-Small, je 276miliardový parametrický systém mixture-of-experts se 12 miliardami aktivních parametrů. Podle oznámení na blogu společnosti se jedná o první produkt laboratoře, která získala asi 2 miliardy dolarů při valuaci 12 miliard dolarů, aniž by dodala něco jiného než nástroj pro jemné ladění. Uvedení produktu přichází uprostřed udržitelného tlaku z odchodů talentů a zablokovaného následného kola financování.

Co vlastně dělá interakční model

Laboratoř Thinking Machines tvrdí, že dnešní modely na hranici – včetně OpenAI GPT-Realtime a Google Gemini Live – přidávají reálnou dobu chodu na architekturu založenou na turn-based pomocí “harness” externích komponent, jako je detekce hlasové aktivity. Tyto komponenty rozhodují, kdy uživatel přestal mluvit, a poté předají dokončenou výpověď modelu. Zatímco model generuje odpověď, jeho vnímání světa se zastaví.

Interakční model nahrazuje tuto konstrukci tím, co společnost nazývá časově sladěné mikro-tahy. Systém nepřetržitě zpracovává 200 milisekund vstupu, zatímco generuje 200 milisekund výstupu, se oběma tokenovými proudy propletenými ve stejném cyklu hodin. Tato struktura umožňuje modelu přerušit uživatele uprostřed věty, reagovat na vizuální signály bez požadavku, nebo mluvit současně s uživatelem pro úkoly, jako je živý překlad.

Architektura přeskočí těžké samostatné kodéry. Audio je zavedeno jako dMel funkce přes lehkou vrstvu vložení, obrázky jsou rozděleny do 40×40 patche a všechny komponenty jsou společně trénovány od začátku s transformátorem. Zvláštní pozadí modelu běží asynchronně, zpracovává hlubší rozumění, volání nástrojů a prohlížení webu, zatímco interakční model zůstává přítomen v konverzaci.

Podle hlášených benchmarků TML-Interaction-Small dosahuje doby odezvy 0,40 sekundy na FD-bench V1, ve srovnání s 1,18 sekundami pro GPT-Realtime-2.0 v režimu minimálního myšlení a 0,57 sekundami pro Gemini-3.1-flash-live. Na FD-bench V1.5, který hodnotí kvalitu interakce napříč uživatelskými přerušeními, backchannelingem a pozadím řeči, model dosahuje 77,8 proti 46,8 pro GPT-Realtime-2.0 minimální a 45,5 pro Gemini-3.1-flash-live v režimu vysokého myšlení. Čísla jsou self-reported.

Dlouho očekávaná první dodávka

Uvedení produktu uzavírá dlouhou mezeru mezi financováním a produktem. Laboratoř Thinking Machines byla založena v únoru 2025 a v červenci téhož roku uzavřela kolo financování ve výši 2 miliard dolarů při valuaci 12 miliard dolarů – široce hlášené jako největší kolo financování v historii. Kolo bylo vedeno Andreessen Horowitz s účastí Nvidia, AMD, Cisco, Accel, ServiceNow a Jane Street. Do teď jediným dodaným produktem společnosti byl Tinker, API pro jemné ladění otevřených modelů, které bylo spuštěno v říjnu 2025.

Mezitím měsíce přinesly turbulence. Spoluzakladatelé Barret Zoph a Luke Metz opustili laboratoř v lednu 2026, aby se vrátili do OpenAI, s Murati, která oznámila, že společnost “rozešla” se Zophem. Andrew Tulloch opustil laboratoř pro Meta Superintelligence Labs po Mark Zuckerbergově údajné nabídce 1 miliardy dolarů na odkoupení společnosti, která byla odmítnuta. Meta od té doby najala pět zakládajících členů laboratoře. Murati odpověděla tím, že povýšila Soumith Chintalu, spoluzakladatele PyTorch, na technického ředitele. Údajné následné kolo financování při valuaci kolem 50 miliard dolarů se nezavřelo do konce roku 2025.

Příběh o výpočetní technice se vydal opačným směrem. V březnu laboratoř Thinking Machines oznámila partnerství s Nvidia, které zahrnuje neznámou investici a nasazení nejméně jednoho gigawattu systémů Vera Rubin nové generace. Laboratoř také rozšířila svou spolupráci s Google Cloud, aby zahrnovala trénink modelů na hranici na hardwaru Nvidia GB300.

Co sledovat

Interakční model ještě není dostupný pro podniky nebo veřejnost. Laboratoř Thinking Machines říká, že omezená výzkumná předzvěst bude otevřena vybraným partnerům v příštích měsících, s širšími uvedením později v roce 2026. Společnost také plánuje uvést větší interakční modely, přičemž uvádí, že současná verze 276 miliard parametrů je nejmenší varianta, kterou mohou dodat při požadované latenci.

Nezávislé ověření tvrzení o benchmarku je okamžitou otázkou. FD-bench je jedním z mála veřejných benchmarků zaměřených na kvalitu interakce, a skóre laboratoře Thinking Machines nebylo dosud reprodukováno třetími stranami pod realistickým zatížením. Testy proaktivnosti, které společnost zavedla pro vizuální signály, včetně adaptovaných verzí RepCount-A, ProactiveVideoQA a Charades, jsou nové nástroje bez zavedené báze.

Strategická sázka je ostřejší. Zatímco OpenAI, Anthropic a Google strávili minulý rok rozvojem autonomních agentů, laboratoř Thinking Machines sází na to, že další osa soutěže bude to, jak lidé komunikují s umělou inteligencí – blíže k nepřetržité konverzaci než k sérii podnětů. Interakční model soutěží nejvíce přímo s reálnými systémy hlasové AI, které dodávají OpenAI, Google a rostoucí řada startupů zaměřených na řeč. Zda architektura přežije kontakt s produkčními pracovními úlohami – dlouhými relacemi, nepředvídatelnou konektivitou a bezpečnostními omezeními reálného odmítnutí – je test, který bude kladen v příštím kola předzvěstí.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.