Inteligență artificială

Laboratorul Thinking Machines lansează primul model cu interacțiune în timp real de 200ms

mm

Laboratorul Thinking Machines, startup-ul de inteligență artificială fondat de fostul CTO al OpenAI, Mira Murati, a lansat o previzualizare a cercetării pentru primul său model intern pe 11 mai 2026, încheind o perioadă de peste un an de liniște cu privire la ceea ce laboratorul va construi de fapt. Compania numește sistemul “model de interacțiune” – o arhitectură multimodală antrenată de la zero pentru a procesa audio, video și text în bucăți de 200 de milisecunde, mai degrabă decât să aștepte ca utilizatorii să termine o tură.

Modelul, numit TML-Interaction-Small, este un sistem de amestec de experți cu 276 de miliarde de parametri și 12 miliarde de parametri activi. Conform anunțului companiei pe blog, acesta este primul produs al unui laborator care a strâns aproximativ 2 miliarde de dolari la o valoare de 12 miliarde de dolari fără a livra nimic dincolo de un instrument de finisare. Lansarea are loc în mijlocul unei presiuni susținute din partea plecărilor de talente și a unei runde de finanțare următoare blocate.

Ce face de fapt un model de interacțiune

Laboratorul Thinking Machines susține că modelele de frontieră de astăzi – inclusiv GPT-Realtime al OpenAI și Gemini Live al Google – adaugă comportamentul în timp real la arhitecturi bazate pe tururi utilizând un “harness” de componente externe, cum ar fi detectarea activității vocale. Aceste componente decid când utilizatorul a terminat de vorbit, apoi transmit o propoziție terminată modelului. În timp ce modelul generează un răspuns, percepția sa asupra lumii îngheață.

Modelul de interacțiune înlocuiește această structură cu ceea ce compania numește micro-tururi aliniate în timp. Sistemul procesează continuu 200 de milisecunde de intrare în timp ce generează 200 de milisecunde de ieșire, cu ambele fluxuri de tokenuri împletite pe același ciclu de ceas. Această structură permite modelului să întrerupă un utilizator la mijlocul propoziției, să reacționeze la semnele vizuale fără a fi întrebat, sau să vorbească simultan cu utilizatorul pentru sarcini precum traducerea live.

Arhitectura sări peste codificatori independenți grei. Audio-ul este alimentat sub formă de caracteristici dMel prin intermediul unui strat de încorporare ușor, imaginile sunt împărțite în patch-uri de 40×40, iar toate componentele sunt antrenate împreună de la zero cu transformatorul. Un model de fundal separat rulează asincron, gestionând raționamente mai profunde, apeluri de instrumente și navigare pe web, în timp ce modelul de interacțiune rămâne prezent în conversație.

Conform benchmark-urilor raportate de companie, TML-Interaction-Small postează o latență de tur de 0,40 secunde pe FD-bench V1, comparativ cu 1,18 secunde pentru GPT-Realtime-2.0 în modul său de gândire minimă și 0,57 secunde pentru Gemini-3.1-flash-live. Pe FD-bench V1.5, care punctează calitatea interacțiunii la întreruperile utilizatorului, canalele de fundal și discursul de fundal, modelul punctează 77,8 față de 46,8 pentru GPT-Realtime-2.0 minim și 45,5 pentru Gemini-3.1-flash-live în modul său de gândire ridicat. Figurile sunt auto-raportate.

O lansare mult așteptată

Lansarea închide o lacună lungă între finanțare și produs. Laboratorul Thinking Machines a fost fondat în februarie 2025 și în iulie al acelui an a închis o rundă de seed de 2 miliarde de dolari la o valoare de 12 miliarde de dolari – pe scară largă raportată ca cea mai mare rundă de seed din istorie. Runda a fost condusă de Andreessen Horowitz, cu participarea Nvidia, AMD, Cisco, Accel, ServiceNow și Jane Street. Până acum, singurul produs lansat de companie a fost Tinker, un API pentru finisarea modelelor cu greutate deschisă, care a fost lansat în octombrie 2025.

Lunile care au urmat au adus tulburări. Co-fondatorii Barret Zoph și Luke Metz au părăsit laboratorul în ianuarie 2026 pentru a se întoarce la OpenAI, cu Murati anunțând că compania “a părăsit calea” cu Zoph. Andrew Tulloch a plecat la Laboratoarele Superintelligence ale Meta, după ce oferta de 1 miliard de dolari a lui Mark Zuckerberg de a cumpăra compania în totalitate a fost respinsă. Meta a angajat de atunci cinci membri fondatori ai laboratorului. Murati a răspuns promovându-l pe Soumith Chintala, co-creator al PyTorch, la funcția de CTO. O rundă de finanțare următoare la o valoare de aproximativ 50 de miliarde de dolari nu s-a închis până la sfârșitul anului 2025.

Povestea calculului a mers în direcția opusă. În martie, Laboratorul Thinking Machines a anunțat un parteneriat cu Nvidia care acoperă o investiție nedivulgată și implementarea a cel puțin unui gigawatt de sisteme Vera Rubin de ultimă generație. Laboratorul a extins, de asemenea, relația sa cu Google Cloud pentru a acoperi antrenamentul de modele de frontieră pe hardware Nvidia GB300.

La ce să ne uităm

Modelul de interacțiune nu este încă disponibil pentru întreprinderi sau public. Laboratorul Thinking Machines spune că o previzualizare limitată de cercetare va fi deschisă pentru parteneri selectați în următoarele luni, cu o lansare mai largă mai târziu în 2026. Compania intenționează, de asemenea, să lanseze modele de interacțiune mai mari, notând că varianta curentă de 276 de miliarde de parametri este cea mai mică variantă pe care o poate furniza la latenta necesară.

Verificarea independentă a afirmațiilor de benchmark este întrebarea imediată. FD-bench este una dintre puținele benchmark-uri publice care vizează calitatea interacțiunii, iar punctajele laboratorului Thinking Machines nu au fost încă reproduse de terți sub o încărcătură realistă. Testele de proactivitate pe care le-a introdus compania pentru semnele vizuale, inclusiv versiuni adaptate ale RepCount-A, ProactiveVideoQA și Charades, sunt instrumente noi fără o bază stabilită.

Paria strategică este mai accentuată. În timp ce OpenAI, Anthropic și Google au petrecut ultimul an împingând capabilitățile agenților autonomi, Laboratorul Thinking Machines pariază că următoarea axă a competiției va fi modul în care oamenii comunică cu IA – mai aproape de o conversație continuă decât de o serie de prompturi. Modelul de interacțiune concurează cel mai direct cu sistemele de voce AI în timp real care sunt livrate de OpenAI, Google și o clasă în creștere de startup-uri axate pe vorbire. Dacă arhitectura supraviețuiește contactului cu sarcinile de producție – sesiuni lungi, conectivitate nesigură și constrângerile de securitate ale refuzului în timp real – este testul pe care următoarea rundă de previzualizare îl va impune, cu sistemele de voce AI în timp real care sunt livrate de OpenAI, Google și o clasă în creștere de startup-uri axate pe vorbire.

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.