Connect with us

Laboratorul Thinking Machines Lansează Primul Model Cu Interacțiune În Timp Real De 200ms

Inteligență artificială

Laboratorul Thinking Machines Lansează Primul Model Cu Interacțiune În Timp Real De 200ms

mm

Laboratorul Thinking Machines, startup-ul de inteligență artificială fondat de fostul CTO al OpenAI, Mira Murati, a lansat o previzualizare a cercetării pentru primul său model intern pe 11 mai 2026, punând capăt unei perioade de peste un an de tăcere cu privire la ceea ce laboratorul urma să construiască. Compania numește sistemul “model de interacțiune” – o arhitectură multimodală antrenată de la zero pentru a procesa audio, video și text în bucăți de 200 de milisecunde, mai degrabă decât să aștepte ca utilizatorii să termine o tură.

Modelul, numit TML-Interaction-Small, este un sistem de amestec de experți cu 276 de miliarde de parametri și 12 miliarde de parametri activi. Conform anunțului companiei, acesta este primul produs al unui laborator care a strâns aproximativ 2 miliarde de dolari la o valoare de 12 miliarde de dolari fără a livra nimic dincolo de un instrument de reglare fină. Lansarea are loc în mijlocul unei presiuni susținute din partea plecărilor de talente și a unei runde de finanțare următoare, care a fost oprită.

Ce Face Un Model De Interacțiune În Realitate

Thinking Machines susține că modelele de frontieră de astăzi – inclusiv GPT-Realtime al OpenAI și Gemini Live al Google – adaugă comportament în timp real la arhitecturi bazate pe tururi, utilizând un “harness” de componente externe, cum ar fi detectarea activității vocale. Aceste componente decid când utilizatorul a terminat de vorbit, apoi transmit o propoziție terminată modelului. În timp ce modelul generează un răspuns, percepția sa asupra lumii se oprește.

Modelul de interacțiune înlocuiește această structură cu ceea ce compania numește micro-tururi aliniate în timp. Sistemul procesează continuu 200 de milisecunde de intrare, în timp ce generează 200 de milisecunde de ieșire, cu ambele fluxuri de tokenuri împletite pe același ciclu de ceas. Această structură permite modelului să întrerupă un utilizator la mijlocul propoziției, să reacționeze la semnalele vizuale fără a fi întrebat, sau să vorbească simultan cu utilizatorul pentru sarcini precum traducerea în timp real.

Arhitectura sări peste codificatorii independenți grei. Audio-ul este alimentat sub formă de caracteristici dMel prin intermediul unui strat de încorporare ușor, imaginile sunt împărțite în patch-uri de 40×40, iar toate componentele sunt antrenate de la zero împreună cu transformatorul. Un model de fundal separat rulează asincron, gestionând raționamentul mai profund, apelurile de instrumente și navigarea pe web, în timp ce modelul de interacțiune rămâne prezent în conversație.

Conform benchmark-urilor raportate de companie, TML-Interaction-Small postează o latență de tur de 0,40 secunde pe FD-bench V1, comparativ cu 1,18 secunde pentru GPT-Realtime-2.0 în modul său de gândire minimă și 0,57 secunde pentru Gemini-3.1-flash-live. Pe FD-bench V1.5, care punctează calitatea interacțiunii la întreruperile utilizatorului, canalele de fundal și discursul de fundal, modelul punctează 77,8 față de 46,8 pentru GPT-Realtime-2.0 minimal și 45,5 pentru Gemini-3.1-flash-live în modul său de gândire ridicat. Figurile sunt auto-raportate.

O Primă Livrare Așteptată De Mult

Lansarea închide o lacună lungă între finanțare și produs. Thinking Machines a fost fondat în februarie 2025 și în iulie al acelui an a închis o rundă de seed de 2 miliarde de dolari la o valoare de 12 miliarde de dolari – pe scară largă raportată ca cea mai mare rundă de seed din istorie. Runda a fost condusă de Andreessen Horowitz, cu participarea Nvidia, AMD, Cisco, Accel, ServiceNow și Jane Street. Până acum, singurul produs lansat de companie a fost Tinker, un API pentru reglarea fină a modelelor cu greutate deschisă, care a fost lansat în octombrie 2025.

Lunile intermediare au adus tulburări. Co-fondatorii Barret Zoph și Luke Metz au părăsit compania în ianuarie 2026 pentru a se întoarce la OpenAI, Murati anunțând că compania “s-a despărțit” de Zoph. Andrew Tulloch a plecat la Laboratoarele Superinteligență Meta, după ce oferta de 1 miliard de dolari a lui Mark Zuckerberg de a cumpăra compania a fost refuzată. Meta a angajat de atunci cinci membri fondatori ai laboratorului. Murati a răspuns promovându-l pe Soumith Chintala, co-creator al PyTorch, la funcția de CTO. O rundă de finanțare următoare, la o valoare de aproximativ 50 de miliarde de dolari, nu s-a închis până la sfârșitul anului 2025.

Povestea calculului a mers în direcția opusă. În martie, Thinking Machines a anunțat un parteneriat cu Nvidia care acoperă o investiție nedivulgată și implementarea a cel puțin un gigawatt de sisteme Vera Rubin de ultimă generație. Laboratorul a extins, de asemenea, relația sa cu Google Cloud pentru a acoperi antrenamentul de modele de frontieră pe hardware-ul Nvidia GB300.

La Ce Să Ne Așteptăm

Modelul de interacțiune nu este încă disponibil pentru întreprinderi sau public. Thinking Machines spune că o previzualizare limitată de cercetare va fi deschisă pentru parteneri selectați în următoarele luni, cu o lansare mai largă mai târziu în 2026. Compania plănuiește, de asemenea, să lanseze modele de interacțiune mai mari, notând că varianta actuală de 276 de miliarde de parametri este cea mai mică variantă pe care o poate furniza la latenta cerută.

Verificarea independentă a afirmațiilor de benchmark este întrebarea imediată. FD-bench este una dintre puținele benchmark-uri publice care vizează calitatea interacțiunii, iar punctajele Thinking Machines nu au fost încă reproduse de terți sub o sarcină realistă. Testele de proactivitate pe care compania le-a introdus pentru semnalele vizuale, inclusiv versiuni adaptate ale RepCount-A, ProactiveVideoQA și Charades, sunt instrumente noi fără o bază stabilită.

Paria strategică este mai punctată. În timp ce OpenAI, Anthropic și Google au petrecut ultimul an împingând capacitățile agenților autonomi, Thinking Machines pariază că următoarea axă a competiției va fi modul în care oamenii comunică cu IA – mai aproape de o conversație continuă decât de o serie de prompturi. Modelul de interacțiune concurează cel mai direct cu sistemele de voce IA în timp real care sunt livrate de OpenAI, Google și o clasă în creștere de startup-uri axate pe vorbire. Dacă arhitectura supraviețuiește contactului cu sarcinile de producție – sesiuni lungi, conectivitate nesigură și constrângerile de securitate ale refuzului în timp real – este testul pe care următoarea rundă de previzualizare îl va impune.

Alex McFarland este un jurnalist și scriitor de inteligență artificială, care explorează cele mai recente dezvoltări în domeniul inteligenței artificiale. El a colaborat cu numeroase startup-uri de inteligență artificială și publicații din întreaga lume.