Connect with us

Laboratório de Máquinas de Pensamento Envia Primeiro Modelo Com Interação em Tempo Real de 200ms

Inteligência artificial

Laboratório de Máquinas de Pensamento Envia Primeiro Modelo Com Interação em Tempo Real de 200ms

mm

Laboratório de Máquinas de Pensamento, a startup de IA fundada pela ex-CTO da OpenAI Mira Murati, lançou uma prévia de pesquisa do seu primeiro modelo interno em 11 de maio de 2026, encerrando mais de um ano de silêncio sobre o que o laboratório realmente construiria. A empresa chama o sistema de “modelo de interação” — uma arquitetura multimodal treinada do zero para processar áudio, vídeo e texto em pedaços de 200 milissegundos, em vez de esperar que os usuários terminem uma vez.

O modelo, nomeado TML-Interaction-Small, é um sistema de mistura de especialistas de 276 bilhões de parâmetros com 12 bilhões de parâmetros ativos. De acordo com o post de anúncio do blog da empresa, é o primeiro produto de um laboratório que levantou cerca de 2 bilhões de dólares a uma valorização de 12 bilhões de dólares sem enviar nada além de uma ferramenta de ajuste fino. O lançamento ocorre em meio a pressão sustentada de saídas de talentos e uma rodada de financiamento subsequente estagnada.

O que um Modelo de Interação Realmente Faz

O Laboratório de Máquinas de Pensamento argumenta que os modelos de fronteira atuais — incluindo o GPT-Realtime da OpenAI e o Gemini Live do Google — adicionam comportamento em tempo real a arquiteturas baseadas em turnos usando um “arreio” de componentes externos, como detecção de atividade de voz. Esses componentes decidem quando o usuário parou de falar e, em seguida, passam uma declaração concluída para o modelo. Enquanto o modelo gera uma resposta, sua percepção do mundo congela.

O modelo de interação substitui essa estrutura por algo que a empresa chama de micro-voltas alinhadas com o tempo. O sistema processa continuamente 200 milissegundos de entrada enquanto gera 200 milissegundos de saída, com ambos os fluxos de tokens entrelaçados no mesmo ciclo de relógio. Essa estrutura permite que o modelo interrompa um usuário no meio de uma frase, reaja a sinais visuais sem ser solicitado ou fale simultaneamente com o usuário para tarefas como tradução ao vivo.

O áudio é alimentado como recursos dMel por meio de uma camada de incorporação leve, as imagens são divididas em patches de 40×40 e todos os componentes são co-treinados do zero com o transformador. Um modelo de fundo separado é executado assincronamente, lidando com raciocínio mais profundo, chamadas de ferramentas e navegação na web, enquanto o modelo de interação permanece presente na conversa.

De acordo com as métricas de benchmark relatadas pela empresa, o TML-Interaction-Small registra uma latência de troca de turnos de 0,40 segundos no FD-bench V1, em comparação com 1,18 segundos para o GPT-Realtime-2.0 no modo de pensamento mínimo e 0,57 segundos para o Gemini-3.1-flash-live. No FD-bench V1.5, que pontua a qualidade da interação em interrupções do usuário, canais de retorno e fala de fundo, o modelo pontua 77,8 contra 46,8 para o GPT-Realtime-2.0 mínimo e 45,5 para o Gemini-3.1-flash-live no modo de pensamento alto. Os números são autodeclarados.

Um Primeiro Lançamento Muito Aguardado

O lançamento fecha uma lacuna longa entre o financiamento e o produto. O Laboratório de Máquinas de Pensamento foi fundado em fevereiro de 2025 e, em julho daquele ano, fechou uma rodada de sementes de 2 bilhões de dólares a uma valorização de 12 bilhões de dólares — amplamente relatada como a maior rodada de sementes já registrada. A rodada foi liderada pela Andreessen Horowitz, com a participação da Nvidia, AMD, Cisco, Accel, ServiceNow e Jane Street. Até agora, o único produto enviado pela empresa foi Tinker, uma API para ajuste fino de modelos de peso aberto que foi lançada em outubro de 2025.

Os meses intermediários trouxeram turbulência. Os co-fundadores Barret Zoph e Luke Metz deixaram a empresa em janeiro de 2026 para retornar à OpenAI, com Murati anunciando que a empresa havia “se separado” de Zoph. Andrew Tulloch saiu para o Superintelligence Labs da Meta após a oferta relatada de 1 bilhão de dólares de Mark Zuckerberg para adquirir a empresa inteira ter sido rejeitada. A Meta desde então contratou cinco membros fundadores do laboratório. Murati respondeu promovendo Soumith Chintala, co-criador do PyTorch, a CTO. Uma rodada de follow-on relatada a uma valorização de cerca de 50 bilhões de dólares não foi fechada até o final de 2025.

A história do processamento moveu-se na direção oposta. Em março, o Laboratório de Máquinas de Pensamento anunciou uma parceria com a Nvidia que abrange um investimento não divulgado e o deploy de pelo menos um gigawatt de sistemas Vera Rubin de próxima geração. O laboratório também expandiu sua relação com a Google Cloud para cobrir o treinamento de modelos de fronteira no hardware Nvidia GB300.

O que Observar

O modelo de interação ainda não está disponível para empresas ou para o público. O Laboratório de Máquinas de Pensamento afirma que uma prévia de pesquisa limitada será aberta a parceiros selecionados nos próximos meses, com um lançamento mais amplo posterior em 2026. A empresa também planeja lançar modelos de interação maiores, observando que a versão atual de 276B de parâmetros é a menor variante que pode ser servida na latência necessária.

A verificação independente das alegações de benchmark é a questão imediata. O FD-bench é um dos poucos benchmarks públicos que visam a qualidade da interação, e as pontuações do Laboratório de Máquinas de Pensamento ainda não foram reproduzidas por terceiros sob carga realista. Os testes de proatividade que a empresa introduziu para sinais visuais, incluindo versões adaptadas do RepCount-A, ProactiveVideoQA e Charades, são novos instrumentos sem uma linha de base estabelecida.

A aposta estratégica é mais direcionada. Enquanto a OpenAI, a Anthropic e o Google passaram o último ano impulsionando as capacidades de agentes autônomos, o Laboratório de Máquinas de Pensamento está apostando que o próximo eixo de competição será como os humanos se comunicam com a IA — mais próximo de uma conversa contínua do que de uma série de prompts. O modelo de interação compete mais diretamente com os sistemas de IA de voz em tempo real que estão sendo enviados pela OpenAI, Google e uma camada crescente de startups focadas em fala. Se a arquitetura sobrevive ao contato com as cargas de trabalho de produção — longas sessões, conectividade não confiável e as restrições de segurança do recusa em tempo real — é o teste que a próxima rodada de prévia irá impor.

Alex McFarland é um jornalista e escritor de IA que explora os últimos desenvolvimentos em inteligência artificial. Ele colaborou com inúmeras startups de IA e publicações em todo o mundo.