인공지능
상호작용 모델이 실제로 하는 일

Thinking Machines Lab, former OpenAI CTO Mira Murati가 설립한 AI 스타트업은 2026년 5월 11일 첫 번째 인하우스 모델의 연구 프리뷰를 발표했습니다. 이는 1년 이상 동안 랩이 실제로 무엇을 구축할지에 대한 침묵을 깨는 것입니다. 회사는 이 시스템을 “상호작용 모델”이라고 부르며, 200밀리초 단위로 오디오, 비디오, 텍스트를 처리하는 멀티모달 아키텍처입니다.
이 모델은 TML-Interaction-Small이라고 불리며, 276억 파라미터의 전문가 混合 시스템으로 12억 개의 활성 파라미터를 가지고 있습니다. 회사의 발표 블로그 게시물에 따르면, 이는 약 2억 달러의 자금을 조달하고 120억 달러의 평가를 받았지만 아직까지는 파인튜닝 툴만 출시한 랩의 첫 번째 제품입니다. 이 출시 는 탈진과 중단된 후속 자금 조달 라운드로 인한 인재流出的 지속적인 압력 가운데 이루어졌습니다.
상호작용 모델이 실제로 하는 일
Thinking Machines는 현재의 프론티어 모델,包括 OpenAI의 GPT-Realtime과 Google의 Gemini Live,가 실시간 동작을 턴 기반 아키텍처에 외부 구성 요소인 “하네스”를 사용하여 추가한다고 주장합니다. 이러한 구성 요소는 사용자가 말하는 것을 중지했는지 결정한 다음 완성된 발화를 모델에 전달합니다. 모델이 응답을 생성하는 동안 모델의 세계는 동결됩니다.
상호작용 모델은 이 스캐폴딩을 시간 정렬 마이크로 턴으로 대체합니다. 시스템은 200밀리초의 입력을 처리하는 동시에 200밀리초의 출력을 생성하며, 두 개의 토큰 스트림은 동일한 클록 주기에서 교차됩니다. 이러한 구조로 인해 모델은 사용자에게 중간에 끊을 수 있으며, 요청하지 않고 시각적 신호에 반응하거나 라이브 번역과 같은 작업을 위해 사용자와 동시에 말할 수 있습니다.
아키텍처는 무거운 독립형 인코더를 생략합니다. 오디오는 dMel 기능을 통해 경량 임베딩 레이어를 통해 공급되며, 이미지들은 40×40 패치로 분할되며, 모든 구성 요소는 트랜스포머와 함께 스크래치에서 공동으로 교육됩니다. 별도의 백그라운드 모델은 비동기적으로 실행되며, 더 깊은推論, 도구 호출 및 웹 브라우징을 처리하는 반면 상호작용 모델은 대화에서 현존합니다.
회사의 보고된 벤치마크에 따르면, TML-Interaction-Small은 FD-bench V1에서 0.40초의 턴 테이킹 지연을 나타내며, GPT-Realtime-2.0의 최소思考 모드에서는 1.18초, Gemini-3.1-flash-live에서는 0.57초를 나타냅니다. FD-bench V1.5에서, 사용자 중단, 백채널 및 배경 음성에 대한 상호작용 품질을 평가하며, 모델은 77.8을 기록하며, GPT-Realtime-2.0 최소思考 모드에서는 46.8, Gemini-3.1-flash-live의 고思考 모드에서는 45.5를 기록합니다. 이러한 수치는 자체 보고된 것입니다.
오랜 시간 기다려온 첫 번째 출하
이 출시 는 제품과 자금 사이의 긴 간격을 닫습니다. Thinking Machines는 2025년 2월에 설립되었으며, 2025년 7월에 120억 달러의 평가를 받으며 2억 달러의 시드 라운드를 마감했습니다. 이 라운드는 Andreessen Horowitz가 주도했으며, Nvidia, AMD, Cisco, Accel, ServiceNow, Jane Street가 참여했습니다. 지금까지 회사의 유일한 출시 제품은 Tinker였습니다. 이는 2025년 10월에 출시된 오픈 웨이트 모델을 위한 파인튜닝 API입니다.
그 사이에 회사는 혼란을 겪었습니다. 공동 창립자 Barret Zoph와 Luke Metz는 2026년 1월에 OpenAI로 돌아가기 위해 떠났으며, Murati는 회사가 “Zoph와의 관계를 끝냈다”고 발표했습니다. Andrew Tulloch는 Mark Zuckerberg의 10억 달러의 인수 제안을 거부한 후 Meta의 Superintelligence Labs로 이동했습니다. Meta는 이후 랩의 5명의 창립 멤버를 고용했습니다. Murati는 PyTorch의 공동 창립자인 Soumith Chintala를 CTO로 승격시켰습니다. 약 500억 달러의 평가로 추정되는 후속 라운드는 2025년 말까지 마감되지 않았습니다.
컴퓨팅 스토리는 반대 방향으로 진행되었습니다. 3월에 Thinking Machines는 Nvidia와의 파트너십을 발표했으며, 이는 공개되지 않은 투자와 최소한 하나의 차세대 Vera Rubin 시스템의 배치를 포함했습니다. 랩은 또한 Nvidia GB300 하드웨어에서 프론티어 모델 훈련을 포함하도록 Google Cloud와의 관계를 확대했습니다.
시청할 것
상호작용 모델은 아직 기업이나 대중에게 공개되지 않았습니다. Thinking Machines는 선택된 파트너에게 제한된 연구 프리뷰를 곧 열 계획이며, 2026년 말에 더 넓은 출시를 할 계획입니다. 회사는 또한 더 큰 상호작용 모델을 출시할 계획이며, 현재 276B 파라미터 버전은 필요한 지연으로 제공할 수 있는 가장 작은 버전이라고 밝혔습니다.
벤치마크 주장의 독립적 검증은 즉각적인 질문입니다. FD-bench는 상호작용 품질을 대상으로 하는 몇 가지 공개 벤치마크 중 하나이며, Thinking Machines의 점수는 아직 현실적인 부하에서 제3자에 의해 재현되지 않았습니다. 회사가 도입한 시각적 신호를 위한 프로액티브 테스트, 포함된 RepCount-A, ProactiveVideoQA 및 Charades의 적응된 버전은 새로운 도구로, 아직 기준이 설정되지 않았습니다.
전략적 베팅은 더 뚜렷합니다. OpenAI, Anthropic 및 Google가 지난 1년 동안 자율 에이전트 기능을 강조하는 동안, Thinking Machines는 다음 경쟁 축이 인간과 AI의 통신 방식, 즉 연속적인 대화보다는 일련의 프롬프트에 더 가까운 방식일 것이라고 내다봅니다. 상호작용 모델은 OpenAI, Google 및 성장하는 스피치 중심 스타트업에서 출하되는 실시간 음성 AI 시스템과 가장 직접적으로 경쟁합니다. 이 아키텍처가 생산 워크로드, 즉 긴 세션, 신뢰할 수 없는 연결 및 실시간 거부의 안전 제약과 접촉했을 때 생존하는지 여부는 다음 프리뷰 라운드에서 부과할 테스트입니다.












