Connect with us

Лаборатория Thinking Machines выпускает свою первую модель с реальной интеракцией в режиме реального времени за 200 мс

Искусственный интеллект

Лаборатория Thinking Machines выпускает свою первую модель с реальной интеракцией в режиме реального времени за 200 мс

mm

Лаборатория Thinking Machines, стартап в области ИИ, основанный бывшим техническим директором OpenAI Мирой Мурати, выпустил исследовательский предпросмотр своей первой внутренней модели 11 мая 2026 года, тем самым завершив более чем годовое молчание о том, что лаборатория на самом деле будет строить. Компания называет эту систему “моделью взаимодействия” — многомодальной архитектурой, обученной с нуля для обработки аудио, видео и текста в 200-миллисекундных фрагментах, а не ожидая, пока пользователи закончат свою очередь.

Модель, получившая название TML-Interaction-Small, представляет собой систему с 276 миллиардами параметров и 12 миллиардами активных параметров. Согласно объявлению в блоге компании, это первый продукт лаборатории, которая привлекла около 2 миллиардов долларов при оценке в 12 миллиардов долларов, не выпустив ничего, кроме инструмента для тонкой настройки. Релиз происходит на фоне продолжающегося давления, связанного с уходом талантливых сотрудников и застрявшим раундом последующего финансирования.

Что такое модель взаимодействия на самом деле

Thinking Machines утверждает, что современные модели на переднем крае — включая GPT-Realtime от OpenAI и Gemini Live от Google — добавляют поведение в режиме реального времени к архитектурам, основанным на очередях, с помощью “упряжи” внешних компонентов, таких как обнаружение голосовой активности. Эти компоненты решают, когда пользователь перестал говорить, а затем передают законченную фразу модели. Пока модель генерирует ответ, ее восприятие мира замораживается.

Модель взаимодействия заменяет эту конструкцию на то, что компания называет временно выровнеными микро-очередями. Система непрерывно обрабатывает 200 миллисекунд входных данных, одновременно генерируя 200 миллисекунд выходных данных, причем оба потока токенов чередуются на одном и том же тактовом цикле. Эта структура позволяет модели прервать пользователя в середине предложения, отреагировать на визуальные сигналы без запроса или говорить одновременно с пользователем для задач, таких как живой перевод.

Архитектура пропускает тяжелые отдельные кодировщики. Аудио подается в виде дMel-признаков через легкий слой вложений, изображения делятся на фрагменты размером 40×40 пикселей, а все компоненты обучаются вместе с нуля с трансформером. Отдельная фоновая модель работает асинхронно, обрабатывая более глубокие рассуждения, вызовы инструментов и просмотр веб-страниц, пока модель взаимодействия остается в разговоре.

По заявленным компанией показателям, TML-Interaction-Small демонстрирует задержку очереди в 0,40 секунды на FD-bench V1, по сравнению с 1,18 секундами для GPT-Realtime-2.0 в режиме минимального размышления и 0,57 секундами для Gemini-3.1-flash-live. На FD-bench V1.5, который оценивает качество взаимодействия при прерываниях пользователя, фоновом разговоре и речи на заднем плане, модель набирает 77,8 балла против 46,8 для GPT-Realtime-2.0 минимального и 45,5 для Gemini-3.1-flash-live в режиме высокого размышления. Эти цифры представлены компанией.

Долгожданный первый выпуск

Релиз закрывает долгий пробел между финансированием и продуктом. Лаборатория Thinking Machines была основана в феврале 2025 года, и в июле того же года завершила раунд финансирования серии А на 2 миллиарда долларов при оценке в 12 миллиардов долларов — широко освещаемый как крупнейший раунд финансирования серии А в истории. Раунд возглавлял Andreessen Horowitz с участием Nvidia, AMD, Cisco, Accel, ServiceNow и Jane Street. До сих пор единственным выпущенным продуктом компании был Tinker, API для тонкой настройки открытых моделей, запущенный в октябре 2025 года.

Промежуточные месяцы принесли турбулентность. Сооснователи Баррет Зоф и Люк Метц покинули компанию в январе 2026 года, вернувшись в OpenAI, после чего Мурати объявила, что компания “рассталась” с Зофом. Эндрю Туллоч ушел в лабораторию Superintelligence от Meta после того, как Марк Цукерберг сделал предложение о покупке компании за 1 миллиард долларов, которое было отклонено. Meta с тех пор наняла пятерых основателей лаборатории. Мурати ответила на это, повысив Сумита Чинталу, соавтора PyTorch, до должности технического директора. Следующий раунд финансирования при оценке около 50 миллиардов долларов не был завершен к концу 2025 года.

История с вычислениями развивалась в противоположном направлении. В марте лаборатория Thinking Machines объявила о партнерстве с Nvidia, которое включало неизвестную инвестицию и развертывание не менее одного гигаватта следующих поколений систем Vera Rubin. Лаборатория также расширила свое сотрудничество с Google Cloud, чтобы включить обучение моделей на переднем крае на оборудовании Nvidia GB300.

Что смотреть

Модель взаимодействия пока недоступна для предприятий или широкой публики. Лаборатория Thinking Machines заявляет, что ограниченный исследовательский предпросмотр будет открыт для выбранных партнеров в ближайшие месяцы, а более широкий выпуск состоится позже в 2026 году. Компания также планирует выпустить более крупные модели взаимодействия, отметив, что текущая версия с 276 миллиардами параметров является самой маленькой, которую они могут обслуживать при необходимой задержке.

Независимая верификация заявленных показателей является ближайшим вопросом. FD-bench — одна из немногих публичных оценок, ориентированных на качество взаимодействия, и результаты лаборатории Thinking Machines еще не были воспроизведены третьими сторонами при реалистичной нагрузке. Тесты на проактивность, которые компания ввела для визуальных сигналов, включая адаптированные версии RepCount-A, ProactiveVideoQA и Charades, являются новыми инструментами без установленной базовой линии.

Стратегическая ставка более точна. Пока OpenAI, Anthropic и Google потратили прошлый год на продвижение возможностей автономных агентов, лаборатория Thinking Machines делает ставку на то, что следующим направлением конкуренции станет то, как люди общаются с ИИ — ближе к непрерывному разговору, чем к серии подсказок. Модель взаимодействия конкурирует напрямую с системами реального голосового ИИ, которые выпускаются компаниями OpenAI, Google и растущим рядом стартапов, ориентированных на речь. Будет ли архитектура выдерживать контакт с рабочими нагрузками производства — длинными сессиями, ненадежными соединениями и ограничениями безопасности отказа в реальном времени — это испытание, которое предстоящий предпросмотр будет накладывать.

Алекс Макфарленд - журналист и писатель в области искусственного интеллекта, исследующий последние разработки в этой области. Он сотрудничал с многочисленными стартапами и изданиями в области искусственного интеллекта во всем мире.