Trí tuệ nhân tạo

Phòng thí nghiệm Máy tính tư duy Ships Mô hình Đầu tiên với Tương tác Thời gian thực 200ms

Published May 12, 2026

Alex McFarland

Phòng thí nghiệm Máy tính tư duy, một công ty khởi nghiệp AI được thành lập bởi cựu CTO của OpenAI Mira Murati, đã phát hành một bản xem trước nghiên cứu của mô hình nội bộ đầu tiên vào ngày 11 tháng 5 năm 2026, kết thúc hơn một năm im lặng về những gì phòng thí nghiệm sẽ xây dựng. Công ty gọi hệ thống này là “mô hình tương tác” – một kiến trúc đa phương thức được đào tạo từ đầu để xử lý âm thanh, video và văn bản trong các khối 200 mili giây thay vì chờ người dùng hoàn thành lượt.

Mô hình, được đặt tên là TML-Interaction-Small, là một hệ thống hỗn hợp chuyên gia 276 tỷ tham số với 12 tỷ tham số hoạt động. Theo bài đăng trên blog công bố của công ty, đây là sản phẩm đầu tiên từ một phòng thí nghiệm đã huy động được khoảng 2 tỷ đô la với mức định giá 12 tỷ đô la mà không vận chuyển gì ngoài một công cụ tinh chỉnh. Việc phát hành này diễn ra trong bối cảnh áp lực持续 từ việc các nhân viên rời đi và vòng tài trợ tiếp theo bị đình trệ.

Điều mà Mô hình Tương tác Thực sự Làm

Phòng thí nghiệm Máy tính tư duy lập luận rằng các mô hình tiền phong hiện nay – bao gồm GPT-Realtime của OpenAI và Gemini Live của Google – gắn hành vi thời gian thực vào kiến trúc dựa trên lượt sử dụng một “harness” của các thành phần bên ngoài như phát hiện hoạt động giọng nói. Những thành phần đó quyết định khi nào người dùng đã ngừng nói, sau đó chuyển một lượt hoàn thành cho mô hình. Trong khi mô hình tạo ra một phản hồi, nhận thức của nó về thế giới bị đóng băng.

Mô hình tương tác thay thế cấu trúc đó bằng những gì công ty gọi là lượt vi nhỏ thời gian. Hệ thống liên tục xử lý 200 mili giây đầu vào trong khi tạo ra 200 mili giây đầu ra, với cả hai luồng token xen kẽ trên cùng một chu kỳ đồng hồ. Cấu trúc đó cho phép mô hình ngắt lời người dùng giữa câu, phản ứng với các tín hiệu hình ảnh mà không cần hỏi, hoặc nói đồng thời với người dùng cho các nhiệm vụ như dịch trực tiếp.

Kiến trúc bỏ qua các bộ mã hóa độc lập nặng. Âm thanh được đưa vào dưới dạng tính năng dMel thông qua một lớp nhúng nhẹ, hình ảnh được chia thành các miếng 40×40, và tất cả các thành phần được đào tạo cùng nhau từ đầu với bộ chuyển đổi. Một mô hình nền chạy异步, xử lý lý luận sâu hơn, cuộc gọi công cụ và duyệt web trong khi mô hình tương tác vẫn hiện diện trong cuộc trò chuyện.

Trên các điểm chuẩn được công ty báo cáo, TML-Interaction-Small đăng tải độ trễ lượt là 0,40 giây trên FD-bench V1, so với 1,18 giây cho GPT-Realtime-2.0 trong chế độ suy nghĩ tối thiểu và 0,57 giây cho Gemini-3.1-flash-live. Trên FD-bench V1.5, đánh giá chất lượng tương tác trên các lượt gián đoạn của người dùng, tiếng ồn và lời nói nền, mô hình đạt điểm 77,8 so với 46,8 cho GPT-Realtime-2.0 tối thiểu và 45,5 cho Gemini-3.1-flash-live trong chế độ suy nghĩ cao. Những con số này là tự báo cáo.

Một Con tàu Đầu tiên Được Mong Chờ

Việc phát hành này kết thúc một khoảng thời gian dài giữa tài trợ và sản phẩm. Phòng thí nghiệm Máy tính tư duy được thành lập vào tháng 2 năm 2025 và vào tháng 7 của năm đó, công ty đã kết thúc một vòng hạt giống 2 tỷ đô la với mức định giá 12 tỷ đô la – được báo cáo rộng rãi là vòng hạt giống lớn nhất trong lịch sử. Vòng này do Andreessen Horowitz dẫn đầu với sự tham gia của Nvidia, AMD, Cisco, Accel, ServiceNow và Jane Street. Cho đến nay, sản phẩm duy nhất mà công ty đã vận chuyển là Tinker, một API để tinh chỉnh các mô hình trọng lượng mở mà được ra mắt vào tháng 10 năm 2025.

Trong những tháng sau đó, công ty đã trải qua nhiều biến động. Đồng sáng lập Barret Zoph và Luke Metz rời công ty vào tháng 1 năm 2026 để trở lại OpenAI, với Murati tuyên bố rằng công ty đã “chia tay” với Zoph. Andrew Tulloch rời công ty để gia nhập Superintelligence Labs của Meta sau khi đề nghị mua lại công ty với giá 1 tỷ đô la của Mark Zuckerberg bị từ chối. Meta đã thuê năm thành viên sáng lập của phòng thí nghiệm. Murati đã phản ứng bằng cách thăng cấp Soumith Chintala, đồng sáng lập PyTorch, lên vị trí CTO. Một vòng tài trợ tiếp theo với mức định giá khoảng 50 tỷ đô la không được kết thúc vào cuối năm 2025.

Câu chuyện về máy tính đã di chuyển theo hướng ngược lại. Vào tháng 3, Phòng thí nghiệm Máy tính tư duy đã công bố một quan hệ đối tác với Nvidia bao gồm một khoản đầu tư không được tiết lộ và việc triển khai ít nhất một gigawatt hệ thống Vera Rubin thế hệ tiếp theo. Phòng thí nghiệm cũng đã mở rộng quan hệ với Google Cloud để bao gồm đào tạo mô hình tiền phong trên phần cứng Nvidia GB300.

Điều Cần Theo Dõi

Mô hình tương tác chưa có sẵn cho các doanh nghiệp hoặc công chúng. Phòng thí nghiệm Máy tính tư duy cho biết một bản xem trước nghiên cứu hạn chế sẽ mở cho các đối tác được chọn trong những tháng tới, với một bản phát hành rộng rãi hơn vào cuối năm 2026. Công ty cũng có kế hoạch phát hành các mô hình tương tác lớn hơn, lưu ý rằng phiên bản 276B tham số hiện tại là phiên bản nhỏ nhất mà họ có thể cung cấp ở độ trễ yêu cầu.

Xác minh độc lập các tuyên bố về điểm chuẩn là câu hỏi ngay lập tức. FD-bench là một trong số ít điểm chuẩn công khai nhắm vào chất lượng tương tác, và điểm số của Thinking Machines chưa được tái tạo bởi các bên thứ ba dưới tải thực tế. Các thử nghiệm chủ động mà công ty đã giới thiệu cho các tín hiệu hình ảnh, bao gồm các phiên bản được điều chỉnh của RepCount-A, ProactiveVideoQA và Charades, là những công cụ mới mà không có baseline được thiết lập.

Đặt cược chiến lược là sắc nét hơn. Trong khi OpenAI, Anthropic và Google đã dành cả năm qua để thúc đẩy các khả năng của tác nhân tự động, Phòng thí nghiệm Máy tính tư duy đang đặt cược rằng trục cạnh tranh tiếp theo sẽ là làm thế nào con người giao tiếp với AI – gần hơn với một cuộc trò chuyện liên tục hơn là một loạt các lời nhắc. Mô hình tương tác cạnh tranh trực tiếp với các hệ thống AI giọng nói thời gian thực đang được vận chuyển từ OpenAI, Google và một tầng ngày càng tăng của các công ty khởi nghiệp tập trung vào giọng nói. Liệu kiến trúc có sống sót được với các khối lượng công việc sản xuất – các phiên dài, kết nối không đáng tin cậy và các ràng buộc an toàn của từ chối thời gian thực – là thử nghiệm mà vòng xem trước tiếp theo sẽ áp đặt.

Alex McFarland

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.

Unite.AI

Phòng thí nghiệm Máy tính tư duy Ships Mô hình Đầu tiên với Tương tác Thời gian thực 200ms

Điều mà Mô hình Tương tác Thực sự Làm

Một Con tàu Đầu tiên Được Mong Chờ

Điều Cần Theo Dõi

You may like