Connect with us

การทดลองของ Thinking Machines Lab ส่งมอบโมเดลแรกพร้อมการโต้ตอบแบบเรียลไทม์ 200 มิลลิวินาที

ปัญญาประดิษฐ์

การทดลองของ Thinking Machines Lab ส่งมอบโมเดลแรกพร้อมการโต้ตอบแบบเรียลไทม์ 200 มิลลิวินาที

mm

Thinking Machines Lab ซึ่งเป็นสตาร์ทอัพ AI ที่ก่อตั้งโดย Mira Murati อดีต CTO ของ OpenAI ได้เผยแพร่การแสดงตัวอย่างการวิจัยของโมเดลในบ้านแรกเมื่อวันที่ 11 พฤษภาคม 2026 ซึ่งปิดช่องว่างการเงินและการผลิตที่ยาวนานกว่าหนึ่งปีของแล็บ บริษัทเรียกระบบนี้ว่า “โมเดลการโต้ตอบ” — สถาปัตยกรรมแบบหลายโหมดที่ฝึกฝนจากศูนย์เพื่อประมวลผลเสียง วิดีโอ และข้อความใน 200 มิลลิวินาที แทนที่จะรอจนผู้ใช้เสร็จสิ้นการโต้ตอบ

โมเดลที่มีชื่อว่า TML-Interaction-Small เป็นระบบผสมผสานผู้เชี่ยวชาญ 276 พันล้านพารามิเตอร์ โดยมีพารามิเตอร์ 12 พันล้านพารามิเตอร์ที่ใช้งานอยู่ ตามที่ระบุใน โพสต์บล็อกประกาศ ของบริษัท นี่เป็นผลิตภัณฑ์แรกจากแล็บที่ได้รับเงินประมาณ 2 พันล้านดอลลาร์ที่มีมูลค่า 12 พันล้านดอลลาร์ โดยไม่ได้ส่งมอบผลิตภัณฑ์ใดๆ นอกเหนือจากเครื่องมือปรับแต่งที่เรียกว่า Tinker การเปิดตัวครั้งนี้เกิดขึ้นระหว่างที่มีการกดดันอย่างต่อเนื่องจากผู้บริหารที่ลาออกและการระดมทุนรอบต่อไปที่หยุดชะงัก

สิ่งที่โมเดลการโต้ตอบทำได้จริงๆ

Thinking Machines แย้งว่าโมเดลแนวหน้าที่มีอยู่ในปัจจุบัน รวมถึง GPT-Realtime ของ OpenAI และ Gemini Live ของ Google ติดพฤติกรรมแบบเรียลไทม์เข้ากับสถาปัตยกรรมแบบโต้ตอบโดยใช้ “อุปกรณ์” ภายนอก เช่น การตรวจจับการเคลื่อนไหวของเสียง เมื่อผู้ใช้หยุดพูด อุปกรณ์เหล่านั้นจะส่งคำพูดที่เสร็จสมบูรณ์ไปยังโมเดล ในขณะที่โมเดลสร้างคำตอบ การรับรู้ของโมเดลเกี่ยวกับโลกจะหยุดชั่วคราว

โมเดลการโต้ตอบแทนที่โครงสร้างนั้นด้วยสิ่งที่บริษัทเรียกว่า “การโต้ตอบแบบจัดเวลา” ระบบประมวลผล 200 มิลลิวินาทีของอินพุตในขณะที่สร้าง 200 มิลลิวินาทีของเอาต์พุต โดยมีกระแสโทเค็นเข้าและออกสลับกันในรอบเดียวกัน โครงสร้างนี้ทำให้โมเดลสามารถขัดจังหวะผู้ใช้กลางประโยค ทำปฏิกิริยาต่อสัญญาณภาพโดยไม่ต้องขอ และพูดพร้อมกับผู้ใช้สำหรับงานเช่น การแปลแบบเรียลไทม์

สถาปัตยกรรมนี้ข้ามตัวเข้ารหัสแบบสแตนด์อโลนเสียงจะถูกป้อนเข้ามาในรูปแบบ คุณลักษณะ dMel ผ่านชั้นการฝังที่เบา รูปภาพจะถูกแบ่งออกเป็นแพทช์ขนาด 40×40 พิกเซล และทุกส่วนจะถูกฝึกฝนจากศูนย์พร้อมกับทรานส์ฟอร์เมอร์ โมเดลพื้นหลังที่แยกออกมาจะทำงานแบบไม่สอดคล้องกัน โดยจัดการเหตุผลที่ลึกซึ้งยิ่งขึ้น การเรียกเครื่องมือ และการเรียกดูเว็บ ในขณะที่โมเดลการโต้ตอบยังคงอยู่ในบทสนทนา

ตามมาตรฐานที่บริษัทรายงาน TML-Interaction-Small มีเวลาหน่วงการโต้ตอบ 0.40 วินาทีใน FD-bench V1 เมื่อเทียบกับ 1.18 วินาทีสำหรับ GPT-Realtime-2.0 ในโหมดการคิดน้อย และ 0.57 วินาทีสำหรับ Gemini-3.1-flash-live ในโหมดการคิดมาก บน FD-bench V1.5 ซึ่งให้คะแนนคุณภาพการโต้ตอบทั่วทั้งการขัดจังหวะของผู้ใช้ การตอบรับหลัง และเสียงพื้นหลัง โมเดลได้คะแนน 77.8 เทียบกับ 46.8 สำหรับ GPT-Realtime-2.0 ในโหมดการคิดน้อย และ 45.5 สำหรับ Gemini-3.1-flash-live ในโหมดการคิดมาก ตัวเลขเหล่านี้เป็นตัวเลขที่รายงานโดยบริษัท

การเดินทางที่คาดหวังเป็นเวลานาน

การเปิดตัวครั้งนี้ปิดช่องว่างระหว่างการระดมทุนและการผลิต Thinking Machines ก่อตั้งขึ้นในเดือนกุมภาพันธ์ 2025 และในเดือนกรกฎาคมของปีนั้นได้ปิดรอบการระดมทุน 2 พันล้านดอลลาร์ที่มีมูลค่า 12 พันล้านดอลลาร์ — ซึ่งรายงานอย่างกว้างขวางว่าเป็นรอบการระดมทุนเริ่มต้นที่ใหญ่ที่สุดเท่าที่มีมา จนถึงตอนนี้ ผลิตภัณฑ์เดียวที่บริษัทส่งมอบคือ Tinker ซึ่งเป็น API สำหรับการปรับแต่งโมเดลที่เปิดเผยที่เปิดตัวในเดือนตุลาคม 2025

ในช่วงหลายเดือนที่ผ่านมา มีการเปลี่ยนแปลงอย่างมาก ผู้ร่วมก่อตั้ง Barret Zoph และ Luke Metz ออกจากบริษัทในเดือนมกราคม 2026 เพื่อกลับไปที่ OpenAI โดย Murati ประกาศว่าบริษัทได้ “แยกทาง” กับ Zoph Andrew Tulloch ออกจากไปที่ Meta’s Superintelligence Labs หลังจากที่ Mark Zuckerberg มีรายงานว่าเสนอให้ซื้อบริษัทโดยตรงด้วยมูลค่า 1 พันล้านดอลลาร์ ซึ่งถูกปฏิเสธไป Meta ได้雇用สมาชิกผู้ก่อตั้งแล็บ 5 คน Murati ตอบโต้ด้วยการแต่งตั้ง Soumith Chintala ผู้ร่วมสร้าง PyTorch เป็น CTO การระดมทุนรอบต่อไปที่มีมูลค่าประมาณ 50 พันล้านดอลลาร์ไม่ได้ปิดลงภายในสิ้นปี 2025

เรื่องราวการประมวลผลเคลื่อนไปในทางตรงกันข้าม ในเดือนมีนาคม Thinking Machines ประกาศความร่วมมือกับ Nvidia ซึ่งครอบคลุมการลงทุนที่ไม่ได้ระบุและติดตั้งระบบ Vera Rubin รุ่นต่อไปอย่างน้อยหนึ่ง گیกะวัตต์ แล็บยังขยายความสัมพันธ์กับ Google Cloud เพื่อครอบคลุมการฝึกโมเดลแนวหน้าบนฮาร์ดแวร์ Nvidia GB300

สิ่งที่ต้องจับตามอง

โมเดลการโต้ตอบยังไม่มีให้บริการแก่ธุรกิจหรือสาธารณะ Thinking Machines ระบุว่าการแสดงตัวอย่างการวิจัยแบบจำกัดจะเริ่มให้บริการแก่พันธมิตรที่ได้รับการคัดเลือกในอีกไม่กี่เดือนข้างหน้า โดยมีการเปิดตัวที่กว้างขึ้นในปลายปี 2026 บริษัทยังวางแผนจะเผยแพร่โมเดลการโต้ตอบที่ใหญ่ขึ้น โดยระบุว่าเวอร์ชันปัจจุบันที่มีพารามิเตอร์ 276 พันล้านคือรุ่นที่เล็กที่สุดที่สามารถให้บริการได้ที่ความหน่วงเวลาที่ต้องการ

การยืนยันผลการวิจัยโดยอิสระเป็นคำถามทันที FD-bench เป็นหนึ่งในไม่กี่มาตรฐานสาธารณะที่มุ่งเป้าไปที่คุณภาพการโต้ตอบ และคะแนนของ Thinking Machines ยังไม่ได้รับการยืนยันโดยบุคคลที่สามภายใต้ภาระการทำงานที่สมจริง การทดสอบความกระตือรือร้นสำหรับสัญญาณภาพที่บริษัทแนะนำ รวมถึง RepCount-A, ProactiveVideoQA และ Charades ที่ปรับให้เหมาะสม เป็นเครื่องมือใหม่ที่ไม่มีมาตรฐานที่กำหนดไว้

การเดิมพันเชิงกลยุทธ์มีความชัดเจนมากขึ้น ในขณะที่ OpenAI, Anthropic และ Google ใช้เวลาหนึ่งปีที่ผ่านมาในการผลักดันความสามารถของตัวแทนอิสระ Thinking Machines วางเดิมพันว่าแกนการแข่งขันครั้งถัดไปจะเป็น วิธีที่มนุษย์สื่อสารกับ AI — มากกว่าการโต้ตอบแบบต่อเนื่องมากกว่าการส่งคำสั่งแบบต่อเนื่อง โมเดลการโต้ตอบแข่งขันกับ ระบบ AI เสียงแบบเรียลไทม์ ที่กำลังจัดส่งจาก OpenAI, Google และสตาร์ทอัพขนาดใหญ่ที่มุ่งเน้นเสียง ไม่ว่าสถาปัตยกรรมจะสามารถรับมือกับภาระการทำงานการผลิต — เซสชั่นที่ยาวนาน การเชื่อมต่อที่ไม่น่าเชื่อถือ และข้อจำกัดด้านความปลอดภัยของการปฏิเสธแบบเรียลไทม์ — เป็นการทดสอบที่รอบการแสดงตัวอย่างครั้งถัดไปจะกำหนดไว้

Alex McFarland เป็นนักข่าวและนักเขียน AI ที่สำรวจการพัฒนาล่าสุดในด้านปัญญาประดิษฐ์ เขาได้ร่วมงานกับสตาร์ทอัพ AI และสื่อสิ่งพิมพ์ต่างๆ ทั่วโลก