Báo cáo

Alibaba Phát Hành Báo Cáo Kỹ Thuật Qwen3-VL Chi Tiết Phân Tích Video Hai Giờ

mm

Đội Qwen của Alibaba đã xuất bản báo cáo kỹ thuật Qwen3-VL vào ngày 26 tháng 11, cung cấp tài liệu chi tiết về mô hình tầm nhìn-ngôn ngữ mã nguồn mở lần đầu tiên được ra mắt vào tháng 9. Bài báo 64 tác giả này tiết lộ hệ thống có thể xử lý video hai giờ trong cửa sổ ngữ cảnh 256.000 token trong khi duy trì độ chính xác gần như hoàn hảo trong việc tìm kiếm các khung hình cụ thể.

Mô hình Qwen3-VL-235B-A22B hàng đầu đạt được độ chính xác 100% trong các thử nghiệm “kim trong đống rơm” khi tìm kiếm video 30 phút, và giữ ở mức 99,5% độ chính xác thậm chí khi quét video hai giờ chứa khoảng một triệu token. Phương pháp thử nghiệm chèn một khung hình “kim” có ý nghĩa ngữ nghĩa vào các vị trí ngẫu nhiên trong video dài, sau đó thách thức mô hình tìm và phân tích khung hình cụ thể đó.

Khả năng này đặt Qwen3-VL vào vị trí là một bước tiến đáng kể trong việc hiểu video dài – một lĩnh vực mà hầu hết các mô hình tầm nhìn-ngôn ngữ đã gặp khó khăn trong việc duy trì phân tích hợp lý trong thời gian dài.

Hiệu Suất Benchmark So Với Các Mô Hình Hàng Đầu

Báo cáo kỹ thuật ghi lại hiệu suất của Qwen3-VL trên nhiều tiêu chí đánh giá, với điểm mạnh đặc biệt trong các nhiệm vụ toán học trực quan. Mô hình đạt được 85,8% trên MathVista, vượt qua GPT-5 với 81,3%, và dẫn đầu MathVision với 74,6% độ chính xác so với Gemini 2.5 Pro (73,3%) và GPT-5 (65,8%).

Khả năng xử lý tài liệu cũng chứng minh sự mạnh mẽ tương tự. Mô hình đạt được 96,5% trên DocVQA về hiểu tài liệu và 875 điểm trên OCRBench, hỗ trợ nhận dạng văn bản trên 39 ngôn ngữ – gần bốn lần phạm vi ngôn ngữ của người tiền nhiệm Qwen2.5-VL. Hơn 70% độ chính xác được duy trì trên các nhiệm vụ OCR trong 32 ngôn ngữ được hỗ trợ trong số đó.

Gia đình mô hình, có sẵn thông qua Hugging FaceAlibaba Cloud, bao gồm cả các biến thể dày đặc (2B, 4B, 8B, 32B tham số) và cấu hình chuyên gia hỗn hợp (30B-A3B và 235B-A22B). Biến thể 8B duy nhất đã vượt qua 2 triệu lượt tải xuống kể từ khi ra mắt vào tháng 9.

Tuy nhiên, kết quả không đồng đều thống trị. Trên MMMU-Pro, một thử nghiệm đa ngành phức tạp, Qwen3-VL đạt 69,3% so với GPT-5 đạt 78,4%. Các đối thủ cạnh tranh thương mại cũng duy trì lợi thế trong các chuẩn mực trả lời câu hỏi video tổng quát, cho thấy mô hình này excels như một chuyên gia trong phân tích toán học trực quan và tài liệu hơn là một nhà lãnh đạo toàn diện.

Ba Đổi Mới Kiến Trúc

Báo cáo kỹ thuật phác thảo ba nâng cấp kiến trúc chính thúc đẩy những khả năng này. Đầu tiên, “MRoPE xen kẽ” thay thế các phương pháp nhúng vị trí trước đó bằng cách phân phối các biểu diễn toán học đồng đều trên các chiều thời gian, chiều rộng và chiều cao thay vì nhóm chúng theo chiều. Thay đổi này nhắm vào việc cải thiện hiệu suất trên video dài.

Thứ hai, tích hợp DeepStack kết hợp các tính năng Transformer tầm nhìn đa cấp để bắt捉 các chi tiết trực quan mịn và siết chặt sự liên kết hình ảnh-văn bản. Đổi mới thứ ba vượt ra ngoài các nhúng vị trí thời gian quay để căn chỉnh dấu thời gian dựa trên văn bản rõ ràng, cho phép căn cứ thời gian chính xác hơn khi mô hình cần tham khảo các khoảnh khắc cụ thể trong nội dung video.

Hệ thống cũng chứng minh khả năng của tác nhân vượt ra ngoài nhận thức thuần túy. Trên ScreenSpot Pro, nơi mô hình được đánh giá về khả năng điều hướng trong giao diện người dùng đồ họa, mô hình đạt được 61,8% độ chính xác. Kiểm tra AndroidWorld, nơi hệ thống phải vận hành độc lập các ứng dụng Android, biến thể 32B đạt được 63,7% độ chính xác.

Cảnh Quan Cạnh Tranh Mở

Tất cả các mô hình Qwen3-VL được phát hành kể từ tháng 9 đều có sẵn dưới giấy phép Apache 2.0 với trọng lượng mở. Dòng sản phẩm này bao gồm từ biến thể 2B-param compact phù hợp cho triển khai cạnh đến mô hình hàng đầu 235B-A22B đòi hỏi nguồn lực tính toán đáng kể – mô hình sau này nặng 471 GB.

Thời điểm của tài liệu kỹ thuật này đáng chú ý. Gemini 1.5 Pro của Google đã chứng minh khả năng trích xuất khung hình từ video dài vào đầu năm 2024, nhưng Qwen3-VL mang lại chức năng tương tự đến hệ sinh thái mã nguồn mở. Với số lượng người dùng trí tuệ nhân tạo sinh của Trung Quốc tăng gấp đôi lên 515 triệu trong những tháng gần đây và gia đình mô hình Qwen đã thu hút hơn 300 triệu lượt tải xuống trên toàn thế giới, Alibaba rõ ràng đang định vị các mô hình mở của mình làm nền tảng cho sự phát triển trí tuệ nhân tạo đa phương tiện toàn cầu.

Mô hình Qwen2.5-VL trước đó đã tích lũy được hơn 2.800 trích dẫn trong dưới 10 tháng, cho thấy sự áp dụng nghiên cứu mạnh mẽ. Báo cáo kỹ thuật chi tiết cho Qwen3-VL nên đẩy nhanh quỹ đạo này, cung cấp cho các nhà nghiên cứu chi tiết kiến trúc và đào tạo cần thiết để xây dựng hoặc cạnh tranh với những khả năng này.

Điều Này Có Nghĩa Là Gì Đối Với Các Nhà Phát Triển

Đối với các đội đang làm việc trên phân tích video, trí tuệ tài liệu, hoặc ứng dụng lý luận trực quan, Qwen3-VL cung cấp khả năng sẵn sàng sản xuất mà không phụ thuộc vào API. Điểm mạnh đặc biệt của mô hình trong toán học trực quan làm cho nó ngay lập tức liên quan đến công nghệ giáo dục, công cụ nghiên cứu khoa học, và bất kỳ ứng dụng nào yêu cầu giải thích biểu đồ, sơ đồ, hoặc ký hiệu toán học trong hình ảnh.

Khoảng cách giữa các mô hình mở và đóng đang thu hẹp trong một số lĩnh vực cụ thể trong khi vẫn còn đáng kể trong những lĩnh vực khác. Qwen3-VL chứng minh rằng các mô hình trọng lượng mở có thể khớp hoặc vượt qua các hệ thống độc quyền trên các nhiệm vụ chuyên biệt như toán học trực quan, ngay cả khi chúng tụt lại phía sau trên các chuẩn mực lý luận rộng hơn.

Đối với cộng đồng AI mã nguồn mở, báo cáo kỹ thuật chi tiết đại diện cho hơn là tài liệu – nó là một bản đồ đường đi mà các đội khác có thể nghiên cứu, chỉ trích, và xây dựng dựa trên đó. Cho dù điều đó dẫn đến các thực hiện cạnh tranh hay nghiên cứu bổ sung vẫn còn phải xem, nhưng baseline cho trí tuệ nhân tạo đa phương tiện mã nguồn mở vừa được nâng cao đáng kể.

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.