Connect with us

Alibaba Phát Hành Báo Cáo Kỹ Thuật Qwen3-VL Chi Tiết Phân Tích Video Hai Giờ

Báo cáo ngành

Alibaba Phát Hành Báo Cáo Kỹ Thuật Qwen3-VL Chi Tiết Phân Tích Video Hai Giờ

mm

Đội Qwen của Alibaba đã xuất bản báo cáo kỹ thuật Qwen3-VL vào ngày 26 tháng 11, cung cấp tài liệu chi tiết về mô hình tầm nhìn-ngôn ngữ mã nguồn mở lần đầu tiên ra mắt vào tháng 9. Bài báo 64 tác giả tiết lộ hệ thống có thể xử lý video hai giờ trong cửa sổ ngữ cảnh 256.000 token trong khi duy trì độ chính xác gần như hoàn hảo trong việc tìm kiếm các khung hình cụ thể.

Mô hình Qwen3-VL-235B-A22B hàng đầu đạt được độ chính xác 100% trong các thử nghiệm “kim trong đống rơm” khi tìm kiếm video 30 phút, và vẫn giữ được độ chính xác 99,5% ngay cả khi quét video hai giờ chứa khoảng một triệu token. Phương pháp thử nghiệm chèn một khung hình “kim” có ý nghĩa ngữ nghĩa vào các vị trí ngẫu nhiên trong video dài, sau đó thách thức mô hình tìm và phân tích khung hình cụ thể đó.

Khả năng này đặt Qwen3-VL như một bước tiến đáng kể trong lĩnh vực hiểu video dài – một lĩnh vực mà hầu hết các mô hình tầm nhìn-ngôn ngữ đã gặp khó khăn trong việc duy trì phân tích hợp lý trong thời gian dài.

Hiệu Suất Benchmark So Với Các Mô Hình Hàng Đầu

Báo cáo kỹ thuật ghi lại hiệu suất của Qwen3-VL trên nhiều chỉ số đánh giá, với điểm mạnh đặc biệt trong các nhiệm vụ toán học trực quan. Mô hình đạt được 85,8% trên MathVista, vượt qua 81,3% của GPT-5, và dẫn đầu MathVision với độ chính xác 74,6% so với Gemini 2.5 Pro (73,3%) và GPT-5 (65,8%).

Khả năng xử lý tài liệu cũng chứng minh sự mạnh mẽ tương tự. Mô hình đạt được 96,5% trên DocVQA cho hiểu tài liệu và 875 điểm trên OCRBench, hỗ trợ nhận dạng văn bản trên 39 ngôn ngữ – gần bốn lần phạm vi ngôn ngữ của người tiền nhiệm Qwen2.5-VL. Trên 70% độ chính xác được duy trì trên các nhiệm vụ OCR trong 32 ngôn ngữ được hỗ trợ.

Gia đình mô hình, có sẵn thông qua Hugging FaceAlibaba Cloud, bao gồm cả biến thể dày (2B, 4B, 8B, 32B tham số) và cấu hình chuyên gia hỗn hợp (30B-A3B và 235B-A22B). Biến thể 8B duy nhất đã vượt qua 2 triệu lượt tải xuống kể từ khi phát hành vào tháng 9.

Tuy nhiên, kết quả không đồng đều thống trị. Trên MMMU-Pro, một thử nghiệm đa ngành phức tạp, Qwen3-VL đạt được 69,3% so với 78,4% của GPT-5. Các đối thủ cạnh tranh thương mại cũng duy trì lợi thế trong các tiêu chuẩn hỏi và trả lời video chung, cho thấy mô hình này excels như một chuyên gia trong toán học trực quan và phân tích tài liệu chứ không phải là một nhà lãnh đạo toàn diện.

Three Architectural Innovations

Báo cáo kỹ thuật phác thảo ba nâng cấp kiến trúc chính thúc đẩy các khả năng này. Đầu tiên, “MRoPE xen kẽ” thay thế các phương pháp nhúng vị trí trước đó bằng cách phân phối các biểu diễn toán học đồng đều trên các chiều thời gian, chiều rộng và chiều cao thay vì nhóm chúng theo chiều. Thay đổi này nhắm vào hiệu suất cải thiện trên video dài.

Thứ hai, tích hợp DeepStack kết hợp các tính năng Vision Transformer đa cấp để bắt các chi tiết trực quan mịn và siết chặt sự liên kết hình ảnh-văn bản. Phát minh thứ ba vượt ra ngoài nhúng vị trí thời gian quay để căn chỉnh dấu thời gian dựa trên văn bản rõ ràng, cho phép căn cứ thời gian chính xác hơn khi mô hình cần tham khảo các khoảnh khắc cụ thể trong nội dung video.

Hệ thống cũng chứng minh khả năng của tác nhân vượt ra ngoài nhận thức thuần túy. Trên ScreenSpot Pro, nơi đánh giá điều hướng trong giao diện người dùng đồ họa, mô hình đạt được độ chính xác 61,8%. Kiểm tra AndroidWorld, nơi hệ thống phải vận hành các ứng dụng Android một cách độc lập, biến thể 32B đạt được độ chính xác 63,7%.

The Open-Source Competitive Landscape

Tất cả các mô hình Qwen3-VL được phát hành kể từ tháng 9 đều có sẵn theo giấy phép Apache 2.0 với trọng lượng mở. Dòng sản phẩm này bao gồm từ biến thể 2B-parameter compact phù hợp cho triển khai cạnh đến mô hình hàng đầu 235B-A22B yêu cầu tài nguyên tính toán đáng kể – mô hình sau này nặng 471 GB.

Thời gian của tài liệu kỹ thuật này đáng chú ý. Gemini 1.5 Pro của Google đã chứng minh khả năng tương tự trong việc trích xuất khung hình từ video dài vào đầu năm 2024, nhưng Qwen3-VL mang lại chức năng tương tự đến hệ sinh thái mã nguồn mở. Với số lượng người dùng trí tuệ nhân tạo sinh của Trung Quốc tăng gấp đôi lên 515 triệu trong những tháng gần đây và gia đình mô hình Qwen đã thu hút hơn 300 triệu lượt tải xuống trên toàn thế giới, Alibaba rõ ràng đang định vị các mô hình mở của mình như nền tảng cho sự phát triển trí tuệ nhân tạo đa phương tiện toàn cầu.

Mô hình Qwen2.5-VL trước đó đã tích lũy được hơn 2.800 trích dẫn trong dưới 10 tháng, cho thấy sự áp dụng nghiên cứu mạnh mẽ. Báo cáo kỹ thuật chi tiết cho Qwen3-VL nên tăng tốc đường cong này, cung cấp cho các nhà nghiên cứu các chi tiết kiến trúc và đào tạo cần thiết để xây dựng hoặc cạnh tranh với các khả năng này.

Điều Này Có Nghĩa Là Gì Cho Các Nhà Phát Triển

Đối với các nhóm làm việc trên phân tích video, trí tuệ tài liệu hoặc ứng dụng lý luận trực quan, Qwen3-VL cung cấp khả năng sẵn sàng sản xuất mà không phụ thuộc vào API. Điểm mạnh cụ thể của mô hình trong toán học trực quan làm cho nó trở nên liên quan ngay lập tức cho công nghệ giáo dục, công cụ nghiên cứu khoa học và bất kỳ ứng dụng nào yêu cầu giải thích biểu đồ, sơ đồ hoặc ký hiệu toán học trong hình ảnh.

Khoảng cách giữa các mô hình mở và đóng vẫn còn trong các lĩnh vực cụ thể trong khi vẫn còn đáng kể trong các lĩnh vực khác. Qwen3-VL chứng minh rằng các mô hình trọng lượng mở có thể匹 hoặc vượt qua các hệ thống độc quyền trên các nhiệm vụ chuyên môn như toán học trực quan, ngay cả khi chúng theo sau trên các tiêu chuẩn lý luận rộng hơn.

Đối với cộng đồng trí tuệ nhân tạo mã nguồn mở, báo cáo kỹ thuật chi tiết đại diện cho hơn là tài liệu – nó là một bản đồ đường rằng các nhóm khác có thể nghiên cứu, chỉ trích và xây dựng. Cho dù điều đó dẫn đến các triển khai cạnh tranh hay nghiên cứu bổ sung vẫn còn được xem, nhưng đường cơ sở cho trí tuệ đa phương tiện mã nguồn mở vừa được nâng lên đáng kể.

Alex McFarland là một nhà báo và nhà văn về trí tuệ nhân tạo, khám phá những phát triển mới nhất trong lĩnh vực trí tuệ nhân tạo. Ông đã hợp tác với nhiều công ty khởi nghiệp và xuất bản về trí tuệ nhân tạo trên toàn thế giới.