산업 보고서

알리바바, Qwen3-VL 기술 보고서 공개 – 2시간 비디오 분석 상세 문서화

Published November 28, 2025

Updated April 25, 2026

Alex McFarland

알리바바의 Qwen 팀은 11월 26일 Qwen3-VL 기술 보고서를公開하여, 9월에 처음 출시된 오픈소스 비전-언어 모델에 대한 자세한 문서를 제공했다. 64명의 저자가 참여한 이 보고서는 시스템이 256,000토큰 컨텍스트 창에서 2시간 비디오를 처리하는 동안 특정 프레임을 찾는 정확도를 거의 완벽하게 유지할 수 있음을 밝혔다.

주력 Qwen3-VL-235B-A22B 모델은 30분 비디오에서 “바늘을 찾기” 테스트에서 100%의 정확도를 달성했으며, 약 100만 토큰을 포함하는 2시간 비디오를 스캔할 때도 99.5%의 정확도를 유지했다. 테스트 방법론은 긴 비디오 내의 임의 위치에 의미적으로 중요한 “바늘” 프레임을 삽입한 다음 모델이 해당 특정 프레임을 찾고 분석하도록挑戦한다.

이 기능은 Qwen3-VL을 장기 비디오 이해의 중요한 발전으로 пози션한다. 이는 대부분의 비전-언어 모델이 장기간에 걸쳐 일관된 분석을 유지하는 데 어려움을 겪는 영역이다.

주요 모델과의 벤치마크 성능

기술 보고서는 여러 평가 지표에 걸친 Qwen3-VL의 성능을 문서화했으며, 특히 시각적 수학 작업에서 강점을 보였다. 모델은 MathVista에서 85.8%의 점수를 얻어 GPT-5의 81.3%를 초과했으며, MathVision에서 74.6%의 정확도를 달성하여 Gemini 2.5 Pro (73.3%)와 GPT-5 (65.8%)를 앞섰다.

문서 처리 기능도 강력했다. 모델은 문서 이해를 위한 DocVQA에서 96.5%의 점수를 얻었으며, 39개 언어에 대한 텍스트 인식 지원을 제공하는 OCRBench에서 875점을 얻었다. 이는 이전 모델 Qwen2.5-VL의 언어 커버리지의 거의 4배에 해당한다. 또한 32개 언어 중 70% 이상의 정확도를 유지했다.

Hugging Face와 Alibaba Cloud를 통해 제공되는 모델 패밀리는 2B, 4B, 8B, 32B 파라미터의 밀도 변형과 30B-A3B 및 235B-A22B의 전문가 混合 구성이 포함된다. 8B 변형만으로도 9월 출시 이후 200만 회 이상 다운로드되었다.

그러나 결과는 균일하게 우세하지 않았다. MMMU-Pro와 같은 복잡한 다학제적 테스트에서 Qwen3-VL은 69.3%의 점수를 얻었으며, GPT-5는 78.4%를 달성했다. 상업적 경쟁자들은 일반 비디오 질문-답변 벤치마크에서 우위를 유지했으며, 모델은 시각적 수학 및 문서 분석의 전문가로 우수하지만, 보편적인 리더는 아님을 시사한다.

3가지 아키텍처 혁신

기술 보고서는 이러한 기능을 구동하는 3가지 주요 아키텍처 업그레이드를 개요한다. 첫째, “인터리브 MRoPE”는 이전 위치 임베딩 방법을 대체하여 시간, 너비 및 높이 차원을 따라 수학적 표현을均등하게 분산시킨다. 이 변경은 특히 긴 비디오의 성능을 향상시키기 위한 것이다.

둘째, DeepStack 통합은 다단계 비전 트랜스포머 기능을 융합하여 세부적인 시각적 세부 사항을 캡처하고 이미지-텍스트 정렬을 강화한다. 세 번째 혁신은 시간 회전 위치 임베딩을 넘어서서 명시적 텍스트 기반 타임스탬프 정렬을 가능하게 하여 모델이 비디오 콘텐츠의 특정 순간을 참조할 때 더 정밀한 시간 정렬을 가능하게 한다.

시스템은 순수한 지각을 넘어서는 에이전트 기능도 демонстри한다. ScreenSpot Pro에서, 그래픽 사용자 인터페이스 내의 내비게이션을 평가하는 테스트에서 모델은 61.8%의 정확도를 달성했다. AndroidWorld 테스트에서, 시스템은 Android 애플리케이션을 독립적으로 운영해야 하는데, 32B 변형은 63.7%의 정확도를 달성했다.

오픈소스 경쟁 환경

9월 이후 출시된 모든 Qwen3-VL 모델은 오픈 소스 가중치와 함께 Apache 2.0 라이선스로 제공된다. 라인업은 에지 배포에 적합한 컴팩트한 2B 파라미터 변형부터 상당한 컴퓨팅 자원을 요구하는 플래그십 235B-A22B 모델까지 다양하다. 후자는 471GB의 크기이다.

이 기술 문서의 시점은 주목할 만하다. Google의 Gemini 1.5 Pro는 2024년初에 긴 비디오에서 유사한 프레임 추출 기능을 보여주었지만, Qwen3-VL은 이와 유사한 기능을 오픈소스 생태계로 가져온다. 중국의 생성적 AI 사용자 수는 최근 6개월 동안 두 배로 증가하여 5,150만 명에 달했고, Qwen 모델 패밀리는 전 세계적으로 3억 회 이상 다운로드되면서, 알리바바는 명확하게 자신의 오픈 모델을 글로벌 멀티모달 AI 개발의 기초로 пози션하고 있다.

이전 모델 Qwen2.5-VL은 이미 10개월 미만의 기간 동안 2,800회 이상의 인용을 달성했으며, 이는 강력한 연구 채택을 나타낸다. Qwen3-VL에 대한 자세한 기술 보고서는 이 트레이ектор리를 가속화할 것으로 예상되며, 연구자들에게 이러한 기능을 구축하거나 경쟁하기 위해 필요한 아키텍처 및 훈련 세부 정보를 제공할 것이다.

개발자에게 의미

비디오 분석, 문서 지능 또는 시각적 추론 애플리케이션을 작업하는 팀에게 Qwen3-VL은 API 종속성 없이 생산 준비가 완료된 기능을 제공한다. 모델의 시각적 수학에 대한 특별한 강점은 교육 기술, 과학 연구 도구 및 이미지 내의 차트, 도식 또는 수학적 표기법을 해석하는 모든 애플리케이션에 즉시 관련이 있다.

오픈 소스와 폐쇄형 모델 간의 격차는 특정 도메인에서 좁혀지지만 여전히 상당하다. Qwen3-VL은 오픈 가중치 모델이 시각적 수학과 같은 전문 작업에서 폐쇄형 시스템을 따라가거나 초과할 수 있음을 보여주지만, 더广泛한 추론 벤치마크에서는 뒤처진다.

오픈소스 AI 커뮤니티를 위한 자세한 기술 보고서는 문서 이상의 의미를 가진다. 그것은 다른 팀이 연구, 비판 및 구축할 수 있는 로드맵이다. 이것이 경쟁 구현 또는 보완 연구로 이어지는지 여부는 아직 미정이다. 그러나 오픈 멀티모달 지능의 기준은 상당히 높아졌다.