인공지능

소셜 미디어 비디오의 과도한 압축을 기계 학습으로 복원하기

Published August 19, 2022

Updated May 23, 2026

Martin Anderson

중국에서 나온 새로운 연구는 WeChat 및 YouTube와 같은 플랫폼에서 자동으로 압축되는 사용자 업로드 비디오의 세부 사항과 해상도를 복원하는 효과적이고 새로운 방법을 제공합니다.

새로운 방법과 이전 접근 방식의 비교, 자동 최적화 중에 버려진 세부 사항을 다시 해결하는 능력에 대한 비교. 출처: https://arxiv.org/pdf/2208.08597.pdf

이전 방법과 달리, 새로운 접근 방식은 제네릭 트레이닝 데이터에 기반한 비디오 업스케일링 및 업샘플링이 아닌, 압축된 비디오의 각 프레임에 대해退화 특징 맵(DFM)을 파생합니다. 이는 프레임에서 손상되거나 열화된 영역의 개요입니다.

새로운 논문의 분해 연구: 두 번째에서 오른쪽, ‘순수’ 退화 특징 맵(DFM)의 근거 真実; 세 번째에서 오른쪽, DFM을 사용하지 않고 손상 추정. 왼쪽, DFM을 사용하여 훨씬 더 정확한 손상 맵.

복원 프로세스는 합성곱 신경망(CNN)을 포함한 기술을 사용하여 DFM의 정보에 의해 안내되고 집중됩니다. 이는 새로운 방법이 이전 접근 방식의 성능과 정확성을 초과할 수 있도록 합니다.

연구자들은 고화질 비디오를 네 개의 인기 있는 공유 플랫폼에 업로드하고 압축된 결과를 다운로드하여 컴퓨터 비전 파이프라인을 개발했습니다. 이 파이프라인은 압축 아티팩트와 세부 사항 손실을 추상적으로 학습하여 여러 플랫폼에서 비디오를 거의 원래 품질로 복원할 수 있습니다.

연구자들의 새로운 UVSSM 데이터셋의 예시.

연구에 사용된 자료는 HQ/LQ 데이터셋으로 명명된 User Videos Shared on Social Media(UVSSM)로 컴파일되어 있으며, Baidu에서 다운로드할 수 있습니다.

다운로드 가능한 UVSSM 데이터셋의 두 개의 동일한 HQ/LQ 샘플 비교. 이 예시도 여러 번의 압축(이미지 적용, CMS, CDN 등)에 의해 영향을 받을 수 있으므로 정확한 비교를 위해 원본 소스 데이터를 참조하십시오.

시스템의 코드는 Video restOration through adapTive dEgradation Sensing(VOTES)로 명명되어 있으며 GitHub에서 공개되어 있습니다.

論文은 Restoration of User Videos Shared on Social Media로 명명되어 있으며, 深圳大学의 세 명의 연구자와 홍콩 폴리테크닉 대학의 전자 및 정보 공학부의 한 명의 연구자에 의해 작성되었습니다.

아티팩트에서 사실까지

웹에서 스크랩한 비디오의 품질을 Gigapixel과 같은 프로그램에서 제공하는 제네릭한 세부 사항의 ‘hallucination’ 없이 복원할 수 있는 능력은 컴퓨터 비전 연구 분야에 영향을 미칠 수 있습니다.

연구자들은 종종 YouTube와 Twitter와 같은 플랫폼에서 얻은 비디오를 사용합니다. 그러나 이러한 플랫폼에서 사용되는 압축 방법과 코덱은 공개되지 않으며 시각적 지표나 아티팩트 패턴으로 쉽게 추론할 수 없습니다.

방법

이전의 딥 러닝 기반 비디오 복원 접근 방식은 제네릭 특징 추출을 포함합니다. VOTES는 원본 및 압축된 비디오에서 관련 특징을 직접 추출하여 여러 플랫폼의 표준에 일반화할 수 있는 변환 패턴을 결정합니다.

VOTES의 개념적 아키텍처.

VOTES는 합성곱 블록에서 특징을 추출하기 위한 특별히 개발된 退화 감지 모듈(DSM)을 사용합니다. 여러 프레임은 특징 추출 및 정렬 모듈(FEAM)에 전달된 다음 退화 조정 모듈(DMM)에 전달됩니다. 마지막으로 복원 모듈은 복원된 비디오를 출력합니다.

데이터 및 실험

연구자들은 WeChat 플랫폼에서 업로드 및 다운로드된 비디오의 복원을 중점적으로 연구했습니다. 그러나 결과 알고리즘이 다른 플랫폼에서도 적응할 수 있도록 하기 위해 노력했습니다.

연구자들은 264개의 비디오를 수집하여 UVSSM 데이터셋을 생성했습니다. 각 비디오는 5-30초의 길이로 30fps의 프레임 속도로 구성되었습니다.

비디오는 모바일폰 카메라 또는 인터넷에서 가져온 것으로, 1920 x 1080 또는 1280 x 270의 해상도로 구성되었습니다.

내용은 도시 풍경, 풍경, 사람, 동물 등 다양한 주제를 포함했습니다. 데이터셋은 크리에이티브 커먼즈 저작자표시 라이선스로 제공되며, 재사용이 가능합니다.

연구자들은 214개의 비디오를 WeChat에 업로드하여 WeChat의 기본 비디오 해상도인 960×540을 얻었습니다.

위: 원본 HQ 프레임과 세 개의 확대된 섹션; 위: 동일한 프레임에서 플랫폼으로 압축된 버전의 비디오; 아래: 압축된 프레임의 계산된 退化; 아래: VOTES가 집중할 ‘작업 영역’.

연구자들은 50개의 비디오를 Bilibili, YouTube, Twitter에 업로드하여 UVSSM 데이터셋을 364개의 쌍으로 확장했습니다.

실험에서는 10개의 랜덤 비디오를 테스트 세트로, 4개를 검증 세트로, 200개를 코어 트레이닝 세트로 사용했습니다. K-폴드 교차 검증을 5회 반복하여 결과를 평균화했습니다.

비디오 복원 실험에서 VOTES는 Spatio-Temporal Deformable Fusion(STDF)와 비교되었습니다. 해상도 향상 실험에서는 Enhanced Deformable convolutions(EDVR), RSDN, Video Super-resolution with Temporal Group Attention(VSR_TGA), BasicVSR과 비교되었습니다.