인공지능

AI를 사용하여 긴 ‘사용 방법’ 비디오 요약하기

Published August 16, 2022

Updated April 28, 2026

Martin Anderson

만약 당신이 실제로 원하는 정보를 얻기 위해 YouTube의 ‘사용 방법’ 비디오의 속도를 높이거나, 비디오의 자막을 확인하여 긴 런타임과 종종 스폰서가 포함된 내용에서 필수 정보를 추출하거나, WikiHow가 비디오의 정보를 더 적은 시간으로 요약한 버전을 만들기를 기다린다면, UC Berkeley, Google Research, Brown University의 새로운 프로젝트가 당신에게 관심이 있을 수 있다.

TL;DW? 작업 관련성 및 크로스 모달 살리엔시를 사용한 교육용 비디오 요약라는 제목의 새로운 논문은 비디오에서 관련된 단계를 식별하고 모든 것을 삭제하여 요약을 생성할 수 있는 AI 지원 비디오 요약 시스템을 만드는 것을 자세히 설명한다.

WikiHow의 기존 긴 비디오 클립을 텍스트와 비디오 정보로 사용하여 IV-Sum 프로젝트가 가짜 요약을 생성하여 시스템을 훈련시키는 데 사용됩니다. 출처: https://arxiv.org/pdf/2208.06773.pdf

결과 요약은 원래 비디오의 런타임의 한 부분으로, 텍스트 기반 정보도 기록되어 있어 향후 시스템이 WikiHow 스타일의 블로그 게시물을 자동으로 생성할 수 있다. 이러한 게시글은 긴 ‘사용 방법’ 비디오를 자동으로 구문 분석하여 검색할 수 있는 짧고 간결한 文章으로, 삽화와 함께 시간과 좌절을节約할 수 있다.

새로운 시스템은 IV-Sum(‘교육용 비디오 요약기’)라고 하며, ResNet-50 컴퓨터 비전 인식 알고리즘을 포함한 여러 기술을 사용하여 긴 소스 비디오의 관련 프레임과 세그먼트를 식별한다.

IV-Sum의 개념적 워크플로

시스템은 WikiHow 웹사이트의 콘텐츠 구조에서 생성된 가짜 요약으로 훈련되며, 실제 사람들은 인기 있는 교육용 비디오를 더 평면적인 텍스트 기반 멀티미디어 형식으로 변환한다.

프로젝트가 WikiHow 요약을 시스템의 근거 데이터로 사용하는 것에 대해 저자들은 다음과 같이 말한다:

‘WikiHow 비디오 웹사이트의 각 기사는 주로 교육용 비디오로 구성되며, 종종 광고 콘텐츠, 강사가 카메라에 말하는 클립, 작업을 수행하는 데 중요하지 않은 단계가 포함됩니다. ‘

‘작업에 대한 개요를 원하는 사용자는 이러한 모든 관련 없는 정보가 없는 더 짧은 비디오를 원할 것입니다. WikiHow 기사(예: 쌀밥 만드는 방법)에는 정확히 이러한 정보가 포함되어 있습니다. 비디오의 중요한 단계가 포함된 텍스트와 단계를 설명하는 이미지/클립이 함께 포함되어 있습니다.’

결과 데이터베이스는 WikiHow 요약이라고 하며, 2,106개의 입력 비디오와 관련 요약으로 구성된다. 이는 일반적으로 비디오 요약 프로젝트에서 사용되는 것보다 훨씬 큰 데이터셋 크기이다.

IV-Sum은 이전 연구와 달리 프레임 기반 표현 대신 시간적 3D 컨볼루션 신경망 표현을 사용하며, 논문에 자세히 설명된 절단 연구는 이 접근법의 모든 구성 요소가 시스템의 기능에 필수적임을 확인한다.

IV-Sum은 다양한 비교 가능한 프레임워크와 비교하여 유리하게 테스트되었으며, 이는 프로젝트의 일부 저자도 작업한 CLIP-It을 포함한다.

IV-Sum은 비교 가능한 방법과 비교하여 잘 수행되며, 이는 더 제한적인 적용 범위로 인해 일반적인 비디오 요약 이니셔티브와 비교하여 더 잘 수행될 수 있습니다. 이 기사의 아래 부분에 자세한 내용과 평가 방법이 있습니다.

방법

요약 프로세스의 첫 번째 단계는 상대적으로 낮은 노력의 약한 감독 알고리즘을 사용하여 웹 스크래핑된 교육용 비디오의 대규모 가짜 요약과 프레임별 중요도 점수를 생성하는 것이다. 각 비디오에는 단일 작업 레이블만 있다.

다음으로 교육용 요약 네트워크가 이 데이터로 훈련된다. 시스템은 자동 전사된 음성(예: YouTube의 자체 AI 생성 자막)과 소스 비디오를 입력으로 사용한다.

네트워크는 비디오 인코더와 세그먼트 스코어 변압기(SST)로 구성되며, 훈련은 가짜 요약에서 할당된 중요도 점수로 안내된다. 최종 요약은 높은 중요도 점수를 얻은 세그먼트를 연결하여 생성된다.

논문에서:

‘우리의 가짜 요약 생성 파이프라인의 주요 직관은 작업에 대한 여러 비디오가 주어졌을 때, 작업에 중요하지 않은 단계는 여러 비디오에서 나타날 가능성이 높다는 것입니다(작업 관련성). ‘

‘또한, 중요한 단계의 경우, 시연자가 해당 단계를 수행하기 전, 후 또는 수행 중에 해당 단계에 대해 말하는 것이 일반적입니다. 따라서 비디오의 자막(ASR을 사용하여 얻은)은 이러한 주요 단계를 참조할 가능성이 높습니다(크로스 모달 살리엔시).’

가짜 요약을 생성하기 위해 비디오는 먼저 균일하게 분할되고, 세그먼트는 시각적 유사성에 따라 ‘단계’로 그룹화됩니다(위 이미지의 다른 색상). 이러한 단계는 작업 관련성과 크로스 모달 살리엔시(즉, ASR 텍스트와 이미지 간의 상관관계)에 따라 중요도 점수를 할당받습니다. 높은 점수를 얻은 단계는 가짜 요약의 단계를 나타내는 데 사용됩니다.

시스템은 각 단계의 관련성을 확립하는 데 도움이 되는 크로스 모달 살리엔시를 사용한다. 이는 해석된 음성과 비디오의 이미지 및 동작을 비교하여 수행된다. 이는 사전 훈련된 비디오-텍스트 모델을 사용하여 수행되며, 각 요소는 MIL-NCE 손실로 공동으로 훈련되며, DeepMind를 포함한 여러 사람이 개발한 3D CNN 비디오 인코더를 사용한다.

작업 관련성 및 크로스 모달 분석 단계의 평균을 계산하여 일반적인 중요도 점수를 얻는다.

데이터

초기 가짜 요약 데이터셋이 생성되었으며, 이는 주로 두 개의 이전 데이터셋(COIN, Cross-Task)의 대부분을 포함한다.

위에는 COIN의 예시, 아래에는 Cross-Task의 예시입니다. 출처: https://arxiv.org/pdf/1903.02874.pdf 및 https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

두 데이터셋에 모두 포함된 비디오만 사용하여 연구자들은 12,160개의 비디오와 263개의 다른 작업, 총 628.53시간의 콘텐츠를 얻을 수 있었다.

WikiHow 기반 데이터셋을 채우고 시스템의 근거를 제공하기 위해 저자들은 WikiHow 비디오를 모두 스크래핑하여 긴 교육용 비디오와 각 단계에 대한 이미지 및 비디오 클립(즉, GIF)을 얻었다. 따라서 WikiHow의 파생 콘텐츠 구조는 새로운 시스템에서 단계를 식별하는 데 사용되는 템플릿이 된다.

ResNet50에서 추출한 기능을 사용하여 WikiHow 이미지의 선택된 비디오 섹션을 교차 매칭하고 단계의 위치를 수행한다. 5초 비디오 창 내에서 가장 유사한 이미지를 앵커 포인트로 사용한다.

이러한 더 짧은 클립은 모델을 훈련시키는 데 사용되는 근거가 되는 비디오로 연결된다.

레이블은 각 입력 비디오의 각 프레임에 할당되어 입력 요약에 속하는지 여부를 선언하며, 각 비디오는 연구자로부터 프레임 수준의 이진 레이블과 세그먼트의 중요도 점수의 평균을 얻는다.

이 단계에서 각 교육용 비디오의 ‘단계’는 이제 텍스트 기반 데이터와 연결되며 레이블이 지정된다.

훈련, 테스트 및 메트릭

최종 WikiHow 데이터셋은 1,339개의 테스트 비디오와 768개의 검증 비디오로 나누어졌다.

비디오 및 텍스트 인코더는 S3D 네트워크에서 MIL-NCE 손실로 공동으로 훈련되었으며, 사전 훈련된 HowTo100M 모델에서 로드된 가중치를 사용했다.

모델은 Adam 옵티마이저와 학습률 0.01, 배치 크기 24로 훈련되었으며, 분산 데이터 병렬 처리를 사용하여 8개의 NVIDIA RTX 2080 GPU에서 훈련을 분산시켰다. 총 24GB의 분산 VRAM을 사용했다.

IV-Sum은 다양한 시나리오에서 CLIP-It과 비교되었다. 사용된 메트릭은 정밀도, 재현율 및 F-점수 값이었다.

결과는 이전 이미지에 나열되어 있지만 연구자들은 추가로 CLIP-It이 테스트의 여러 단계에서 가능한 단계를 놓치고 있음을 관찰했으며, 이는 IV-Sum이 하지 않는다. 이는 CLIP-It이 비교적으로 작은 데이터셋으로 훈련되고 개발되었기 때문이라고 주장한다.

임팩트

이 연구의 가치(IV-Sum을 포함한 비디오 분석의 더广泛한 도전과 공유)는 교육용 비디오 클립을 더 쉽게 검색 엔진에 색인하고, 사용자가 비디오를 더 쉽게 사용할 수 있도록 하는 것이다.

명백하게, 비디오 콘텐츠에 대한 선형적이고 독점적인 주의를 적용할 의무를 줄이는 모든 AI 지원 프로세스의 개발은 마케터에게重大한 영향을 미칠 수 있다.

사용자 기여 비디오는 제품 배치, 스폰서 슬롯 및 비디오의 가치 제안이 종종 포함된 일반적인 자아 고취에 대한 일반적인 관용을 즐기고 있다. IV-Sum과 같은 프로젝트는 궁극적으로 비디오 콘텐츠의 하위 요소가 분리 가능해지고, 많은 사람이 비디오의 ‘구조물’이라고 생각하는 광고 및 비 콘텐츠 즉흥성에서 분리될 수 있음을 약속한다.

최초로 게시됨: 2022년 8월 16일. 2022년 8월 16일 14:52에 업데이트됨. 중복된 구문을 제거함.