Trí tuệ nhân tạo

Sử dụng AI để tóm tắt các video 'Hướng dẫn' dài

cập nhật on 9 Tháng mười hai, 2022

Hình ảnh chính: DALL-E 2

Nếu bạn là kiểu người tăng tốc độ của video hướng dẫn trên YouTube để có được thông tin bạn thực sự muốn; tham khảo bản ghi của video để thu thập thông tin cần thiết ẩn trong thời gian chạy dài và thường có nhiều nhà tài trợ; hoặc hy vọng rằng WikiHow đã xoay sở để tạo ra một phiên bản ít tốn thời gian hơn cho thông tin trong video hướng dẫn; thì một dự án mới từ UC Berkeley, Google Research và Đại học Brown có thể khiến bạn quan tâm.

Với tiêu đề TL;DW? Tóm tắt các video hướng dẫn với mức độ phù hợp với nhiệm vụ & mức độ nổi bật giữa các phương thức, Các giấy mới trình bày chi tiết việc tạo ra một hệ thống tóm tắt video do AI hỗ trợ có thể xác định các bước thích hợp từ video và loại bỏ mọi thứ khác, dẫn đến các bản tóm tắt ngắn gọn nhanh chóng đi vào cuộc rượt đuổi.

Việc khai thác các video clip dài hiện có của WikiHow cho cả thông tin văn bản và video được dự án IV-Sum sử dụng để tạo ra các bản tóm tắt giả cung cấp sự thật cơ bản để huấn luyện hệ thống. Nguồn: https://arxiv.org/pdf/2208.06773.pdf

Tóm tắt kết quả có một phần thời gian chạy của video gốc, trong khi thông tin đa phương thức (nghĩa là dựa trên văn bản) cũng được ghi lại trong quá trình này để các hệ thống trong tương lai có khả năng tự động hóa việc tạo các bài đăng blog kiểu WikiHow có thể tự động phân tích cú pháp một video hướng dẫn phong phú thành một bài viết ngắn cô đọng và có thể tìm kiếm được, hoàn chỉnh với hình ảnh minh họa, có khả năng tiết kiệm thời gian và sự thất vọng.

Hệ thống mới được gọi là IV-Tổng hợp ('Trình tóm tắt video hướng dẫn') và sử dụng mã nguồn mở ResNet-50 thuật toán nhận dạng thị giác máy tính, cùng với một số kỹ thuật khác, để phân chia các khung và phân đoạn thích hợp của một video nguồn dài.

Luồng công việc khái niệm cho IV-Sum.

Hệ thống này được đào tạo dựa trên các bản tóm tắt giả được tạo ra từ cấu trúc nội dung của trang web WikiHow, nơi những người thực thường tận dụng các video hướng dẫn phổ biến thành một dạng đa phương tiện dựa trên văn bản phẳng hơn, thường sử dụng các clip ngắn và GIF động được lấy từ các video hướng dẫn nguồn.

Thảo luận về việc sử dụng các bản tóm tắt WikiHow của dự án như một nguồn dữ liệu thực tế cơ bản cho hệ thống, các tác giả nêu rõ:

'Mỗi bài báo trên Video WikiHow trang web bao gồm một video hướng dẫn chính thể hiện một nhiệm vụ thường bao gồm nội dung quảng cáo, các đoạn clip người hướng dẫn nói trước máy quay mà không có thông tin trực quan về nhiệm vụ và các bước không quan trọng để thực hiện nhiệm vụ.

'Những người xem muốn có cái nhìn tổng quan về nhiệm vụ sẽ thích một video ngắn hơn mà không có tất cả thông tin không liên quan đã nói ở trên. Các bài viết WikiHow (ví dụ, xem Cách làm cơm sushi) chứa chính xác nội dung này: văn bản tương ứng chứa tất cả các bước quan trọng trong video được liệt kê kèm theo hình ảnh/clip minh họa các bước khác nhau trong tác vụ.'

Cơ sở dữ liệu kết quả từ việc quét web này được gọi là Bản tóm tắt WikiHow. Cơ sở dữ liệu bao gồm 2,106 video đầu vào và các tóm tắt liên quan của chúng. Đây là kích thước tập dữ liệu lớn hơn đáng kể so với kích thước thường có sẵn cho các dự án tóm tắt video, thường yêu cầu ghi nhãn và chú thích thủ công tốn kém và tốn nhiều công sức – một quy trình đã được tự động hóa phần lớn trong công việc mới, nhờ vào phạm vi tóm tắt hạn chế hơn video hướng dẫn (chứ không phải chung chung).

IV-Sum tận dụng các biểu diễn mạng thần kinh tích chập 3D tạm thời, thay vì các biểu diễn dựa trên khung đặc trưng cho các công trình tương tự trước đó và một nghiên cứu cắt bỏ chi tiết trong bài báo xác nhận rằng tất cả các thành phần của phương pháp này đều cần thiết cho chức năng của hệ thống.

IV-Sum đã thử nghiệm thuận lợi đối với các khung có thể so sánh khác nhau, bao gồm CLIP-Nó (mà một số tác giả của bài báo cũng đã làm việc).

IV-Sum đạt điểm cao so với các phương pháp có thể so sánh được, có thể do phạm vi ứng dụng hạn chế hơn so với các sáng kiến tóm tắt video thông thường. Chi tiết về số liệu và phương pháp tính điểm trong bài viết này.

Phương pháp

Giai đoạn đầu tiên trong quá trình tóm tắt liên quan đến việc sử dụng thuật toán tương đối ít nỗ lực, được giám sát yếu để tạo các tóm tắt giả và điểm quan trọng theo khung cho một số lượng lớn các video hướng dẫn được quét trên web, chỉ có một nhãn nhiệm vụ duy nhất trong mỗi video.

Tiếp theo, một mạng tóm tắt hướng dẫn được đào tạo về dữ liệu này. Hệ thống lấy giọng nói được chép tự động (ví dụ: phụ đề do AI của chính YouTube tạo cho video) và video nguồn làm đầu vào.

Mạng này bao gồm một bộ mã hóa video và một máy biến áp tính điểm phân đoạn (SST) và quá trình đào tạo được hướng dẫn bởi các điểm số quan trọng được chỉ định trong phần tóm tắt giả. Bản tóm tắt cuối cùng được tạo bằng cách ghép nối các phân đoạn đạt được điểm quan trọng cao.

Từ tờ giấy:

'Trực giác chính đằng sau quy trình tạo tóm tắt giả của chúng tôi là đưa ra nhiều video về một nhiệm vụ, các bước quan trọng đối với nhiệm vụ có khả năng xuất hiện trên nhiều video (mức độ liên quan của nhiệm vụ).

'Ngoài ra, nếu một bước là quan trọng, thông thường người biểu tình sẽ nói về bước này trước, trong hoặc sau khi thực hiện nó. Do đó, phụ đề cho video thu được bằng cách sử dụng Nhận dạng giọng nói tự động (ASR) có thể sẽ tham chiếu các bước chính này (độ nổi bật giữa các phương thức).'

Để tạo bản tóm tắt giả, trước tiên, video được phân vùng thống nhất thành các phân đoạn và các phân đoạn được nhóm dựa trên sự giống nhau về hình ảnh của chúng thành 'các bước' (các màu khác nhau trong hình ảnh ở trên). Sau đó, các bước này được chỉ định điểm quan trọng dựa trên 'mức độ liên quan của nhiệm vụ' và 'mức độ nổi bật giữa các phương thức' (tức là mối tương quan giữa văn bản ASR và hình ảnh). Các bước có điểm số cao sau đó được chọn để thể hiện các giai đoạn trong phần tóm tắt giả.

Hệ thống sử dụng Độ nổi bật đa phương thức để giúp thiết lập mức độ liên quan của từng bước, bằng cách so sánh lời nói được diễn giải với hình ảnh và hành động trong video. Điều này được thực hiện bằng cách sử dụng mô hình văn bản video được đào tạo trước, trong đó mỗi phần tử được đào tạo chung trong điều kiện mất mát MIL-NCE, sử dụng một Bộ mã hóa video 3D CNN được phát triển bởi, trong số những người khác, DeepMind.

Sau đó, điểm số tầm quan trọng chung được lấy từ mức trung bình được tính toán của các giai đoạn phân tích đa phương thức và mức độ liên quan của nhiệm vụ này.

Ngày

Một bộ dữ liệu tóm tắt giả ban đầu đã được tạo cho quy trình, bao gồm hầu hết nội dung của hai bộ dữ liệu trước đó – ĐỒNG TIỀN, một bộ năm 2019 chứa 11,000 video liên quan đến 180 nhiệm vụ; Và nhiệm vụ chéo, chứa 4,700 video hướng dẫn, trong đó có 3,675 video được sử dụng trong nghiên cứu. Cross-Task có 83 nhiệm vụ khác nhau.

Ở trên, các ví dụ từ COIN; bên dưới, từ Cross-Task. Các nguồn tương ứng: https://arxiv.org/pdf/1903.02874.pdf và https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

Do đó, chỉ sử dụng các video có trong cả hai bộ dữ liệu một lần, do đó, các nhà nghiên cứu có thể thu được 12,160 video bao gồm 263 tác vụ khác nhau và 628.53 giờ nội dung cho bộ dữ liệu của họ.

Để điền tập dữ liệu dựa trên WikiHow và để cung cấp sự thật cơ bản cho hệ thống, các tác giả đã loại bỏ các Video WikiHow cho tất cả các video hướng dẫn dài, cùng với hình ảnh và video clip (tức là GIF) được liên kết với mỗi bước. Do đó, cấu trúc của nội dung dẫn xuất của WikiHow là để phục vụ như một khuôn mẫu cho việc phân chia các bước trong hệ thống mới.

Các tính năng được trích xuất qua ResNet50 đã được sử dụng để khớp chéo các phần video được chọn bằng quả anh đào trong hình ảnh WikiHow và thực hiện bản địa hóa các bước. Hình ảnh thu được giống nhất trong cửa sổ video 5 giây được sử dụng làm điểm neo.

Những clip ngắn hơn này sau đó được ghép lại với nhau thành các video bao gồm sự thật cơ bản cho việc đào tạo người mẫu.

Các nhãn được gán cho từng khung hình trong video đầu vào, để tuyên bố xem chúng có thuộc phần tóm tắt đầu vào hay không, với mỗi video nhận được từ các nhà nghiên cứu một nhãn nhị phân cấp khung hình và điểm tóm tắt trung bình thu được thông qua điểm quan trọng cho tất cả các khung hình trong phân khúc.

Ở giai đoạn này, 'các bước' trong mỗi video hướng dẫn hiện được liên kết với dữ liệu dựa trên văn bản và được gắn nhãn.

Đào tạo, kiểm tra và số liệu

Bộ dữ liệu WikiHow cuối cùng được chia thành 1,339 video thử nghiệm và 768 video xác thực – một mức tăng đáng kể về kích thước trung bình của bộ dữ liệu không thô dành riêng cho phân tích video.

Các bộ mã hóa video và văn bản trong mạng mới đã được đào tạo chung trên một S3D mạng với các trọng số được tải từ một mạng được đào tạo trước Làm thế nàoTo100M mô hình bị mất MIL-NCE.

Mô hình được đào tạo bằng trình tối ưu hóa Adam với tốc độ học tập là 0.01 ở kích thước lô 24, với tính năng Liên kết song song dữ liệu phân tán trải rộng quá trình đào tạo trên tám GPU NVIDIA RTX 2080, để có tổng 24GB VRAM phân tán.

IV-Sum sau đó được so sánh với các kịch bản khác nhau cho CLIP-It theo tương tự trước khi hoạt động, bao gồm một nghiên cứu về CLIP-It. Các số liệu được sử dụng là các giá trị Độ chính xác, Thu hồi và Điểm F, trên ba đường cơ sở không được giám sát (xem bài viết để biết chi tiết).

Các kết quả được liệt kê trong hình ảnh trước đó, nhưng các nhà nghiên cứu cũng lưu ý rằng CLIP-It bỏ qua một số bước có thể xảy ra ở các giai đoạn khác nhau trong các thử nghiệm mà IV-Sum không có. Họ gán điều này cho CLIP-Nó đã được đào tạo và phát triển bằng cách sử dụng các bộ dữ liệu nhỏ hơn đáng kể so với kho văn bản WikiHow mới.

Những gợi ý

Giá trị lâu dài có thể tranh cãi của chuỗi nghiên cứu này (mà IV-Sum chia sẻ với thách thức lớn hơn về phân tích video) có thể là làm cho các video clip hướng dẫn dễ tiếp cận hơn đối với việc lập chỉ mục của công cụ tìm kiếm thông thường và cho phép loại công cụ rút gọn. 'đoạn trích' trong kết quả đối với các video mà Google thường trích xuất từ một bài viết truyền thống dài hơn.

Rõ ràng, sự phát triển của bất kì Quá trình được hỗ trợ bởi AI làm giảm nghĩa vụ của chúng tôi trong việc áp dụng sự chú ý tuyến tính và độc quyền vào nội dung video có thể tạo ra sự phân nhánh cho sự hấp dẫn của phương tiện đối với một thế hệ nhà tiếp thị mà độ mờ của video có lẽ là cách duy nhất mà họ cảm thấy họ có thể thu hút riêng chúng tôi.

Với vị trí của nội dung 'có giá trị' khó xác định, video do người dùng đóng góp đã nhận được sự yêu thích rộng rãi (nếu miễn cưỡng) từ người tiêu dùng truyền thông liên quan đến vị trí sản phẩm, vị trí nhà tài trợ và sự tự nâng cao chung trong đó đề xuất giá trị của video rất thường xuyên đi văng. Các dự án như IV-Sum hứa hẹn rằng cuối cùng các khía cạnh phụ của nội dung video sẽ trở nên chi tiết và có thể tách rời khỏi những gì mà nhiều người cho là 'dằn mặt' của quảng cáo trong nội dung và mở rộng phi nội dung.

Xuất bản lần đầu vào ngày 16 tháng 2022 năm 2.52. Cập nhật 16:XNUMX chiều ngày XNUMX tháng XNUMX, đã xóa cụm từ trùng lặp.