Connect with us

Microsoft Đề Xuất GODIVA, Một Khung Mạch Học Máy Học Từ Văn Bản Sang Video

Trí tuệ nhân tạo

Microsoft Đề Xuất GODIVA, Một Khung Mạch Học Máy Học Từ Văn Bản Sang Video

mm

Một sự hợp tác giữa Microsoft Research Asia và Đại học Duke đã tạo ra một hệ thống học máy có khả năng tạo ra video chỉ từ một lời nhắc văn bản, mà không cần sử dụng Mạng Đối抗 Sinh (GANs).

Dự án này có tên là GODIVA (Tạo Video Mở Từ Mô Tả Tự Nhiên), và xây dựng trên một số phương pháp được sử dụng bởi hệ thống tổng hợp hình ảnh DALL-E của OpenAI, được tiết lộ vào đầu năm nay.

Kết quả ban đầu từ GODIVA, với khung hình từ video được tạo từ hai lời nhắc. Hai ví dụ trên cùng được tạo từ lời nhắc 'Chơi gôn trên cỏ', và ví dụ thứ ba từ lời nhắc 'Một trận đấu bóng chày được chơi'.

Kết quả ban đầu từ GODIVA, với khung hình từ video được tạo từ hai lời nhắc. Hai ví dụ trên cùng được tạo từ lời nhắc ‘Chơi gôn trên cỏ’, và ví dụ thứ ba từ lời nhắc ‘Một trận đấu bóng chày được chơi’. Nguồn: https://arxiv.org/pdf/2104.14806.pdf

GODIVA sử dụng mô hình Vector Quantised-Variational AutoEncoder (VQ-VAE) được giới thiệu lần đầu bởi các nhà nghiên cứu từ dự án DeepMind của Google vào năm 2018, và cũng là một thành phần quan trọng trong khả năng biến đổi của DALL-E.

Kiến trúc của mô hình VQ-VAE, với không gian nhúng ở bên phải và bộ mã hóa/bộ giải mã chia sẻ không gian chiều để giảm thiểu tổn thất trong quá trình tái tạo.

Kiến trúc của mô hình VQ-VAE, với không gian nhúng ở bên phải và bộ mã hóa/bộ giải mã chia sẻ không gian chiều để giảm thiểu tổn thất trong quá trình tái tạo. Nguồn: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE đã được sử dụng trong một số dự án để tạo video dự đoán, nơi người dùng cung cấp một số khung hình ban đầu và yêu cầu hệ thống tạo ra các khung hình bổ sung:

Công việc trước đó: VQ-VAE suy luận khung hình từ vật liệu nguồn rất hạn chế.

Công việc trước đó: VQ-VAE suy luận khung hình từ vật liệu nguồn rất hạn chế. Nguồn: Tài liệu bổ sung tại https://openreview.net/forum?id=bBDlTR5eDIX

Tuy nhiên, các tác giả của bài báo mới cho rằng GODIVA đại diện cho việc thực hiện đầu tiên của một hệ thống văn bản-sang-video (T2V) thuần túy sử dụng VQ-VAE thay vì các kết quả lộn xộn trước đó mà các dự án trước đây đã đạt được với GANs.

Điểm Bắt Đầu Trong Văn Bản-Sang-Video

Mặc dù bài nộp ngắn về chi tiết về tiêu chí mà các khung hình ban đầu được tạo ra, GODIVA dường như triệu tập hình ảnh hạt giống từ không nơi nào trước khi tiếp tục ngoại suy nó thành các khung hình video độ phân giải thấp.

Một biểu diễn cột của hệ thống chú ý thưa ba chiều powers GODIVA cho các nhiệm vụ văn bản-sang-hình ảnh.

Một biểu diễn cột của hệ thống chú ý thưa ba chiều powers GODIVA cho các nhiệm vụ văn bản-sang-hình ảnh. Sự tự hồi quy được dự đoán thông qua bốn yếu tố: văn bản đầu vào, vị trí tương đối với khung hình trước (tương tự như SPADE của NVIDIA và các phương pháp khác xây dựng hoặc phát triển vượt quá các phương pháp Optical Flow), cùng hàng trên cùng một khung hình, và cùng cột trên cùng một cột.

Trên thực tế, sự bắt đầu đến từ các nhãn trong dữ liệu được sử dụng: GODIVA đã được tiền huấn luyện trên Bộ dữ liệu Howto100M, bao gồm 136 triệu đoạn video có chú thích được lấy từ YouTube trong 15 năm, và có 23.000 hoạt động được gắn nhãn. Tuy nhiên, mỗi hoạt động có thể có mặt trong rất nhiều đoạn video, tăng với tổng quát hóa (ví dụ: ‘Thú cưng và động vật’ có 3,5 triệu đoạn video, trong khi ‘chó’ có 762.000 đoạn video), và do đó vẫn có rất nhiều lựa chọn điểm bắt đầu có thể.

Mô hình đã được đánh giá trên Bộ dữ liệu MSR Video đến Văn bản của Microsoft. Để kiểm tra thêm kiến trúc, GODIVA đã được đào tạo từ đầu trên Bộ dữ liệu Moving Mnist và Bộ dữ liệu Double Moving Mnist, cả hai đều được lấy từ Cơ sở dữ liệu MNIST ban đầu, một sự hợp tác giữa Microsoft, Google và Viện Khoa học Toán Courant tại NYU.

Đánh Giá Khung Hình Trong Tổng Hợp Video Liên Tục

Theo IRC-GAN của Đại học Bắc Kinh, GODIVA thêm bốn kiểm tra cột bổ sung vào phương pháp MNIST ban đầu, đã đánh giá các khung hình trước và sau bằng cách di chuyển lên > xuống và sau đó trái > phải. IRC-GAN và GODIVA cũng xem xét các khung hình bằng cách di chuyển chú ý trái > phải, phải > trái, lên > xuống và xuống > lên.

Các khung hình được tạo bổ sung từ GODIVA.

Các khung hình được tạo bổ sung từ GODIVA.

Đánh Giá Chất Lượng Video Và Tính Trung Thực Của Lời Nhắc

Để hiểu rõ mức độ thành công của việc tạo ra hình ảnh, các nhà nghiên cứu đã sử dụng hai chỉ số: một dựa trên sự tương tự của CLIP, và một chỉ số mới gọi là Relative Matching (RM).

Khung CLIP của OpenAI có khả năng khớp hình ảnh với văn bản mà không cần đào tạo trước, cũng như tạo điều kiện cho việc tổng hợp hình ảnh bằng cách đảo ngược mô hình này. Các nhà nghiên cứu đã chia chỉ số CLIP-derived cho sự tương tự tính toán giữa lời nhắc văn bản và video thực để đến được một chỉ số RM. Trong một vòng đánh giá riêng biệt, đầu ra được đánh giá bởi 200 người và kết quả được so sánh với các điểm số chương trình.

Cuối cùng, GODIVA đã được kiểm tra chống lại hai khung trước đó, TFGAN và sự hợp tác giữa Duke và NEC vào năm 2017, T2V.

T2V-vs-TFGAN-vs-GODIVA

TFGAN có thể tạo ra 128 pixel vuông so với đầu ra 64×64 hạn chế GODIVA và T2V trong các ví dụ trên, nhưng các nhà nghiên cứu lưu ý rằng không chỉ GODIVA tạo ra chuyển động bolder và cam kết hơn, mà còn tạo ra thay đổi cảnh mà không cần lời nhắc cụ thể, và không e ngại tạo ra các cảnh cận cảnh.

Trong các lần chạy sau, GODIVA cũng tạo ra đầu ra 128x128px, với thay đổi trong POV:

godiva_baseball_128px

Trong chỉ số RM của dự án, GODIVA có thể đạt được điểm số gần 100% về tính xác thực (chất lượng video) và tính trung thực (mức độ nội dung tạo ra khớp với lời nhắc đầu vào).

Các nhà nghiên cứu thừa nhận rằng việc phát triển các chỉ số CLIP dựa trên video sẽ là một bổ sung chào đón cho lĩnh vực tổng hợp hình ảnh này, vì nó sẽ cung cấp một sân chơi bình đẳng để đánh giá chất lượng kết quả mà không cần dựa vào việc quá拟 hợp và thiếu tổng quát hóa mà đã ngày càng bị chỉ trích trong các thử thách tầm nhìn máy tính tiêu chuẩn trong 10 năm qua.

Họ cũng quan sát thấy rằng việc tạo ra video dài hơn sẽ là một xem xét hậu cần trong việc phát triển hệ thống tiếp theo, vì chỉ 10 khung hình đầu ra 64x64px đòi hỏi 2560 token hình ảnh, một sự phình to đường ống mà có khả năng trở nên tốn kém và không thể quản lý được khá nhanh.

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]