sơ khai Microsoft đề xuất GODIVA, Khung học máy chuyển văn bản thành video - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Microsoft đề xuất GODIVA, Khung học máy chuyển văn bản thành video

mm
cập nhật on

Sự hợp tác giữa Microsoft Research Asia và Đại học Duke đã tạo ra một hệ thống máy học có khả năng tạo video chỉ từ lời nhắc văn bản mà không cần sử dụng Mạng đối thủ sáng tạo (GAN).

Sản phẩm dự án có tiêu đề GODIVA (Tạo Video Open-DomaIn từ Mô tả tự nhiên) và được xây dựng dựa trên một số phương pháp được sử dụng bởi hệ thống tổng hợp hình ảnh DALL-E của OpenAI, tiết lộ đầu năm nay.

Kết quả ban đầu từ GODIVA, với các khung từ video được tạo từ hai lời nhắc. Hai ví dụ hàng đầu được tạo từ lời nhắc "Chơi gôn trên cỏ" và một phần ba dưới cùng từ lời nhắc "Trận đấu bóng chày đang diễn ra". Nguồn: https://arxiv.org/pdf/2104.14806.pdf

Kết quả ban đầu từ GODIVA, với các khung từ video được tạo từ hai lời nhắc. Hai ví dụ hàng đầu được tạo từ lời nhắc "Chơi gôn trên cỏ" và một phần ba dưới cùng từ lời nhắc "Trận đấu bóng chày đang diễn ra". Nguồn: https://arxiv.org/pdf/2104.14806.pdf

GODIVA sử dụng mô hình Vector Quantised-Variational AutoEncoder (VQ-VAE) Lần đầu tiên được giới thiệu bởi các nhà nghiên cứu từ dự án DeepMind của Google vào năm 2018 và cũng là một thành phần thiết yếu trong khả năng biến đổi của DALL-E.

Kiến trúc của mô hình VQ-VAE, với không gian nhúng ở bên phải và bộ mã hóa/giải mã chia sẻ không gian chiều để giảm tổn thất trong quá trình tái tạo. Nguồn: https://arxiv.org/pdf/1711.00937.pdf

Kiến trúc của mô hình VQ-VAE, với không gian nhúng ở bên phải và bộ mã hóa/giải mã chia sẻ không gian chiều để giảm tổn thất trong quá trình tái tạo.  Nguồn: https://arxiv.org/pdf/1711.00937.pdf

VQ-VAE đã được sử dụng trong một số dự án để tạo video dự đoán, trong đó người dùng cung cấp số lượng khung hình ban đầu và yêu cầu hệ thống tạo thêm khung hình:

Công việc trước đây: VQ-VAE suy ra các khung từ tài liệu nguồn được cung cấp rất hạn chế. Nguồn: Tài liệu bổ sung tại https://openreview.net/forum?id=bBDlTR5eDIX

Công việc trước đây: VQ-VAE suy ra các khung từ tài liệu nguồn được cung cấp rất hạn chế. Nguồn: Tài liệu bổ sung tại https://openreview.net/forum?id=bBDlTR5eDIX

Tuy nhiên, các tác giả của bài báo mới tuyên bố rằng GODIVA đại diện cho việc triển khai chuyển văn bản thành video (T2V) thuần túy đầu tiên sử dụng VQ-VAE chứ không phải là thất thường các kết quả mà các dự án trước đây đã đạt được với GAN.

Điểm hạt giống trong chuyển văn bản thành video

Mặc dù bản đệ trình còn thiếu thông tin chi tiết về tiêu chí mà theo đó các khung hình gốc được tạo ra, GODIVA dường như triệu tập hình ảnh hạt giống từ hư không trước khi tiếp tục ngoại suy nó thành các khung hình video có độ phân giải thấp.

Một biểu diễn dạng cột của hệ thống chú ý thưa thớt ba chiều cung cấp năng lượng cho GODIVA cho các tác vụ chuyển văn bản thành hình ảnh. Tự động hồi quy được dự đoán thông qua bốn yếu tố: văn bản đầu vào, vị trí tương đối với khung trước đó (tương tự như SPADE của NVIDIA và các phương pháp khác dựa trên hoặc phát triển ngoài phương pháp Luồng quang học), cùng hàng trên cùng khung và cùng cột trên cùng cột.

Một biểu diễn dạng cột của hệ thống chú ý thưa thớt ba chiều hỗ trợ GODIVA cho các tác vụ chuyển văn bản thành hình ảnh. Tự động hồi quy được dự đoán thông qua bốn yếu tố: văn bản đầu vào, vị trí tương đối với khung hình trước đó (tương tự như NVIDIA KIẾM và các phương pháp khác dựa trên hoặc phát triển ngoài các phương pháp Dòng quang học), cùng các hàng trên cùng một khung và cùng các cột trên cùng một cột.

Trên thực tế, nguồn gốc xuất phát từ các nhãn trong dữ liệu được sử dụng: GODIVA đã được đào tạo trước về Howto100M bộ dữ liệu, bao gồm 136 triệu video clip có phụ đề lấy từ YouTube trong hơn 15 năm và có 23,000 hoạt động được gắn nhãn. Tuy nhiên, mỗi hoạt động khả thi đều có số lượng clip rất cao, tăng dần theo mức độ khái quát hóa (tức là 'Thú cưng và động vật' có 3.5 triệu clip, trong khi 'chó' có 762,000 clip) và do đó, vẫn có nhiều lựa chọn xuất phát điểm khả thi .

Mô hình được đánh giá trên MSR Video to Text của Microsoft (MSR-VTT) tập dữ liệu. Khi thử nghiệm thêm về kiến ​​trúc, GODIVA đã được đào tạo từ đầu về Di chuyển Mnist bộ dữ liệu và bộ dữ liệu Double Move Mnist, cả hai đều được lấy từ bản gốc Cơ sở dữ liệu MNIST, một sự hợp tác giữa Microsoft, Google và Viện Khoa học Toán học Courant tại NYU.

Đánh Giá Khung Hình Trong Video Liên Tục Tổng Hợp

Tương tự với Đại học Bắc Kinh IRC-GAN, GODIVA thêm bốn kiểm tra cột bổ sung vào phương pháp MNIST ban đầu, phương pháp này đánh giá các khung hình trước và sau bằng cách di chuyển lên>xuống rồi sang trái>phải. IRC-GAN và GODIVA cũng xem xét các khung bằng cách di chuyển sự chú ý sang trái>phải, phải>trái, lên>xuống và xuống>lên.

Các khung được tạo bổ sung từ GODIVA.

Các khung được tạo bổ sung từ GODIVA.

Đánh Giá Chất Lượng Video Và Độ Trung Thực Để Nhắc

Để hiểu mức độ thành công của việc tạo hình ảnh, các nhà nghiên cứu đã sử dụng hai chỉ số: một chỉ số dựa trên độ tương tự CLIP và chỉ số So khớp tương đối (RM) mới.

OpenAI CLIP framework có khả năng khớp hình ảnh với văn bản mà không cần chụp ảnh, cũng như tạo điều kiện tổng hợp hình ảnh bằng cách đảo ngược mô hình này. Các nhà nghiên cứu đã chia điểm số có được từ CLIP cho mức độ giống nhau được tính toán giữa lời nhắc văn bản và video sự thật cơ bản để đạt được điểm số RM. Trong một vòng chấm điểm riêng biệt, kết quả đầu ra được đánh giá bởi 200 người và so sánh kết quả với điểm số của chương trình.

Cuối cùng, GODIVA đã được thử nghiệm dựa trên hai khuôn khổ trước đó, TFGAN và sự hợp tác Duke/NEC năm 2017, T2V.

T2V-vs-TFGAN-vs-GODIVA

TFGAN có thể tạo ra 128 pixel vuông so với đầu ra 64 × 64 hạn chế GODIVA và T2V trong các ví dụ trên, nhưng các nhà nghiên cứu lưu ý rằng GODIVA không chỉ tạo ra chuyển động táo bạo hơn và cam kết hơn mà còn tạo ra các thay đổi cảnh mà không cần bất kỳ lời nhắc cụ thể nào và không ngại tạo ra những bức ảnh cận cảnh.

Trong các lần chạy sau, GODIVA cũng tạo đầu ra 128x128px, với các thay đổi trong POV:

godiva_baseball_128px

Trong thước đo RM riêng của dự án, GODIVA có thể đạt điểm số gần 100% về tính xác thực (chất lượng video) và độ trung thực (mức độ phù hợp của nội dung được tạo với lời nhắc đầu vào).

Tuy nhiên, các nhà nghiên cứu thừa nhận rằng việc phát triển các số liệu CLIP dựa trên video sẽ là sự bổ sung đáng hoan nghênh cho lĩnh vực tổng hợp hình ảnh này, vì nó sẽ cung cấp một sân chơi bình đẳng để đánh giá chất lượng kết quả mà không cần dùng đến các phương pháp quá phù hợp và thiếu hụt. khái quát hóa ngày càng bị chỉ trích liên quan đến những thách thức về thị giác máy tính 'tiêu chuẩn' trong mười năm qua.

Họ cũng quan sát thấy rằng việc tạo các video dài hơn sẽ là một cân nhắc hậu cần trong quá trình phát triển hệ thống hơn nữa, vì chỉ 10 khung hình đầu ra 64x64px yêu cầu 2560 mã thông báo hình ảnh, một quá trình phình to đường ống có khả năng trở nên đắt đỏ và không thể quản lý khá nhanh.