Trí tuệ nhân tạo

Chỉnh sửa nội dung video AI nhất quán với đầu vào được hướng dẫn bằng văn bản

Published April 7, 2022

Updated April 28, 2026

Martin Anderson

Trong khi cộng đồng VFX chuyên nghiệp bị thu hút – và đôi khi cảm thấy một chút bị đe dọa – bởi những đổi mới mới trong tổng hợp hình ảnh và video, sự thiếu liên tục thời gian trong hầu hết các dự án chỉnh sửa video dựa trên AI khiến nhiều nỗ lực này thuộc về lĩnh vực ‘psychedelic’, với texture và cấu trúc thay đổi nhanh chóng và hiệu ứng không nhất quán và loại công nghệ thô sơ mà gợi nhớ đến kỷ nguyên photochemical của hiệu ứng hình ảnh.

Nếu bạn muốn thay đổi một điều gì đó rất cụ thể trong một video không thuộc phạm vi deepfakes (tức là, áp đặt một bản sắc mới vào cảnh quay hiện có của một người), hầu hết các giải pháp hiện tại hoạt động dưới những hạn chế khá nghiêm ngặt, về mặt độ chính xác yêu cầu cho hiệu ứng hình ảnh chất lượng sản xuất.

Một ngoại lệ là công việc đang diễn ra của một hiệp hội học thuật lỏng lẻo từ Viện Khoa học Weizmann. Vào năm 2021, ba nhà nghiên cứu của nó, liên kết với Adobe, đã công bố một phương pháp mới để phân tích video và áp dụng một bản đồ nội bộ nhất quán – một atlas thần kinh phân lớp – vào một đầu ra tổng hợp, hoàn chỉnh với kênh alpha và đầu ra nhất quán theo thời gian.

Từ bài báo năm 2021: một ước tính của toàn bộ hành trình trên đường trong clip nguồn được chỉnh sửa thông qua mạng nơ-ron theo cách mà truyền thống sẽ yêu cầu rotoscoping và match-moving rộng rãi. Vì các yếu tố nền và tiền cảnh được xử lý bởi các mạng khác nhau, các mặt nạ thực sự là ‘tự động’. Nguồn: https://layered-neural-atlases.github.io/

Mặc dù nó thuộc vào lĩnh vực được bao phủ bởi luồng quang trong các đường ống VFX, atlas phân lớp không có tương đương trực tiếp trong các công việc CGI truyền thống, vì nó về cơ bản là một ‘bản đồ texture thời gian’ có thể được sản xuất và chỉnh sửa thông qua các phương pháp phần mềm truyền thống. Trong hình ảnh thứ hai trong hình minh họa trên, nền của bề mặt đường được biểu diễn (hình ảnh) trên toàn bộ thời gian chạy của video. Thay đổi hình ảnh cơ sở (hình ảnh thứ ba từ trái trong hình minh họa trên) tạo ra một thay đổi nhất quán trong nền.

Các hình ảnh của ‘atlas được mở rộng’ trên chỉ đại diện cho các khung hình riêng biệt được giải thích; các thay đổi nhất quán trong bất kỳ khung hình video mục tiêu nào được ánh xạ trở lại khung hình ban đầu, giữ lại bất kỳ che khuất cần thiết và các hiệu ứng cảnh khác, chẳng hạn như bóng hoặc phản xạ.

Cấu trúc cốt lõi sử dụng một Multilayer Perceptron (MLP) để đại diện cho các atlas được mở rộng, kênh alpha và ánh xạ, tất cả đều được tối ưu hóa cùng nhau, và hoàn toàn trong không gian 2D, loại bỏ kiến thức trước về các điểm hình học 3D, bản đồ độ sâu và các yếu tố CGI khác.

Atlas tham chiếu của các đối tượng riêng lẻ cũng có thể được thay đổi một cách đáng tin cậy:

Thay đổi nhất quán đối với một đối tượng di chuyển dưới khuôn khổ năm 2021. Nguồn: https://www.youtube.com/watch?v=aQhakPFC4oQ

Về cơ bản, hệ thống năm 2021 kết hợp việc căn chỉnh hình học, match-moving, ánh xạ, tái tạo texture và rotoscoping thành một quá trình nơ-ron riêng biệt.

Text2Live

Ba nhà nghiên cứu ban đầu của bài báo năm 2021, cùng với NVIDIA Research, là những người đóng góp cho một đổi mới mới về kỹ thuật kết hợp sức mạnh của các atlas phân lớp với loại công nghệ CLIP được hướng dẫn bằng văn bản mà đã trở lại nổi bật trong tuần này với việc phát hành khuôn khổ DALL-E 2 của OpenAI.

Kiến trúc mới, có tên Text2Live, cho phép người dùng cuối tạo ra các chỉnh sửa cục bộ đối với nội dung video thực tế dựa trên các gợi ý văn bản:

Hai ví dụ về chỉnh sửa tiền cảnh. Để có độ phân giải và định nghĩa tốt hơn, hãy xem các video gốc tại https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live cung cấp chỉnh sửa ngữ nghĩa và cục bộ mà không cần sử dụng một bộ tạo trước, bằng cách sử dụng một cơ sở dữ liệu nội bộ cụ thể cho clip video đang bị ảnh hưởng.

Biến đổi nền và tiền cảnh (đối tượng) dưới Text2Live. Nguồn: https://text2live.github.io/sm/pages/video_results_atlases.html

Kỹ thuật này không yêu cầu người dùng cung cấp mặt nạ, chẳng hạn như một quy trình rotoscoping hoặc green-screen điển hình, mà thay vào đó ước tính bản đồ liên quan thông qua một kỹ thuật khởi động dựa trên nghiên cứu năm 2021 từ Trường Khoa học Máy tính tại Đại học Tel Aviv và Facebook AI Research (FAIR).

Bản đồ đầu ra được tạo ra thông qua mô hình chú ý chung dựa trên transformer.

Bài báo mới bài báo có tiêu đề Text2LIVE: Chỉnh sửa hình ảnh và video được hướng dẫn bằng văn bản. Đội ngũ ban đầu năm 2021 được tham gia bởi Omer Bar-Tal của Weizmann và Yoni Kasten của NVIDIA Research.

Cấu trúc

Text2Live bao gồm một bộ tạo được đào tạo trên một hình ảnh đầu vào duy nhất và các gợi ý văn bản mục tiêu. Một mô hình CLIP được đào tạo trước trên 400 triệu cặp văn bản/hình ảnh cung cấp tài liệu trực quan liên quan mà từ đó các biến đổi do người dùng nhập vào có thể được giải thích.

Bộ tạo chấp nhận một hình ảnh đầu vào (khung hình) và đầu ra một lớp RGBA mục tiêu chứa thông tin màu sắc và độ trong suốt. Lớp này sau đó được tổng hợp vào cảnh quay ban đầu với các tăng cường bổ sung.

Kênh alpha trong lớp RGBA được tạo cung cấp một chức năng tổng hợp nội bộ mà không cần đến các đường ống truyền thống liên quan đến phần mềm dựa trên pixel như After Effects.

Bằng cách đào tạo trên các hình ảnh nội bộ liên quan đến video hoặc hình ảnh mục tiêu, Text2Live tránh được yêu cầu phải đảo ngược hình ảnh đầu vào vào không gian tiềm ẩn của một Mạng nơ-ron đối nghịch (GAN), một thực tiễn hiện tại không chính xác đủ cho yêu cầu chỉnh sửa video sản xuất, hoặc sử dụng một mô hình khuếch tán mà chính xác và có thể định cấu hình hơn, nhưng không thể duy trì tính trung thực với video mục tiêu.

Sundry prompt-based transformation edits từ Text2Live.

Các phương pháp trước đây đã sử dụng phương pháp dựa trên truyền播 hoặc phương pháp dựa trên luồng quang. Vì những kỹ thuật này là theo khung hình, không có khả năng tạo ra một hình ảnh nhất quán về thời gian của các thay đổi trong video đầu ra. Thay vào đó, một atlas thần kinh phân lớp cung cấp một không gian duy nhất để giải quyết các thay đổi, có thể vẫn trung thành với thay đổi đã cam kết khi video tiến triển.

Không có ‘sizzling’ hoặc ảo giác ngẫu nhiên: Text2Live thu được một giải thích về gợi ý văn bản ‘xe jeep gỉ sét’, và áp dụng nó một lần vào atlas thần kinh phân lớp của xe trong video, thay vì khởi động lại biến đổi cho mỗi khung hình được giải thích.

Quy trình biến đổi nhất quán của Text2Live đối với một chiếc Jeep thành một di tích gỉ sét.

Text2Live gần hơn với một đột phá trong lĩnh vực tổng hợp AI, hơn là trong không gian hình ảnh được hướng dẫn bằng văn bản đã thu hút nhiều sự chú ý trong tuần này với việc phát hành thế hệ thứ hai của khuôn khổ DALL-E của OpenAI (có thể kết hợp hình ảnh mục tiêu làm một phần của quá trình biến đổi, nhưng vẫn bị giới hạn trong khả năng can thiệp trực tiếp vào một bức ảnh, ngoài việc kiểm duyệt dữ liệu đào tạo nguồn và áp dụng các bộ lọc, được thiết kế để ngăn chặn lạm dụng người dùng).

Thay vào đó, Text2Live cho phép người dùng cuối trích xuất một atlas và sau đó chỉnh sửa nó trong một lần trong môi trường pixel dựa trên điều khiển cao như Photoshop (và có thể thậm chí là các khung hình tổng hợp hình ảnh trừu tượng hơn như NeRF), trước khi đưa nó trở lại vào một môi trường được định hướng đúng mà không dựa vào ước tính 3D hoặc các phương pháp CGI dựa trên quá khứ.

Hơn nữa, Text2Live, theo các tác giả, là khuôn khổ đầu tiên đạt được việc tạo mặt nạ và tổng hợp một cách hoàn toàn tự động.

Được xuất bản lần đầu vào ngày 7 tháng 4 năm 2022.

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Chỉnh sửa nội dung video AI nhất quán với đầu vào được hướng dẫn bằng văn bản

Text2Live

Cấu trúc

You may like