sơ khai Xóa đối tượng khỏi video hiệu quả hơn với Machine Learning - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Xóa đối tượng khỏi video hiệu quả hơn với Machine Learning

mm
cập nhật on

Nghiên cứu mới từ Trung Quốc báo cáo các kết quả tiên tiến nhất – cũng như sự cải thiện ấn tượng về hiệu quả – đối với một hệ thống tô màu video mới có thể khéo léo loại bỏ các đối tượng khỏi cảnh quay.

Dây nịt của tàu lượn được sơn lại theo quy trình mới. Xem video nguồn (được nhúng ở cuối bài viết này) để có độ phân giải tốt hơn và nhiều ví dụ hơn. Nguồn: https://www.youtube.com/watch?v=N--qC3T2wc4

Dây nịt của tàu lượn được sơn lại theo quy trình mới. Xem video nguồn (được nhúng ở cuối bài viết này) để có độ phân giải tốt hơn và nhiều ví dụ hơn. Nguồn: https://www.youtube.com/watch?v=N–qC3T2wc4

Kỹ thuật này, được gọi là khung từ đầu đến cuối dành cho Inpainting video theo hướng dòng chảy (E2FGVI), cũng có khả năng xóa hình mờ và nhiều loại che phủ khác khỏi nội dung video.

E2FGVI tính toán các dự đoán cho nội dung nằm sau lớp phủ, cho phép loại bỏ các hình mờ thậm chí đáng chú ý và khó xử lý. Nguồn: https://github.com/MCG-NKU/E2FGVI

E2FGVI tính toán các dự đoán cho nội dung nằm sau các lớp phủ, cho phép loại bỏ các hình mờ thậm chí đáng chú ý và khó khắc phục. Nguồn: https://github.com/MCG-NKU/E2FGVI

Để xem thêm ví dụ ở độ phân giải tốt hơn, hãy xem video được nhúng ở cuối bài viết.

Mặc dù mô hình được nêu trong bài báo đã xuất bản đã được đào tạo trên các video 432px x 240px (kích thước đầu vào thường thấp, bị hạn chế bởi không gian GPU có sẵn so với kích thước lô tối ưu và các yếu tố khác), kể từ đó, các tác giả đã phát hành E2FGVI-HQ, có thể xử lý video ở độ phân giải tùy ý.

Mã cho phiên bản hiện tại là có sẵn tại GitHub, trong khi phiên bản HQ, được phát hành vào Chủ nhật tuần trước, có thể tải xuống từ Google DriveĐĩa Baidu.

Đứa trẻ ở lại trong bức tranh.

Đứa trẻ ở lại trong bức tranh.

E2FGVI có thể xử lý video 432×240 với tốc độ 0.12 giây trên mỗi khung hình trên GPU Titan XP (VRAM 12GB) và các tác giả báo cáo rằng hệ thống hoạt động nhanh hơn mười lăm lần so với các phương pháp tiên tiến nhất dựa trên luồng quang.

Một vận động viên quần vợt thực hiện một lối thoát bất ngờ.

Một vận động viên quần vợt thực hiện một lối thoát bất ngờ.

Được thử nghiệm trên các bộ dữ liệu tiêu chuẩn cho phân ngành nghiên cứu tổng hợp hình ảnh này, phương pháp mới có thể vượt trội so với các đối thủ trong cả vòng đánh giá định tính và định lượng.

Thử nghiệm chống lại các phương pháp trước đó. Nguồn: https://arxiv.org/pdf/2204.02663.pdf

Thử nghiệm chống lại các phương pháp trước đó. Nguồn: https://arxiv.org/pdf/2204.02663.pdf

Sản phẩm giấy có tiêu đề Hướng tới khung từ đầu đến cuối để vẽ video theo hướng dẫn dòng chảy, và là sự hợp tác giữa bốn nhà nghiên cứu từ Đại học Nankai, cùng với một nhà nghiên cứu từ Hisilicon Technologies.

Điều gì còn thiếu trong bức tranh này

Bên cạnh các ứng dụng rõ ràng cho hiệu ứng hình ảnh, tính năng vẽ trong video chất lượng cao được thiết lập để trở thành một tính năng xác định cốt lõi của các công nghệ thay đổi hình ảnh và tổng hợp hình ảnh dựa trên AI mới.

Đây là trường hợp đặc biệt đối với các ứng dụng thời trang thay đổi cơ thể và các khuôn khổ khác tìm cách 'giảm béo' hoặc thay đổi các cảnh trong hình ảnh và video. Trong những trường hợp như vậy, điều cần thiết là phải 'điền vào' một cách thuyết phục nền tảng bổ sung được tạo ra bởi quá trình tổng hợp.

Từ một bài báo gần đây, thuật toán 'định hình lại' cơ thể được giao nhiệm vụ tô màu nền mới được tiết lộ khi đối tượng được thay đổi kích thước. Ở đây, sự thiếu hụt đó được thể hiện bằng đường viền màu đỏ mà người có thân hình đầy đặn hơn (đời thực, xem hình bên trái) từng chiếm giữ. Dựa trên tài liệu nguồn từ https://arxiv.org/pdf/2203.10496.pdf

Từ một bài báo gần đây, thuật toán 'định hình lại' cơ thể được giao nhiệm vụ tô màu nền mới được tiết lộ khi đối tượng được thay đổi kích thước. Ở đây, sự thiếu hụt đó được thể hiện bằng đường viền màu đỏ mà người có thân hình đầy đặn hơn (đời thực, xem hình bên trái) từng chiếm giữ. Dựa trên tài liệu nguồn từ https://arxiv.org/pdf/2203.10496.pdf

Dòng quang kết hợp

Luồng quang học (OF) đã trở thành một công nghệ cốt lõi trong quá trình phát triển loại bỏ đối tượng video. Giống như một bản địa đồ, OF cung cấp bản đồ một lần về chuỗi thời gian. Thường được sử dụng để đo tốc độ trong các sáng kiến ​​​​thị giác máy tính, OF cũng có thể cho phép vẽ trong bức tranh nhất quán về mặt thời gian, trong đó tổng thể của nhiệm vụ có thể được xem xét trong một lần chuyển đổi, thay vì sự chú ý 'trên mỗi khung hình' theo phong cách Disney, điều này chắc chắn dẫn đến đến sự gián đoạn về mặt thời gian.

Các phương pháp vẽ trong video cho đến nay tập trung vào quy trình gồm ba giai đoạn: hoàn thành dòng chảy, trong đó video về cơ bản được ánh xạ thành một thực thể riêng biệt và có thể khám phá; lan truyền pixel, trong đó các lỗ hổng trong video 'bị hỏng' được lấp đầy bằng các pixel lan truyền hai chiều; Và ảo giác nội dung ('phát minh' pixel quen thuộc với hầu hết chúng ta từ các khuôn khổ deepfake và chuyển văn bản thành hình ảnh chẳng hạn như dòng DALL-E) trong đó nội dung 'thiếu' ước tính được phát minh và chèn vào cảnh quay.

Sự đổi mới trung tâm của E2FGVI là kết hợp ba giai đoạn này thành một hệ thống đầu cuối, loại bỏ nhu cầu thực hiện các thao tác thủ công trên nội dung hoặc quy trình.

Bài báo nhận thấy rằng nhu cầu can thiệp thủ công đòi hỏi các quy trình cũ hơn không tận dụng được lợi thế của GPU, khiến chúng khá tốn thời gian. Từ bài báo *:

'Đang lấy DFVI làm ví dụ: hoàn thành một video có kích thước 432 × 240 từ DAVIS, chứa khoảng 70 khung hình, cần khoảng 4 phút, điều này không thể chấp nhận được trong hầu hết các ứng dụng trong thế giới thực. Bên cạnh đó, ngoại trừ những nhược điểm đã đề cập ở trên, việc chỉ sử dụng mạng vẽ hình ảnh được đào tạo trước ở giai đoạn ảo giác nội dung sẽ bỏ qua mối quan hệ nội dung giữa các lân cận tạm thời, dẫn đến nội dung được tạo không nhất quán trong video.'

Bằng cách hợp nhất ba giai đoạn của video inpainting, E2FGVI có thể thay thế giai đoạn thứ hai, truyền pixel, bằng truyền đặc trưng. Trong các quy trình được phân đoạn nhiều hơn của các tác phẩm trước đó, các tính năng không được cung cấp rộng rãi vì mỗi giai đoạn tương đối kín và quy trình làm việc chỉ bán tự động.

Ngoài ra, các nhà nghiên cứu đã nghĩ ra một máy biến áp tiêu điểm thời gian đối với giai đoạn ảo giác nội dung, giai đoạn này không chỉ xem xét các pixel lân cận trực tiếp trong khung hình hiện tại (tức là điều gì đang xảy ra trong phần đó của khung hình trong hình ảnh trước đó hoặc tiếp theo), mà còn cả các pixel lân cận ở xa cách xa nhiều khung hình và nhưng sẽ ảnh hưởng đến hiệu ứng gắn kết của bất kỳ thao tác nào được thực hiện trên toàn bộ video.

Kiến trúc của E2FGVI.

Kiến trúc của E2FGVI.

Theo các tác giả, phần trung tâm dựa trên tính năng mới của quy trình làm việc có thể tận dụng các quy trình cấp độ tính năng hơn và độ lệch lấy mẫu có thể học được, trong khi máy biến áp tiêu điểm mới của dự án, theo các tác giả, mở rộng kích thước của cửa sổ tiêu điểm 'từ 2D sang 3D' .

Kiểm tra và dữ liệu

Để kiểm tra E2FGVI, các nhà nghiên cứu đã đánh giá hệ thống dựa trên hai bộ dữ liệu phân đoạn đối tượng video phổ biến: YouTube-VOSDAVIS. YouTube-VOS có 3741 video clip đào tạo, 474 clip xác thực và 508 clip kiểm tra, trong khi DAVIS có 60 video clip đào tạo và 90 clip kiểm tra.

E2FGVI đã được đào tạo trên YouTube-VOS và được đánh giá trên cả hai bộ dữ liệu. Trong quá trình đào tạo, mặt nạ đối tượng (các vùng màu xanh lá cây trong hình ảnh ở trên và video được nhúng bên dưới) đã được tạo để mô phỏng quá trình hoàn thành video.

Đối với các số liệu, các nhà nghiên cứu đã áp dụng Tỷ lệ nhiễu tín hiệu trên nhiễu cao nhất (PSNR), Độ tương tự về cấu trúc (SSIM), Khoảng cách khởi động Fréchet dựa trên video (VFID) và Lỗi cong vênh dòng chảy – lỗi sau để đo độ ổn định tạm thời trong video bị ảnh hưởng.

Các kiến ​​trúc trước đó mà hệ thống đã được thử nghiệm là VINet, DFVI, LGTSM, CAP, FGVC, STTNCầu chìCựu.

Từ phần kết quả định lượng của bài báo. Mũi tên lên và xuống chỉ ra rằng số cao hơn hoặc thấp hơn tương ứng là tốt hơn. E2FGVI đạt được điểm số cao nhất trên bảng. Các phương pháp được đánh giá theo FuseFormer, mặc dù DFVI, VINet và FGVC không phải là các hệ thống đầu cuối, nên không thể ước tính FLOP của chúng.

Từ phần kết quả định lượng của bài báo. Mũi tên lên và xuống chỉ ra rằng số cao hơn hoặc thấp hơn tương ứng là tốt hơn. E2FGVI đạt được điểm số cao nhất trên bảng. Các phương pháp được đánh giá theo FuseFormer, mặc dù DFVI, VINet và FGVC không phải là các hệ thống đầu cuối, nên không thể ước tính FLOP của chúng.

Ngoài việc đạt được điểm số cao nhất so với tất cả các hệ thống cạnh tranh, các nhà nghiên cứu đã tiến hành nghiên cứu người dùng định tính, trong đó các video được chuyển đổi bằng năm phương pháp đại diện được hiển thị riêng lẻ cho XNUMX tình nguyện viên, những người được yêu cầu đánh giá chúng về chất lượng hình ảnh.

Trục dọc biểu thị tỷ lệ phần trăm người tham gia ưa thích đầu ra E2FGVI về chất lượng hình ảnh.

Trục tung thể hiện tỷ lệ phần trăm người tham gia thích E2Đầu ra FGVI về chất lượng hình ảnh.

Các tác giả lưu ý rằng mặc dù ưu tiên nhất trí cho phương pháp của họ, một trong những kết quả, FGVC, không phản ánh kết quả định lượng và họ cho rằng điều này chỉ ra rằng E2Đặc biệt, FGVI có thể đang tạo ra 'kết quả dễ chịu hơn về mặt trực quan'.

Về mặt hiệu quả, các tác giả lưu ý rằng hệ thống của họ giảm đáng kể hoạt động của dấu chấm động mỗi giây (FLOP) và thời gian suy luận trên một GPU Titan duy nhất trên tập dữ liệu DAVIS và quan sát thấy rằng kết quả hiển thị E2FGVI chạy x15 nhanh hơn các phương pháp dựa trên luồng.

Họ nhận xét:

'[E2FGVI] giữ FLOP thấp nhất trái ngược với tất cả các phương pháp khác. Điều này chỉ ra rằng phương pháp được đề xuất có hiệu quả cao đối với việc vẽ trên video.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*Việc tôi chuyển đổi các trích dẫn nội tuyến của tác giả thành các siêu liên kết.

Xuất bản lần đầu vào ngày 19 tháng 2022 năm XNUMX.