sơ khai Chỉnh sửa đối tượng được hỗ trợ bởi AI với Imagic của Google và 'Xóa và thay thế' của Runway - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Chỉnh sửa đối tượng được hỗ trợ bởi AI với Imagic của Google và 'Xóa và thay thế' của Runway

mm
cập nhật on

Tuần này, hai thuật toán đồ họa dựa trên AI mới nhưng tương phản đang cung cấp những cách thức mới cho người dùng cuối để thực hiện các thay đổi hiệu quả và chi tiết cao đối với các đối tượng trong ảnh.

Đầu tiên là tưởng tượng, từ Google Research, liên kết với Viện Công nghệ Israel và Viện Khoa học Weizmann. Imagic cung cấp khả năng chỉnh sửa chi tiết, có điều kiện về văn bản đối với các đối tượng thông qua việc tinh chỉnh các mô hình khuếch tán.

Thay đổi những gì bạn thích và để phần còn lại – Imagic hứa hẹn chỉ chỉnh sửa chi tiết những phần bạn muốn thay đổi. Nguồn: https://arxiv.org/pdf/2210.09276.pdf

Thay đổi những gì bạn thích và để lại phần còn lại – Imagic hứa hẹn chỉ chỉnh sửa chi tiết những phần bạn muốn thay đổi. Nguồn: https://arxiv.org/pdf/2210.09276.pdf

Bất cứ ai đã từng cố gắng thay đổi chỉ một yếu tố trong kết xuất lại Khuếch tán ổn định sẽ biết quá rõ rằng đối với mỗi lần chỉnh sửa thành công, hệ thống sẽ thay đổi năm điều mà bạn thích theo cách của chúng. Đó là một thiếu sót khiến nhiều người đam mê SD tài năng nhất hiện đang liên tục chuyển đổi giữa Stable Diffusion và Photoshop, để khắc phục loại 'thiệt hại tài sản thế chấp' này. Chỉ từ quan điểm này, những thành tựu của Imagic có vẻ đáng chú ý.

Tại thời điểm viết bài này, Imagic thậm chí còn thiếu một video quảng cáo và do Google thái độ thận trọng để phát hành các công cụ tổng hợp hình ảnh tự do, không chắc chắn ở mức độ nào, nếu có, chúng tôi sẽ có cơ hội kiểm tra hệ thống.

Ưu đãi thứ hai là Runway ML's khá dễ tiếp cận hơn Xóa và thay thế cơ sở, một tính năng mới trong phần 'AI Magic Tools' của bộ tiện ích hiệu ứng hình ảnh dựa trên máy học trực tuyến độc quyền.

Tính năng Xóa và Thay thế của Runway ML, đã được thấy trong bản xem trước cho hệ thống chỉnh sửa văn bản thành video. Nguồn: https://www.youtube.com/watch?v=41Qb58ZPO60

Tính năng Xóa và Thay thế của Runway ML, đã được thấy trong bản xem trước cho hệ thống chỉnh sửa văn bản thành video. Nguồn: https://www.youtube.com/watch?v=41Qb58ZPO60

Trước tiên hãy xem chuyến đi chơi của Runway.

Xóa và thay thế

Giống như Imagic, Erase and Replace chỉ xử lý ảnh tĩnh, mặc dù Runway có xem trước chức năng tương tự trong giải pháp chỉnh sửa văn bản thành video chưa được phát hành:

Mặc dù bất kỳ ai cũng có thể thử nghiệm tính năng Xóa và Thay thế mới trên hình ảnh, nhưng phiên bản video vẫn chưa được cung cấp công khai. Nguồn: https://twitter.com/runwayml/status/1568220303808991232

Mặc dù bất kỳ ai cũng có thể thử nghiệm tính năng Xóa và Thay thế mới trên hình ảnh, nhưng phiên bản video vẫn chưa được cung cấp công khai. Nguồn: https://twitter.com/runwayml/status/1568220303808991232

Mặc dù Runway ML chưa công bố chi tiết về các công nghệ đằng sau Xóa và Thay thế, nhưng tốc độ mà bạn có thể thay thế một cây trồng trong nhà bằng một bức tượng bán thân của Ronald Reagan có sức thuyết phục hợp lý cho thấy rằng một mô hình khuếch tán như Khuếch tán Ổn định (hoặc, ít có khả năng hơn, một DALL-E 2 đã được cấp phép) là công cụ phát minh lại đối tượng bạn chọn trong Xóa và Thay thế.

Thay thế cây trồng trong nhà bằng tượng bán thân The Gipper không nhanh bằng cái này, nhưng cũng khá nhanh. Nguồn: https://app.runwayml.com/

Thay thế cây trồng trong nhà bằng tượng bán thân The Gipper không nhanh bằng cái này, nhưng cũng khá nhanh. Nguồn: https://app.runwayml.com/

Hệ thống có một số hạn chế loại DALL-E 2 – hình ảnh hoặc văn bản gắn cờ bộ lọc Xóa và Thay thế sẽ kích hoạt cảnh báo về khả năng tạm ngưng tài khoản trong trường hợp có thêm vi phạm – thực tế là một bản sao soạn sẵn của OpenAI đang diễn ra Chính sách cho DALL-E 2 .

Nhiều kết quả thiếu các cạnh gồ ghề điển hình của Khuếch tán Ổn định. Runway ML là nhà đầu tư và đối tác nghiên cứu trong SD và có thể là họ đã đào tạo một mô hình độc quyền vượt trội hơn so với trọng số điểm kiểm tra 1.4 nguồn mở mà phần còn lại của chúng tôi hiện đang vật lộn với (cũng như nhiều nhóm phát triển khác, người có sở thích cũng như chuyên nghiệp, hiện đang đào tạo hoặc tinh chỉnh Các mô hình khuếch tán ổn định).

Thay thế bàn trong nhà bằng 'bàn làm bằng băng' trong Xóa và Thay thế của Runway ML.

Thay thế bàn trong nhà bằng 'bàn làm bằng băng' trong Xóa và Thay thế của Runway ML.

Như với Imagic (xem bên dưới), Erase and Replace là 'hướng đối tượng', giống như vậy – bạn không thể chỉ xóa một phần 'trống' của hình ảnh và tô màu nó bằng kết quả của lời nhắc văn bản của bạn; trong trường hợp đó, hệ thống sẽ chỉ theo dõi đối tượng rõ ràng gần nhất dọc theo tầm nhìn của mặt nạ (chẳng hạn như tường hoặc tivi) và áp dụng phép biến đổi ở đó.

Như tên gọi, bạn không thể đưa các đối tượng vào khoảng trống trong Xóa và Thay thế. Tại đây, nỗ lực triệu tập những lãnh chúa Sith nổi tiếng nhất đã dẫn đến một bức tranh tường kỳ lạ liên quan đến Vader trên TV, gần như nơi khu vực 'thay thế' được vẽ.

Như tên gọi, bạn không thể đưa các đối tượng vào khoảng trống trong Xóa và Thay thế. Tại đây, nỗ lực triệu tập những lãnh chúa Sith nổi tiếng nhất đã dẫn đến một bức tranh tường kỳ lạ liên quan đến Vader trên TV, gần như nơi khu vực 'thay thế' được vẽ.

Rất khó để biết liệu Xóa và Thay thế có đang lảng tránh việc sử dụng hình ảnh có bản quyền (phần lớn vẫn bị cản trở, mặc dù với mức độ thành công khác nhau, trong DALL-E 2) hay liệu mô hình có được sử dụng trong công cụ kết xuất phụ trợ hay không không được tối ưu hóa cho loại điều đó.

'Bức tranh tường của Nicole Kidman' hơi NSFW chỉ ra rằng mô hình dựa trên khuếch tán (có lẽ) hiện có thiếu sự từ chối có hệ thống trước đây của DALL-E 2 đối với việc hiển thị các khuôn mặt chân thực hoặc nội dung không phù hợp, trong khi kết quả cho các nỗ lực chứng minh các tác phẩm có bản quyền nằm trong phạm vi mơ hồ ('xenomorph') đến phi lý ('ngai sắt'). Chèn phía dưới bên phải, hình ảnh nguồn.

'Bức tranh tường của Nicole Kidman' hơi NSFW chỉ ra rằng mô hình dựa trên khuếch tán (có lẽ) hiện có thiếu khả năng từ chối có hệ thống trước đây của DALL-E 2 đối với việc hiển thị các khuôn mặt chân thực hoặc nội dung không phù hợp, trong khi kết quả cho các nỗ lực chứng minh các tác phẩm có bản quyền nằm trong phạm vi mơ hồ ('xenomorph') đến phi lý ('ngai sắt'). Chèn phía dưới bên phải, hình ảnh nguồn.

Sẽ rất thú vị khi biết những phương pháp Xóa và Thay thế đang sử dụng để cô lập các đối tượng mà nó có khả năng thay thế. Có lẽ hình ảnh đang được chạy qua một số dẫn xuất của CLIP, với các mục riêng biệt được phân chia theo nhận dạng đối tượng và phân đoạn ngữ nghĩa tiếp theo. Không có hoạt động nào trong số này hoạt động ở bất kỳ đâu gần như trong quá trình cài đặt Khuếch tán ổn định chung hoặc trong vườn.

Nhưng không có gì là hoàn hảo – đôi khi hệ thống dường như xóa và không thay thế, ngay cả khi (như chúng ta đã thấy trong hình trên), cơ chế hiển thị bên dưới chắc chắn biết ý nghĩa của lời nhắc văn bản. Trong trường hợp này, việc biến bàn cà phê thành xenomorph là không thể - thay vào đó, chiếc bàn sẽ biến mất.

Một phần lặp lại đáng sợ hơn của 'Waldo ở đâu', khi Xóa và Thay thế không tạo ra được người ngoài hành tinh.

Một phần lặp lại đáng sợ hơn của 'Waldo ở đâu', khi Xóa và Thay thế không tạo ra được người ngoài hành tinh.

Xóa và Thay thế dường như là một hệ thống thay thế đối tượng hiệu quả với khả năng inpainting tuyệt vời. Tuy nhiên, nó không thể chỉnh sửa các đối tượng nhận thức hiện có mà chỉ thay thế chúng. Để thực sự thay đổi nội dung hình ảnh hiện có mà không ảnh hưởng đến chất liệu xung quanh được cho là một nhiệm vụ khó khăn hơn nhiều, gắn liền với cuộc đấu tranh lâu dài của ngành nghiên cứu thị giác máy tính hướng tới sự xáo trộn trong các không gian tiềm ẩn khác nhau của các khuôn khổ phổ biến.

tưởng tượng

Đó là một nhiệm vụ mà Imagic giải quyết. Các giấy mới cung cấp nhiều ví dụ về các chỉnh sửa giúp sửa đổi thành công các khía cạnh riêng lẻ của ảnh trong khi vẫn giữ nguyên phần còn lại của ảnh.

Trong Imagic, các hình ảnh được sửa đổi không bị kéo dài, biến dạng và 'đoán khớp' đặc trưng của trò rối deepfake, vốn sử dụng các linh mục hạn chế bắt nguồn từ một hình ảnh duy nhất.

Trong Imagic, các hình ảnh được sửa đổi không bị kéo dài, biến dạng và 'đoán khớp' đặc trưng của trò rối deepfake, vốn sử dụng các linh mục hạn chế bắt nguồn từ một hình ảnh duy nhất.

Hệ thống sử dụng quy trình ba giai đoạn – tối ưu hóa nhúng văn bản; tinh chỉnh mô hình; và cuối cùng, tạo ra hình ảnh sửa đổi.

Mã hóa tưởng tượng lời nhắc văn bản đích để truy xuất văn bản nhúng ban đầu, sau đó tối ưu hóa kết quả để thu được hình ảnh đầu vào. Sau đó, mô hình tổng quát được tinh chỉnh theo hình ảnh nguồn, thêm một loạt các tham số, trước khi chịu sự nội suy được yêu cầu.

Imagic mã hóa dấu nhắc văn bản đích để truy xuất phần nhúng văn bản ban đầu, sau đó tối ưu hóa kết quả để thu được hình ảnh đầu vào. Sau đó, mô hình tổng quát được tinh chỉnh theo hình ảnh nguồn, thêm một loạt các tham số, trước khi chịu sự nội suy được yêu cầu.

Không có gì đáng ngạc nhiên, khuôn khổ này dựa trên Google's Ảnh kiến trúc chuyển văn bản thành video, mặc dù các nhà nghiên cứu tuyên bố rằng các nguyên tắc của hệ thống được áp dụng rộng rãi cho các mô hình khuếch tán tiềm ẩn.

Imagen sử dụng kiến ​​trúc ba tầng, thay vì mảng bảy tầng được sử dụng cho công ty gần đây hơn chuyển văn bản thành video của phần mềm. Ba mô-đun riêng biệt bao gồm một mô hình khuếch tán chung hoạt động ở độ phân giải 64x64px; một mô hình siêu phân giải nâng cấp đầu ra này lên 256x256px; và một mô hình siêu phân giải bổ sung để đưa đầu ra lên đến độ phân giải 1024×1024.

Imagic can thiệp vào giai đoạn sớm nhất của quy trình này, tối ưu hóa việc nhúng văn bản được yêu cầu ở giai đoạn 64px trên trình tối ưu hóa Adam với tốc độ học tĩnh là 0.0001.

Một lớp chính trong sự tháo gỡ: những người dùng cuối đã cố gắng thay đổi thứ gì đó đơn giản như màu của đối tượng được kết xuất trong mô hình khuếch tán, GAN hoặc NeRF sẽ biết tầm quan trọng của việc Imagic có thể thực hiện các phép biến đổi như vậy mà không 'xé toạc' ' tính nhất quán của phần còn lại của hình ảnh.

Một lớp chính trong sự tháo gỡ: những người dùng cuối đã cố gắng thay đổi thứ gì đó đơn giản như màu của đối tượng được kết xuất trong mô hình khuếch tán, GAN hoặc NeRF sẽ biết tầm quan trọng của việc Imagic có thể thực hiện các phép biến đổi như vậy mà không 'xé toạc' ' tính nhất quán của phần còn lại của hình ảnh.

Tinh chỉnh sau đó diễn ra trên mô hình cơ sở của Imagen, với 1500 bước cho mỗi hình ảnh đầu vào, tùy thuộc vào quá trình nhúng đã sửa đổi. Đồng thời, lớp phụ 64px>256px được tối ưu hóa song song trên hình ảnh có điều kiện. Các nhà nghiên cứu lưu ý rằng việc tối ưu hóa tương tự cho lớp 256px>1024px cuối cùng 'có ít hoặc không ảnh hưởng' đến kết quả cuối cùng và do đó đã không triển khai điều này.

Bài báo nói rằng quá trình tối ưu hóa mất khoảng tám phút cho mỗi hình ảnh trên máy đôi. TPUV4 khoai tây chiên. Kết xuất cuối cùng diễn ra trong Imagen lõi bên dưới sơ đồ lấy mẫu DDIM.

Điểm chung với các quy trình tinh chỉnh tương tự dành cho Google Dream Booth, các phần nhúng kết quả có thể được sử dụng bổ sung để tăng cường khả năng cách điệu, cũng như các chỉnh sửa ảnh chân thực có chứa thông tin được lấy từ cơ sở dữ liệu cơ bản rộng hơn cung cấp năng lượng cho Imagen (vì, như cột đầu tiên bên dưới hiển thị, các hình ảnh nguồn không có bất kỳ nội dung cần thiết nào để thực hiện các phép biến đổi này).

Có thể tạo ra các chỉnh sửa và chuyển động quang học linh hoạt thông qua Imagic, trong khi các mã dẫn xuất và mã tách rời thu được trong quy trình có thể dễ dàng được sử dụng cho đầu ra cách điệu.

Có thể tạo ra các chỉnh sửa và chuyển động quang học linh hoạt thông qua Imagic, trong khi các mã dẫn xuất và mã tách rời thu được trong quy trình có thể dễ dàng được sử dụng cho đầu ra cách điệu.

Các nhà nghiên cứu đã so sánh Imagic với các tác phẩm trước đó SDSửa đổi, cách tiếp cận dựa trên GAN từ năm 2021, sự hợp tác giữa Đại học Stanford và Đại học Carnegie Mellon; Và Văn bản2Live, một sự hợp tác, từ tháng 2022 năm XNUMX, giữa Viện Khoa học Weizmann và NVIDIA.

So sánh trực quan giữa Imagic, SDEdit và Text2Live.

So sánh trực quan giữa Imagic, SDEdit và Text2Live.

Rõ ràng là các cách tiếp cận trước đây đang gặp khó khăn, nhưng ở hàng dưới cùng, liên quan đến việc xen vào một sự thay đổi lớn về tư thế, những người đương nhiệm hoàn toàn thất bại trong việc định hình lại tài liệu nguồn, so với thành công đáng chú ý từ Imagic.

Các yêu cầu về tài nguyên và thời gian đào tạo trên mỗi hình ảnh của Imagic, mặc dù ngắn so với tiêu chuẩn của những mục tiêu như vậy, khiến nó khó có thể được đưa vào ứng dụng chỉnh sửa hình ảnh cục bộ trên máy tính cá nhân – và không rõ quá trình tinh chỉnh có thể ở mức độ nào thu nhỏ đến mức người tiêu dùng.

Như hiện tại, Imagic là một sản phẩm ấn tượng phù hợp hơn với API – một môi trường Nghiên cứu của Google, chịu nhiều chỉ trích liên quan đến việc tạo điều kiện cho deepfaking, trong mọi trường hợp có thể là thoải mái nhất.

 

Xuất bản lần đầu vào ngày 18 tháng 2022 năm XNUMX.