sơ khai InstructIR: Khôi phục hình ảnh chất lượng cao theo hướng dẫn của con người - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

InstructIR: Khôi phục hình ảnh chất lượng cao theo hướng dẫn của con người

mm

Được phát hành

 on

Phục hồi hình ảnh chất lượng cao theo hướng dẫn của con người

Một hình ảnh có thể truyền tải rất nhiều điều nhưng nó cũng có thể bị ảnh hưởng bởi nhiều vấn đề khác nhau như chuyển động mờ, sương mù, nhiễu và dải động thấp. Những vấn đề này, thường được gọi là sự suy giảm thị giác máy tính ở mức độ thấp, có thể phát sinh từ các điều kiện môi trường khó khăn như nắng nóng hoặc mưa hoặc do những hạn chế của chính máy ảnh. Phục hồi hình ảnh đại diện cho một thách thức cốt lõi trong thị giác máy tính, cố gắng khôi phục hình ảnh rõ ràng, chất lượng cao từ một hình ảnh có biểu hiện xuống cấp như vậy. Việc khôi phục hình ảnh rất phức tạp vì có thể có nhiều giải pháp để khôi phục bất kỳ hình ảnh nào. Một số phương pháp tiếp cận nhắm tới sự xuống cấp cụ thể, chẳng hạn như giảm tiếng ồn hoặc loại bỏ tình trạng mờ hoặc sương mù.

Mặc dù các phương pháp này có thể mang lại kết quả tốt cho các vấn đề cụ thể nhưng chúng thường gặp khó khăn trong việc khái quát hóa các loại suy thoái khác nhau. Nhiều khung sử dụng một mạng lưới thần kinh chung cho nhiều nhiệm vụ khôi phục hình ảnh, nhưng mỗi mạng này được đào tạo riêng biệt. Nhu cầu về các mô hình khác nhau cho từng loại suy thoái khiến phương pháp này tốn kém về mặt tính toán và tốn thời gian, dẫn đến việc tập trung vào các mô hình khôi phục tất cả trong một trong những phát triển gần đây. Các mô hình này sử dụng một mô hình khôi phục mù sâu, duy nhất nhằm giải quyết nhiều cấp độ và kiểu xuống cấp, thường sử dụng các lời nhắc hoặc vectơ hướng dẫn cụ thể về tình trạng xuống cấp để nâng cao hiệu suất. Mặc dù các mô hình Tất cả trong một thường cho kết quả đầy hứa hẹn nhưng chúng vẫn phải đối mặt với những thách thức với các vấn đề nghịch đảo.

InstructIR đại diện cho một cách tiếp cận mang tính đột phá trong lĩnh vực này, là phương pháp đầu tiên Khôi phục hình ảnh khung được thiết kế để hướng dẫn mô hình khôi phục thông qua các hướng dẫn bằng văn bản của con người. Nó có thể xử lý các lời nhắc bằng ngôn ngữ tự nhiên để khôi phục hình ảnh chất lượng cao từ những hình ảnh bị xuống cấp, xem xét các loại suy thoái khác nhau. InstructIR đặt ra tiêu chuẩn mới về hiệu suất cho nhiều nhiệm vụ khôi phục hình ảnh, bao gồm khử nhiễu, khử nhiễu, khử mờ, khử mờ và tăng cường hình ảnh trong điều kiện ánh sáng yếu.

Bài viết này nhằm mục đích trình bày sâu về khung InstructIR và chúng tôi khám phá cơ chế, phương pháp, kiến ​​trúc của khung cùng với sự so sánh của nó với các khung tạo hình ảnh và video hiện đại. Vậy hãy bắt đầu.

InstructIR: Phục hồi hình ảnh chất lượng cao

Phục hồi hình ảnh là một vấn đề cơ bản trong thị giác máy tính vì nó nhằm mục đích khôi phục hình ảnh sạch chất lượng cao từ một hình ảnh đã bị xuống cấp. Trong thị giác máy tính cấp thấp, Suy thoái là thuật ngữ dùng để biểu thị các hiệu ứng khó chịu được quan sát thấy trong hình ảnh như chuyển động mờ, sương mù, nhiễu, dải động thấp, v.v. Lý do tại sao việc khôi phục hình ảnh là một thách thức nghịch đảo phức tạp là vì có thể có nhiều giải pháp khác nhau để khôi phục bất kỳ hình ảnh nào. Một số khung tập trung vào việc giảm chất lượng cụ thể như giảm nhiễu phiên bản hoặc khử nhiễu hình ảnh, trong khi các khung khác có thể tập trung nhiều hơn vào việc loại bỏ tình trạng mờ hoặc mờ, hoặc xóa sương mù hoặc khử sương mù. 

Các phương pháp học sâu gần đây đã cho thấy hiệu suất mạnh mẽ và nhất quán hơn khi so sánh với các phương pháp khôi phục hình ảnh truyền thống. Các mô hình phục hồi hình ảnh học sâu này đề xuất sử dụng mạng thần kinh dựa trên Transformers và Convolutional Neural Networks. Các mô hình này có thể được đào tạo độc lập cho các nhiệm vụ khôi phục hình ảnh đa dạng và chúng cũng có khả năng nắm bắt các tương tác tính năng cục bộ và tổng thể, đồng thời nâng cao chúng, mang lại hiệu suất ổn định và thỏa đáng. Mặc dù một số phương pháp này có thể hoạt động hiệu quả đối với các loại suy thoái cụ thể nhưng chúng thường không ngoại suy tốt cho các loại suy thoái khác nhau. Hơn nữa, trong khi nhiều khung công tác hiện có sử dụng cùng một mạng lưới thần kinh cho vô số nhiệm vụ khôi phục hình ảnh thì mọi công thức mạng lưới thần kinh đều được đào tạo riêng biệt. Do đó, rõ ràng là việc sử dụng một mô hình thần kinh riêng biệt cho mọi sự xuống cấp có thể hình dung được là không thể thực hiện được và tốn thời gian, đó là lý do tại sao các khung khôi phục hình ảnh gần đây tập trung vào các proxy khôi phục Tất cả trong một.

Các mô hình phục hồi hình ảnh All-In-One hoặc Multi-degradation hoặc Multi-task đang trở nên phổ biến trong lĩnh vực thị giác máy tính vì chúng có khả năng khôi phục nhiều loại và mức độ suy thoái trong một hình ảnh mà không cần đào tạo các mô hình một cách độc lập cho từng sự xuống cấp . Các mô hình khôi phục hình ảnh tất cả trong một sử dụng một mô hình khôi phục hình ảnh mù sâu duy nhất để giải quyết các loại và mức độ suy giảm hình ảnh khác nhau. Các mô hình Tất cả trong một khác nhau triển khai các cách tiếp cận khác nhau để hướng dẫn mô hình mù khôi phục hình ảnh bị suy giảm chất lượng, ví dụ: mô hình phụ trợ để phân loại sự suy giảm hoặc vectơ hướng dẫn đa chiều hoặc các lời nhắc giúp mô hình khôi phục các loại suy giảm khác nhau trong một hình ảnh. 

Như đã nói, chúng tôi tiến đến thao tác hình ảnh dựa trên văn bản vì nó đã được một số khung triển khai trong vài năm qua để tạo văn bản thành hình ảnh và các tác vụ chỉnh sửa hình ảnh dựa trên văn bản. Những mô hình này thường sử dụng lời nhắc bằng văn bản để mô tả hành động hoặc hình ảnh cùng với mô hình dựa trên khuếch tán để tạo ra các hình ảnh tương ứng. Nguồn cảm hứng chính cho khung InstructIR là khung InstructPix2Pix cho phép mô hình chỉnh sửa hình ảnh bằng hướng dẫn người dùng hướng dẫn mô hình về hành động cần thực hiện thay vì nhãn văn bản, mô tả hoặc chú thích của hình ảnh đầu vào. Do đó, người dùng có thể sử dụng văn bản viết tự nhiên để hướng dẫn mô hình thực hiện hành động nào mà không cần cung cấp hình ảnh mẫu hoặc mô tả hình ảnh bổ sung. 

Dựa trên những điều cơ bản này, khung InstructIR là mô hình thị giác máy tính đầu tiên sử dụng các hướng dẫn do con người viết để khôi phục hình ảnh và giải quyết các vấn đề ngược lại. Đối với lời nhắc bằng ngôn ngữ tự nhiên, mô hình InstructIR có thể khôi phục hình ảnh chất lượng cao từ các bản sao bị xuống cấp và cũng tính đến nhiều loại xuống cấp. Khung InstructIR có thể mang lại hiệu suất hiện đại trên một loạt các tác vụ khôi phục hình ảnh bao gồm khử nhiễu, khử nhiễu, khử mờ, khử mờ và nâng cao hình ảnh trong điều kiện ánh sáng yếu. Ngược lại với các công việc hiện có đạt được khả năng khôi phục hình ảnh bằng cách sử dụng vectơ hướng dẫn đã học hoặc phần nhúng lời nhắc, khung InstructIR sử dụng lời nhắc người dùng thô ở dạng văn bản. Khung InstructIR có thể khái quát hóa việc khôi phục hình ảnh bằng cách sử dụng các hướng dẫn bằng văn bản của con người và mô hình tất cả trong một duy nhất do InstructIR triển khai bao gồm nhiều nhiệm vụ khôi phục hơn các mô hình trước đó. Hình dưới đây minh họa các mẫu khôi phục đa dạng của khung InstructIR. 

InstructIR: Phương pháp và kiến ​​trúc

Về cốt lõi, khung InstructIR bao gồm bộ mã hóa văn bản và mô hình hình ảnh. Mô hình này sử dụng khung NAFNet, một mô hình khôi phục hình ảnh hiệu quả theo kiến ​​trúc U-Net làm mô hình hình ảnh. Hơn nữa, mô hình này còn triển khai các kỹ thuật định tuyến tác vụ để tìm hiểu thành công nhiều tác vụ bằng cách sử dụng một mô hình duy nhất. Hình dưới đây minh họa phương pháp đào tạo và đánh giá cho khung InstructIR. 

Lấy cảm hứng từ mô hình InstructPix2Pix, khung InstructIR sử dụng các hướng dẫn bằng văn bản của con người làm cơ chế điều khiển vì người dùng không cần phải cung cấp thêm thông tin. Những hướng dẫn này cung cấp một cách tương tác rõ ràng và rõ ràng, cho phép người dùng chỉ ra vị trí chính xác và loại suy thoái trong hình ảnh. Hơn nữa, việc sử dụng lời nhắc của người dùng thay vì lời nhắc cụ thể về mức xuống cấp cố định sẽ nâng cao khả năng sử dụng và ứng dụng của mô hình vì nó cũng có thể được sử dụng bởi những người dùng thiếu kiến ​​thức chuyên môn về miền cần thiết. Để trang bị cho khung InstructIR khả năng hiểu các lời nhắc đa dạng, mô hình này sử dụng GPT-4, một mô hình ngôn ngữ lớn để tạo các yêu cầu đa dạng, loại bỏ các lời nhắc mơ hồ và không rõ ràng sau quá trình lọc. 

Bộ mã hóa văn bản

Bộ mã hóa văn bản được các mô hình ngôn ngữ sử dụng để ánh xạ lời nhắc của người dùng tới phần nhúng văn bản hoặc biểu diễn vectơ có kích thước cố định. Theo truyền thống, bộ mã hóa văn bản của mô hình CLIP là một thành phần quan trọng để tạo hình ảnh dựa trên văn bản và các mô hình thao tác hình ảnh dựa trên văn bản để mã hóa lời nhắc của người dùng vì khung CLIP vượt trội về lời nhắc trực quan. Tuy nhiên, trong phần lớn trường hợp, người dùng nhắc nhở về việc xuống cấp ít hoặc không có nội dung trực quan, do đó, khiến các bộ mã hóa CLIP lớn trở nên vô dụng đối với những tác vụ như vậy vì nó sẽ cản trở đáng kể hiệu quả. Để giải quyết vấn đề này, khung InstructIR chọn bộ mã hóa câu dựa trên văn bản được đào tạo để mã hóa các câu trong không gian nhúng có ý nghĩa. Bộ mã hóa câu được đào tạo trước trên hàng triệu ví dụ, tuy nhiên, nhỏ gọn và hiệu quả so với các bộ mã hóa văn bản dựa trên CLIP truyền thống, đồng thời có khả năng mã hóa ngữ nghĩa của nhiều lời nhắc người dùng khác nhau. 

Hướng dẫn văn bản

Một khía cạnh chính của khung InstructIR là việc triển khai lệnh được mã hóa như một cơ chế điều khiển cho mô hình hình ảnh. Dựa trên điều này và được truyền cảm hứng trong việc định tuyến nhiệm vụ cho nhiều nhiệm vụ học tập, khung InstructIR đề xuất Khối xây dựng hướng dẫn hoặc ICB để cho phép chuyển đổi theo nhiệm vụ cụ thể trong mô hình. Định tuyến tác vụ thông thường áp dụng mặt nạ nhị phân dành riêng cho tác vụ cho các tính năng của kênh. Tuy nhiên, do khung InstructIR không biết được sự xuống cấp nên kỹ thuật này không được triển khai trực tiếp. Hơn nữa, đối với các tính năng hình ảnh và hướng dẫn được mã hóa, khung InstructIR áp dụng định tuyến tác vụ và tạo mặt nạ bằng cách sử dụng lớp tuyến tính được kích hoạt bằng hàm Sigmoid để tạo ra một tập hợp trọng số tùy thuộc vào phần nhúng văn bản, do đó thu được c-chiều cho mỗi mặt nạ nhị phân kênh. Mô hình này nâng cao hơn nữa các tính năng được điều hòa bằng cách sử dụng NAFBlock và sử dụng NAFBlock và Khối điều kiện hướng dẫn để điều chỉnh các tính năng ở cả khối mã hóa và khối giải mã. 

Mặc dù khung InstructIR không điều chỉnh rõ ràng các bộ lọc mạng thần kinh, nhưng mặt nạ tạo điều kiện cho mô hình chọn các kênh phù hợp nhất trên cơ sở thông tin và hướng dẫn hình ảnh. 

InstructIR: Thực hiện và kết quả

Mô hình InstructIR có thể đào tạo từ đầu đến cuối và mô hình hình ảnh không yêu cầu đào tạo trước. Chỉ có phần nhúng văn bản và phần đầu phân loại mới cần được đào tạo. Bộ mã hóa văn bản được khởi tạo bằng cách sử dụng bộ mã hóa BGE, một bộ mã hóa giống BERT được đào tạo trước về một lượng lớn dữ liệu được giám sát và không được giám sát để mã hóa câu cho mục đích chung. Khung InstructIR sử dụng mô hình NAFNet làm mô hình hình ảnh và kiến ​​trúc của NAFNet bao gồm bộ giải mã mã hóa 4 cấp với số lượng khối khác nhau ở mỗi cấp. Model còn bổ sung thêm 4 khối ở giữa giữa bộ mã hóa và bộ giải mã để nâng cao hơn nữa tính năng. Hơn nữa, thay vì ghép nối các kết nối bỏ qua, bộ giải mã thực hiện phép cộng và mô hình InstructIR chỉ thực hiện ICB hoặc Khối điều kiện lệnh để chỉ định tuyến tác vụ trong bộ mã hóa và bộ giải mã. Tiếp tục, mô hình InstructIR được tối ưu hóa bằng cách sử dụng mức mất giữa hình ảnh được khôi phục và hình ảnh sạch thực tế, đồng thời mức mất entropy chéo được sử dụng cho phần đầu phân loại ý định của bộ mã hóa văn bản. Mô hình InstructIR sử dụng trình tối ưu hóa AdamW với kích thước lô là 32 và tốc độ học tập là 5e-4 trong gần 500 kỷ nguyên, đồng thời thực hiện phân rã tốc độ học tập ủ cosine. Do mô hình hình ảnh trong khung InstructIR chỉ bao gồm 16 triệu tham số và chỉ có 100 nghìn tham số chiếu văn bản đã học nên khung InstructIR có thể được đào tạo dễ dàng trên GPU tiêu chuẩn, do đó giảm chi phí tính toán và tăng khả năng ứng dụng. 

Nhiều kết quả xuống cấp

Đối với nhiều lần xuống cấp và khôi phục đa tác vụ, khung InstructIR xác định hai thiết lập ban đầu:

  1. 3D cho các mô hình phân hủy ba chiều để giải quyết các vấn đề suy thoái như khử sương mù, khử nhiễu và khử nước. 
  2. 5D cho năm mô hình suy giảm nhằm giải quyết các vấn đề suy giảm như khử nhiễu hình ảnh, cải thiện ánh sáng yếu, khử sương mù, khử nhiễu và khử nhiễu. 

Hiệu suất của các mô hình 5D được thể hiện trong bảng sau và so sánh nó với các mô hình khôi phục hình ảnh hiện đại và tất cả trong một. 

Như có thể thấy, khung InstructIR với mô hình hình ảnh đơn giản và chỉ 16 triệu tham số có thể xử lý thành công năm tác vụ khôi phục hình ảnh khác nhau nhờ hướng dẫn dựa trên hướng dẫn và mang lại kết quả cạnh tranh. Bảng sau đây thể hiện hiệu suất của khung trên mô hình 3D và kết quả có thể so sánh với kết quả trên. 

Điểm nổi bật chính của khung InstructIR là khôi phục hình ảnh dựa trên hướng dẫn và hình dưới đây thể hiện khả năng đáng kinh ngạc của mô hình InstructIR trong việc hiểu nhiều hướng dẫn cho một nhiệm vụ nhất định. Ngoài ra, đối với một lệnh đối nghịch, mô hình InstructIR thực hiện nhận dạng không bị ép buộc. 

Kết luận:

Phục hồi hình ảnh là một vấn đề cơ bản trong thị giác máy tính vì nó nhằm mục đích khôi phục hình ảnh sạch chất lượng cao từ một hình ảnh đã bị xuống cấp. Trong thị giác máy tính cấp thấp, Suy thoái là thuật ngữ dùng để biểu thị các hiệu ứng khó chịu được quan sát thấy trong hình ảnh như chuyển động mờ, sương mù, nhiễu, dải động thấp, v.v. Trong bài viết này, chúng ta đã nói về InstructIR, khung khôi phục hình ảnh đầu tiên trên thế giới nhằm hướng dẫn mô hình khôi phục hình ảnh bằng cách sử dụng các hướng dẫn do con người viết. Đối với lời nhắc bằng ngôn ngữ tự nhiên, mô hình InstructIR có thể khôi phục hình ảnh chất lượng cao từ các bản sao bị xuống cấp và cũng tính đến nhiều loại xuống cấp. Khung InstructIR có thể mang lại hiệu suất hiện đại trên một loạt các tác vụ khôi phục hình ảnh bao gồm khử nhiễu, khử nhiễu, khử mờ, khử mờ và nâng cao hình ảnh trong điều kiện ánh sáng yếu.