Trí tuệ nhân tạo
DiffSeg: Phân đoạn không bắn không được giám sát bằng cách sử dụng Khuếch tán ổn định

Một trong những thách thức cốt lõi trong các mô hình dựa trên thị giác máy tính là tạo ra mặt nạ phân đoạn chất lượng cao. Những tiến bộ gần đây trong đào tạo có giám sát quy mô lớn đã cho phép phân đoạn không ảnh theo nhiều kiểu hình ảnh khác nhau. Ngoài ra, đào tạo không giám sát đã đơn giản hóa việc phân đoạn mà không cần chú thích mở rộng. Bất chấp những phát triển này, việc xây dựng một khung thị giác máy tính có khả năng phân đoạn bất kỳ thứ gì trong cài đặt không chụp mà không có chú thích vẫn là một nhiệm vụ phức tạp. Phân đoạn ngữ nghĩa, một khái niệm cơ bản trong các mô hình thị giác máy tính, liên quan đến việc chia hình ảnh thành các vùng nhỏ hơn với ngữ nghĩa thống nhất. Kỹ thuật này đặt nền tảng cho nhiều nhiệm vụ tiếp theo, chẳng hạn như chụp ảnh y tế, chỉnh sửa hình ảnh, lái xe tự động, v.v.
Để thúc đẩy sự phát triển của các mô hình thị giác máy tính, điều quan trọng là phân đoạn ảnh không bị giới hạn trong một tập dữ liệu cố định với các danh mục hạn chế. Thay vào đó, nó nên đóng vai trò là một nhiệm vụ nền tảng linh hoạt cho nhiều ứng dụng khác. Tuy nhiên, chi phí cao của việc thu thập nhãn trên cơ sở từng pixel đặt ra một thách thức đáng kể, hạn chế sự phát triển của các phương pháp phân đoạn zero-shot và phân đoạn có giám sát, vốn không yêu cầu chú thích và thiếu quyền truy cập trước vào mục tiêu. Bài viết này sẽ thảo luận về cách các lớp tự chú ý trong mô hình khuếch tán ổn định có thể tạo điều kiện thuận lợi cho việc tạo ra một mô hình có khả năng phân đoạn bất kỳ đầu vào nào trong cài đặt không chụp, ngay cả khi không có chú thích thích hợp. Các lớp tự chú ý này vốn hiểu các khái niệm đối tượng được học bằng mô hình khuếch tán ổn định được đào tạo trước.
DiffSeg: Thuật toán phân đoạn Zero-Shot nâng cao
Phân đoạn ngữ nghĩa là một quá trình chia hình ảnh thành nhiều phần khác nhau, trong đó mỗi phần có chung ngữ nghĩa. Kỹ thuật này tạo thành nền tảng cho nhiều nhiệm vụ tiếp theo. Theo truyền thống, các nhiệm vụ thị giác máy tính không cần thực hiện phụ thuộc vào phân đoạn ngữ nghĩa có giám sát, sử dụng các bộ dữ liệu lớn với các danh mục được chú thích và gắn nhãn. Tuy nhiên, việc triển khai phân đoạn ngữ nghĩa không giám sát trong cài đặt không bắn vẫn là một thách thức. Mặc dù các phương pháp được giám sát truyền thống có hiệu quả nhưng chi phí ghi nhãn trên mỗi pixel của chúng thường rất cao, làm nổi bật nhu cầu phát triển các phương pháp phân đoạn không được giám sát trong cài đặt không chụp ít hạn chế hơn, trong đó mô hình không yêu cầu dữ liệu chú thích cũng như kiến thức trước về dữ liệu.
Để giải quyết hạn chế này, DiffSeg giới thiệu một chiến lược xử lý hậu kỳ mới, tận dụng các khả năng của khung Khuếch tán ổn định để xây dựng mô hình phân đoạn chung có khả năng truyền không ảnh nào trên bất kỳ hình ảnh nào. Khung khuếch tán ổn định đã chứng minh tính hiệu quả của chúng trong việc tạo ra hình ảnh có độ phân giải cao dựa trên các điều kiện kịp thời. Đối với các hình ảnh được tạo, các khung này có thể tạo mặt nạ phân đoạn bằng cách sử dụng các lời nhắc văn bản tương ứng, thường chỉ bao gồm các đối tượng nổi bật ở nền trước.
Ngược lại, DiffSeg là một phương pháp xử lý hậu kỳ cải tiến nhằm tạo ra mặt nạ phân đoạn bằng cách sử dụng các tensor chú ý từ các lớp tự chú ý trong mô hình khuếch tán. Thuật toán DiffSeg bao gồm ba thành phần chính: hợp nhất chú ý lặp đi lặp lại, tập hợp chú ý và loại bỏ không tối đa, như minh họa trong hình ảnh sau.
Thuật toán DiffSeg bảo toàn thông tin hình ảnh trên nhiều độ phân giải bằng cách tổng hợp các thang đo chú ý 4D với tính nhất quán về không gian và sử dụng quy trình hợp nhất lặp đi lặp lại bằng cách lấy mẫu các điểm neo. Những điểm neo này đóng vai trò là bệ phóng cho việc hợp nhất các mặt nạ chú ý với các điểm neo đối tượng tương tự cuối cùng được hấp thụ. Khung DiffSeg kiểm soát quá trình hợp nhất với sự trợ giúp của Phương pháp phân kỳ KL để đo lường sự giống nhau giữa hai bản đồ chú ý.
Khi so sánh với các phương pháp phân đoạn không giám sát dựa trên cụm, các nhà phát triển không phải chỉ định trước số lượng cụm trong thuật toán DiffSeg và thậm chí không có bất kỳ kiến thức nào trước đó, thuật toán DiffSeg có thể tạo phân đoạn mà không cần sử dụng thêm tài nguyên. Nhìn chung, thuật toán DiffSeg là “Một phương pháp phân đoạn không cần giám sát và không cần giám sát mới sử dụng mô hình Khuếch tán ổn định được đào tạo trước và có thể phân đoạn hình ảnh mà không cần bất kỳ tài nguyên hoặc kiến thức bổ sung nào."
DiffSeg: Các khái niệm cơ bản
DiffSeg là một thuật toán mới được xây dựng dựa trên những kiến thức đã học được về Mô hình khuếch tán, Phân đoạn không giám sát và Phân đoạn không bắn.
Mô hình khuếch tán
Thuật toán DiffSeg được xây dựng dựa trên những bài học từ các mô hình khuếch tán được đào tạo trước. Mô hình khuếch tán là một trong những khung tổng quát phổ biến nhất cho các mô hình thị giác máy tính và nó tìm hiểu quá trình khuếch tán thuận và ngược từ hình ảnh nhiễu Gaussian đẳng hướng được lấy mẫu để tạo ra hình ảnh. Khuếch tán ổn định là biến thể phổ biến nhất của mô hình khuếch tán và nó được sử dụng để thực hiện nhiều nhiệm vụ bao gồm phân đoạn có giám sát, phân loại không bắn, khớp ngữ nghĩa-tương ứng, phân đoạn hiệu quả nhãn và phân đoạn từ vựng mở. Tuy nhiên, vấn đề duy nhất với các mô hình khuếch tán là chúng dựa vào các đặc điểm trực quan nhiều chiều để thực hiện các tác vụ này và chúng thường yêu cầu đào tạo bổ sung để tận dụng tối đa các đặc điểm này.
Phân đoạn không được giám sát
Thuật toán DiffSeg có liên quan chặt chẽ đến phân đoạn không giám sát, một phương pháp AI hiện đại nhằm tạo ra các mặt nạ phân đoạn dày đặc mà không sử dụng bất kỳ chú thích nào. Tuy nhiên, để mang lại hiệu suất tốt, các mô hình phân đoạn không giám sát cần được đào tạo trước về tập dữ liệu mục tiêu. Các khung AI dựa trên phân đoạn không giám sát có thể được mô tả thành hai loại: phân cụm bằng cách sử dụng các mô hình được đào tạo trước và phân cụm dựa trên tính bất biến. Trong danh mục đầu tiên, các khung sử dụng các tính năng phân biệt được học bởi các mô hình được đào tạo trước để tạo mặt nạ phân đoạn trong khi các khung tìm thấy chính chúng trong danh mục thứ hai sử dụng thuật toán phân cụm chung để tối ưu hóa thông tin lẫn nhau giữa hai hình ảnh để phân chia hình ảnh thành các cụm ngữ nghĩa và tránh sự phân đoạn thoái hóa.
Phân đoạn không bắn
Thuật toán DiffSeg có liên quan chặt chẽ với các khung phân đoạn không bắn, một phương pháp có khả năng phân đoạn bất kỳ thứ gì mà không cần đào tạo trước hoặc có kiến thức về dữ liệu. Các mô hình phân đoạn không bắn đã chứng tỏ khả năng truyền không bắn đặc biệt trong thời gian gần đây mặc dù chúng yêu cầu một số lời nhắc và nhập văn bản. Ngược lại, thuật toán DiffSeg sử dụng mô hình khuếch tán để tạo phân đoạn mà không cần truy vấn và tổng hợp nhiều hình ảnh cũng như không biết nội dung của đối tượng.
DiffSeg: Phương pháp và kiến trúc
Thuật toán DiffSeg sử dụng các lớp tự chú ý trong mô hình khuếch tán ổn định được huấn luyện trước để tạo ra các tác vụ phân đoạn chất lượng cao.
Mô hình khuếch tán ổn định
Khuếch tán ổn định là một trong những khái niệm cơ bản trong khung DiffSeg. Khuếch tán ổn định là một khung AI tổng quát và là một trong những mô hình phổ biến nhất. Một trong những đặc điểm chính của mô hình khuếch tán là đường truyền thuận và đường truyền ngược. Trong quá trình chuyển tiếp, một lượng nhỏ nhiễu Gaussian được thêm vào hình ảnh lặp đi lặp lại ở mỗi bước thời gian cho đến khi hình ảnh trở thành hình ảnh nhiễu Gaussian đẳng hướng. Mặt khác, trong quá trình đảo ngược, mô hình khuếch tán lặp đi lặp lại loại bỏ nhiễu trong ảnh nhiễu Gaussian đẳng hướng để khôi phục ảnh gốc mà không có bất kỳ nhiễu Gaussian nào.
Khung Khuếch tán ổn định sử dụng bộ mã hóa-giải mã và thiết kế U-Net với lớp chú ý trong đó nó sử dụng bộ mã hóa để nén hình ảnh trước tiên vào một không gian tiềm ẩn với kích thước không gian nhỏ hơn và sử dụng bộ giải mã để giải nén hình ảnh. Kiến trúc U-Net bao gồm một chồng các khối mô-đun, trong đó mỗi khối bao gồm một trong hai thành phần sau: Lớp biến áp và lớp ResNet.
Thành phần và kiến trúc
Các lớp tự chú ý trong các mô hình khuếch tán nhóm thông tin của các đối tượng vốn có dưới dạng bản đồ chú ý không gian và DiffSeg là một phương pháp xử lý hậu kỳ mới để hợp nhất các tensor chú ý vào một mặt nạ phân đoạn hợp lệ với đường dẫn bao gồm ba thành phần chính: tổng hợp chú ý, sự đàn áp không tối đa và sự chú ý lặp đi lặp lại.
Tổng hợp chú ý
Đối với hình ảnh đầu vào đi qua các lớp U-Net và Bộ mã hóa, mô hình Khuếch tán ổn định sẽ tạo ra tổng cộng 16 tensor chú ý, với 5 tensor cho mỗi chiều. Mục tiêu chính của việc tạo ra 16 tensor là tổng hợp các tensor chú ý này với các độ phân giải khác nhau thành một tensor có độ phân giải cao nhất có thể. Để đạt được điều này, thuật toán DiffSeg xử lý 4 chiều khác nhau.
Trong số bốn chiều, 2 chiều cuối cùng trong cảm biến chú ý có độ phân giải khác nhau nhưng chúng nhất quán về mặt không gian do bản đồ không gian 2D của khung DiffSeg tương ứng với mối tương quan giữa các vị trí và vị trí không gian. Kết quả là, khung DiffSeg lấy mẫu hai chiều này của tất cả các bản đồ chú ý thành độ phân giải cao nhất trong số chúng, 64 x 64. Mặt khác, 2 chiều đầu tiên biểu thị tham chiếu vị trí của bản đồ chú ý như minh họa trong hình ảnh sau.
Vì các kích thước này đề cập đến vị trí của bản đồ chú ý nên các bản đồ chú ý cần được tổng hợp tương ứng. Ngoài ra, để đảm bảo rằng bản đồ chú ý tổng hợp có phân phối hợp lệ, khung sẽ chuẩn hóa phân phối sau khi tổng hợp với mỗi bản đồ chú ý được gán trọng số tỷ lệ với độ phân giải của nó.
Hợp nhất sự chú ý lặp đi lặp lại
Mặc dù mục tiêu chính của việc tổng hợp sự chú ý là tính toán một tenxơ chú ý, nhưng mục đích chính là hợp nhất các bản đồ chú ý trong tenxơ thành một chồng các đề xuất đối tượng trong đó mỗi đề xuất riêng lẻ chứa danh mục nội dung hoặc kích hoạt một đối tượng. Giải pháp được đề xuất để đạt được điều này là triển khai thuật toán K-Means trên phân bố hợp lệ của các tensor để tìm các cụm đối tượng. Tuy nhiên, sử dụng K-Means không phải là giải pháp tối ưu vì việc phân cụm K-Means yêu cầu người dùng chỉ định trước số lượng cụm. Hơn nữa, việc triển khai thuật toán K-Means có thể dẫn đến các kết quả khác nhau cho cùng một hình ảnh do nó phụ thuộc ngẫu nhiên vào quá trình khởi tạo. Để vượt qua rào cản này, khung DiffSeg đề xuất tạo một lưới lấy mẫu để tạo ra các đề xuất bằng cách hợp nhất các bản đồ chú ý theo cách lặp đi lặp lại.
Ức chế không tối đa
Bước trước đó của việc hợp nhất sự chú ý lặp đi lặp lại mang lại một danh sách các đề xuất đối tượng dưới dạng xác suất hoặc bản đồ sự chú ý trong đó mỗi đề xuất đối tượng chứa sự kích hoạt của đối tượng. Khung này sử dụng tính năng triệt tiêu không tối đa để chuyển đổi danh sách đề xuất đối tượng thành mặt nạ phân đoạn hợp lệ và quy trình này là một cách tiếp cận hiệu quả vì mỗi phần tử trong danh sách đã là bản đồ phân bổ xác suất. Đối với mọi vị trí không gian trên tất cả các bản đồ, thuật toán lấy chỉ mục có xác suất lớn nhất và chỉ định tư cách thành viên trên cơ sở chỉ mục của bản đồ tương ứng.
DiffSeg: Thử nghiệm và kết quả
Các khung hoạt động trên phân đoạn không được giám sát sử dụng hai điểm chuẩn phân đoạn là Cityscapes và COCO-stuff-27. Điểm chuẩn của Cityscapes là tập dữ liệu về xe tự lái với 27 danh mục cấp trung trong khi điểm chuẩn COCO-stuff-27 là phiên bản được tuyển chọn của tập dữ liệu COCO-stuff ban đầu, hợp nhất 80 thứ và 91 danh mục thành 27 danh mục. Hơn nữa, để phân tích hiệu suất phân đoạn, khung DiffSeg sử dụng giao điểm trung bình trên liên kết hoặc mIoU và độ chính xác của pixel hoặc ACC và do thuật toán DiffSeg không thể cung cấp nhãn ngữ nghĩa nên nó sử dụng thuật toán so khớp Hungary để gán mặt nạ sự thật cơ bản với mỗi mặt nạ dự đoán. Trong trường hợp số lượng mặt nạ dự đoán vượt quá số lượng mặt nạ sự thật trên mặt đất, hệ thống sẽ coi các nhiệm vụ được dự đoán chưa từng có là phủ định sai.
Ngoài ra, khung DiffSeg cũng nhấn mạnh vào ba công việc sau để thực hiện can thiệp: Phụ thuộc ngôn ngữ hoặc LD, Thích ứng không giám sát hoặc UA và Hình ảnh phụ trợ hoặc AX. Phụ thuộc ngôn ngữ có nghĩa là phương thức cần đầu vào văn bản mô tả để tạo điều kiện phân đoạn hình ảnh, Thích ứng không giám sát đề cập đến yêu cầu đối với phương pháp sử dụng đào tạo không giám sát trên tập dữ liệu đích trong khi Hình ảnh phụ trợ đề cập rằng phương pháp cần đầu vào bổ sung dưới dạng hình ảnh tổng hợp, hoặc như một tập hợp các hình ảnh tham khảo.
Kết quả
Trên điểm chuẩn COCO, khung DiffSeg bao gồm hai đường cơ sở k-means là K-Means-S và K-Means-C. Điểm chuẩn K-Means-C bao gồm 6 cụm được tính bằng cách lấy trung bình số lượng đối tượng trong hình ảnh mà nó đánh giá trong khi điểm chuẩn K-Means-S sử dụng số cụm cụ thể cho mỗi hình ảnh trên cơ sở số lượng đối tượng hiện diện sự thật cơ bản của hình ảnh và kết quả trên cả hai điểm chuẩn này được thể hiện trong hình ảnh sau đây.
Có thể thấy, đường cơ sở K-Means vượt trội hơn các phương pháp hiện có, do đó chứng tỏ lợi ích của việc sử dụng các tensor tự chú ý. Điều thú vị là điểm chuẩn K-Means-S vượt trội hơn điểm chuẩn K-Means-C cho biết rằng số lượng cụm là một siêu tham số cơ bản và việc điều chỉnh nó là quan trọng đối với mọi hình ảnh. Hơn nữa, ngay cả khi dựa vào cùng một tensor chú ý, khung DiffSeg vẫn hoạt động tốt hơn đường cơ sở K-Means. Điều này chứng tỏ khả năng của khung DiffSeg không chỉ cung cấp khả năng phân đoạn tốt hơn mà còn tránh được những nhược điểm do sử dụng đường cơ sở K-Means.
Trên tập dữ liệu Cityscapes, khung DiffSeg mang lại kết quả tương tự như các khung sử dụng đầu vào có độ phân giải 320 thấp hơn trong khi hoạt động tốt hơn các khung có đầu vào có độ phân giải 512 cao hơn về độ chính xác và mIoU.
Như đã đề cập trước đó, khung DiffSeg sử dụng một số siêu tham số như minh họa trong hình ảnh sau.
Tập hợp chú ý là một trong những khái niệm cơ bản được sử dụng trong khung DiffSeg và tác động của việc sử dụng các trọng số tập hợp khác nhau được thể hiện trong hình ảnh sau đây với độ phân giải của hình ảnh không đổi.
Như có thể quan sát, các bản đồ có độ phân giải cao trong Hình (b) với bản đồ 64 x 64 mang lại hầu hết các phân đoạn chi tiết mặc dù các phân đoạn có một số vết đứt gãy có thể nhìn thấy được trong khi các bản đồ 32 x 32 có độ phân giải thấp hơn có xu hướng phân đoạn quá chi tiết mặc dù điều đó dẫn đến tăng cường phân đoạn mạch lạc. Trong Hình (d), bản đồ có độ phân giải thấp không tạo ra bất kỳ phân đoạn nào vì toàn bộ hình ảnh được hợp nhất thành một đối tượng đơn lẻ với cài đặt siêu tham số hiện có. Cuối cùng, Hình (a) sử dụng chiến lược tổng hợp theo tỷ lệ sẽ mang lại chi tiết nâng cao và tính nhất quán cân bằng.
.
Phân đoạn không giám sát không bắn XNUMX vẫn là một trong những trở ngại lớn nhất đối với khung thị giác máy tính và các mô hình hiện tại dựa vào khả năng thích ứng không giám sát không bắn XNUMX hoặc dựa vào các nguồn lực bên ngoài. Để vượt qua rào cản này, chúng tôi đã nói về cách các lớp tự chú ý trong các mô hình khuếch tán ổn định có thể cho phép xây dựng một mô hình có khả năng phân đoạn bất kỳ đầu vào nào trong cài đặt không chụp mà không có chú thích thích hợp vì các lớp tự chú ý này chứa các khái niệm vốn có về đối tượng mà mô hình khuếch tán ổn định được đào tạo trước học. Chúng tôi cũng đã nói về DiffSeg, một chiến lược xử lý hậu kỳ mới, nhằm mục đích khai thác tiềm năng của khung Khuếch tán ổn định để xây dựng một mô hình phân đoạn chung có thể thực hiện chuyển giao không ảnh trên bất kỳ hình ảnh nào. Thuật toán dựa vào Tương tự giữa các sự chú ý và Tương tự trong sự chú ý để hợp nhất lặp đi lặp lại các bản đồ chú ý vào các mặt nạ phân đoạn hợp lệ nhằm đạt được hiệu suất hiện đại trên các điểm chuẩn phổ biến.