Kết nối với chúng tôi

AnomalyGPT: Phát hiện các điểm bất thường trong công nghiệp bằng LVLM

Trí tuệ nhân tạo

AnomalyGPT: Phát hiện các điểm bất thường trong công nghiệp bằng LVLM

mm

Gần đây, các Mô hình ngôn ngữ tầm nhìn lớn (LVLM) như LLava và MiniGPT-4 đã chứng tỏ khả năng hiểu hình ảnh và đạt được độ chính xác, hiệu quả cao trong một số tác vụ trực quan. Mặc dù LVLM vượt trội trong việc nhận dạng các đối tượng thông thường nhờ bộ dữ liệu đào tạo mở rộng, nhưng chúng thiếu kiến ​​thức về miền cụ thể và hiểu biết hạn chế về các chi tiết cục bộ trong hình ảnh. Điều này hạn chế tính hiệu quả của chúng trong các nhiệm vụ Phát hiện bất thường công nghiệp (IAD). Mặt khác, các khung IAD hiện tại chỉ có thể xác định nguồn của các điểm bất thường và yêu cầu cài đặt ngưỡng thủ công để phân biệt giữa các mẫu bình thường và mẫu bất thường, do đó hạn chế việc triển khai chúng trên thực tế.

Mục đích chính của khung IAD là phát hiện và khoanh vùng những điểm bất thường trong các tình huống công nghiệp và hình ảnh sản phẩm. Tuy nhiên, do tính khó đoán và hiếm của các mẫu hình ảnh trong thế giới thực, các mô hình thường chỉ được đào tạo trên dữ liệu thông thường. Họ phân biệt các mẫu dị thường với các mẫu bình thường dựa trên độ lệch so với các mẫu điển hình. Hiện tại, các khung và mô hình IAD chủ yếu cung cấp điểm bất thường cho các mẫu thử nghiệm. Hơn nữa, việc phân biệt giữa các trường hợp bình thường và bất thường đối với từng loại mặt hàng đòi hỏi phải có thông số ngưỡng thủ công, khiến chúng không phù hợp với các ứng dụng trong thế giới thực.

Để khám phá việc sử dụng và triển khai Mô hình ngôn ngữ tầm nhìn lớn trong việc giải quyết các thách thức do khung IAD đặt ra, AnomalyGPT, một phương pháp tiếp cận IAD mới dựa trên LVLM, đã được giới thiệu. AnomalyGPT có thể phát hiện và khoanh vùng các điểm bất thường mà không cần cài đặt ngưỡng thủ công. Hơn nữa, AnomalyGPT cũng có thể cung cấp thông tin thích hợp về hình ảnh để tương tác với người dùng, cho phép họ đặt các câu hỏi tiếp theo dựa trên điểm bất thường hoặc nhu cầu cụ thể của họ.

Mô hình ngôn ngữ tầm nhìn lớn và phát hiện bất thường trong ngành

Các khung IAD hiện tại có thể được phân loại thành hai loại. 

  1. IAD dựa trên tái thiết. 
  2. Tính năng IAD dựa trên nhúng. 

Trong khung IAD dựa trên Tái thiết, mục đích chính là tái tạo các mẫu bất thường thành các mẫu đối chiếu thông thường tương ứng của chúng và phát hiện các điểm bất thường bằng cách tính toán lỗi tái tạo. SCADN, RIAD, AnoDDPM và InTra sử dụng các khung tái thiết khác nhau, từ Mạng đối thủ sáng tạo (GAN) và bộ mã hóa tự động, đến mô hình khuếch tán và máy biến áp. 

Mặt khác, trong khung IAD dựa trên tính năng nhúng, động cơ chính là tập trung vào việc mô hình hóa việc nhúng tính năng của dữ liệu thông thường. Các phương pháp như PatchSSVD cố gắng tìm một siêu cầu có thể đóng gói chặt các mẫu bình thường, trong khi các khung như PyramidFlow và Cfl chiếu các mẫu bình thường lên phân phối Gaussian bằng cách sử dụng các luồng chuẩn hóa. Các khung CFA và PatchCore đã thiết lập một ngân hàng bộ nhớ gồm các mẫu thông thường từ các bản nhúng bản vá và sử dụng khoảng cách giữa các mẫu thử nghiệm nhúng bản nhúng thông thường để phát hiện các điểm bất thường. 

Cả hai phương pháp này đều tuân theo “mô hình một lớp một”, một mô hình học tập yêu cầu một lượng lớn mẫu bình thường để tìm hiểu sự phân bố của từng lớp đối tượng. Yêu cầu về số lượng lớn mẫu thông thường khiến nó không thực tế đối với các loại đối tượng mới và với các ứng dụng hạn chế trong môi trường sản phẩm động. Mặt khác, khung AnomalyGPT sử dụng mô hình học tập trong ngữ cảnh cho các danh mục đối tượng, cho phép nó chỉ kích hoạt can thiệp với một số ít mẫu thông thường. 

Trong tương lai, chúng tôi có Mô hình ngôn ngữ tầm nhìn lớn hoặc LVLM. LLM hoặc Mô hình ngôn ngữ lớn đã đạt được thành công to lớn trong ngành NLP và hiện chúng đang được khám phá để ứng dụng vào các nhiệm vụ trực quan. Khung BLIP-2 tận dụng Q-former để nhập các tính năng trực quan từ Vision Transformer vào mô hình Flan-T5. Hơn nữa, Khung MiniGPT kết nối phân đoạn hình ảnh của khung BLIP-2 và mô hình Vicuna với một lớp tuyến tính và thực hiện quy trình tinh chỉnh hai giai đoạn bằng cách sử dụng dữ liệu văn bản hình ảnh. Những cách tiếp cận này chỉ ra rằng các khung LLM có thể có một số ứng dụng cho các tác vụ trực quan. Tuy nhiên, những mô hình này đã được đào tạo về dữ liệu chung và chúng thiếu chuyên môn về miền cụ thể cần thiết cho các ứng dụng rộng rãi. 

AnomalyGPT hoạt động như thế nào?

Cốt lõi của AnomalyGPT là mô hình ngôn ngữ tầm nhìn lớn IAD đàm thoại mới được thiết kế chủ yếu để phát hiện các điểm bất thường trong công nghiệp và xác định chính xác vị trí của chúng bằng hình ảnh. Khung AnomalyGPT sử dụng LLM và bộ mã hóa hình ảnh được đào tạo trước để căn chỉnh hình ảnh với mô tả văn bản tương ứng bằng cách sử dụng dữ liệu dị thường được kích thích. Mô hình này giới thiệu một mô-đun giải mã và một mô-đun học hỏi nhanh chóng để nâng cao hiệu suất của hệ thống IAD và đạt được đầu ra bản địa hóa ở cấp pixel. 

Kiến trúc mô hình

Hình ảnh trên mô tả kiến ​​trúc của AnomalyGPT. Đầu tiên, mô hình chuyển hình ảnh truy vấn tới bộ mã hóa hình ảnh cố định. Sau đó, mô hình sẽ trích xuất các tính năng ở cấp độ bản vá từ các lớp trung gian và cung cấp các tính năng này cho bộ giải mã hình ảnh để tính toán mức độ tương tự của chúng với các văn bản bất thường và bình thường nhằm thu được kết quả cho quá trình bản địa hóa. Sau đó, người học nhắc sẽ chuyển đổi chúng thành các phần nhúng lời nhắc phù hợp để sử dụng làm đầu vào cho LLM cùng với đầu vào văn bản của người dùng. Sau đó, mô hình LLM tận dụng tính năng nhúng nhanh chóng, đầu vào hình ảnh và đầu vào văn bản do người dùng cung cấp để phát hiện các điểm bất thường và xác định vị trí của chúng cũng như tạo phản hồi cuối cùng cho người dùng. 

decoder

Để đạt được khả năng bản địa hóa bất thường ở cấp độ pixel, mô hình AnomalyGPT triển khai bộ giải mã hình ảnh dựa trên tính năng phù hợp nhẹ hỗ trợ cả khung IAD ít ảnh và khung IAD không được giám sát. Thiết kế của bộ giải mã được sử dụng trong AnomalyGPT được lấy cảm hứng từ các khung WinCLIP, PatchCore và APRIL-GAN. Mô hình phân chia bộ mã hóa hình ảnh thành 4 giai đoạn và trích xuất các tính năng ở cấp độ bản vá trung gian theo từng giai đoạn. 

Tuy nhiên, các tính năng trung gian này chưa được căn chỉnh văn bản-hình ảnh cuối cùng, đó là lý do tại sao chúng không thể so sánh trực tiếp với các tính năng. Để giải quyết vấn đề này, mô hình AnomalyGPT giới thiệu các lớp bổ sung để chiếu các đặc điểm trung gian và căn chỉnh chúng với các đặc điểm văn bản thể hiện ngữ nghĩa bình thường và bất thường. 

Nhắc nhở người học

Khung AnomalyGPT giới thiệu một trình học nhanh chóng cố gắng chuyển đổi kết quả bản địa hóa thành các phần nhúng nhanh chóng để tận dụng ngữ nghĩa chi tiết từ hình ảnh, đồng thời duy trì tính nhất quán ngữ nghĩa giữa đầu ra bộ giải mã và LLM. Hơn nữa, mô hình này kết hợp các phần nhúng lời nhắc có thể học được, không liên quan đến đầu ra của bộ giải mã, vào trình học lời nhắc để cung cấp thông tin bổ sung cho nhiệm vụ IAD. Cuối cùng, mô hình cung cấp thông tin nhúng và hình ảnh gốc cho LLM. 

Trình học nhanh bao gồm các phần nhúng dấu nhắc cơ sở có thể học được và mạng lưới thần kinh tích chập. Mạng chuyển đổi kết quả bản địa hóa thành các phần nhúng nhanh chóng và tạo thành một tập hợp các phần nhúng nhanh chóng, sau đó được kết hợp với các phần nhúng hình ảnh vào LLM

Mô phỏng bất thường

Mô hình AnomalyGPT áp dụng phương pháp NSA để mô phỏng dữ liệu bất thường. Phương pháp NSA sử dụng kỹ thuật Cắt-dán bằng cách sử dụng phương pháp chỉnh sửa hình ảnh Poisson để giảm bớt sự gián đoạn do dán các phân đoạn hình ảnh. Cắt-dán là một kỹ thuật thường được sử dụng trong khung IAD để tạo ra các hình ảnh mô phỏng dị thường. 

Phương pháp Cắt-dán bao gồm việc cắt ngẫu nhiên một vùng khối từ một hình ảnh và dán nó vào một vị trí ngẫu nhiên trong một hình ảnh khác, do đó tạo ra một phần mô phỏng dị thường. Những mẫu dị thường mô phỏng này có thể nâng cao hiệu suất của các mô hình IAD, nhưng có một nhược điểm là chúng thường có thể tạo ra những điểm gián đoạn đáng chú ý. Phương pháp chỉnh sửa Poisson nhằm mục đích sao chép liền mạch một đối tượng từ hình ảnh này sang hình ảnh khác bằng cách giải các phương trình vi phân từng phần Poisson. 

Hình ảnh trên minh họa sự so sánh giữa chỉnh sửa ảnh Poisson và Cut-paste. Có thể thấy, có những điểm gián đoạn rõ ràng trong phương pháp cắt-dán, trong khi kết quả từ việc chỉnh sửa Poisson có vẻ tự nhiên hơn. 

Nội dung câu hỏi và trả lời

Để tiến hành điều chỉnh kịp thời trên Mô hình ngôn ngữ tầm nhìn lớn, mô hình AnomalyGPT sẽ tạo truy vấn văn bản tương ứng trên cơ sở hình ảnh bất thường. Mỗi truy vấn bao gồm hai thành phần chính. Phần đầu tiên của truy vấn bao gồm mô tả về hình ảnh đầu vào cung cấp thông tin về các đối tượng có trong hình ảnh cùng với các thuộc tính mong đợi của chúng. Phần thứ hai của truy vấn là phát hiện sự hiện diện của điểm bất thường trong đối tượng hoặc kiểm tra xem có điểm bất thường trong hình ảnh hay không. 

Trước tiên, LVLM trả lời câu hỏi liệu có điều gì bất thường trong hình ảnh không? Nếu mô hình phát hiện sự bất thường, nó sẽ tiếp tục xác định vị trí và số lượng khu vực bất thường. Mô hình chia hình ảnh thành một lưới 3×3 gồm các vùng riêng biệt để cho phép LVLM chỉ ra bằng lời nói vị trí của các điểm bất thường như trong hình bên dưới. 

Mô hình LVLM được cung cấp kiến ​​thức mô tả về đầu vào cùng với kiến ​​thức cơ bản về hình ảnh đầu vào giúp mô hình hiểu rõ hơn các thành phần hình ảnh. 

Bộ dữ liệu và số liệu đánh giá

Mô hình này tiến hành thử nghiệm chủ yếu trên bộ dữ liệu VisA và MVTec-AD. Bộ dữ liệu MVTech-AD bao gồm 3629 hình ảnh cho mục đích đào tạo và 1725 hình ảnh để thử nghiệm được chia thành 15 danh mục khác nhau, đó là lý do tại sao đây là một trong những bộ dữ liệu phổ biến nhất cho khung IAD. Hình ảnh huấn luyện chỉ có hình ảnh bình thường trong khi hình ảnh thử nghiệm có cả hình ảnh bình thường và hình ảnh bất thường. Mặt khác, bộ dữ liệu VisA bao gồm 9621 hình ảnh bình thường và gần 1200 hình ảnh dị thường được chia thành 12 loại khác nhau. 

Tương tự, giống như khung IAD hiện tại, mô hình AnomalyGPT sử dụng AUC hoặc Đặc điểm hoạt động của khu vực làm chỉ số đánh giá, với AUC ở cấp độ pixel và cấp độ hình ảnh được sử dụng để đánh giá hiệu suất bản địa hóa bất thường và phát hiện bất thường tương ứng. Tuy nhiên, mô hình cũng sử dụng độ chính xác ở cấp độ hình ảnh để đánh giá hiệu suất của phương pháp được đề xuất vì nó cho phép xác định sự hiện diện của các điểm bất thường mà không cần thiết lập ngưỡng theo cách thủ công. 

Kết quả

Kết quả định lượng

Phát hiện dị thường công nghiệp với ít lần bắn

Mô hình AnomalyGPT so sánh kết quả của nó với các khung IAD vài lần chụp trước đó, bao gồm PaDiM, SPADE, WinCLIP và PatchCore làm đường cơ sở. 

Hình trên so sánh kết quả của mô hình AnomalyGPT với các khung IAD ít lần bắn. Trên cả hai tập dữ liệu, phương pháp mà AnomalyGPT tuân theo vượt trội hơn các phương pháp được các mô hình trước đó áp dụng về mặt AUC ở cấp độ hình ảnh và cũng mang lại độ chính xác cao. 

Phát hiện bất thường công nghiệp không được giám sát

Trong môi trường đào tạo không giám sát với số lượng lớn mẫu thông thường, AnomalyGPT đào tạo một mô hình duy nhất trên các mẫu thu được từ tất cả các lớp trong tập dữ liệu. Các nhà phát triển của AnomalyGPT đã chọn khung UniAD vì nó được đào tạo theo cùng một thiết lập và sẽ đóng vai trò là cơ sở để so sánh. Hơn nữa, mô hình cũng so sánh với các khung JNLD và PaDim bằng cách sử dụng cùng một cài đặt thống nhất. 

Hình trên so sánh hiệu suất của AnomalyGPT khi so sánh với các framework khác. 

Kết quả định tính

Hình ảnh trên minh họa hiệu suất của mô hình AnomalyGPT trong phương pháp phát hiện bất thường không được giám sát trong khi hình bên dưới minh họa hiệu suất của mô hình trong quá trình học theo ngữ cảnh 1 lần. 

Mô hình AnomalyGPT có khả năng chỉ ra sự hiện diện của các điểm bất thường, đánh dấu vị trí của chúng và cung cấp kết quả bản địa hóa ở cấp độ pixel. Khi mô hình ở phương pháp học 1 lần trong ngữ cảnh, hiệu suất bản địa hóa của mô hình sẽ thấp hơn một chút so với phương pháp học không giám sát do không được đào tạo. 

Kết luận

AnomalyGPT là mô hình ngôn ngữ tầm nhìn IAD đàm thoại mới được thiết kế để tận dụng khả năng mạnh mẽ của các mô hình ngôn ngữ tầm nhìn lớn. Nó không chỉ có thể xác định những điểm bất thường trong hình ảnh mà còn xác định chính xác vị trí của chúng. Ngoài ra, AnomalyGPT còn tạo điều kiện cho các cuộc đối thoại nhiều lượt tập trung vào việc phát hiện điểm bất thường và thể hiện hiệu suất vượt trội trong việc học tập trong bối cảnh với một vài cảnh quay. AnomalyGPT đi sâu vào các ứng dụng tiềm năng của LVLM trong việc phát hiện sự bất thường, giới thiệu những ý tưởng và khả năng mới cho ngành IAD.

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.