Trí tuệ nhân tạo

Các Transformer Tầm nhìn Vượt qua Thử thách với Phương pháp ‘Chú ý Cluster đến Patch’ Mới

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

Các công nghệ trí tuệ nhân tạo (AI), đặc biệt là Các Transformer Tầm nhìn (ViTs), đã thể hiện tiềm năng lớn trong khả năng xác định và phân loại đối tượng trong hình ảnh. Tuy nhiên, ứng dụng thực tế của chúng đã bị hạn chế bởi hai thử thách lớn: yêu cầu năng lực tính toán cao và thiếu minh bạch trong quá trình ra quyết định. Bây giờ, một nhóm nghiên cứu đã phát triển một giải pháp đột phá: một phương pháp mới gọi là “Chú ý Cluster đến Patch” (PaCa). PaCa nhằm mục đích nâng cao khả năng của ViTs trong việc xác định, phân loại và phân đoạn đối tượng hình ảnh, đồng thời giải quyết các vấn đề lâu dài về yêu cầu tính toán và minh bạch quyết định.

Địa chỉ Thử thách của ViTs: Một cái nhìn về Giải pháp Mới

Các Transformer, nhờ khả năng vượt trội, là một trong những mô hình có ảnh hưởng nhất trong thế giới AI. Sức mạnh của những mô hình này đã được mở rộng đến dữ liệu hình ảnh thông qua ViTs, một lớp transformer được đào tạo với đầu vào hình ảnh. Mặc dù tiềm năng lớn được cung cấp bởi ViTs trong việc giải thích và hiểu hình ảnh, chúng đã bị kìm hãm bởi một số vấn đề chính.

Trước hết, do bản chất của hình ảnh chứa một lượng lớn dữ liệu, ViTs yêu cầu năng lực tính toán và bộ nhớ đáng kể. Sự phức tạp này có thể áp đảo đối với nhiều hệ thống, đặc biệt là khi xử lý hình ảnh độ phân giải cao. Thứ hai, quá trình ra quyết định trong ViTs thường bị rối và không rõ ràng. Người dùng gặp khó khăn trong việc hiểu làm thế nào ViTs phân biệt giữa các đối tượng hoặc tính năng khác nhau trong hình ảnh, điều này rất quan trọng đối với nhiều ứng dụng.

Tuy nhiên, phương pháp PaCa sáng tạo cung cấp một giải pháp cho cả hai thử thách này. “Chúng tôi giải quyết thử thách liên quan đến yêu cầu tính toán và bộ nhớ bằng cách sử dụng các kỹ thuật phân cụm, cho phép kiến trúc transformer xác định và tập trung vào các đối tượng trong hình ảnh một cách tốt hơn,” giải thích Tianfu Wu, tác giả tương ứng của một bài báo về công việc và là Giáo sư phụ tá về Kỹ thuật Điện và Máy tính tại Đại học North Carolina.

Sử dụng các kỹ thuật phân cụm trong PaCa giảm đáng kể yêu cầu tính toán, biến quá trình từ một quá trình bậc hai thành một quá trình tuyến tính có thể quản lý. Wu giải thích thêm quá trình, “Bằng cách phân cụm, chúng tôi có thể biến quá trình này thành một quá trình tuyến tính, nơi mỗi đơn vị nhỏ hơn chỉ cần so sánh với một số cụm đã xác định trước.”

Phân cụm cũng phục vụ để làm rõ quá trình ra quyết định trong ViTs. Quá trình tạo cụm cho thấy làm thế nào ViT quyết định những tính năng nào quan trọng trong việc nhóm các phần của dữ liệu hình ảnh lại với nhau. Vì AI chỉ tạo ra một số lượng cụm hạn chế, người dùng có thể dễ dàng hiểu và kiểm tra quá trình ra quyết định, cải thiện đáng kể khả năng giải thích của mô hình.

Phương pháp PaCa Vượt qua Các ViTs Hiện đại khác

Thông qua thử nghiệm toàn diện, các nhà nghiên cứu đã tìm thấy rằng phương pháp PaCa vượt qua các ViTs khác trên nhiều mặt. Wu giải thích, “Chúng tôi đã tìm thấy rằng PaCa vượt qua SWin và PVT trên mọi mặt.” Quá trình thử nghiệm cho thấy PaCa excelled trong việc phân loại và xác định đối tượng trong hình ảnh và phân đoạn, hiệu quả phác thảo ranh giới của các đối tượng trong hình ảnh. Hơn nữa, nó được tìm thấy là hiệu quả hơn về thời gian, thực hiện các nhiệm vụ nhanh hơn so với các ViTs khác.

Khuyến khích bởi sự thành công của PaCa, nhóm nghiên cứu nhằm mục đích phát triển thêm nó bằng cách đào tạo nó trên các tập dữ liệu cơ bản lớn hơn. Bằng cách làm như vậy, họ hy vọng sẽ đẩy ranh giới của những gì hiện có thể thực hiện được với AI dựa trên hình ảnh.

Bài báo nghiên cứu, “PaCa-ViT: Học Chú ý Cluster đến Patch trong Các Transformer Tầm nhìn“, sẽ được trình bày tại Hội nghị IEEE/CVF về Nhận dạng Tầm nhìn và Mô hình sắp tới. Đây là một cột mốc quan trọng có thể mở đường cho các hệ thống AI hiệu quả, minh bạch và dễ tiếp cận hơn.