Trí tuệ nhân tạo

TinySAM : Đẩy ranh giới cho Mô hình Phân đoạn Bất kỳ

Published February 8, 2024

Updated April 4, 2026

Kunal Kejriwal

TinySAM : Pushing the Boundaries for Segment Anything Model

Phân đoạn đối tượng là một lĩnh vực cơ bản và quan trọng trong tầm nhìn máy tính hiện đại. Nó đóng vai trò quan trọng trong các ứng dụng yêu cầu thành phần hình ảnh rộng lớn, chẳng hạn như định vị và nhận dạng đối tượng, và đòi hỏi phân đoạn thời gian thực, nhanh chóng và chính xác. Sự quan trọng này đã khiến phân đoạn đối tượng trở thành một chủ đề nghiên cứu nóng, với nhiều công việc đáng kể trong các lĩnh vực như phân đoạn thể hiện, phân đoạn ngữ nghĩa và phân đoạn toàn diện.

Với sự tiến hóa của phân đoạn đối tượng, Mô hình Phân đoạn Bất kỳ (SAM) đã xuất hiện như một công cụ đáng chú ý, thể hiện khả năng phân đoạn vượt trội và nhanh chóng được áp dụng trong các ứng dụng tầm nhìn máy tính. Các khuôn khổ sử dụng kiến trúc SAM được đào tạo trước đã đạt được hiệu suất ấn tượng trong các nhiệm vụ tầm nhìn hạ nguồn. Tuy nhiên, mặc dù khả năng và độ chính xác cao trong các nhiệm vụ phân đoạn, kiến trúc phức tạp và nặng của SAM đòi hỏi sức mạnh tính toán đáng kể, cản trở việc triển khai nó trên các thiết bị có tài nguyên hạn chế.

Để giải quyết thách thức tính toán của SAM, các nhà nghiên cứu đã phát triển Tiny Segment Anything Model (TinySAM), giữ lại hiệu suất không chụp của khuôn khổ ban đầu trong khi trở nên nhẹ hơn. TinySAM sử dụng phương pháp chiết xuất kiến thức toàn giai đoạn với các lời nhắc khó trực tuyến để tạo ra một mô hình học viên hiệu quả hơn. Quantization sau đào tạo được điều chỉnh cho các nhiệm vụ phân đoạn có thể nhắc thêm giảm nhu cầu tính toán. Ngoài ra, thiết kế của TinySAM nhằm vào phân đoạn phân cấp, gần như gấp đôi tốc độ suy luận mà không ảnh hưởng đến hiệu suất.

Bài viết này đi sâu vào khuôn khổ TinySAM, khám phá các nguyên tắc cơ bản, kiến trúc và hiệu suất của nó so với các khuôn khổ phân đoạn tiên tiến khác. Hãy cùng khám phá các khía cạnh này một cách chi tiết.

TinySAM : Mô hình Phân đoạn Bất kỳ Hiệu quả

Mô hình Phân đoạn Bất kỳ đã giúp cho sự tiến bộ nhanh chóng của nhiều ứng dụng tầm nhìn máy tính nhờ vào khả năng phân đoạn đáng chú ý của nó, cùng với một tập dữ liệu phân đoạn khổng lồ chứa hơn 11 triệu hình ảnh và hơn một tỷ mặt nạ hình ảnh. Nhờ vào hiệu suất vượt trội của nó trên các nhiệm vụ phân đoạn đối tượng với các danh mục và hình dạng tùy ý, nó phục vụ như nền tảng cho các khuôn khổ thực hiện các nhiệm vụ hạ nguồn như điền hình ảnh, theo dõi đối tượng, tầm nhìn 3D và nhiều hơn nữa. Hơn nữa, Mô hình Phân đoạn Bất kỳ cũng cung cấp hiệu suất phân đoạn không chụp đáng chú ý đã được lợi ích trong các ngành công nghiệp nhạy cảm làm việc với lượng dữ liệu hạn chế, bao gồm nghiên cứu y tế và hình ảnh y tế.

Mặc dù không thể đặt câu hỏi về khả năng phân đoạn đáng chú ý của Mô hình Phân đoạn Bất kỳ trên một loạt các nhiệm vụ tầm nhìn hạ nguồn, nó có nhược điểm về kiến trúc phức tạp, nhu cầu tính toán cao và chi phí hoạt động đáng kể. Đối với một hệ thống chạy trên GPU hiện đại, thời gian suy luận của mô hình SAM có thể lên đến 2 giây cho hình ảnh 1024×1024. Do đó, việc triển khai các ứng dụng SAM trên các thiết bị có khả năng tính toán hạn chế là một nhiệm vụ rất khó khăn. Để vượt qua chướng ngại vật này, các công việc gần đây như MobileSAM và FastSAM đã cố gắng phát triển một mô hình SAM có hiệu quả tính toán hơn. Khuôn khổ MobileSAM cố gắng thay thế thành phần nặng trong mã hóa hình ảnh bằng kiến trúc của khuôn khổ TinyViT, trong khi mô hình FastSAM chuyển nhiệm vụ phân đoạn thành nhiệm vụ phân đoạn thể hiện với chỉ một danh mục với mô hình YoloV8. Mặc dù những phương pháp này đã đạt được một số mức độ thành công trong việc giảm nhu cầu tính toán, chúng không thể duy trì hiệu suất, đặc biệt là trên các nhiệm vụ không chụp hạ nguồn.

TinySAM hoặc Tiny Mô hình Phân đoạn Bất kỳ là một nỗ lực để giảm nhu cầu tính toán của mô hình SAM hiện tại mà không ảnh hưởng đến hiệu suất trên các nhiệm vụ không chụp hạ nguồn. Hơn nữa, khuôn khổ TinySAM đề xuất thực hiện một phương pháp chiết xuất kiến thức toàn giai đoạn trong kiến trúc của nó với mục đích cải thiện khả năng của mạng học viên compact. Khuôn khổ TinySAM chiết xuất mạng học viên một cách toàn diện dưới sự giám sát của mạng giáo viên từ các giai đoạn khác nhau. Để tăng cường hiệu suất hơn nữa, khuôn khổ cho phép quá trình chiết xuất chú ý nhiều hơn đến các ví dụ khó bằng cách thực hiện một chiến lược lấy mẫu lời nhắc khó trực tuyến bổ sung. Hơn nữa, để giảm thêm nhu cầu tính toán, khuôn khổ TinySAM暴露 các nhiệm vụ phân đoạn có thể nhắc cho các thành phần quantization sau đào tạo.

Phần lớn nhu cầu tính toán của Mô hình Phân đoạn Bất kỳ là do mô hình tạo ra các mặt nạ khổng lồ từ các điểm nhắc để phân đoạn mọi thứ trong hình ảnh. Để vượt qua nhu cầu tính toán của chiến lược phân đoạn này, khuôn khổ TinySAM sử dụng một chiến lược phân đoạn phân cấp, gần như gấp đôi tốc độ suy luận mà không ảnh hưởng đến hiệu suất. Với những phương pháp này được sử dụng trong kiến trúc của nó, khuôn khổ TinySAM cung cấp sự giảm đáng kể nhu cầu tính toán và thiết lập các giới hạn mới cho các nhiệm vụ phân đoạn bất kỳ hiệu quả.

TinySAM : Kiến trúc và Phương pháp

Trước khi chúng ta nói về kiến trúc và phương pháp của khuôn khổ TinySAM, điều quan trọng là phải xem xét trước tiên về người tiền nhiệm của nó, khuôn khổ SAM. Kể từ khi được giới thiệu, Mô hình Phân đoạn Bất kỳ đã thể hiện hiệu suất đáng chú ý, tính linh hoạt và khả năng tổng quát hóa trên một loạt các nhiệm vụ tầm nhìn và phân đoạn đối tượng.

Ở cốt lõi, mô hình SAM bao gồm ba mạng con: mạng mã hóa lời nhắc, mạng mã hóa hình ảnh và mạng giải mã mặt nạ. Mục tiêu chính của mạng mã hóa lời nhắc là mã hóa các mặt nạ có hình dạng tùy ý, điểm và hộp nhập và văn bản tự do với thông tin vị trí. Mạng mã hóa hình ảnh là một mạng nặng dựa trên Vision Transformer (ViT) mà trích xuất hình ảnh nhập vào thành các bản nhúng. Mô hình sử dụng các mạng khác nhau để xử lý các lời nhắc hình học và văn bản. Cuối cùng, mạng giải mã mặt nạ chứa một bộ chuyển đổi hai chiều nhận đầu ra của mạng mã hóa lời nhắc và mạng mã hóa hình ảnh để tạo ra dự đoán mặt nạ cuối cùng. Với tập dữ liệu, khuôn khổ SAM thể hiện khả năng phân đoạn chất lượng cao cho các đối tượng bất kể hình dạng và danh mục của chúng. Hơn nữa, Mô hình Phân đoạn Bất kỳ cũng thể hiện hiệu suất đáng chú ý và hiệu quả trên các nhiệm vụ không chụp hạ nguồn, bao gồm đề xuất đối tượng, phát hiện cạnh, dự đoán mặt nạ từ văn bản và phân đoạn thể hiện. Nhờ vào khả năng phân đoạn chất lượng cao và lời nhắc linh hoạt, các khuôn khổ SAM hình thành nền tảng cho các ứng dụng tầm nhìn. Với điều đó được nói, không thể bỏ qua nhu cầu tính toán cao của kiến trúc SAM truyền thống với số lượng tham số lớn, khiến nó gần như không thể cho các nhà phát triển triển khai các ứng dụng dựa trên SAM trên các thiết bị có tài nguyên hạn chế.

Chiết xuất Kiến thức

Chiết xuất kiến thức là một phương pháp quan trọng để tăng cường hiệu suất của các mạng compact trong quá trình đào tạo. Phương pháp chiết xuất kiến thức sử dụng đầu ra của mạng giáo viên để giám sát quá trình đào tạo của mạng học viên nhẹ. Phương pháp chiết xuất kiến thức có thể được chia thành hai loại: chiết xuất cho các tính năng trung gian và chiết xuất cho đầu ra mạng, với đa số công việc nghiên cứu về chiết xuất kiến thức tập trung vào các nhiệm vụ phân loại hình ảnh.

Với điều đó được nói, hình sau minh họa kiến trúc chung của khuôn khổ TinySAM cùng với tổng quan hiệu suất trên các nhiệm vụ phân đoạn thể hiện không chụp.

Trong giai đoạn đầu, khuôn khổ TinySAM thực hiện chiết xuất kiến thức được thiết kế đặc biệt cho khuôn khổ SAM, và để kích hoạt quá trình chiết xuất thêm, mô hình sử dụng một chiến lược lấy mẫu lời nhắc khó trực tuyến để khai thác kiến thức khó từ mạng giáo viên đến mạng học viên. Trong giai đoạn thứ hai, khuôn khổ TinySAM điều chỉnh phương pháp quantization sau đào tạo cho các nhiệm vụ phân đoạn có thể nhắc và thực hiện nó trên mạng học viên nhẹ. Cuối cùng, mô hình thực hiện chế độ suy luận phân cấp mọi thứ được thiết kế cho các nhiệm vụ phân đoạn, gần như gấp đôi tốc độ suy luận mà không ảnh hưởng đến hiệu suất.

Chiết xuất Kiến thức Toàn giai đoạn

Như đã đề cập trước đó, Mô hình Phân đoạn Bất kỳ bao gồm ba mạng con tại cốt lõi: mạng mã hóa lời nhắc, mạng mã hóa hình ảnh và mạng giải mã mặt nạ, với thành phần mạng mã hóa hình ảnh được xây dựng trên Vision Transformer và có nhu cầu tính toán cao. Để giải quyết vấn đề này, khuôn khổ MobileSAM đã thay thế Vision Transformer bằng TinyViT hoặc Tiny Vision Transformer, mặc dù sự thay thế này không hiệu quả do sự suy giảm hiệu suất đáng kể. Để đảm bảo không có sự suy giảm hiệu suất, khuôn khổ TinySAM thực hiện một phương pháp chiết xuất kiến thức toàn giai đoạn giúp hướng dẫn mạng mã hóa hình ảnh nhẹ từ cấp độ học tập đến cấp độ kiến thức đa dạng. Ngoài sự mất mát thông thường giữa các nhãn đất và kết quả dự đoán, khuôn khổ TinySAM giới thiệu nhiều mất mát chiết xuất trong các giai đoạn khác nhau như minh họa trong hình sau.

Quantization

Quantization mô hình là một phương pháp phổ biến trong các khuôn khổ tầm nhìn máy tính, và được sử dụng để nén mô hình bằng cách quantize trọng số hoặc hoạt động từ băng thông cao hơn sang thấp hơn trong một nỗ lực để giảm phức tạp tính toán và yêu cầu lưu trữ mà không ảnh hưởng đáng kể đến chất lượng đầu ra.

Mục tiêu chính của quantization trong TinySAM là chiếu tensor điểm nổi lên tensor số nguyên bit sử dụng một yếu tố tỷ lệ với metric đo lường khoảng cách giữa nhân ma trận và ma trận quantized đóng vai trò quan trọng trong việc tối ưu hóa yếu tố tỷ lệ.

Phân đoạn Phân cấp Mọi thứ

Mô hình Phân đoạn Bất kỳ đề xuất sử dụng một trình tạo mặt nạ tự động mẫu các điểm như một lưới để phân đoạn mọi thứ trong hình ảnh. Tuy nhiên, nó đã được chỉ ra rằng việc sử dụng lưới điểm dày đặc dẫn đến đầu ra phân đoạn quá mịn và quá trình này đòi hỏi nhu cầu tính toán và chi phí hoạt động cao. Hơn nữa, ở một bên, quá nhiều điểm mẫu cho một đối tượng hoàn chỉnh có thể dẫn đến các phần khác nhau của đối tượng được phân đoạn không chính xác như các mặt nạ riêng biệt, trong khi ở bên kia, chi phí thời gian của chế độ suy luận mọi thứ chủ yếu là do mạng mã hóa hình ảnh đã bị thu nhỏ đáng kể. Để giảm chi phí hoạt động của chế độ mọi thứ, khuôn khổ TinySAM sử dụng một phương pháp tạo mặt nạ phân cấp, với sự khác biệt trong chiến lược với khuôn khổ SAM ban đầu được minh họa trong hình sau.

Khác với phương pháp được thực hiện trong khuôn khổ SAM ban đầu, mô hình TinySAM chỉ sử dụng 25% điểm trên mỗi bên, do đó sử dụng chỉ 1/16 điểm có sẵn trong thiết lập ban đầu. Mô hình sau đó suy luận mạng giải mã mặt nạ và mạng mã hóa lời nhắc với các lời nhắc này và nhận đầu ra. Mô hình sau đó lọc một số mặt nạ với độ tin cậy vượt quá một ngưỡng nhất định và mặt nạ các vị trí tương ứng như các khu vực cho dự đoán cuối cùng tiềm năng. Vì mô hình coi các khu vực này là kết quả phân đoạn của các thể hiện với độ tin cậy cao, nó không cần tạo lời nhắc điểm. Chiến lược này không chỉ giúp ngăn chặn phân đoạn quá mịn của đối tượng mà nó cũng giúp giảm chi phí hoạt động và nhu cầu tính toán đáng kể. Khuôn khổ sau đó hợp nhất và xử lý sau các kết quả của hai vòng để nhận được mặt nạ cuối cùng.

TinySAM : Thử nghiệm và Kết quả

Để tăng tốc quá trình chiết xuất, khuôn khổ TinySAM tính toán và lưu trữ các bản nhúng hình ảnh từ mạng giáo viên trước, do đó mô hình không cần tính toán mạng mã hóa hình ảnh nặng của mạng giáo viên một cách lặp đi lặp lại trong giai đoạn đào tạo. Đối với quantization sau đào tạo, khuôn khổ TinySAM quantize tất cả các lớp nhân ma trận, các lớp convolution, các lớp deconvolution và các lớp tuyến tính, với mô hình sử dụng các yếu tố tỷ lệ kênh cho cả convolution và deconvolution. Đối với các lớp nhân ma trận, mô hình thực hiện các yếu tố tỷ lệ đầu, trong khi đối với các lớp tuyến tính, mô hình thực hiện các yếu tố tỷ lệ tuyến tính. Mô hình cũng tiến hành đánh giá trên các nhiệm vụ không chụp hạ nguồn.

Đối với các nhiệm vụ phân đoạn thể hiện trong một thiết lập không chụp, khuôn khổ TinySAM theo các thiết lập thử nghiệm của người tiền nhiệm của nó, Mô hình Phân đoạn Bất kỳ, và sử dụng kết quả phát hiện đối tượng của khuôn khổ Vision Transformer Det-H hoặc VitDet-H cho phân đoạn thể hiện. Như minh họa trong hình sau, khuôn khổ TinySAM vượt trội so với các phương pháp hiện có về độ chính xác phân đoạn thể hiện và điểm FLOPs.

Hơn nữa, hiệu suất định lượng của mô hình TinySAM được minh họa trong hình sau cho phân đoạn thể hiện không chụp với hộp xanh đại diện cho lời nhắc hộp.

Về đánh giá mặt nạ hợp lệ không chụp, mô hình TinySAM vượt trội so với khuôn khổ MobileSAM đáng kể trên các tập dữ liệu khác nhau và cung cấp kết quả tốt hơn đáng kể khi số điểm ít hơn được sử dụng làm lời nhắc bởi khuôn khổ.

Hơn nữa, bảng sau tóm tắt kết quả của việc tăng tốc và giảm nhu cầu tính toán đạt được như một kết quả của chiến lược mọi thứ phân cấp. Mô hình áp dụng cùng điểm ổn định và giá trị ngưỡng với các chiến lược khác nhau cho một so sánh công bằng, và kết quả được tóm tắt dưới đây.

Suy nghĩ Cuối cùng

Trong bài viết này, chúng ta đã nói về TinySAM, một khuôn khổ được đề xuất đẩy ranh giới cho phân đoạn bất kỳ nhiệm vụ và nhận được một kiến trúc mô hình hiệu quả với ít nhu cầu tính toán và độ chính xác tương đương với khuôn khổ SAM ban đầu. TinySAM hoặc Tiny Mô hình Phân đoạn Bất kỳ giữ lại hiệu suất không chụp của khuôn khổ ban đầu. Khuôn khổ TinySAM đầu tiên thực hiện một phương pháp chiết xuất kiến thức toàn giai đoạn sử dụng lời nhắc khó trực tuyến để chiết xuất một mô hình học viên nhẹ. Sau đó, khuôn khổ TinySAM điều chỉnh quantization sau đào tạo cho các nhiệm vụ phân đoạn có thể nhắc, giúp giảm nhu cầu tính toán. Hơn nữa, khuôn khổ cũng nhằm vào phân đoạn mọi thứ phân cấp, gần như gấp đôi tốc độ suy luận mà không ảnh hưởng đến hiệu suất.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.