Trí tuệ nhân tạo

Mô hình Segment Anything – Nhận thức máy tính nhận được sự thúc đẩy lớn

Published May 5, 2023

Updated April 5, 2026

Haziqa Sajid

An up close image of a male face with face detection pointers.

Nhận thức máy tính (CV) đã đạt được độ chính xác 99% từ 50% trong 10 năm. Công nghệ này dự kiến sẽ cải thiện thêm để đạt được mức độ chưa từng có với các thuật toán hiện đại và kỹ thuật phân đoạn hình ảnh. Gần đây, phòng thí nghiệm FAIR của Meta đã phát hành Mô hình Segment Anything (SAM) – một bước ngoặt trong phân đoạn hình ảnh. Mô hình tiên tiến này có thể tạo ra các mặt nạ đối tượng chi tiết từ các lời nhắc đầu vào, đưa nhận thức máy tính lên tầm cao mới. Nó có thể cách mạng hóa cách chúng ta tương tác với công nghệ kỹ thuật số trong thời đại này.

Hãy cùng khám phá phân đoạn hình ảnh và tìm hiểu ngắn gọn về cách SAM ảnh hưởng đến nhận thức máy tính.

Phân đoạn hình ảnh là gì & Các loại phân đoạn hình ảnh?

Phân đoạn hình ảnh là một quá trình trong nhận thức máy tính mà chia một hình ảnh thành nhiều vùng hoặc phân đoạn, mỗi vùng đại diện cho một đối tượng hoặc khu vực khác nhau của hình ảnh. Cách tiếp cận này cho phép các chuyên gia cách ly các phần cụ thể của hình ảnh để thu được thông tin có ý nghĩa.

Các mô hình phân đoạn hình ảnh được đào tạo để cải thiện đầu ra bằng cách nhận ra các chi tiết hình ảnh quan trọng và giảm độ phức tạp. Các thuật toán này hiệu quả phân biệt giữa các vùng khác nhau của hình ảnh dựa trên các tính năng như màu sắc, kết cấu, độ tương phản, bóng và cạnh.

Bằng cách phân đoạn hình ảnh, chúng ta có thể tập trung phân tích vào các vùng quan tâm để thu được thông tin chi tiết. Dưới đây là các kỹ thuật phân đoạn hình ảnh khác nhau.

Phân đoạn ngữ nghĩa liên quan đến việc gán nhãn pixel vào các lớp ngữ nghĩa.
Phân đoạn thể hiện đi xa hơn bằng cách phát hiện và xác định ranh giới của từng đối tượng trong hình ảnh.
Phân đoạn toàn diện gán mã thể hiện duy nhất cho từng pixel đối tượng, dẫn đến việc gán nhãn toàn diện và ngữ cảnh hơn cho tất cả các đối tượng trong hình ảnh.

Phân đoạn được thực hiện bằng cách sử dụng các mô hình học sâu dựa trên hình ảnh. Các mô hình này thu thập tất cả các điểm dữ liệu và tính năng có giá trị từ tập dữ liệu đào tạo. Sau đó, chuyển đổi dữ liệu này thành vector và ma trận để hiểu các tính năng phức tạp. Một số mô hình học sâu được sử dụng rộng rãi cho phân đoạn hình ảnh là:

Mạng nơ-ron tích chập (CNNs)
Mạng nơ-ron kết nối đầy đủ (FCNs)
Mạng nơ-ron hồi quy (RNNs)

Phân đoạn hình ảnh hoạt động như thế nào?

Trong nhận thức máy tính, hầu hết các mô hình phân đoạn hình ảnh bao gồm mạng mã hóa-giải mã. Mã hóa mã hóa một biểu diễn không gian ẩn của dữ liệu đầu vào mà giải mã giải mã để tạo thành bản đồ phân đoạn, hoặc nói cách khác, bản đồ xác định vị trí của từng đối tượng trong hình ảnh.

Thông thường, quá trình phân đoạn bao gồm 3 giai đoạn:

Một bộ mã hóa hình ảnh chuyển đổi hình ảnh đầu vào thành một mô hình toán học (vector và ma trận) để xử lý.
Bộ mã hóa tổng hợp vector ở nhiều cấp độ.
Một bộ giải mã mặt nạ nhanh lấy các bản nhúng hình ảnh làm đầu vào và tạo ra một mặt nạ xác định các đối tượng khác nhau trong hình ảnh một cách riêng biệt.

Tình hình phân đoạn hình ảnh

Bắt đầu từ năm 2014, một làn sóng các thuật toán phân đoạn dựa trên học sâu đã xuất hiện, chẳng hạn như CNN+CRF và FCN, đã đạt được tiến bộ đáng kể trong lĩnh vực này. Năm 2015 chứng kiến sự ra đời của U-Net và Mạng giải mã, cải thiện độ chính xác của kết quả phân đoạn.

Sau đó, vào năm 2016, Phân đoạn nhận thức thể hiện, V-Net và RefineNet đã cải thiện thêm độ chính xác và tốc độ phân đoạn. Đến năm 2017, Mark-RCNN và FC-DenseNet đã giới thiệu phát hiện đối tượng và dự đoán dày cho các nhiệm vụ phân đoạn.

Năm 2018, Phân đoạn toàn diện, Mask-Lab và Mạng mã hóa ngữ cảnh đã trở thành trung tâm của sân khấu khi các phương pháp này giải quyết nhu cầu phân đoạn cấp thể hiện. Đến năm 2019, Panoptic FPN, HRNet và Chú ý Criss-Cross đã giới thiệu các phương pháp mới cho phân đoạn cấp thể hiện.

Năm 2020, xu hướng này tiếp tục với việc giới thiệu Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS và Efficient Net + NAS-FPN. Cuối cùng, vào năm 2023, chúng ta có SAM, mà chúng ta sẽ thảo luận tiếp theo.

Mô hình Segment Anything (SAM) – Phân đoạn hình ảnh mục đích chung

Một hình minh họa về kiến trúc mô hình Segment Anything

Nguồn hình ảnh

Mô hình Segment Anything (SAM) là một phương pháp mới có thể thực hiện các nhiệm vụ phân đoạn tương tác và tự động trong một mô hình duy nhất. Trước đây, phân đoạn tương tác cho phép phân đoạn bất kỳ lớp đối tượng nào nhưng yêu cầu một người hướng dẫn phương pháp bằng cách tinh chỉnh mặt nạ lặp lại.

Phân đoạn tự động trong SAM cho phép phân đoạn các danh mục đối tượng cụ thể được định nghĩa trước. Giao diện có thể quảng bá của nó làm cho nó rất linh hoạt. Kết quả là, SAM có thể giải quyết một loạt các nhiệm vụ phân đoạn bằng cách sử dụng một lời nhắc phù hợp, chẳng hạn như nhấp chuột, hộp, văn bản và nhiều hơn nữa.

SAM được đào tạo trên một tập dữ liệu đa dạng và sâu sắc với hơn 1 tỷ mặt nạ, làm cho nó có thể nhận ra các đối tượng và hình ảnh mới không có trong tập dữ liệu đào tạo. Khung khổ hiện đại này sẽ cách mạng hóa các mô hình CV trong các ứng dụng như ô tô tự lái, bảo mật và thực tế ảo.

SAM có thể phát hiện và phân đoạn các đối tượng xung quanh xe trong ô tô tự lái, chẳng hạn như các phương tiện khác, người đi bộ và biển báo giao thông. Trong thực tế ảo, SAM có thể phân đoạn môi trường thế giới thực để đặt các đối tượng ảo vào các vị trí phù hợp, tạo ra một trải nghiệm người dùng thực tế và hấp dẫn hơn.

Thử thách phân đoạn hình ảnh vào năm 2023

Nghiên cứu và phát triển ngày càng tăng trong phân đoạn hình ảnh cũng mang lại những thách thức đáng kể. Một số thách thức phân đoạn hình ảnh hàng đầu vào năm 2023 bao gồm:

Sự phức tạp ngày càng tăng của các tập dữ liệu, đặc biệt là đối với phân đoạn hình ảnh 3D
Phát triển các mô hình sâu có thể giải thích
Sử dụng các mô hình học không giám sát để giảm thiểu can thiệp của con người
Cần có các mô hình thời gian thực và hiệu quả về bộ nhớ
Loại bỏ các nút thắt của phân đoạn điểm đám mây 3D

Tương lai của Nhận thức máy tính

Thị trường nhận thức máy tính toàn cầu ảnh hưởng đến nhiều ngành công nghiệp và dự kiến sẽ đạt hơn $41 tỷ vào năm 2030. Các kỹ thuật phân đoạn hình ảnh hiện đại như Mô hình Segment Anything kết hợp với các thuật toán học sâu khác sẽ làm cho nền tảng của nhận thức máy tính trong cảnh quan kỹ thuật số trở nên mạnh mẽ hơn. Do đó, chúng ta sẽ thấy nhiều mô hình nhận thức máy tính mạnh mẽ hơn và các ứng dụng thông minh hơn trong tương lai.

Để tìm hiểu thêm về AI và ML, hãy khám phá Unite.ai – giải pháp một điểm dừng cho tất cả các truy vấn về công nghệ và trạng thái hiện đại của nó.