Trí tuệ nhân tạo

Ra mắt SAM 2: Mô hình nền tảng mã nguồn mở mới của Meta cho phân đoạn đối tượng thời gian thực trong video và hình ảnh

Published August 1, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Trong những năm gần đây, thế giới AI đã chứng kiến những bước tiến đáng kể trong lĩnh vực AI nền tảng cho xử lý văn bản, với những tiến bộ đã biến đổi các ngành công nghiệp từ dịch vụ khách hàng đến phân tích pháp lý. Tuy nhiên, khi nói đến xử lý hình ảnh, chúng ta mới chỉ đang bắt đầu khám phá bề mặt. Sự phức tạp của dữ liệu hình ảnh và những thách thức trong việc đào tạo mô hình để giải thích và phân tích hình ảnh chính xác đã đặt ra những障 ngại đáng kể. Khi các nhà nghiên cứu tiếp tục khám phá AI nền tảng cho hình ảnh và video, tương lai của xử lý hình ảnh trong AI mang lại tiềm năng cho những đổi mới trong lĩnh vực y tế, phương tiện tự động và hơn thế nữa.

Phân đoạn đối tượng, bao gồm việc xác định chính xác các pixel trong hình ảnh tương ứng với đối tượng quan tâm, là một nhiệm vụ quan trọng trong tầm nhìn máy tính. Truyền thống, điều này đã liên quan đến việc tạo ra các mô hình AI chuyên dụng, đòi hỏi phải có cơ sở hạ tầng rộng lớn và lượng dữ liệu đã được chú thích lớn. Năm ngoái, Meta đã giới thiệu Mô hình phân đoạn bất kỳ (SAM), một mô hình AI nền tảng giúp đơn giản hóa quá trình này bằng cách cho phép người dùng phân đoạn hình ảnh với một lời nhắc đơn giản. Đổi mới này đã giảm nhu cầu về chuyên môn chuyên sâu và tài nguyên tính toán rộng lớn, làm cho phân đoạn hình ảnh trở nên dễ tiếp cận hơn.

Hiện tại, Meta đang đưa điều này lên một bước mới với SAM 2. Phiên bản mới này không chỉ nâng cao khả năng phân đoạn hình ảnh hiện có của SAM mà còn mở rộng nó sang xử lý video. SAM 2 có thể phân đoạn bất kỳ đối tượng nào trong cả hình ảnh và video, thậm chí những đối tượng nó chưa từng gặp trước đây. Tiến bộ này là một bước nhảy vọt trong lĩnh vực tầm nhìn máy tính và xử lý hình ảnh, cung cấp một công cụ phân tích nội dung hình ảnh mạnh mẽ và linh hoạt hơn. Dưới đây, chúng ta khám phá những tiến bộ thú vị của SAM 2 và tiềm năng của nó trong việc định nghĩa lại lĩnh vực tầm nhìn máy tính.

Giới thiệu Mô hình phân đoạn bất kỳ (SAM)

Các phương pháp phân đoạn truyền thống đòi hỏi phải có sự tinh chỉnh thủ công, được gọi là phân đoạn tương tác, hoặc dữ liệu đã được chú thích rộng lớn cho phân đoạn tự động vào các danh mục đã định nghĩa trước. SAM là một mô hình AI nền tảng hỗ trợ phân đoạn tương tác bằng cách sử dụng các lời nhắc linh hoạt như nhấp chuột, hộp hoặc nhập văn bản. Nó cũng có thể được tinh chỉnh với dữ liệu và tài nguyên tính toán tối thiểu cho phân đoạn tự động. Được đào tạo trên hơn 1 tỷ chú thích hình ảnh đa dạng, SAM có thể xử lý các đối tượng và hình ảnh mới mà không cần thu thập dữ liệu tùy chỉnh hoặc tinh chỉnh.

SAM hoạt động với hai thành phần chính: bộ mã hóa hình ảnh xử lý hình ảnh và bộ mã hóa lời nhắc xử lý các nhập liệu như nhấp chuột hoặc văn bản. Các thành phần này kết hợp với một bộ giải mã nhẹ để dự đoán mặt nạ phân đoạn. Một khi hình ảnh đã được xử lý, SAM có thể tạo ra một phân đoạn chỉ trong 50 mili giây trong trình duyệt web, làm cho nó trở thành một công cụ mạnh mẽ cho các nhiệm vụ tương tác thời gian thực. Để xây dựng SAM, các nhà nghiên cứu đã phát triển một quá trình thu thập dữ liệu ba bước: chú thích được hỗ trợ bởi mô hình, sự kết hợp giữa chú thích tự động và hỗ trợ, và tạo mặt nạ tự động hoàn toàn. Quá trình này đã dẫn đến Bộ dữ liệu SA-1B, bao gồm hơn 1,1 tỷ mặt nạ trên 11 triệu hình ảnh được cấp phép, bảo mật quyền riêng tư – làm cho nó lớn hơn 400 lần so với bất kỳ bộ dữ liệu nào hiện có. Hiệu suất ấn tượng của SAM xuất phát từ bộ dữ liệu rộng lớn và đa dạng này, đảm bảo sự đại diện tốt hơn trên các khu vực địa lý khác nhau so với các bộ dữ liệu trước đó.

Ra mắt SAM 2: Một bước nhảy từ phân đoạn hình ảnh sang phân đoạn video

Xây dựng trên nền tảng của SAM, SAM 2 được thiết kế cho phân đoạn đối tượng thời gian thực, có thể nhắc trong cả hình ảnh và video. Không giống như SAM, tập trung duy nhất vào hình ảnh tĩnh, SAM 2 xử lý video bằng cách coi mỗi khung hình là một phần của một chuỗi liên tục. Điều này cho phép SAM 2 xử lý các cảnh động và nội dung thay đổi một cách hiệu quả hơn. Đối với phân đoạn hình ảnh, SAM 2 không chỉ nâng cao khả năng của SAM mà còn hoạt động nhanh hơn ba lần trong các nhiệm vụ tương tác.

SAM 2 giữ lại cùng kiến trúc với SAM nhưng giới thiệu một cơ chế bộ nhớ cho xử lý video. Tính năng này cho phép SAM 2 giữ thông tin từ các khung hình trước, đảm bảo phân đoạn đối tượng nhất quán bất chấp các thay đổi về chuyển động, ánh sáng hoặc che khuất. Bằng cách tham khảo các khung hình trước, SAM 2 có thể tinh chỉnh dự đoán mặt nạ của nó trong suốt video.

Mô hình này được đào tạo trên bộ dữ liệu mới được phát triển, Bộ dữ liệu SA-V, bao gồm hơn 600.000 chú thích mặt nạ trên 51.000 video từ 47 quốc gia. Bộ dữ liệu đa dạng này bao gồm cả các đối tượng và bộ phận của chúng, nâng cao độ chính xác của SAM 2 trong phân đoạn video thực tế.

SAM 2 có sẵn dưới dạng mô hình mã nguồn mở theo giấy phép Apache 2.0, làm cho nó có thể tiếp cận được cho nhiều mục đích sử dụng. Meta cũng đã chia sẻ bộ dữ liệu được sử dụng cho SAM 2 dưới giấy phép CC BY 4.0. Ngoài ra, còn có một bản demo dựa trên web cho phép người dùng khám phá mô hình và xem cách nó hoạt động.

Các trường hợp sử dụng tiềm năng

Khả năng của SAM 2 trong phân đoạn đối tượng thời gian thực, có thể nhắc cho hình ảnh và video đã mở khóa nhiều ứng dụng đổi mới trên các lĩnh vực khác nhau. Ví dụ, một số ứng dụng này bao gồm:

Chẩn đoán y tế: SAM 2 có thể cải thiện đáng kể hỗ trợ phẫu thuật thời gian thực bằng cách phân đoạn các cấu trúc giải phẫu và xác định các bất thường trong các luồng video trực tiếp trong phòng phẫu thuật. Nó cũng có thể nâng cao phân tích hình ảnh y tế bằng cách cung cấp phân đoạn chính xác các cơ quan hoặc khối u trong các quét y tế.
Phương tiện tự động: SAM 2 có thể nâng cao hệ thống phương tiện tự động bằng cách cải thiện độ chính xác của việc phát hiện đối tượng thông qua phân đoạn và theo dõi liên tục các đối tượng như người đi bộ, phương tiện và biển báo trên các khung hình video. Khả năng của nó trong việc xử lý các cảnh động cũng hỗ trợ hệ thống điều hướng thích ứng và tránh va chạm bằng cách nhận biết và phản ứng với các thay đổi môi trường trong thời gian thực.
Truyền thông tương tác và giải trí: SAM 2 có thể nâng cao các ứng dụng thực tế ảo (AR) bằng cách phân đoạn chính xác các đối tượng trong thời gian thực, làm cho nó dễ dàng hơn cho các yếu tố ảo hòa trộn với thế giới thực. Nó cũng có lợi cho việc chỉnh sửa video bằng cách tự động hóa phân đoạn đối tượng trong cảnh quay, đơn giản hóa các quy trình như loại bỏ nền và thay thế đối tượng.
Giám sát môi trường: SAM 2 có thể hỗ trợ theo dõi động vật hoang dã bằng cách phân đoạn và theo dõi động vật trong cảnh quay video, hỗ trợ nghiên cứu loài và nghiên cứu môi trường sống. Trong ứng phó thảm họa, nó có thể đánh giá thiệt hại và hướng dẫn nỗ lực ứng phó bằng cách phân đoạn chính xác các khu vực và đối tượng bị ảnh hưởng trong luồng video.
Bán lẻ và thương mại điện tử: SAM 2 có thể nâng cao hình ảnh sản phẩm trong thương mại điện tử bằng cách cho phép phân đoạn tương tác sản phẩm trong hình ảnh và video. Điều này có thể cho phép khách hàng xem các mặt hàng từ nhiều góc độ và ngữ cảnh khác nhau. Đối với quản lý hàng tồn kho, nó giúp các nhà bán lẻ theo dõi và phân đoạn sản phẩm trên kệ trong thời gian thực, tối ưu hóa việc kiểm kê và cải thiện kiểm soát hàng tồn kho tổng thể.

Đ vượt qua hạn chế của SAM 2: Giải pháp thực tế và cải tiến trong tương lai

Mặc dù SAM 2 hoạt động tốt với hình ảnh và video ngắn, nó có một số hạn chế cần xem xét khi sử dụng trong thực tế. Nó có thể gặp khó khăn khi theo dõi đối tượng qua các thay đổi quan điểm đáng kể, che khuất dài hoặc trong các cảnh đông đúc, đặc biệt là trong video dài. Sự sửa chữa thủ công với các nhấp chuột tương tác có thể giúp giải quyết các vấn đề này.

Trong môi trường đông đúc với các đối tượng có vẻ tương tự, SAM 2 có thể偶尔 nhầm lẫn mục tiêu, nhưng các lời nhắc thêm trong các khung hình sau có thể giải quyết vấn đề này. Mặc dù SAM 2 có thể phân đoạn nhiều đối tượng, hiệu quả của nó giảm vì nó xử lý từng đối tượng riêng biệt. Các cập nhật trong tương lai có thể được lợi từ việc tích hợp thông tin ngữ cảnh chung để nâng cao hiệu suất.

SAM 2 cũng có thể bỏ qua các chi tiết tinh tế với các đối tượng di chuyển nhanh và dự đoán có thể không ổn định giữa các khung hình. Tuy nhiên, việc đào tạo thêm có thể giải quyết hạn chế này. Mặc dù việc tạo chú thích tự động đã được cải thiện, các nhà chú thích con người vẫn cần thiết cho kiểm tra chất lượng và chọn khung hình, và tự động hóa thêm có thể nâng cao hiệu quả.

Kết luận

SAM 2 đại diện cho một bước nhảy vọt quan trọng trong phân đoạn đối tượng thời gian thực cho cả hình ảnh và video, xây dựng trên nền tảng được đặt ra bởi người tiền nhiệm của nó. Bằng cách nâng cao khả năng và mở rộng chức năng sang nội dung video động, SAM 2 hứa hẹn sẽ biến đổi nhiều lĩnh vực, từ y tế và phương tiện tự động đến truyền thông tương tác và bán lẻ. Mặc dù vẫn còn những thách thức, đặc biệt là trong việc xử lý các cảnh và môi trường đông đúc, bản chất mã nguồn mở của SAM 2 khuyến khích sự cải tiến và thích nghi liên tục. Với hiệu suất mạnh mẽ và khả năng tiếp cận, SAM 2 đang sẵn sàng để thúc đẩy đổi mới và mở rộng khả năng trong tầm nhìn máy tính và hơn thế nữa.

Related Topics:foundation AI image segmentation Meta's SAM 2 SAM 2 segment anything model (SAM)Semantic Segmentation