์ธ๊ณต์ง๋ฅ
SAM 2 ๊ณต๊ฐ: ๋ฉํ์ ์๋ก์ด ์คํ์์ค ๊ธฐ์ด ๋ชจ๋ธ ะดะปั ๋น๋์ค ๋ฐ ์ด๋ฏธ์ง์ ์ค์๊ฐ ๊ฐ์ฒด ๋ถํ
지난 몇 년 동안 AI 세계는 텍스트 처리를 위한 기초 AI에서 놀라운 발전을 보았으며, 고객 서비스에서 법적 분석까지 다양한 산업을 변革했습니다. 그러나 이미지 처리의 경우 우리는 아직 표면적인 수준에 불과합니다. 시각적 데이터의 복잡성과 이미지의 정확한 해석 및 분석을 위한 모델 훈련의 어려움은 상당한 장벽을 제시했습니다. 이미지 및 비디오를 위한 기초 AI를 탐색하는 연구자들은 이미지 처리의 미래가 의료, 자율 주행 자동차, 그리고 그 이상의 분야에서 혁신을 가질 수 있는 잠재력을 가지고 있습니다.
객체 분할은 관심 객체에 해당하는 이미지의 정확한 픽셀을 식별하는 컴퓨터 비전의 중요한 작업입니다. 전통적으로 이것은 광범위한 인프라와大量의 주석이 달린 데이터가 필요한 전문적인 AI 모델을 생성하는 것을 포함합니다. 메타는 지난 해 Segment Anything Model (SAM)을 소개했습니다. 이는 단순한 프롬프트로 이미지 분할을 허용하여 이过程을 단순화하는 기초 AI 모델입니다. 이 혁신은 전문 지식과 광범위한 컴퓨팅 자원의 필요성을 줄여 이미지 분할을 더 접근하기 쉽게 만들었습니다.
메타는 이제 SAM 2와 함께 이를 한 단계 더 발전시켰습니다. 이 새로운 버전은 SAM의 기존 이미지 분할 기능을 강화하는 것뿐만 아니라 비디오 처리로의 확장을 의미합니다. SAM 2는 이미지와 비디오에서 이전에遭遇하지 못한 객체도 분할할 수 있습니다. 이는 컴퓨터 비전과 이미지 처리의 영역에서 큰 도약이며, 시각적 콘텐츠를 분석하기 위한 더 유연하고 강력한 도구를 제공합니다. 아래에서 SAM 2의 흥미로운 발전과 컴퓨터 비전 분야를 재정의할 수 있는 잠재력을 탐색합니다.
Segment Anything Model (SAM) 소개
전통적인 분할 방법은 수동으로 정교화하는 것, 즉 상호작용 분할, 또는 미리 정의된 카테고리로 자동 분할을 위한大量의 주석이 달린 데이터가 필요합니다. SAM은 상호작용 분할을 위한 다용도 프롬프트와 같은 클릭, 박스, 또는 텍스트 입력을 지원하는 기초 AI 모델입니다. 또한 최소한의 데이터와 컴퓨팅 자원으로 자동 분할을 위한 미세 조정을 지원할 수 있습니다. 10억 개 이상의 다양한 이미지 주석에훈련된 SAM은 사용자 정의 데이터 수집이나 미세 조정이 필요 없이 새로운 객체와 이미지에 대처할 수 있습니다.
SAM은 이미지 인코더와 프롬프트 인코더의 두 가지 주요 구성 요소로 작동합니다. 이미지 인코더는 이미지를 처리하고 프롬프트 인코더는 클릭이나 텍스트와 같은 입력을 처리합니다. 이러한 구성 요소는 경량 디코더와 함께 분할 마스크를 예측하기 위해 함께 작동합니다. 이미지가 처리된 후 SAM은 웹 브라우저에서 50 밀리초 만에 분할을 생성할 수 있어 실시간, 상호작용 작업에 강력한 도구입니다. SAM을 구축하기 위해 연구자들은 모델 지원 주석, 자동 및 보조 주석의 혼합, 및 완전 자동 마스크 생성의 3단계 데이터 수집 프로세스를 개발했습니다. 이 프로세스의 결과는 1.1억 개 이상의 마스크가 있는 1,100만 개의 라이선스된 개인 정보 보호 이미지로 구성된 SA-1B 데이터 세트입니다. 이는 기존 데이터 세트보다 400배 더 크며, 지리적 지역에 걸친 다양한 표현을 보장합니다.
SAM 2 공개: 이미지에서 비디오 분할로의 도약
SAM의 기반을 바탕으로 SAM 2는 이미지와 비디오에서 실시간, 프롬프터블 객체 분할을 위한 것으로 설계되었습니다. SAM과 달리 정적 이미지에만 집중하는 SAM 2는 각 프레임을 연속적인 시퀀스의 일부로 처리하여 동적 장면과 변경되는 콘텐츠를 더 효과적으로 다룰 수 있습니다. 이미지 분할의 경우 SAM 2는 SAM의 기능을 개선하고 상호작용 작업에서 3배 더 빠르게 작동합니다.
SAM 2는 SAM과 동일한 아키텍처를 유지하지만 비디오 처리를 위한 메모리 메커니즘을 도입했습니다. 이 기능은 이전 프레임의 정보를 유지하여 객체 분할이 일관성을 유지하도록 합니다. 이전 프레임을 참조하여 SAM 2는 비디오 전체에서 마스크 예측을 정제할 수 있습니다.
이 모델은 47개국에서 51,000개의 비디오에 대한 60만 개 이상의 마스크릿 주석을 포함하는 새로 개발된 SA-V 데이터 세트에서 훈련되었습니다. 이 다양한 데이터 세트는 전체 객체와 그 부분을 모두 커버하여 SAM 2의 실제 비디오 분할 정확도를 향상시킵니다.
SAM 2는 Apache 2.0 라이선스下的 오픈소스 모델로 제공되어 다양한 용도로 사용할 수 있습니다. 메타는 또한 SAM 2를 위한 데이터 세트를 CC BY 4.0 라이선스 下에서 공유했습니다. 또한 사용자가 모델을 탐색하고 성능을 확인할 수 있는 웹 기반 데모도 있습니다.
사용 사례
SAM 2의 이미지와 비디오에서 실시간, 프롬프터블 객체 분할 기능은 다양한 분야에서 수많은 혁신적인 응용 프로그램을 가능하게 합니다. 예를 들어, 이러한 응용 프로그램 중 일부는 다음과 같습니다:
- 의료 진단: SAM 2는 수술실에서 실시간으로 해부학적 구조를 분할하고 이상을 식별하여 수술 지원을 크게 개선할 수 있습니다. 또한 의료 영상 분석을 통해 장기 또는 종양의 정확한 분할을 제공하여 의료 영상 분석을 향상시킬 수 있습니다.
- 자율 주행 자동차: SAM 2는 연속적인 분할과 추적을 통해 보행자, 차량, 및 도로 표지판을 비디오 프레임에서 정확하게 감지하여 자율 주행 자동차 시스템을 강화할 수 있습니다. 동적 장면을 다루는 능력은 환경의 실시간 변경에 대한 인식과 반응을 지원하여 적응형 탐색과 충돌 회피 시스템을 지원합니다.
- 인터랙티브 미디어 및 엔터테인먼트: SAM 2는 실제 세계와 가상 요소를 혼합하기 위해 객체를 실시간으로 분할하여 증강 현실(AR) 응용 프로그램을 강화할 수 있습니다. 또한 비디오 편집을 통해 비디오의 객체 분할을 자동화하여 배경 제거 및 객체 대체와 같은 프로세스를 간소화합니다.
- 환경 모니터링: SAM 2는 동물의 분할과 모니터링을 통해 야생 동물 추적을 지원하여 종 연구와 서식지 연구를 지원할 수 있습니다. 재해 대응에서 영향을 받은 지역과 객체를 비디오 피드에서 정확하게 분할하여 피해 평가와 대응 노력을 안내할 수 있습니다.
- 소매 및 전자 상거래: SAM 2는 제품을 이미지와 비디오에서 상호작용적으로 분할하여 전자 상거래에서 제품 시각화를 향상시킬 수 있습니다. 이는 고객이 항목을 다양한 각도와 상황에서 볼 수 있도록 합니다. 재고 관리를 위해 소매 업체는 실시간으로 선상 재고를 추적하고 분할하여 재고 확인과 재고 관리를 간소화할 수 있습니다.
SAM 2의 제한 사항 극복: 실제 솔루션과 향후 개선
SAM 2는 이미지와 짧은 비디오에서 잘 작동하지만 실제 사용을 위한 몇 가지 제한 사항을 고려해야 합니다.それは 상당한 시점 변경, 장시간의 가려짐, 또는 혼잡한 장면, 특히 긴 비디오에서 객체를 추적하는 데 어려움을 겪을 수 있습니다. 상호작용 클릭을 통해 수동으로 수정할 수 있습니다.
혼잡한 환경에서 유사한 객체가 있는 경우 SAM 2는 때때로 목표를 잘못 식별할 수 있지만 이후 프레임에서 추가 프롬프트를 통해 이를 해결할 수 있습니다. SAM 2는 여러 객체를 분할할 수 있지만 각 객체를 개별적으로 처리하기 때문에 효율성이 떨어집니다. 향후 업데이트에서는 공유된 컨텍스트 정보를 통합하여 성능을 향상시킬 수 있습니다.
SAM 2는 빠르게 이동하는 객체의 세부 사항을 놓칠 수 있으며, 예측은 프레임 간에 불안정할 수 있습니다. 그러나 추가 훈련을 통해 이러한 제한 사항을 해결할 수 있습니다. 자동 주석 생성이 개선되었지만 품질 검사와 프레임 선택을 위한 인간 주석자가仍然 필요하며, 추가 자동화는 효율성을 향상시킬 수 있습니다.
결론
SAM 2는 이미지와 비디오에서 실시간 객체 분할에 있어 큰 도약을 나타내며, 그 전신의 기반을 확장합니다. 기존의 기능을 강화하고 동적 비디오 콘텐츠로의 확장을 통해 SAM 2는 의료, 자율 주행 자동차, 인터랙티브 미디어, 및 소매 등 다양한 분야를 변혁시키는 잠재력을 가지고 있습니다. 혼잡한 장면을 다루는 것과 같은 도전이 남아 있지만, SAM 2의 오픈소스 특성은 지속적인 개선과 적응을 장려합니다. 강력한 성능과 접근성으로 인해 SAM 2는 컴퓨터 비전과 그 이상의 영역에서 혁신을 주도하고 가능성을 확장할 준비가 되어 있습니다.








