인공 지능

Segment Anything 모델 - 컴퓨터 비전이 크게 향상되었습니다.

게재

1 년 전

2023 년 5 월 5 일

컴퓨터 비전(CV)이 도달했습니다. 99년 이내에 50%에서 10% 정확도. 이 기술은 최신 알고리즘과 이미지 분할 기술을 통해 전례 없는 수준으로 더욱 향상될 것으로 기대됩니다. 최근 메타의 FAIR 연구소에서 세그먼트 무엇이든 모델(SAM) – 이미지 분할의 게임 체인저. 이 고급 모델은 입력 프롬프트에서 상세한 개체 마스크를 생성하여 컴퓨터 비전을 새로운 차원으로 끌어올릴 수 있습니다. 이 시대에 우리가 디지털 기술과 상호 작용하는 방식에 잠재적으로 혁명을 일으킬 수 있습니다.

이미지 세분화를 살펴보고 SAM이 어떤 영향을 미치는지 간단히 살펴보겠습니다. 컴퓨터 비전.

이미지 분할이란 무엇이며 그 유형은 무엇입니까?

이미지 분할은 이미지를 여러 영역 또는 세그먼트로 나누는 컴퓨터 비전의 프로세스로, 각 영역은 이미지의 다른 개체 또는 영역을 나타냅니다. 이 접근 방식을 통해 전문가는 이미지의 특정 부분을 분리하여 의미 있는 통찰력을 얻을 수 있습니다.

이미지 분할 모델은 중요한 이미지 세부 정보를 인식하고 복잡성을 줄임으로써 출력을 개선하도록 훈련됩니다. 이러한 알고리즘은 색상, 질감, 대비, 그림자 및 가장자리와 같은 기능을 기반으로 이미지의 서로 다른 영역을 효과적으로 구분합니다.

이미지를 분할하면 통찰력 있는 세부 정보를 위해 관심 영역에 분석을 집중할 수 있습니다. 다음은 다양한 이미지 분할 기술입니다.

시맨틱 분할 픽셀을 시맨틱 클래스로 레이블 지정하는 작업이 포함됩니다.
인스턴스 분할 이미지에서 각 개체를 감지하고 묘사함으로써 더 나아갑니다.
Panoptic 분할 개별 개체 픽셀에 고유한 인스턴스 ID를 할당하여 이미지의 모든 개체에 보다 포괄적이고 상황에 맞는 레이블을 지정합니다.

분할은 이미지 기반 딥 러닝 모델을 사용하여 구현됩니다. 이 모델은 교육 세트에서 모든 중요한 데이터 포인트와 기능을 가져옵니다. 그런 다음 이 데이터를 벡터와 행렬로 변환하여 복잡한 기능을 이해합니다. 이미지 분할 뒤에 널리 사용되는 딥 러닝 모델 중 일부는 다음과 같습니다.

컨볼 루션 신경망 (CNN)
완전히 연결된 네트워크(FCN)
재발 성 신경망 (RNN)

이미지 분할은 어떻게 작동합니까?

In 컴퓨터 비전, 대부분의 이미지 분할 모델은 인코더-디코더 네트워크로 구성됩니다. 인코더는 디코더가 세그먼트 맵, 즉 이미지에서 각 개체의 위치를 나타내는 맵을 형성하기 위해 디코딩하는 입력 데이터의 잠재 공간 표현을 인코딩합니다.

일반적으로 세분화 프로세스는 3단계로 구성됩니다.

처리를 위해 입력 이미지를 수학적 모델(벡터 및 행렬)로 변환하는 이미지 인코더입니다.
인코더는 여러 수준에서 벡터를 집계합니다.
빠른 마스크 디코더는 이미지 임베딩을 입력으로 사용하고 이미지의 다른 개체를 개별적으로 윤곽을 그리는 마스크를 생성합니다.

이미지 분할 상태

2014년부터 CNN+CRF, FCN 등 딥러닝 기반 세분화 알고리즘의 물결이 나타나며 이 분야에서 상당한 진전을 이루었습니다. 2015년에는 U-Net 및 Deconvolution Network가 부상하여 세분화 결과의 정확도가 향상되었습니다.

그 후 2016년에는 Instance Aware Segmentation, V-Net 및 RefineNet이 세분화의 정확도와 속도를 더욱 향상시켰습니다. 2017년까지 Mark-RCNN 및 FC-DenseNet은 분할 작업에 개체 감지 및 밀도 예측을 도입했습니다.

2018년에는 Panoptic Segmentation, Mask-Lab 및 Context Encoding Networks가 이러한 접근 방식으로 인스턴스 수준 세분화의 필요성을 해결하면서 무대의 중심에 있었습니다. 2019년까지 Panoptic FPN, HRNet 및 Criss-Cross Attention은 인스턴스 수준 세분화를 위한 새로운 접근 방식을 도입했습니다.

2020년에는 Detecto RS, Panoptic DeepLab, PolarMask, CenterMask, DC-NAS, Efficient Net+NAS-FPN 등을 선보이며 트렌드를 이어갔습니다. 마지막으로 2023년에는 다음에 논의할 SAM이 있습니다.

SAM(Segment Anything Model) - 범용 이미지 분할

이미지 소스

XNUMXD덴탈의 세그먼트 무엇이든 모델(SAM) 단일 모델에서 대화형 자동 분할 작업을 수행할 수 있는 새로운 접근 방식입니다. 이전에는 대화형 세분화를 통해 모든 객체 클래스를 세분화할 수 있었지만 사람이 마스크를 반복적으로 미세 조정하여 방법을 안내해야 했습니다.

SAM의 자동 세분화를 통해 미리 정의된 특정 개체 범주를 세분화할 수 있습니다. 홍보 가능한 인터페이스는 매우 유연합니다. 결과적으로 SAM은 클릭, 상자, 텍스트 등과 같은 적절한 프롬프트를 사용하여 광범위한 세분화 작업을 처리할 수 있습니다.

SAM은 1억 개가 넘는 마스크의 다양하고 통찰력 있는 데이터 세트에 대해 교육을 받았기 때문에 훈련 세트. 이 현대적인 프레임워크는 애플리케이션의 CV 모델 자율주행차, 보안, 증강현실 등.

SAM은 다른 차량, 보행자 및 교통 표지판과 같은 자율 주행 자동차에서 자동차 주변의 물체를 감지하고 분할할 수 있습니다. 증강 현실에서 SAM은 실제 환경을 분할하여 가상 개체를 적절한 위치에 배치하여 보다 현실적이고 매력적인 UX를 생성할 수 있습니다.

2023년의 이미지 세분화 과제

이미지 분할에 대한 연구 및 개발이 증가함에 따라 상당한 문제가 발생했습니다. 2023년에 가장 중요한 이미지 세분화 과제 중 일부는 다음과 같습니다.

특히 3D 이미지 세분화를 위한 데이터 세트의 복잡성 증가
해석 가능한 심층 모델 개발
인간의 개입을 최소화하는 비지도 학습 모델의 사용
실시간 및 메모리 효율적인 모델의 필요성
3D 포인트 클라우드 분할의 병목 현상 제거

컴퓨터 비전의 미래

글로벌 컴퓨터 비전 시장은 여러 산업에 영향을 미치며 41에 의해 $ 2030 억. 다른 딥 러닝 알고리즘과 결합된 Segment Anything Model과 같은 최신 이미지 세분화 기술은 디지털 환경에서 컴퓨터 비전의 구조를 더욱 강화할 것입니다. 따라서 앞으로 더 강력한 컴퓨터 비전 모델과 지능형 애플리케이션을 보게 될 것입니다.

AI 및 ML에 대해 자세히 알아보려면 탐색 Unite.ai – 기술 및 최신 상태에 대한 모든 질문에 대한 원스톱 솔루션입니다.