인공 지능

YOLO-World: 실시간 개방형 어휘 개체 감지

게재

2 개월 전

2024 년 3 월 15 일

객체 감지는 산업 분야에서 근본적인 과제였습니다. 컴퓨터 비전 로봇공학, 이미지 이해, 자율주행차 분야의 애플리케이션을 갖춘 산업 이미지 인식. 최근 몇 년 동안 특히 심층 신경망을 통한 AI의 획기적인 작업으로 객체 감지가 크게 향상되었습니다. 그러나 이러한 모델에는 고정된 어휘가 있으며 COCO 데이터 세트의 80개 범주 내 개체 감지로 제한됩니다. 이러한 제한은 객체 감지기가 특정 범주만 인식하도록 훈련되어 적용 가능성이 제한되는 훈련 프로세스에서 비롯됩니다.

이를 극복하기 위해 개방형 어휘 감지 기능으로 YOLO(You Only Look Once) 프레임워크를 향상시키는 것을 목표로 하는 혁신적인 접근 방식인 YOLO-World를 소개합니다. 이는 대규모 데이터 세트에 대한 프레임워크를 사전 훈련하고 비전 언어 모델링 접근 방식을 구현함으로써 달성됩니다. 특히 YOLO-World는 RepVL-PAN(재매개변수화 가능 비전 언어 경로 집합 네트워크) 및 지역 텍스트 대조 손실을 사용하여 언어 정보와 시각적 정보 간의 상호 작용을 촉진합니다. RepVL-PAN 및 지역 텍스트 대조 손실을 통해 YOLO-World는 제로샷 설정에서 광범위한 객체를 정확하게 감지할 수 있으며 개방형 어휘 분할 및 객체 감지 작업에서 뛰어난 성능을 보여줍니다.

이 기사는 YOLO-World의 기술 기반, 모델 아키텍처, 교육 프로세스 및 애플리케이션 시나리오에 대한 철저한 이해를 제공하는 것을 목표로 합니다. 뛰어 들어 봅시다.

YOLO-World: 실시간 개방형 어휘 개체 감지

YOLO 또는 You Only Look Once는 컴퓨터 비전 업계에서 현대 객체 감지에 가장 널리 사용되는 방법 중 하나입니다. 놀라운 속도와 효율성으로 유명한 YOLO 메커니즘은 기계가 이미지와 비디오 내의 특정 개체를 실시간으로 해석하고 감지하는 방식에 혁명을 일으켰습니다. 기존 객체 감지 프레임워크는 2단계 객체 감지 접근 방식을 구현합니다. 첫 번째 단계에서 프레임워크는 객체를 포함할 수 있는 영역을 제안하고 다음 단계에서 프레임워크는 객체를 분류합니다. 반면에 YOLO 프레임워크는 이 두 단계를 단일 신경망 모델로 통합합니다. 이 접근 방식을 통해 프레임워크는 이미지를 한 번만 보고 개체와 이미지 내 위치를 예측할 수 있으므로 YOLO 또는 You라는 이름이 붙습니다. 한 번만 보세요.

또한 YOLO 프레임워크는 객체 감지를 회귀 문제로 처리하고 전체 이미지에서 직접 클래스 확률과 경계 상자를 한 눈에 예측합니다. 이 방법을 구현하면 감지 프로세스의 속도가 빨라질 뿐만 아니라 복잡하고 다양한 데이터를 일반화하는 모델의 능력이 향상되므로 자율 주행, 속도 감지 또는 숫자와 같이 실시간으로 작동하는 애플리케이션에 적합한 선택이 됩니다. 판 인식. 또한 지난 몇 년간 심층 신경망의 획기적인 발전으로 객체 감지 프레임워크 개발에도 크게 기여했지만, 객체 감지 프레임워크는 제한된 어휘로만 객체를 감지할 수 있기 때문에 성공이 여전히 제한적입니다. 이는 주로 개체 범주가 데이터 세트에서 정의되고 레이블이 지정되면 프레임워크의 훈련된 탐지기가 이러한 특정 범주만 인식할 수 있으므로 실시간 및 개방형 시나리오에서 개체 검색 모델을 배포하는 적용 가능성과 능력이 제한되기 때문입니다.

최근 개발된 비전 언어 모델은 언어 인코더의 증류된 어휘 지식을 사용하여 개방형 어휘 감지를 해결합니다. 이러한 프레임워크는 개방형 어휘 감지에 대한 기존 객체 감지 모델보다 성능이 뛰어나지만 어휘 다양성이 제한된 훈련 데이터의 가용성이 부족하기 때문에 적용 가능성이 여전히 제한되어 있습니다. 또한 선택된 프레임워크는 개방형 어휘 개체 감지기를 대규모로 교육하고 교육 개체 감지기를 지역 수준 비전 언어 사전 교육으로 분류합니다. 그러나 이 접근 방식은 에지 장치의 복잡한 배포 프로세스와 과도한 계산 요구 사항이라는 두 가지 주요 이유로 인해 실시간으로 개체를 감지하는 데 여전히 어려움을 겪고 있습니다. 긍정적인 점은 이러한 프레임워크가 대형 탐지기를 사전 훈련하여 개방형 인식 기능을 사용함으로써 긍정적인 결과를 보여주었다는 것입니다.

YOLO-World 프레임워크는 매우 효율적인 개방형 어휘 객체 감지를 달성하고 개방형 어휘 객체 감지를 위한 기존 YOLO 감지기의 효율성을 높이기 위한 대규모 사전 훈련 접근 방식의 가능성을 탐색하는 것을 목표로 합니다. 객체 감지의 이전 작업과 달리 YOLO-World 프레임워크는 높은 추론 속도로 놀라운 효율성을 나타내며 다운스트림 애플리케이션에 쉽게 배포할 수 있습니다. YOLO-World 모델은 전통적인 YOLO 아키텍처를 따르며 사전 훈련된 CLIP 텍스트 인코더의 기능을 활용하여 입력 텍스트를 인코딩합니다. 또한 YOLO-World 프레임워크에는 향상된 시각적 의미 표현을 위해 이미지와 텍스트 기능을 연결하는 RepVL-PAN(재매개변수화 가능 Vision-Language Path Aggregation Network) 구성 요소가 아키텍처에 포함되어 있습니다. 추론 단계에서 프레임워크는 텍스트 인코더를 제거하고 텍스트 임베딩을 RepVL-PAN 가중치로 다시 매개변수화하여 효율적인 배포를 수행합니다. 또한 프레임워크에는 기존 YOLO 모델에 대한 개방형 어휘 사전 학습 방법을 연구하기 위한 영역 텍스트 대조 학습이 프레임워크에 포함되어 있습니다. 영역-텍스트 대조 학습 방법은 이미지-텍스트 데이터, 접지 데이터 및 감지 데이터를 영역-텍스트 쌍으로 통합합니다. 이를 기반으로 지역-텍스트 쌍에 대해 사전 훈련된 YOLO-World 프레임워크는 개방형 및 대규모 어휘 감지를 위한 놀라운 기능을 보여줍니다. 또한 YOLO-World 프레임워크는 실시간 및 실제 시나리오에서 개방형 어휘 객체 감지의 효율성을 향상시키기 위한 목표로 프롬프트 후 감지 패러다임을 탐색합니다.

다음 이미지에서 볼 수 있듯이 기존 객체 감지기는 미리 정의된 범주를 사용하여 고정 어휘 감지의 근접 세트에 초점을 맞추는 반면 개방형 어휘 감지기는 개방형 어휘에 대한 텍스트 인코더로 사용자 프롬프트를 인코딩하여 객체를 감지합니다. 이에 비해 YOLO-World의 프롬프트 후 감지 접근 방식은 먼저 사용자 프롬프트를 인코딩하여 오프라인 어휘(다양한 요구에 따라 다양한 어휘)를 구축하므로 감지기가 프롬프트를 다시 인코딩할 필요 없이 실시간으로 오프라인 어휘를 해석할 수 있습니다.

YOLO-World : 방법 및 아키텍처

지역-텍스트 쌍

전통적으로 객체 감지 프레임워크는 다음을 포함합니다. YOLO 객체 감지기 제품군은 카테고리 라벨과 경계 상자가 포함된 인스턴스 주석을 사용하여 학습됩니다. 대조적으로, YOLO-World 프레임워크는 인스턴스 주석을 텍스트가 객체에 대한 설명, 명사구 또는 카테고리 이름이 될 수 있는 영역-텍스트 쌍으로 재구성합니다. YOLO-World 프레임워크는 텍스트와 이미지를 모두 해당 객체 임베딩과 함께 입력 및 출력 예측 상자로 채택한다는 점을 지적할 가치가 있습니다.

모델 아키텍처

핵심적으로 YOLO-World 모델은 다음 이미지에 설명된 것처럼 텍스트 인코더, YOLO 감지기 및 RepVL-PAN(재매개변수화 가능 Vision-Language Path Aggregation Network) 구성 요소로 구성됩니다.

입력 텍스트의 경우 텍스트 인코더 구성 요소는 텍스트를 텍스트 임베딩으로 인코딩한 다음 YOLO 감지기 구성 요소의 이미지 감지기에 의해 입력 이미지에서 다중 스케일 특징을 추출합니다. 그런 다음 RepVL-PAN(재매개변수화 가능 비전-언어 경로 집계 네트워크) 구성 요소는 텍스트와 기능 임베딩 간의 양식 간 융합을 활용하여 텍스트와 이미지 표현을 향상시킵니다.

욜로 감지기

YOLO-World 모델은 이미지 인코더로 Darknet 백본 구성 요소, 객체 임베딩 및 경계 상자 회귀를 위한 헤드, 다중 규모 기능 피라미드를 위한 PAN 또는 경로 공격 네트워크를 포함하는 기존 YOLOv8 프레임워크 위에 구축되었습니다.

텍스트 인코더

주어진 텍스트에 대해 YOLO-World 모델은 특정 수의 명사와 임베딩 차원을 갖춘 사전 훈련된 CLIP Transformer 텍스트 인코더를 채택하여 해당 텍스트 임베딩을 추출합니다. YOLO-World 프레임워크가 CLIP 텍스트 인코더를 채택하는 주된 이유는 텍스트를 시각적 개체와 연결하는 데 더 나은 시각적 의미 성능을 제공하여 기존 텍스트 전용 언어 인코더보다 훨씬 뛰어난 성능을 제공하기 때문입니다. 그러나 입력 텍스트가 캡션이거나 참조 표현인 경우 YOLO-World 모델은 구문을 추출하기 위해 더 간단한 n-gram 알고리즘을 선택합니다. 그런 다음 이러한 문구는 텍스트 인코더에 공급됩니다.

텍스트 대조 머리

분리된 헤드는 이전 객체 감지 모델에서 사용하는 구성 요소이며 YOLO-World 프레임워크는 고정된 수의 객체에 대한 객체 임베딩 및 경계 상자를 회귀하기 위해 이중 3×3 컨볼루션이 있는 분리된 헤드를 채택합니다. YOLO-World 프레임워크는 L2 정규화 접근 방식과 텍스트 임베딩을 사용하여 객체-텍스트 유사성을 얻기 위해 텍스트 대조 헤드를 사용합니다. 또한 YOLO-World 모델은 이동 인자와 학습 가능한 스케일링 인자가 포함된 아핀 변환 접근 방식을 사용하며, L2 정규화 및 아핀 변환은 영역 텍스트 훈련 중에 모델의 안정성을 향상시킵니다.

온라인 어휘 훈련

훈련 단계에서 YOLO-World 모델은 각각 4개의 이미지로 구성된 각 모자이크 샘플에 대한 온라인 어휘를 구성합니다. 모델은 모자이크 이미지에 포함된 모든 긍정적 명사를 샘플링하고, 해당 데이터 세트에서 일부 부정적 명사를 무작위로 샘플링합니다. 각 샘플의 어휘는 최대 n개의 명사로 구성되며 기본값은 80입니다.

오프라인 어휘 추론

추론 중에 YOLO-World 모델은 모델의 효율성을 더욱 향상시키기 위해 오프라인 어휘를 사용하여 즉각적인 감지 전략을 제시합니다. 사용자는 먼저 카테고리 또는 캡션을 포함할 수 있는 일련의 사용자 정의 프롬프트를 정의합니다. 그런 다음 YOLO-World 모델은 텍스트 인코더를 활용하여 이러한 프롬프트를 인코딩함으로써 오프라인 어휘 임베딩을 얻습니다. 결과적으로 추론을 위한 오프라인 어휘는 모델이 각 입력에 대한 계산을 피하는 데 도움이 되며, 모델이 요구 사항에 따라 어휘를 유연하게 조정할 수도 있습니다.

재매개변수화 가능한 비전-언어 경로 공격 네트워크(RevVL-PAN)

다음 그림은 다중 스케일 특징 이미지로 특징 피라미드를 구축하기 위해 하향식 및 상향식 경로를 따르는 제안된 재매개변수화 가능한 비전-언어 경로 공격 네트워크의 구조를 보여줍니다.

텍스트와 이미지 기능 간의 상호 작용을 향상시키기 위해 YOLO-World 모델은 개방형 어휘 기능에 대한 시각적 의미 표현을 향상시키는 궁극적인 목표로 Image-Pooling Attention 및 텍스트 기반 CSPLayer(Cross-Stage Partial Layers)를 제안합니다. 추론 중에 YOLO-World 모델은 효과적인 배포를 위해 오프라인 어휘 임베딩을 선형 또는 컨벌루션 레이어의 가중치로 다시 매개변수화합니다.

위 그림에서 볼 수 있듯이 YOLO-World 모델은 하향식 또는 상향식 융합 후 CSPLayer를 활용하고 텍스트 안내를 다중 스케일 이미지 기능에 통합하여 Text-Guided CSPLayer를 구성하여 확장합니다. CSPLayer. 주어진 이미지 특징과 그에 상응하는 텍스트 임베딩에 대해 모델은 마지막 병목 현상 블록 이후에 최대 시그모이드 어텐션을 채택하여 텍스트 특징을 이미지 특징으로 집계합니다. 그런 다음 업데이트된 이미지 기능이 크로스 스테이지 기능과 연결되어 출력으로 표시됩니다.

계속해서 YOLO-World 모델은 이미지 인식 정보로 텍스트 임베딩을 향상시키기 위해 Image Pooling Attention 레이어를 도입하여 이미지 기능을 집계하여 텍스트 임베딩을 업데이트합니다. 이미지 기능에 직접 교차 주의를 사용하는 대신 모델은 다중 규모 기능에서 최대 풀링을 활용하여 3×3 영역을 얻습니다. 결과적으로 다음 단계에서 텍스트 임베딩을 업데이트하는 모델과 함께 27개의 패치 토큰이 생성됩니다.

사전 훈련 계획

YOLO-World 모델은 영역-텍스트 대비 손실로부터 학습 및 이미지-텍스트 데이터를 사용한 의사 라벨링이라는 두 가지 기본 사전 학습 체계를 따릅니다. 기본 사전 학습 방식의 경우 모델은 지정된 텍스트 및 모자이크 샘플에 대한 주석과 함께 객체 예측을 출력합니다. YOLO-World 프레임워크는 작업 할당 레이블 할당을 따르고 활용하여 예측을 실측 주석과 일치시키고 분류 레이블 역할을 하는 텍스트 인덱스를 사용하여 개별 긍정적인 예측을 할당합니다. 반면, 이미지-텍스트 데이터를 사용한 의사 라벨링 사전 학습 체계는 영역-텍스트 쌍을 생성하기 위해 이미지-텍스트 쌍을 사용하는 대신 자동화된 라벨링 접근 방식을 사용할 것을 제안합니다. 제안된 라벨링 접근 방식은 세 단계로 구성됩니다. 명사구 추출, 의사 라벨링 및 필터링. 첫 번째 단계는 n-gram 알고리즘을 활용하여 입력 텍스트에서 명사구를 추출하고, 두 번째 단계에서는 사전 훈련된 개방형 어휘 탐지기를 채택하여 개별 이미지에 대해 주어진 명사구에 대한 의사 상자를 생성하는 반면, 세 번째이자 마지막 단계에서는 다음을 사용합니다. 영역-텍스트 및 텍스트-이미지 쌍의 관련성을 평가하기 위한 사전 훈련된 CLIP 프레임워크. 그에 따라 모델은 관련성이 낮은 의사 이미지 및 주석을 필터링합니다.

YOLO-World : 결과

YOLO-World 모델이 사전 훈련되면 제로 샷 설정의 LVIS 데이터 세트에서 직접 평가됩니다. LVIS 데이터 세트는 1200개 이상의 범주로 구성되며, 이는 테스트를 위해 기존 프레임워크에서 사용하는 사전 훈련 데이터 세트보다 훨씬 많습니다. 대규모 어휘 탐지 성능. 다음 그림은 제로샷 설정에서 LVIS 데이터 세트에 대한 기존의 최첨단 개체 감지 프레임워크 중 일부를 사용하여 YOLO-World 프레임워크의 성능을 보여줍니다.

관찰할 수 있듯이 YOLO-World 프레임워크는 더 많은 데이터를 통합하는 Grounding DINO, GLIP 및 GLIPv2와 같은 프레임워크를 사용하더라도 추론 속도 및 제로샷 성능 측면에서 대부분의 기존 프레임워크보다 성능이 뛰어납니다. 전반적으로 결과는 13만 개의 매개변수만 가진 YOLO-World-S와 같은 작은 객체 감지 모델이 뛰어난 개방형 어휘 기능을 갖춘 비전 언어 작업에 대한 사전 훈련에 활용될 수 있음을 보여줍니다.

최종 생각

이 기사에서는 대규모 데이터 세트에 대한 프레임워크를 사전 훈련하고 비전 언어 모델링 접근 방식. 보다 구체적으로 YOLO-World 프레임워크는 언어 정보와 시각적 정보 간의 상호 작용을 촉진하기 위해 영역 텍스트 대비 손실과 함께 Re-parameterized Vision Language Path Aggregation Network 또는 RepVL-PAN을 구현할 것을 제안합니다. RepVL-PAN 및 영역 텍스트 대비 손실을 구현함으로써 YOLO-World 프레임워크는 제로샷 설정에서 광범위한 객체를 정확하고 효과적으로 감지할 수 있습니다.