Connect with us

인공지능

YOLO-World: 실시간 오픈 어휘 객체 감지

mm

객체 감지는 컴퓨터 비전 산업에서 근본적인 도전이었으며, 로봇 공학, 이미지 이해, 자율 주행 차량, 및 이미지 인식 등의 분야에서 응용되었다. 최근 몇 년 동안 AI, 특히 깊은 신경망을 통해 이루어진 획기적인 연구는 객체 감지를 크게 발전시켰다. 그러나 이러한 모델들은 고정된 어휘를 가지고 있으며, COCO 데이터셋의 80개 카테고리 내에서만 객체를 감지할 수 있다. 이러한 제한은 객체 감지器가 특정 카테고리만 인식하도록 훈련되기 때문에 발생한다.

이를 극복하기 위해, 우리는 YOLO-World를 소개한다. 이는 YOLO(You Only Look Once) 프레임워크를 오픈 어휘 감지 능력으로 향상시키는 혁신적인 접근 방식이다. 이는 대규모 데이터셋에서 프레임워크를 사전 훈련하고, 비전-언어 모델링 접근 방식을 구현함으로써 달성된다. 특히, YOLO-World는 Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN)과 지역-텍스트 대조적 손실을 사용하여 언어적 및 시각적 정보 간의 상호 작용을 촉진한다. RepVL-PAN과 지역-텍스트 대조적 손실을 통해, YOLO-World는 제로샷 설정에서 광범위한 객체를 정확하게 감지할 수 있으며, 오픈 어휘 분할 및 객체 감지 작업에서 뛰어난 성능을 보여준다.

이 기사에서는 YOLO-World의 기술적 기초, 모델 아키텍처, 훈련 과정, 및 응용 시나리오에 대한 철저한 이해를 제공하는 것을 목표로 한다. 자세히 살펴보자.

YOLO-World: 실시간 오픈 어휘 객체 감지

YOLO 또는 You Only Look Once는 컴퓨터 비전 산업에서 현대적인 객체 감지 방법 중 하나이다. 놀라운 속도와 효율성을 가지고 있는 YOLO 메커니즘의 도입은 기계가 이미지와 비디오 내의 특정 객체를 실시간으로 해석하고 감지하는 방식을 혁신적으로 바꾸었다. 전통적인 객체 감지 프레임워크는 두 단계의 객체 감지 접근 방식을 구현한다. 첫 번째 단계에서는 프레임워크가 객체를 포함할 수 있는 영역을 제안하고, 두 번째 단계에서는 객체를 분류한다. 반면에, YOLO 프레임워크는 이러한 두 단계를 단일 신경망 모델로 통합한다. 이 접근 방식은 프레임워크가 이미지와 객체의 위치를 예측하기 위해 이미지를 한 번만 본다. 따라서, 이름이 YOLO 또는 You Only Look Once가 되었다.

さらに, YOLO 프레임워크는 객체 감지를 회귀 문제로 다루고, 전체 이미지에서 직접 클래스 확률과 경계 상자를 예측한다. 이 방법의 구현은 감지 과정을 가속화할 뿐만 아니라, 모델이 복잡하고 다양한 데이터에서 일반화하는 능력을 향상시킨다. 이는 실시간으로 작동하는 응용 프로그램, 즉 자율 주행, 속도 감지 또는 번호판 인식과 같은 경우에 적합하다. 또한, 최근 몇 년 동안 깊은 신경망의 상당한 발전은 객체 감지 프레임워크의 개발에 크게 기여했다. 그러나 객체 감지 프레임워크의 성공은 여전히 제한적이다. 왜냐하면它们은 제한된 어휘만을 가진 객체만을 감지할 수 있기 때문이다. 이는 객체 카테고리가 데이터셋에서 정의되고 레이블링되면, 훈련된 감지器가 특정 카테고리만 인식할 수 있기 때문에 발생한다.

최근 개발된 비전 언어 모델은 언어 인코더에서 추출된 어휘 지식을 사용하여 오픈 어휘 감지를 다룬다. 이러한 프레임워크는 전통적인 객체 감지 모델보다 오픈 어휘 감지에서 더 나은 성능을 보여주지만, 여전히 제한된 어휘 다양성을 가진 훈련 데이터의 부족으로 인해 제한적이다. 또한, 일부 프레임워크는 대규모 객체 감지기를 훈련하고, 훈련 객체 감지기를 지역 수준의 비전-언어 사전 훈련으로 분류한다. 그러나 이 접근 방식은 두 가지 주요 이유로 인해 실시간으로 객체를 감지하는 데 어려움을 겪는다. 첫째, 에지 디바이스를 위한 복잡한 배포 과정이고, 둘째, 무거운 계산 요구이다. 그러나 이러한 프레임워크는 오픈 인식 능력을 사용하기 위해 대규모 감지기를 사전 훈련하는 것에서 긍정적인 결과를 보여주었다.

YOLO-World 프레임워크는 효율적인 오픈 어휘 객체 감지를 달성하고, 전통적인 YOLO 감지기의 오픈 어휘 객체 감지 효율성을 향상시키기 위한 대규모 사전 훈련 접근 방식을 탐색하는 것을 목표로 한다. 이전의 객체 감지 연구와 달리, YOLO-World 프레임워크는 높은 추론 속도와 함께 뛰어난 효율성을 보여주며, 하류 응용 프로그램에 쉽게 배포할 수 있다. YOLO-World 모델은 전통적인 YOLO 아키텍처를 따르며, 사전 훈련된 CLIP 텍스트 인코더의 능력을 활용하여 입력 텍스트를 인코딩한다. 또한, YOLO-World 프레임워크는 이미지와 텍스트 특징을 연결하여 향상된 시각-의미적 표현을 얻기 위해 Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN) 구성 요소를 포함한다. 추론 단계에서, 프레임워크는 텍스트 인코더를 제거하고, 텍스트 임베딩을 RepVL-PAN 가중치로 재매개화하여 효율적인 배포를 가능하게 한다. 프레임워크는 또한 지역-텍스트 대조적 학습을 포함하여 전통적인 YOLO 모델을 위한 오픈 어휘 사전 훈련 방법을 연구한다. 지역-텍스트 대조적 학습 방법은 이미지-텍스트 데이터, 그라운드 트루스 데이터, 및 감지 데이터를 지역-텍스트 쌍으로統一한다. 이를 기반으로, YOLO-World 프레임워크는 지역-텍스트 쌍에서 사전 훈련된 모델은 오픈 및 대규모 어휘 감지에 대한 뛰어난 능력을 보여준다. 또한, YOLO-World 프레임워크는 실시간 및 실세계 시나리오에서 오픈 어휘 객체 감지의 효율성을 향상시키기 위해 프롬프트-그런다 패러다임을 탐색한다.

다음 이미지에서 볼 수 있듯이, 전통적인 객체 감지기는 미리 정의된 카테고리를 가진 폐쇄적 어휘 감지에 중점을 두고 있으며, 오픈 어휘 감지기는 사용자 프롬프트를 텍스트 인코더로 인코딩하여 오픈 어휘를 감지한다. 반면에, YOLO-World의 프롬프트-그런다 접근 방식은 오프라인 어휘를 빌드하여 사용자 프롬프트를 인코딩하고, 감지기가 실시간으로 오프라인 어휘를 해석할 수 있도록 한다.

YOLO-World : 방법 및 아키텍처

지역-텍스트 쌍

전통적인 객체 감지 프레임워크, 특히 YOLO 계열의 객체 감지기는 인스턴스 주석을 사용하여 훈련되며, 주석에는 카테고리 레이블과 경계 상자가 포함된다. 반면에, YOLO-World 프레임워크는 인스턴스 주석을 지역-텍스트 쌍으로 재구성한다. 여기서 텍스트는 객체의 설명, 명사구, 또는 카테고리 이름이 될 수 있다. YOLO-World 프레임워크는 텍스트와 이미지 모두를 입력으로 받아서 예측된 박스와 해당 객체 임베딩을 출력한다.

모델 아키텍처

YOLO-World 모델의 핵심에는 텍스트 인코더, YOLO 감지기, 및 Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN) 구성 요소가 있다. 다음 이미지를 참조하라.

입력 텍스트에 대해, 텍스트 인코더 구성 요소는 텍스트를 임베딩으로 인코딩하고, YOLO 감지기 구성 요소는 입력 이미지에서 다중 스케일 특징을 추출한다. RepVL-PAN 구성 요소는 텍스트와 특징 임베딩 간의 교차 모달리티 퓨전을 이용하여 텍스트와 이미지 표현을 향상시킨다.

YOLO 감지기

YOLO-World 모델은 기존 YOLOv8 프레임워크를 기반으로 하며, Darknet 백본 구성 요소, 객체 임베딩 및 경계 상자 회귀를 위한 헤드, 및 다중 스케일 특징 피라미드를 위한 Path Aggression Network(PAN)을 포함한다.

텍스트 인코더

주어진 텍스트에 대해, YOLO-World 모델은 사전 훈련된 CLIP Transformer 텍스트 인코더를 사용하여 해당 텍스트 임베딩을 추출한다. YOLO-World 프레임워크가 CLIP 텍스트 인코더를 사용하는 이유는 텍스트와 시각적 객체를 연결하는 데 더 나은 시각-의미적 성능을 제공하기 때문이다. 이는 전통적인 텍스트 전용 언어 인코더보다 훨씬 뛰어난 성능을 제공한다. 그러나 입력 텍스트가 캡션 또는 참조 표현일 경우, YOLO-World 모델은 더 단순한 n-그램 알고리즘을 사용하여 구를 추출한다. 이러한 구는 텍스트 인코더에 입력된다.

텍스트 대조적 헤드

이전의 객체 감지 모델에서 사용된 디커플링 헤드는 YOLO-World 프레임워크에서 사용되며, 객체 임베딩과 경계 상자를 회귀하기 위해 두 개의 3×3 컨볼루션을 사용한다. YOLO-World 프레임워크는 텍스트 임베딩을 사용하여 객체-텍스트 유사성을 얻기 위해 L2 정규화 접근 방식을 사용한다. 또한, YOLO-World 모델은 지역-텍스트 훈련 중 모델의 안정성을 향상시키기 위해 L2 정규화와 어파인 변환 접근 방식을 사용한다.

온라인 어휘 훈련

훈련 단계에서, YOLO-World 모델은 각 모자이크 샘플(4개의 이미지로 구성됨)에 대한 온라인 어휘를 구성한다. 모델은 모자이크 이미지에 포함된 모든 양성 명사를 샘플링하고, 일부 음성 명사를 해당 데이터셋에서 무작위로 샘플링한다. 샘플의 어휘는 최대 n개의 명사로 구성되며, 기본값은 80이다.

오프라인 어휘 추론

추론 단계에서, YOLO-World 모델은 오프라인 어휘와 함께 프롬프트-그런다 전략을 제시하여 모델의 효율성을进一步 향상시킨다. 사용자는 일련의 사용자 정의 프롬프트를 정의하여 카테고리 또는 캡션을 포함할 수 있다. YOLO-World 모델은 이러한 프롬프트를 텍스트 인코더로 인코딩하여 오프라인 어휘 임베딩을 얻는다. 따라서, 추론을 위한 오프라인 어휘는 모델이 각 입력에 대한 계산을 피할 수 있도록 하며, 또한 모델이 요구 사항에 따라 어휘를 유연하게 조정할 수 있도록 한다.

Re-parameterizable Vision-Language Path Aggression Network (RepVL-PAN)

다음 그림은 제안된 Re-parameterizable Vision-Language Path Aggression Network의 구조를 보여준다. 이는 상향식 및 하향식 경로를 따라 다중 스케일 특징 이미지를 가진 피라미드를 구축한다.

텍스트와 이미지 특징 간의 상호 작용을 향상시키기 위해, YOLO-World 모델은 Image-Pooling Attention 및 Text-Guided CSPLayer(Cross-Stage Partial Layers)를 제안한다. 이는 오픈 어휘 능력을 위한 시각-의미적 표현을 향상시키는 것을 목표로 한다. 추론 단계에서, YOLO-World 모델은 오프라인 어휘 임베딩을 선형 또는 컨볼루션 계층의 가중치로 재매개화하여 효율적인 배포를 가능하게 한다.

위의 그림에서 볼 수 있듯이, YOLO-World 모델은 상향식 또는 하향식 퓨전 이후에 CSPLayer를 사용하며, 다중 스케일 이미지 특징에 텍스트 가이드를 통합하여 Text-Guided CSPLayer를 형성한다. 이는 CSPLayer를 확장한다. 任意의 이미지 특징과 해당 텍스트 임베딩에 대해, 모델은 마지막 병목 블록 이후에 최대 시그모이드 어텐션을 사용하여 텍스트 특징을 이미지 특징으로 집계한다. 업데이트된 이미지 특징은 크로스 스테이지 특징과 연결되어 출력으로 제공된다.

さらに, YOLO-World 모델은 이미지 특징을 집계하여 텍스트 임베딩을 업데이트하기 위해 Image Pooling Attention 레이어를 도입한다. 이는 이미지 정보를 사용하여 텍스트 임베딩을 향상시킨다. 이미지 특징에 직접 크로스 어텐션을 사용하는 대신, 모델은 다중 스케일 특징에 최대 풀링을 적용하여 3×3 패치 토큰을 얻는다. 모델은 다음 단계에서 텍스트 임베딩을 업데이트한다.

사전 훈련 方案

YOLO-World 모델은 두 가지 주요 사전 훈련 方案을 따른다. 첫 번째는 지역-텍스트 대조적 손실을 사용하는 것이다. 두 번째는 이미지-텍스트 데이터를 사용하여 의사 레이블링을 하는 것이다. 첫 번째 사전 훈련 方案에서, 모델은 예측된 객체와 주어진 텍스트 및 모자이크 샘플에 대한 주석을 출력한다. YOLO-World 프레임워크는 예측과 그라운드 트루스 주석을 일치시키기 위해 태스크 할당 레이블 할당을 사용한다. 각 양성 예측에 텍스트 인덱스를 할당하여 분류 레이블을 제공한다. 두 번째 사전 훈련 方案에서는 이미지-텍스트 데이터를 사용하여 의사 레이블링을 제안한다. 의사 레이블링 접근 방식은 세 단계로 구성된다: 명사구 추출, 의사 레이블링, 및 필터링.

YOLO-World : 결과

YOLO-World 모델이 사전 훈련된 후, LVIS 데이터셋에서 제로샷 설정으로 평가된다. LVIS 데이터셋은 1200개 이상의 카테고리를 포함하며, 이는 기존 프레임워크가 대규모 어휘 감지 성능을 테스트하는 데 사용된 데이터셋보다 훨씬 많다. 다음 그림은 YOLO-World 프레임워크와 일부 기존의 최신 객체 감지 프레임워크의 성능을 LVIS 데이터셋에서 제로샷 설정으로 보여준다.

그림에서 볼 수 있듯이, YOLO-World 프레임워크는 대부분의 기존 프레임워크보다 추론 속도와 제로샷 성능에서 뛰어난 성능을 보여준다. 이는 Grounding DINO, GLIP, 및 GLIPv2와 같은 프레임워크가 더 많은 데이터를 포함하는 경우에도如此하다. 전반적으로, 결과는 작은 객체 감지 모델인 YOLO-World-S(1300만 개의 매개변수만 있음)가 비전-언어 작업을 위한 사전 훈련에서 뛰어난 오픈 어휘 능력을 보여줄 수 있음을 시사한다.

최종 생각

이 기사에서, 우리는 YOLO-World에 대해 논의했다. 이는 YOLO 또는 You Only Look Once 프레임워크를 오픈 어휘 감지 능력으로 향상시키는 혁신적인 접근 방식이다. 구체적으로, YOLO-World 프레임워크는 Re-parameterizable Vision-Language Path Aggregation Network(RepVL-PAN) 및 지역-텍스트 대조적 손실을 구현하여 언어적 및 시각적 정보 간의 상호 작용을 촉진한다. RepVL-PAN 및 지역-텍스트 대조적 손실을 통해, YOLO-World 프레임워크는 제로샷 설정에서 광범위한 객체를 정확하게 감지할 수 있다.

전문직으로서의 엔지니어, 마음으로서의 작가입니다. Kunal은 AI와 ML에 대한 깊은 사랑과 이해를 가진 기술 작가로, 이러한 분야의 복잡한 개념을 흥미롭고 정보적인 문서를 통해 단순화하는데 헌신하고 있습니다.