인공지능

비전 트랜스포머, 새로운 ‘패치-클러스터 주의’ 방법으로 도전 과제 극복

Published June 5, 2023

Updated April 4, 2026

Alex McFarland

인공지능(AI) 기술, 특히 비전 트랜스포머(ViTs)는 이미지에서 객체를 식별하고 분류하는 능력에서 엄청난 잠재력을 보여주었습니다. 그러나 실제 적용은 두 가지 주요 도전으로 제한되었습니다. 높은 계산 요구와 의사 결정의 투명성 결여입니다. 이제 연구자들은 혁신적인 해결책을 개발했습니다. “패치-클러스터 주의”(PaCa)라는 새로운 방법론입니다. PaCa는 이미지 객체 식별, 분류 및 분할에서 ViTs의 능력을 향상시키고 동시에 계산 요구와 의사 결정 명확성의 오랜 문제를 해결하는 것을 목표로 합니다.

비전 트랜스포머의 도전 과제 해결: 새로운 해결책의 일瞥

트랜스포머는 우수한 능력으로 인해 AI 세계에서 가장 영향력 있는 모델 중 하나입니다. 이러한 모델의 힘은 시각적 데이터를 통해 비전 트랜스포머(ViTs)로 확장되었습니다. ViTs는 이미지 해석과 이해에서 엄청난 잠재력을 제공하지만 두 가지 주요 문제로 인해 제한되었습니다.

첫째, 이미지에는大量의 데이터가 포함되어 있기 때문에 ViTs는大量의 계산 능력과 메모리가 필요합니다. 이러한 복잡성은 특히 고해상도 이미지의 경우 많은 시스템에 압倒적일 수 있습니다. 둘째, ViTs 내의 의사 결정 과정은 종종 복잡하고 불투명합니다. 사용자는 ViTs가 이미지의 다양한 객체 또는 특징을 어떻게 구별하는지 이해하기 어렵습니다. 이는 많은 응용 프로그램에서 필수적입니다.

그러나 혁신적인 PaCa 방법론은 이러한 두 가지 도전 과제에 대한 해결책을 제공합니다. “클러스터링 기술을 사용하여 계산 및 메모리 요구와 관련된 도전 과제를 해결하고, 트랜스포머 아키텍처가 이미지의 객체에 더 잘 집중할 수 있도록 합니다”라고 Tianfu Wu는 설명합니다. Wu는 노스 캐롤라이나 주립 대학교의 전기 및 컴퓨터 공학 부교수이며 이 연구의 저자입니다.

PaCa에서 클러스터링 기술의 사용은 계산 요구를 크게 줄입니다. 이는 2차 과정에서 관리 가능한 1차 과정으로 바뀝니다. Wu는 과정에 대해 자세히 설명합니다. “클러스터링을 통해 이 과정을 선형화할 수 있으며, 각 작은 단위는 미리 정의된 클러스터 수만큼 비교하면 됩니다.”

클러스터링은 또한 ViTs의 의사 결정 과정을 명확하게 합니다. 클러스터를 형성하는 과정은 ViT가 이미지 데이터의 섹션을 함께 그룹화하는 데 중요한 특징을 어떻게 결정하는지 보여줍니다. AI는 제한된 수의 클러스터만 생성하므로 사용자는 쉽게 의사 결정 과정을 이해하고 검사할 수 있으며, 이는 모델의 해석 가능성을 크게 향상시킵니다.

PaCa 방법론, 다른 최신 비전 트랜스포머보다 우수

포괄적인 테스트를 통해 연구자들은 PaCa 방법론이 여러 면에서 다른 비전 트랜스포머를 능가한다는 것을 발견했습니다. Wu는 “PaCa가 SWin과 PVT를 모든 면에서 능가한다는 것을 발견했습니다”라고 설명합니다. 테스트 과정에서 PaCa는 이미지 내의 객체를 분류하고 식별하는 데 뛰어나고, 효율적으로 이미지의 객체 경계를 그리는 데에도 우수함을 보여주었습니다. 또한 다른 비전 트랜스포머보다 작업을 더 빠르게 수행하는 것으로 나타났습니다.

PaCa의 성공에 고무된 연구 팀은 더 큰 기초 데이터셋에서 훈련함으로써 개발을 더욱 진행하고자 합니다. 이를 통해 현재 이미지 기반 AI에서 가능한 한계를 확대하기를 희망합니다.

연구 논문 “PaCa-ViT: Vision Transformers에서 Patch-to-Cluster Attention 학습“은 即將舉行의 IEEE/CVF Conference on Computer Vision and Pattern Recognition에서 발표될 예정입니다. 이는 더 효율적이고 투명하며 접근하기 쉬운 AI 시스템을 위한 중요한 里程碑가 될 수 있습니다.