인공 지능

컴퓨터 비전에서 '융합된' 인간 분리

업데이트 on 2022 년 12 월 9 일

싱가포르 현대자동차그룹 혁신센터의 새로운 논문은 컴퓨터 비전에서 '융합된' 인간을 분리하는 방법을 제시합니다. 즉, 객체 인식 프레임워크가 어떤 방식으로든 다른 인간과 '너무 가까운' 인간을 발견한 경우입니다(예: '껴안는' 행동, '뒤에 서 있는' 자세 등) 표현된 두 사람을 분리할 수 없어 한 사람이나 단체로 혼동됩니다.

둘이 하나가 되지만 의미론적 분할에서는 좋지 않습니다. 여기에서 우리는 복잡하고 도전적인 이미지에서 얽힌 사람들의 개별화에 대한 최첨단 결과를 달성하는 논문의 새로운 시스템을 봅니다. 출처 : https://arxiv.org/pdf/2210.03686.pdf

이것은 최근 몇 년 동안 연구 커뮤니티에서 많은 관심을 받은 주목할만한 문제입니다. 명백하지만 일반적으로 감당할 수 없는 하이퍼스케일의 비용 없이 이 문제를 해결하는 인간 주도 맞춤형 라벨링은 결국 다음과 같은 텍스트-이미지 시스템에서 인간의 개별화를 개선할 수 있습니다. 안정적인 확산, 프롬프트된 포즈를 취하려면 여러 사람이 서로 가까이 있어야 하는 경우 사람들을 자주 '녹이게' 합니다.

공포를 받아들이십시오 – DALL-E 2 및 Stable Diffusion(둘 다 위에서 언급)과 같은 텍스트-이미지 모델은 서로 매우 근접한 사람들을 표현하기 위해 고군분투합니다.

DALL-E 2 및 Stable Diffusion과 같은 생성 모델은 (누군가 아는 한, 폐쇄 소스 DALL-E 2의 경우) 현재 시맨틱 분할 또는 객체 인식을 사용하지 않지만 이러한 기괴한 인간 포트만토는 사용할 수 없습니다. 현재 이러한 업스트림 방법을 적용하여 치료할 수 있습니다. 최신 개체 인식 라이브러리 및 리소스가 사람들을 풀어주는 데 그다지 좋지 않기 때문입니다. 쥐다잠재 확산 모델의 기반 워크플로.

이 문제를 해결하기 위해 새 용지 – 제목 인간은 더 많은 인간에 라벨을 붙일 필요가 없습니다: 폐색된 인간 인스턴스 분할을 위한 폐색 복사 및 붙여넣기– 가장 까다로운 소스 자료에 대해서도 작업에서 새로운 SOTA 선두를 달성하기 위해 반합성 데이터에 대한 최근 '잘라내기 및 붙여넣기' 접근 방식을 적용하고 개선합니다.

새로운 오클루전 복사 및 붙여넣기 방법론은 현재 특히 오클루전을 위한 모델링과 같이 정교하고 보다 전용적인 방식으로 문제를 해결하는 이전 프레임워크 및 접근 방식에 비해 이 분야를 선도하고 있습니다.

잘라!

수정된 방법 – 제목 폐색 복사 및 붙여넣기 – 2021년부터 파생 간단한 복사-붙여넣기 Google Research가 이끄는 논문은 다양한 소스 훈련 이미지 중에서 추출된 개체와 사람을 중첩하면 이미지에서 발견된 각 인스턴스를 이산화하는 이미지 인식 시스템의 능력을 향상시킬 수 있다고 제안했습니다.

2021년 Google Research가 주도한 논문 'Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation'에서 우리는 더 우수하고 예리한 이미지 인식 모델을 교육할 목적으로 한 사진의 요소가 다른 사진으로 '마이그레이션'되는 것을 봅니다. . 출처: https://arxiv.org/pdf/2012.07177.pdf

2021년 Google Research 주도 논문 'Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation'에서 우리는 더 나은 이미지 인식 모델을 교육할 목적으로 한 사진의 요소가 다른 사진으로 '이동'하는 것을 볼 수 있습니다. 출처 : https://arxiv.org/pdf/2012.07177.pdf

새 버전은 이 자동화된 알고리즘 '다시 붙여넣기'에 제한과 매개변수를 추가하여 몇 가지 주요 요소를 기반으로 다른 이미지로 '전송'할 수 있는 잠재적 후보로 가득 찬 이미지의 '바구니'로 프로세스를 유추합니다.

OC&P의 개념적 워크플로입니다.

요소 제어

이러한 제한 요인에는 다음이 포함됩니다. 확률 잘라 내기 및 붙여 넣기 발생, 프로세스가 항상 발생하지 않도록 보장하여 데이터 증가를 약화시키는 '포화'효과를 달성합니다. 그만큼 이미지 수 더 많은 수의 '세그먼트'가 인스턴스의 다양성을 향상시킬 수 있지만 전처리 시간이 증가할 수 있는 바스켓이 한 번에 가질 수 있습니다. 그리고 범위, '호스트' 이미지에 붙여넣을 이미지 수를 결정합니다.

후자에 관해서는 종이 노트 '우리는 발생하기 위해 충분한 차폐가 필요하지만 학습에 해로울 수 있는 이미지를 과도하게 어수선하게 만들 수 있으므로 너무 많지는 않습니다.'

OC&P의 다른 두 가지 혁신은 다음과 같습니다. 대상 붙여넣기 과 증강 인스턴스 붙여넣기.

대상 붙여넣기는 적절한 이미지가 대상 이미지의 기존 인스턴스 근처에 놓이도록 합니다. 이전 접근 방식에서는 이전 작업에서 새 요소가 컨텍스트를 고려하지 않고 이미지의 경계 내에서만 제한되었습니다.

표적 붙여넣기가 포함된 이 '붙여넣기'는 사람의 눈에 명백하지만 OC&P와 그 전임자 모두 시각적 진정성이 반드시 중요한 것은 아니며 문제가 될 수도 있음을 발견했습니다(아래 'Reality Bites' 참조).

반면에 증강 인스턴스 붙여넣기는 붙여넣은 인스턴스가 어떤 식으로든 시스템에 의해 분류될 수 있는 '특이한 모양'을 나타내지 않도록 합니다. 이로 인해 일반화 및 적용 가능성을 방해할 수 있는 제외 또는 '특별 처리'가 발생할 수 있습니다. . 증강 붙여넣기는 무엇보다도 밝기와 선명도, 크기 조정 및 회전, 채도와 같은 시각적 요소를 조절합니다.

새 논문의 보충 자료에서: 기존 인식 프레임워크에 OC&P를 추가하는 것은 매우 사소하며 매우 가까운 범위에 있는 사람들의 뛰어난 개별화를 가져옵니다. 출처: https://arxiv.org/src/2210.03686v1/anc/OcclusionCopyPaste_Supplementary.pdf

또한 OC&P는 최소 크기 붙여넣은 인스턴스에 대해. 예를 들어 대규모 군중 장면에서 한 사람의 이미지를 추출하여 다른 이미지에 붙여넣을 수 있습니다. 하지만 이 경우 관련 픽셀 수가 적기 때문에 인식에 도움이 되지 않을 수 있습니다. 따라서 시스템은 대상 이미지에 대해 균등화된 측면 길이의 비율을 기반으로 최소 스케일을 적용합니다.

또한 OC&P는 크기 인식 붙여넣기를 도입하여 붙여넣기 대상과 유사한 대상을 찾는 것 외에도 대상 이미지의 경계 상자 크기를 고려합니다. 그러나 이것은 사람들이 그럴듯하거나 사실적이라고 생각할 합성 이미지로 이어지지는 않지만(아래 이미지 참조) 오히려 학습 중에 도움이 되는 방식으로 의미적으로 적절한 요소를 서로 가까이 조립합니다.

현실 물린

OC&P의 기반이 되는 이전 작업과 현재 구현 모두 최종 '몽타주' 이미지의 '포토리얼리티' 또는 진정성에 낮은 프리미엄을 부여합니다. 최종 어셈블리가 다다이즘 (그렇지 않으면 훈련된 시스템의 실제 배포는 훈련된 것과 같은 장면에서 요소를 만나기를 결코 바랄 수 없습니다.) 두 이니셔티브 모두 '시각적 신뢰성'의 눈에 띄는 증가가 사전 처리 시간을 추가할 뿐만 아니라 그러한 '사실주의 향상'은 실제로 비생산적일 수 있습니다.

새 논문의 보충 자료에서: '랜덤 블렌딩'을 사용한 증강 이미지의 예. 이러한 장면은 사람에게는 환각처럼 보일 수 있지만 그럼에도 불구하고 유사한 주제가 함께 던져집니다. 폐색이 인간의 눈에는 환상적이지만 잠재적인 폐색의 특성은 사전에 알 수 없으며 훈련이 불가능합니다. 따라서 이러한 기괴한 형태의 '차단'은 훈련된 시스템이 장면을 보다 그럴듯하게 만들기 위해 정교한 Photoshop 스타일의 방법론을 개발할 필요 없이 부분적인 대상 피사체를 인식하고 인식합니다.

데이터 및 테스트

테스트 단계에서 시스템은 사람 클래스 MS 코코 262,465개의 이미지에서 64,115개의 인간 예시를 포함하는 데이터 세트. 그러나 MS COCO보다 더 나은 품질의 마스크를 얻기 위해 이미지도 수신했습니다. 엘비스 마스크 주석.

Facebook 연구에서 2019년에 출시된 LVIS는 대규모 어휘 인스턴스 세분화를 위한 방대한 데이터 세트입니다. 출처 : https://arxiv.org/pdf/1908.03195.pdf

증강 시스템이 많은 수의 가려진 인간 이미지에 대해 얼마나 잘 경쟁할 수 있는지 평가하기 위해 연구자들은 OC&P를 OC인간 (가려진 인간) 벤치마크.

2년 Pose2018Seg 감지 프로젝트를 지원하기 위해 도입된 OCHUman 데이터세트의 예입니다. 이 이니셔티브는 자세와 포즈를 신체를 나타내는 픽셀이 끝날 가능성이 있는 위치의 의미론적 구분 기호로 사용하여 사람들의 향상된 의미론적 분할을 도출하고자 했습니다. 출처: https://github.com/liruilong940607/OCHUmanApi

2년 Pose2018Seg 감지 프로젝트를 지원하기 위해 도입된 OCHUman 데이터세트의 예입니다. 이 이니셔티브는 자세와 포즈를 신체를 나타내는 픽셀의 의미론적 구분 기호로 사용하여 사람들의 의미론적 세분화를 개선하고자 했습니다. 출처: https://github.com/liruilong940607/OCHUmanApi

OCHUman 벤치마크는 철저하게 주석이 달려 있지 않기 때문에 새 논문의 연구원들은 완전히 레이블이 지정된 예제의 하위 집합인 OCHUman을 만들었습니다.^FL. 이로 인해 횟수가 줄었습니다. 사람 검증을 위해 2,240개의 이미지에서 1,113개의 인스턴스, 테스트에 사용된 1,923개의 실제 이미지에서 951개의 인스턴스. 평균 평균 정밀도(mAP)를 핵심 메트릭으로 사용하여 원본 세트와 새로 큐레이트된 세트를 모두 테스트했습니다.

일관성을 위해 아키텍처는 다음과 같이 구성되었습니다. 마스크 R-CNN ResNet-50 백본과 기능 피라미드 네트워크, 후자는 정확도와 교육 속도 사이에서 허용 가능한 절충안을 제공합니다.

연구자들은 업스트림의 유해한 영향을 지적했습니다. IMAGEnet 비슷한 상황에서 전체 시스템은 Facebook의 4 릴리스의 초기화 매개변수에 따라 100 에포크 동안 75개의 NVIDIA V2021 GPU에서 처음부터 훈련되었습니다. 디텍트론 2.

결과

위에서 언급한 결과 외에도 기본 결과는 MM탐지 (및 관련 세 가지 모델) 테스트를 통해 OC&P가 복잡한 포즈에서 인간을 골라내는 능력에서 분명한 우위를 보였다.

뛰어난 성능 외에도 포세그 과 포즈2세그, 아마도 이 논문의 가장 뛰어난 성과 중 하나는 시스템이 시험에서 반대되는 프레임워크를 포함하여 기존 프레임워크에 상당히 일반적으로 적용될 수 있다는 것입니다(첫 번째 결과 상자의 비교 유무 비교 참조, 시작 부분 근처). 기사).

이 논문은 다음과 같이 결론을 내립니다.

'우리 접근 방식의 주요 이점은 모든 모델 또는 기타 모델 중심 개선 사항에 쉽게 적용할 수 있다는 것입니다. 딥 러닝 분야가 움직이는 속도를 고려할 때 교육의 다른 모든 측면과 고도로 상호 운용 가능한 접근 방식을 갖는 것이 모든 사람에게 유리합니다. 우리는 이를 모델 중심 개선과 통합하여 차단된 개인 인스턴스 분할을 효과적으로 해결하는 작업을 향후 작업으로 남겨둡니다.'

텍스트-이미지 합성 개선 가능성

수석 저자인 Evan Ling은 우리*에게 보낸 이메일에서 OC&P의 가장 큰 이점은 원래 마스크 라벨을 유지하고 새로운 맥락에서 '무료로' 새로운 가치를 얻을 수 있다는 점이라고 밝혔습니다. 에 붙여넣었습니다.

인간의 의미론적 분할은 안정적인 확산과 같은 모델이 사람들을 개별화하는 데 있어 어려움과 밀접한 관련이 있는 것처럼 보이지만(종종 그렇듯이 의미론적 분류 문화가 악몽 같은 인간에게 미칠 수 있는 영향 SD 및 DALL-E 2의 출력이 매우 매우 업스트림인 경우가 많습니다.

수십억의 라이온 5B Stable Diffusion의 생성 능력을 채우는 하위 집합 이미지는 경계 상자 및 인스턴스 마스크와 같은 개체 수준 레이블을 포함하지 않습니다. 이미지 및 데이터베이스 콘텐츠에서 렌더링을 구성하는 CLIP 아키텍처가 이러한 인스턴스화의 어느 시점에서 이점을 얻었을 수도 있습니다. 대신, LAION 이미지는 웹에서 데이터세트로 스크랩할 때 이미지와 연결된 메타데이터 및 환경 캡션 등에서 레이블이 파생되었기 때문에 '무료'로 레이블이 지정됩니다.

'하지만 그건 제쳐두고'Ling이 우리에게 말했습니다. 우리의 OC&P와 유사한 어떤 종류의 증강은 텍스트-이미지 생성 모델 훈련 중에 활용될 수 있습니다. 하지만 증강 훈련 이미지의 현실감이 문제가 될 수 있다고 생각합니다.

'우리 작업에서 우리는 '완벽한' 현실감이 일반적으로 감독된 인스턴스 분할에 필요하지 않다는 것을 보여주지만, 텍스트-이미지 생성 모델 훈련에 대해 동일한 결론을 도출할 수 있는지 확신할 수 없습니다(특히 그들의 출력이 매우 현실적일 것으로 예상됩니다). 이 경우 증강 이미지의 사실성을 '완벽하게' 하는 측면에서 더 많은 작업이 필요할 수 있습니다.'

클립은 이미 사용중 OC&P와 같은 개선된 사람 인식 및 개별화 시스템이 궁극적으로 '융합' 및 왜곡된 인간 표현을 임의로 거부하는 시스템 내 필터 또는 분류기로 개발될 수 있음을 시사하는 의미론적 분할을 위한 가능한 다중 모드 도구로, 달성하기 어려운 작업입니다. 현재 Stable Diffusion을 사용하는 이유는 어디에서 오류가 발생했는지 이해하는 능력이 제한되어 있기 때문입니다(그런 능력이 있었다면 애초에 실수를 저지르지 않았을 것입니다).

시맨틱 분할을 위해 현재 OpenAI의 CLIP 프레임워크(DALL-E 2 및 안정적인 확산의 핵심)를 활용하는 여러 프로젝트 중 하나에 불과합니다. 출처: https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_CRIS_CLIP-Driven_Referring_Image_Segmentation_CVPR_2022_paper.pdf

'또 다른 질문이 있습니다'라고 Ling이 제안합니다. '인간 융합' 문제를 완화하기 위해 보완적인 모델 아키텍처 설계 없이 교육 작업 중에 가려진 인간의 이러한 생성 모델 이미지를 단순히 공급할 것인가? 그것은 아마도 대답하기 어려운 질문일 것입니다. 텍스트에서 이미지로의 생성 모델 교육 중에 인스턴스 마스크와 같은 인스턴스 수준 레이블을 통해 일종의 인스턴스 수준 지침을 주입할 수 있는 방법을 보는 것은 확실히 흥미로울 것입니다.'

* 10년 2022월 XNUMX일

10년 2022월 XNUMX일에 처음 게시되었습니다.