인공 지능
컴퓨터 비전에서 '융합된' 인간 분리
싱가포르 현대자동차그룹 혁신센터의 새로운 논문은 컴퓨터 비전에서 '융합된' 인간을 분리하는 방법을 제시합니다. 즉, 객체 인식 프레임워크가 어떤 방식으로든 다른 인간과 '너무 가까운' 인간을 발견한 경우입니다(예: '껴안는' 행동, '뒤에 서 있는' 자세 등) 표현된 두 사람을 분리할 수 없어 한 사람이나 단체로 혼동됩니다.
이것은 최근 몇 년 동안 연구 커뮤니티에서 많은 관심을 받은 주목할만한 문제입니다. 명백하지만 일반적으로 감당할 수 없는 하이퍼스케일의 비용 없이 이 문제를 해결하는 인간 주도 맞춤형 라벨링은 결국 다음과 같은 텍스트-이미지 시스템에서 인간의 개별화를 개선할 수 있습니다. 안정적인 확산, 프롬프트된 포즈를 취하려면 여러 사람이 서로 가까이 있어야 하는 경우 사람들을 자주 '녹이게' 합니다.
DALL-E 2 및 Stable Diffusion과 같은 생성 모델은 (누군가 아는 한, 폐쇄 소스 DALL-E 2의 경우) 현재 시맨틱 분할 또는 객체 인식을 사용하지 않지만 이러한 기괴한 인간 포트만토는 사용할 수 없습니다. 현재 이러한 업스트림 방법을 적용하여 치료할 수 있습니다. 최신 개체 인식 라이브러리 및 리소스가 사람들을 풀어주는 데 그다지 좋지 않기 때문입니다. 쥐다잠재 확산 모델의 기반 워크플로.
이 문제를 해결하기 위해 새 용지 – 제목 인간은 더 많은 인간에 라벨을 붙일 필요가 없습니다: 폐색된 인간 인스턴스 분할을 위한 폐색 복사 및 붙여넣기– 가장 까다로운 소스 자료에 대해서도 작업에서 새로운 SOTA 선두를 달성하기 위해 반합성 데이터에 대한 최근 '잘라내기 및 붙여넣기' 접근 방식을 적용하고 개선합니다.
잘라!
수정된 방법 – 제목 폐색 복사 및 붙여넣기 – 2021년부터 파생 간단한 복사-붙여넣기 Google Research가 이끄는 논문은 다양한 소스 훈련 이미지 중에서 추출된 개체와 사람을 중첩하면 이미지에서 발견된 각 인스턴스를 이산화하는 이미지 인식 시스템의 능력을 향상시킬 수 있다고 제안했습니다.
새 버전은 이 자동화된 알고리즘 '다시 붙여넣기'에 제한과 매개변수를 추가하여 몇 가지 주요 요소를 기반으로 다른 이미지로 '전송'할 수 있는 잠재적 후보로 가득 찬 이미지의 '바구니'로 프로세스를 유추합니다.
요소 제어
이러한 제한 요인에는 다음이 포함됩니다. 확률 잘라 내기 및 붙여 넣기 발생, 프로세스가 항상 발생하지 않도록 보장하여 데이터 증가를 약화시키는 '포화'효과를 달성합니다. 그만큼 이미지 수 더 많은 수의 '세그먼트'가 인스턴스의 다양성을 향상시킬 수 있지만 전처리 시간이 증가할 수 있는 바스켓이 한 번에 가질 수 있습니다. 그리고 범위, '호스트' 이미지에 붙여넣을 이미지 수를 결정합니다.
후자에 관해서는 종이 노트 '우리는 발생하기 위해 충분한 차폐가 필요하지만 학습에 해로울 수 있는 이미지를 과도하게 어수선하게 만들 수 있으므로 너무 많지는 않습니다.'
OC&P의 다른 두 가지 혁신은 다음과 같습니다. 대상 붙여넣기 과 증강 인스턴스 붙여넣기.
대상 붙여넣기는 적절한 이미지가 대상 이미지의 기존 인스턴스 근처에 놓이도록 합니다. 이전 접근 방식에서는 이전 작업에서 새 요소가 컨텍스트를 고려하지 않고 이미지의 경계 내에서만 제한되었습니다.
반면에 증강 인스턴스 붙여넣기는 붙여넣은 인스턴스가 어떤 식으로든 시스템에 의해 분류될 수 있는 '특이한 모양'을 나타내지 않도록 합니다. 이로 인해 일반화 및 적용 가능성을 방해할 수 있는 제외 또는 '특별 처리'가 발생할 수 있습니다. . 증강 붙여넣기는 무엇보다도 밝기와 선명도, 크기 조정 및 회전, 채도와 같은 시각적 요소를 조절합니다.
또한 OC&P는 최소 크기 붙여넣은 인스턴스에 대해. 예를 들어 대규모 군중 장면에서 한 사람의 이미지를 추출하여 다른 이미지에 붙여넣을 수 있습니다. 하지만 이 경우 관련 픽셀 수가 적기 때문에 인식에 도움이 되지 않을 수 있습니다. 따라서 시스템은 대상 이미지에 대해 균등화된 측면 길이의 비율을 기반으로 최소 스케일을 적용합니다.
또한 OC&P는 크기 인식 붙여넣기를 도입하여 붙여넣기 대상과 유사한 대상을 찾는 것 외에도 대상 이미지의 경계 상자 크기를 고려합니다. 그러나 이것은 사람들이 그럴듯하거나 사실적이라고 생각할 합성 이미지로 이어지지는 않지만(아래 이미지 참조) 오히려 학습 중에 도움이 되는 방식으로 의미적으로 적절한 요소를 서로 가까이 조립합니다.
현실 물린
OC&P의 기반이 되는 이전 작업과 현재 구현 모두 최종 '몽타주' 이미지의 '포토리얼리티' 또는 진정성에 낮은 프리미엄을 부여합니다. 최종 어셈블리가 다다이즘 (그렇지 않으면 훈련된 시스템의 실제 배포는 훈련된 것과 같은 장면에서 요소를 만나기를 결코 바랄 수 없습니다.) 두 이니셔티브 모두 '시각적 신뢰성'의 눈에 띄는 증가가 사전 처리 시간을 추가할 뿐만 아니라 그러한 '사실주의 향상'은 실제로 비생산적일 수 있습니다.
데이터 및 테스트
테스트 단계에서 시스템은 사람 클래스 MS 코코 262,465개의 이미지에서 64,115개의 인간 예시를 포함하는 데이터 세트. 그러나 MS COCO보다 더 나은 품질의 마스크를 얻기 위해 이미지도 수신했습니다. 엘비스 마스크 주석.
증강 시스템이 많은 수의 가려진 인간 이미지에 대해 얼마나 잘 경쟁할 수 있는지 평가하기 위해 연구자들은 OC&P를 OC인간 (가려진 인간) 벤치마크.
OCHUman 벤치마크는 철저하게 주석이 달려 있지 않기 때문에 새 논문의 연구원들은 완전히 레이블이 지정된 예제의 하위 집합인 OCHUman을 만들었습니다.FL. 이로 인해 횟수가 줄었습니다. 사람 검증을 위해 2,240개의 이미지에서 1,113개의 인스턴스, 테스트에 사용된 1,923개의 실제 이미지에서 951개의 인스턴스. 평균 평균 정밀도(mAP)를 핵심 메트릭으로 사용하여 원본 세트와 새로 큐레이트된 세트를 모두 테스트했습니다.
일관성을 위해 아키텍처는 다음과 같이 구성되었습니다. 마스크 R-CNN ResNet-50 백본과 기능 피라미드 네트워크, 후자는 정확도와 교육 속도 사이에서 허용 가능한 절충안을 제공합니다.
연구자들은 업스트림의 유해한 영향을 지적했습니다. IMAGEnet 비슷한 상황에서 전체 시스템은 Facebook의 4 릴리스의 초기화 매개변수에 따라 100 에포크 동안 75개의 NVIDIA V2021 GPU에서 처음부터 훈련되었습니다. 디텍트론 2.
결과
위에서 언급한 결과 외에도 기본 결과는 MM탐지 (및 관련 세 가지 모델) 테스트를 통해 OC&P가 복잡한 포즈에서 인간을 골라내는 능력에서 분명한 우위를 보였다.
뛰어난 성능 외에도 포세그 과 포즈2세그, 아마도 이 논문의 가장 뛰어난 성과 중 하나는 시스템이 시험에서 반대되는 프레임워크를 포함하여 기존 프레임워크에 상당히 일반적으로 적용될 수 있다는 것입니다(첫 번째 결과 상자의 비교 유무 비교 참조, 시작 부분 근처). 기사).
이 논문은 다음과 같이 결론을 내립니다.
'우리 접근 방식의 주요 이점은 모든 모델 또는 기타 모델 중심 개선 사항에 쉽게 적용할 수 있다는 것입니다. 딥 러닝 분야가 움직이는 속도를 고려할 때 교육의 다른 모든 측면과 고도로 상호 운용 가능한 접근 방식을 갖는 것이 모든 사람에게 유리합니다. 우리는 이를 모델 중심 개선과 통합하여 차단된 개인 인스턴스 분할을 효과적으로 해결하는 작업을 향후 작업으로 남겨둡니다.'
텍스트-이미지 합성 개선 가능성
수석 저자인 Evan Ling은 우리*에게 보낸 이메일에서 OC&P의 가장 큰 이점은 원래 마스크 라벨을 유지하고 새로운 맥락에서 '무료로' 새로운 가치를 얻을 수 있다는 점이라고 밝혔습니다. 에 붙여넣었습니다.
인간의 의미론적 분할은 안정적인 확산과 같은 모델이 사람들을 개별화하는 데 있어 어려움과 밀접한 관련이 있는 것처럼 보이지만(종종 그렇듯이 의미론적 분류 문화가 악몽 같은 인간에게 미칠 수 있는 영향 SD 및 DALL-E 2의 출력이 매우 매우 업스트림인 경우가 많습니다.
수십억의 라이온 5B Stable Diffusion의 생성 능력을 채우는 하위 집합 이미지는 경계 상자 및 인스턴스 마스크와 같은 개체 수준 레이블을 포함하지 않습니다. 이미지 및 데이터베이스 콘텐츠에서 렌더링을 구성하는 CLIP 아키텍처가 이러한 인스턴스화의 어느 시점에서 이점을 얻었을 수도 있습니다. 대신, LAION 이미지는 웹에서 데이터세트로 스크랩할 때 이미지와 연결된 메타데이터 및 환경 캡션 등에서 레이블이 파생되었기 때문에 '무료'로 레이블이 지정됩니다.
'하지만 그건 제쳐두고'Ling이 우리에게 말했습니다. 우리의 OC&P와 유사한 어떤 종류의 증강은 텍스트-이미지 생성 모델 훈련 중에 활용될 수 있습니다. 하지만 증강 훈련 이미지의 현실감이 문제가 될 수 있다고 생각합니다.
'우리 작업에서 우리는 '완벽한' 현실감이 일반적으로 감독된 인스턴스 분할에 필요하지 않다는 것을 보여주지만, 텍스트-이미지 생성 모델 훈련에 대해 동일한 결론을 도출할 수 있는지 확신할 수 없습니다(특히 그들의 출력이 매우 현실적일 것으로 예상됩니다). 이 경우 증강 이미지의 사실성을 '완벽하게' 하는 측면에서 더 많은 작업이 필요할 수 있습니다.'
클립은 이미 사용중 OC&P와 같은 개선된 사람 인식 및 개별화 시스템이 궁극적으로 '융합' 및 왜곡된 인간 표현을 임의로 거부하는 시스템 내 필터 또는 분류기로 개발될 수 있음을 시사하는 의미론적 분할을 위한 가능한 다중 모드 도구로, 달성하기 어려운 작업입니다. 현재 Stable Diffusion을 사용하는 이유는 어디에서 오류가 발생했는지 이해하는 능력이 제한되어 있기 때문입니다(그런 능력이 있었다면 애초에 실수를 저지르지 않았을 것입니다).
'또 다른 질문이 있습니다'라고 Ling이 제안합니다. '인간 융합' 문제를 완화하기 위해 보완적인 모델 아키텍처 설계 없이 교육 작업 중에 가려진 인간의 이러한 생성 모델 이미지를 단순히 공급할 것인가? 그것은 아마도 대답하기 어려운 질문일 것입니다. 텍스트에서 이미지로의 생성 모델 교육 중에 인스턴스 마스크와 같은 인스턴스 수준 레이블을 통해 일종의 인스턴스 수준 지침을 주입할 수 있는 방법을 보는 것은 확실히 흥미로울 것입니다.'
* 10년 2022월 XNUMX일
10년 2022월 XNUMX일에 처음 게시되었습니다.