인공 지능

Google의 Imagic 및 Runway의 '지우기 및 바꾸기'를 사용한 AI 지원 개체 편집

업데이트 on 2022 년 12 월 9 일

이번 주에는 두 가지 새롭지만 대조적인 AI 기반 그래픽 알고리즘이 최종 사용자가 사진의 개체를 매우 세분화되고 효과적으로 변경할 수 있는 새로운 방법을 제공합니다.

첫 번째는 이미지, 이스라엘 기술 연구소 및 Weizmann 과학 연구소와 공동으로 Google Research에서 제공합니다. Imagic은 확산 모델의 미세 조정을 통해 개체를 텍스트 조건에 따라 세밀하게 편집할 수 있는 기능을 제공합니다.

원하는 대로 변경하고 나머지는 그대로 두십시오. Imagic은 변경하고 싶은 부분만 세부적으로 편집할 것을 약속합니다. 출처 : https://arxiv.org/pdf/2210.09276.pdf

Stable Diffusion re-render에서 단 하나의 요소만 변경하려고 시도한 적이 있는 사람이라면 모든 성공적인 편집에 대해 시스템이 사용자가 좋아하는 다섯 가지 항목을 그대로 변경한다는 사실을 잘 알고 있을 것입니다. 이러한 종류의 '부수적 손상'을 수정하기 위해 현재 가장 재능 있는 SD 애호가들이 Stable Diffusion과 Photoshop 사이를 끊임없이 뒤섞고 있는 것이 단점입니다. 이러한 관점에서만 볼 때 Imagic의 성과는 눈에 띕니다.

글을 쓰는 시점에서 Imagic은 아직 프로모션 비디오조차 부족하며 Google의 신중한 태도 자유로운 이미지 합성 도구를 출시하기 위해 시스템을 테스트할 기회를 어느 정도 얻을 수 있을지는 불확실합니다.

두 번째 제안은 Runway ML의 접근성이 더 좋은 것입니다. 지우고 바꾸기 시설, 새로운 기능 기계 학습 기반 시각 효과 유틸리티의 독점적인 온라인 제품군 중 'AI Magic Tools' 섹션에 있습니다.

Runway ML의 지우기 및 바꾸기 기능은 이미 텍스트-비디오 편집 시스템의 미리 보기에서 볼 수 있습니다. 출처: https://www.youtube.com/watch?v=41Qb58ZPO60

먼저 런웨이의 나들이부터 살펴보자.

지우고 바꾸기

Imagic과 마찬가지로 Erase and Replace는 스틸 이미지만을 취급하지만 Runway는 미리 아직 출시되지 않은 텍스트-비디오 편집 솔루션의 동일한 기능:

누구나 이미지에서 새로운 지우기 및 바꾸기를 테스트할 수 있지만 비디오 버전은 아직 공개되지 않았습니다. 출처: https://twitter.com/runwayml/status/1568220303808991232

Runway ML은 Erase and Replace 기술에 대한 세부 정보를 공개하지 않았지만 가정 식물을 합리적으로 설득력 있는 Ronald Reagan의 흉상으로 대체할 수 있는 속도는 Stable Diffusion과 같은 확산 모델(또는 가능성은 훨씬 적지만 라이선스 아웃 DALL-E 2)는 Erase and Replace에서 선택한 개체를 재창조하는 엔진입니다.

The Gipper의 흉상으로 집 식물을 교체하는 것은 이것만큼 빠르지는 않지만 꽤 빠릅니다. 출처: https://app.runwayml.com/

시스템에는 DALL-E 2 유형 제한이 있습니다. 지우기 및 교체 필터에 플래그를 지정하는 이미지 또는 텍스트는 추가 위반 시 계정 정지 가능성에 대한 경고를 트리거합니다. 실질적으로 OpenAI의 진행 중인 표준 복제본입니다. 정책 DALL-E 2 .

대부분의 결과는 Stable Diffusion의 전형적인 거친 가장자리가 부족합니다. Runway ML은 투자자이자 연구 파트너 SD에서, 우리가 현재 씨름하고 있는 오픈 소스 1.4 체크포인트 가중치보다 우수한 독점 모델을 교육했을 가능성이 있습니다(취미와 전문가를 비롯한 다른 많은 개발 그룹이 현재 교육 또는 미세 조정 중임). 안정적인 확산 모델).

Runway ML의 Erase and Replace에서 '얼음으로 만든 테이블'을 가정용 테이블로 대체합니다.

Imagic(아래 참조)과 마찬가지로 지우기 및 바꾸기는 '객체 지향적'입니다. 그림의 '빈' 부분을 지우고 텍스트 프롬프트의 결과로 다시 칠할 수는 없습니다. 이 시나리오에서 시스템은 마스크의 시선(예: 벽 또는 텔레비전)을 따라 가장 가까운 명백한 개체를 추적하고 거기에 변환을 적용합니다.

이름에서 알 수 있듯이 Erase and Replace에서는 빈 공간에 개체를 삽입할 수 없습니다. 여기에서 가장 유명한 시스 군주를 소환하려는 노력은 대략 '교체' 영역이 그려진 TV에 이상한 베이더 관련 벽화를 만듭니다.

Erase and Replace가 저작권이 있는 이미지(DALL-E 2에서 성공률은 다양하지만 여전히 대부분 차단되어 있음)의 사용과 관련하여 회피적인 것인지 아니면 백엔드 렌더링 엔진에서 사용되는 모델인지 구분하기 어렵습니다. 그런 종류의 것에 최적화되어 있지 않습니다.

약간의 NSFW 'Mural of Nicole Kidman'은 (아마도) 확산 기반 모델이 DALL-E 2의 현실적인 얼굴이나 선정적인 콘텐츠 렌더링에 대한 이전의 체계적 거부가 결여되어 있음을 나타냅니다. ('xenomorph') 터무니없는 ('철 왕좌'). 오른쪽 하단 삽입, 원본 사진.

지우기 및 바꾸기가 대체할 수 있는 개체를 격리하는 데 사용하는 방법을 아는 것은 흥미로울 것입니다. 아마도 이미지는 쥐다, 개체 인식 및 후속 의미 분할에 의해 개별화된 개별 항목이 있습니다. 이러한 작업 중 어느 것도 Stable Diffusion의 일반 또는 정원 설치에서 근처 어디에서도 작동하지 않습니다.

그러나 완벽한 것은 없습니다. 때로는 시스템이 지우고 교체하지 않는 것처럼 보입니다. 심지어(위의 이미지에서 볼 수 있듯이) 기본 렌더링 메커니즘이 텍스트 프롬프트의 의미를 확실히 알고 있는 경우에도 마찬가지입니다. 이 경우 커피 테이블을 이종 형태로 바꾸는 것은 불가능하다는 것이 입증되었습니다. 오히려 테이블이 사라집니다.

Erase and Replace가 외계인을 생성하지 못함에 따라 'Waldo는 어디에 있습니까'의 더 무서운 반복입니다.

지우기 및 바꾸기는 뛰어난 인페인팅 기능을 갖춘 효과적인 개체 대체 시스템으로 보입니다. 그러나 기존에 인식된 개체를 편집할 수는 없고 교체만 가능합니다. 주변 자료를 손상시키지 않고 기존 이미지 콘텐츠를 실제로 변경하는 것은 아마도 훨씬 더 어려운 작업일 것입니다. 풀리는 것 대중적인 프레임워크의 다양한 잠재 공간에서.

이미지

그것은 Imagec이 해결하는 작업입니다. 그만큼 새 용지 는 이미지의 나머지 부분은 그대로 두고 사진의 개별 측면을 성공적으로 수정하는 수많은 편집 예제를 제공합니다.

Imagic에서 수정된 이미지는 단일 이미지에서 파생된 제한된 사전을 활용하는 딥페이크 인형극의 특징적인 늘어남, 왜곡 및 '가림 추측' 특성으로 인해 어려움을 겪지 않습니다.

이 시스템은 텍스트 임베딩 최적화의 XNUMX단계 프로세스를 사용합니다. 모델 미세 조정; 마지막으로 수정된 이미지의 생성입니다.

Imagic은 대상 텍스트 프롬프트를 인코딩하여 초기 텍스트 임베딩을 검색한 다음 결과를 최적화하여 입력 이미지를 얻습니다. 그 후 생성 모델은 요청된 보간을 받기 전에 매개 변수 범위를 추가하여 원본 이미지에 맞게 미세 조정됩니다.

당연히 이 프레임워크는 Google의 영상 연구원들은 시스템의 원리가 잠재 확산 모델에 광범위하게 적용될 수 있다고 밝혔습니다.

Imagen은 회사의 최신 스토리지에 사용된 XNUMX계층 어레이가 아닌 XNUMX계층 아키텍처를 사용합니다. 텍스트-비디오 반복 소프트웨어의. 64개의 개별 모듈은 64x256px 해상도에서 작동하는 생성 확산 모델을 구성합니다. 이 출력을 256x1024px로 업스케일링하는 초해상도 모델; 최대 1024×XNUMX 해상도까지 출력할 수 있는 추가 초고해상도 모델.

Imagic은 이 프로세스의 초기 단계에 개입하여 64의 정적 학습 속도에서 Adam 최적화 프로그램의 0.0001px 단계에서 포함된 요청된 텍스트를 최적화합니다.

풀림의 마스터 클래스: 확산, GAN 또는 NeRF 모델에서 렌더링된 개체의 색상과 같은 간단한 것을 변경하려고 시도한 최종 사용자는 Imagic이 '찢어지지 않고 이러한 변환을 수행할 수 있다는 것이 얼마나 중요한지 알 것입니다. ' 나머지 이미지의 일관성.

그런 다음 수정된 임베딩을 조건으로 입력 이미지당 1500단계에 대해 Imagen의 기본 모델에서 미세 조정이 수행됩니다. 동시에 보조 64px>256px 레이어는 조정된 이미지에서 병렬로 최적화됩니다. 연구원들은 최종 256px>1024px 레이어에 대한 유사한 최적화가 최종 결과에 '거의 또는 전혀 영향을 미치지 않으므로' 이를 구현하지 않았다는 점에 주목합니다.

이 논문은 최적화 프로세스가 트윈의 각 이미지에 대해 약 XNUMX분이 걸린다고 말합니다. TPUV4 작은 조각. 최종 렌더링은 Core Imagen에서 DDIM 샘플링 방식.

Google의 유사한 미세 조정 프로세스와 공통점 드림부스, 결과 임베딩은 Imagen을 지원하는 더 넓은 기본 데이터베이스에서 가져온 정보를 포함하는 사실적인 편집뿐만 아니라 스타일 지정을 강화하는 데 추가로 사용할 수 있습니다(아래의 첫 번째 열에서 볼 수 있듯이 소스 이미지에는 필요한 콘텐츠가 없기 때문입니다. 이러한 변환에 영향을 미침).

Imagic을 통해 유연하고 사실적인 이동 및 편집을 이끌어낼 수 있으며, 프로세스에서 얻은 파생 및 풀린 코드는 양식화된 출력에 쉽게 사용할 수 있습니다.

연구원들은 Imagic을 이전 작업과 비교했습니다. SD편집, 2021년부터 GAN 기반 접근 방식, Stanford University와 Carnegie Mellon University 간의 협력; 그리고 텍스트2라이브, 2022년 XNUMX월부터 Weizmann Institute of Science와 NVIDIA 간의 협력.