부본 기계 학습을 통해 비디오에서 개체를 보다 효율적으로 제거 - Unite.AI
Rescale 미팅 예약

인공 지능

기계 학습을 통해 비디오에서 개체를 보다 효율적으로 제거

mm
업데이트 on

중국의 새로운 연구에서는 영상에서 개체를 교묘하게 제거할 수 있는 새로운 비디오 인페인팅 시스템에 대한 최첨단 결과와 인상적인 효율성 향상을 보고합니다.

행글라이더의 하네스는 새로운 절차에 의해 도색됩니다. 더 나은 해상도와 더 많은 예제를 보려면 소스 비디오(이 문서 하단에 포함됨)를 참조하십시오. 출처: https://www.youtube.com/watch?v=N--qC3T2wc4

행글라이더의 하네스는 새로운 절차에 의해 도색됩니다. 더 나은 해상도와 더 많은 예제를 보려면 소스 비디오(이 문서 하단에 포함됨)를 참조하십시오. 출처: https://www.youtube.com/watch?v=N–qC3T2wc4

Flow-Guided 비디오 인페인팅을 위한 End-to-End 프레임워크라고 하는 기술(E2FGVI), 비디오 콘텐츠에서 워터마크 및 기타 다양한 종류의 폐색을 제거할 수도 있습니다.

E2FGVI는 폐색 뒤에 있는 콘텐츠에 대한 예측을 계산하여 눈에 띄고 다루기 힘든 워터마크도 제거할 수 있습니다. 출처: https://github.com/MCG-NKU/E2FGVI

E2FGVI는 폐색 뒤에 있는 콘텐츠에 대한 예측을 계산하여 눈에 띄거나 다루기 힘든 워터마크도 제거할 수 있습니다. 출처: https://github.com/MCG-NKU/E2FGVI

더 나은 해상도로 더 많은 예제를 보려면 기사 끝에 포함된 비디오를 확인하십시오.

게시된 논문에 포함된 모델은 432px x 240px 비디오(일반적으로 낮은 입력 크기, 사용 가능한 GPU 공간 대 최적의 배치 크기 및 기타 요인에 의해 제약됨)에서 훈련되었지만, 저자는 이후 E2FGVI-HQ, 임의의 해상도로 비디오를 처리할 수 있습니다.

현재 버전의 코드는 가능 지난 일요일에 공개된 HQ 버전은 GitHub에서 다운로드할 수 있습니다. Google 드라이브바이두 디스크.

아이는 그림에 남아 있습니다.

아이는 그림에 남아 있습니다.

E2FGVI는 Titan XP GPU(432GB VRAM)에서 프레임당 240초로 0.12×12 비디오를 처리할 수 있으며, 저자는 시스템이 옵티컬 플로우.

테니스 선수가 예기치 않은 퇴장을 합니다.

테니스 선수가 예기치 않은 퇴장을 합니다.

이미지 합성 연구의 이 하위 부문에 대한 표준 데이터 세트에서 테스트된 새로운 방법은 정성 및 정량 평가 라운드 모두에서 경쟁 제품을 능가할 수 있었습니다.

이전 접근법에 대한 테스트. 출처: https://arxiv.org/pdf/2204.02663.pdf

이전 접근법에 대한 테스트. 출처 : https://arxiv.org/pdf/2204.02663.pdf

XNUMXD덴탈의 종이 제목이 흐름 안내 비디오 인페인팅을 위한 엔드 투 엔드 프레임워크를 향하여, Nankai University의 연구원 XNUMX명과 Hisilicon Technologies의 연구원 간의 공동 작업입니다.

이 그림에서 빠진 것

시각적 효과에 대한 명백한 응용 프로그램 외에도 고품질 비디오 인페인팅은 새로운 AI 기반 이미지 합성 및 이미지 변경 기술의 핵심 정의 기능이 될 것입니다.

이것은 특히 신체 변형 패션 응용 프로그램 및 기타 프레임워크의 경우입니다. '날씬해지기'를 추구하다 그렇지 않으면 이미지 및 비디오의 장면을 변경합니다. 이러한 경우 합성에 의해 노출되는 여분의 배경을 설득력 있게 '채워야' 합니다.

최근 논문에서 신체 '재형성' 알고리즘은 피사체의 크기가 조정될 때 새로 공개된 배경을 인페인팅하는 작업을 수행합니다. 여기에서 그 부족한 부분은 (실제 생활, 왼쪽 이미지 참조) 풍만한 사람이 차지했던 빨간색 윤곽선으로 표시됩니다. https://arxiv.org/pdf/2203.10496.pdf의 소스 자료 기반

최근 논문에서 신체 '재형성' 알고리즘은 피사체의 크기가 조정될 때 새로 공개된 배경을 인페인팅하는 작업을 수행합니다. 여기에서 그 부족한 부분은 (실제 생활, 왼쪽 이미지 참조) 풍만한 사람이 차지했던 빨간색 윤곽선으로 표시됩니다. https://arxiv.org/pdf/2203.10496.pdf의 소스 자료 기반

코히어런트 옵티컬 플로우

OF(Optical Flow)는 비디오 개체 제거 개발의 핵심 기술이 되었습니다. 처럼 아틀라스, OF는 시간적 시퀀스의 원샷 맵을 제공합니다. 종종 컴퓨터 비전 이니셔티브에서 속도를 측정하는 데 사용되는 OF는 시간적으로 일관된 인페인팅을 가능하게 합니다. 여기서 작업의 총합은 디즈니 스타일의 '프레임별' 주의 대신 단일 패스에서 고려될 수 있습니다. 시간적 불연속성에.

지금까지 비디오 인페인팅 방법은 XNUMX단계 프로세스에 중점을 두었습니다. 흐름 완료, 여기서 비디오는 본질적으로 개별적이고 탐색 가능한 엔터티로 매핑됩니다. 픽셀 전파, 여기서 '손상된' 비디오의 구멍은 양방향으로 전파되는 픽셀에 의해 채워집니다. 그리고 콘텐츠 환각 (딥페이크 및 DALL-E 시리즈와 같은 텍스트-이미지 프레임워크에서 우리 대부분에게 친숙한 픽셀 '발명') 추정된 '누락된' 콘텐츠가 발명되어 영상에 삽입됩니다.

E의 중심 혁신2FGVI는 이 세 단계를 엔드 투 엔드 시스템으로 결합하여 콘텐츠 또는 프로세스에 대한 수동 작업을 수행할 필요가 없도록 합니다.

이 논문은 수동 개입의 필요성으로 인해 이전 프로세스가 GPU를 활용하지 않아 상당한 시간이 소요된다는 사실을 확인했습니다. 논문*에서:

'취득 DFVI 예를 들어 432 × 240 크기의 비디오 하나를 DAVIS약 70개의 프레임을 포함하는 는 약 4분이 필요하며 이는 대부분의 실제 응용 프로그램에서 허용되지 않습니다. 게다가 위에서 언급한 단점을 제외하고 콘텐츠 환각 단계에서 미리 훈련된 이미지 인페인팅 네트워크만 사용하는 것은 시간적 이웃 간의 콘텐츠 관계를 무시하여 비디오에서 일관성 없이 생성된 콘텐츠로 이어집니다.'

비디오 인페인팅의 세 단계를 통합하여 E2FGVI는 두 번째 단계인 픽셀 전파를 기능 전파로 대체할 수 있습니다. 이전 작업의 더 세분화된 프로세스에서는 각 단계가 비교적 밀폐되어 있고 작업 흐름이 반자동화되어 있기 때문에 기능을 광범위하게 사용할 수 없습니다.

또한, 연구원들은 시간 초점 변환기 현재 프레임에 있는 픽셀의 바로 이웃(즉, 이전 또는 다음 이미지에서 프레임의 해당 부분에서 일어나는 일)뿐만 아니라 많은 프레임 떨어져 있는 먼 이웃도 고려하는 콘텐츠 환각 단계의 경우 그러나 전체적으로 비디오에서 수행되는 모든 작업의 ​​응집 효과에 영향을 미칩니다.

E2FGVI의 아키텍처.

E2FGVI의 아키텍처.

워크플로의 새로운 기능 기반 중앙 섹션은 더 많은 기능 수준 프로세스와 학습 가능한 샘플링 오프셋을 활용할 수 있으며, 저자에 따르면 프로젝트의 새로운 초점 변환기는 초점 창의 크기를 '2D에서 3D로' 확장합니다. .

테스트 및 데이터

E를 테스트하려면2연구원들은 두 가지 인기 있는 비디오 개체 세분화 데이터 세트에 대해 시스템을 평가했습니다. YouTube-VOSDAVIS. YouTube-VOS는 3741개의 교육 비디오 클립, 474개의 검증 클립 및 508개의 테스트 클립을 제공하며 DAVIS는 60개의 교육 비디오 클립과 90개의 테스트 클립을 제공합니다.

E2FGVI는 YouTube-VOS에서 교육을 받았으며 두 데이터 세트 모두에서 평가되었습니다. 교육 중에 개체 마스크(위 이미지의 녹색 영역 및 아래 포함된 비디오)가 비디오 완성을 시뮬레이션하기 위해 생성되었습니다.

측정 기준으로 연구원들은 피크 신호 ​​대 잡음비(PSNR), 구조적 유사성(SSIM), 비디오 기반 Fréchet Inception Distance(VFID) 및 흐름 왜곡 오류(후자는 영향을 받는 비디오의 시간적 안정성을 측정하기 위해)를 채택했습니다.

시스템이 테스트된 이전 아키텍처는 바이넷, DFVI, 성소수자, CAP, FGVC, STTN퓨즈이전.

논문의 정량적 결과 섹션에서. 위쪽 및 아래쪽 화살표는 각각 높거나 낮은 숫자가 더 좋다는 것을 나타냅니다. E2FGVI는 전반적으로 최고의 점수를 획득했습니다. 방법은 FuseFormer에 따라 평가되지만 DFVI, VINet 및 FGVC는 엔드 투 엔드 시스템이 아니므로 FLOP를 추정할 수 없습니다.

논문의 정량적 결과 섹션에서. 위쪽 및 아래쪽 화살표는 각각 높거나 낮은 숫자가 더 좋다는 것을 나타냅니다. E2FGVI는 전반적으로 최고의 점수를 획득했습니다. 방법은 FuseFormer에 따라 평가되지만 DFVI, VINet 및 FGVC는 엔드 투 엔드 시스템이 아니므로 FLOP를 추정할 수 없습니다.

모든 경쟁 시스템에 대해 최고 점수를 달성한 것 외에도 연구원은 XNUMX가지 대표적인 방법으로 변환된 비디오를 시각적 품질 측면에서 평가하도록 요청받은 XNUMX명의 지원자에게 개별적으로 표시되는 질적 사용자 연구를 수행했습니다.

세로축은 시각적 품질 측면에서 E2FGVI 출력을 선호하는 참가자의 비율을 나타냅니다.

세로축은 E를 선호하는 참가자의 비율을 나타냅니다.2시각적 품질 측면에서 FGVI 출력.

저자들은 그들의 방법에 대한 만장일치의 선호에도 불구하고, 결과 중 하나인 FGVC가 정량적 결과를 반영하지 않는다는 점에 주목하고, 이는 E가2FGVI는 '시각적으로 더 즐거운 결과'를 생성할 수 있습니다.

효율성 측면에서 저자는 그들의 시스템이 DAVIS 데이터 세트의 단일 Titan GPU에서 FLOP(초당 부동 소수점 연산) 및 추론 시간을 크게 줄인다는 점에 주목하고 결과에서 E를 보여 주는 것을 관찰합니다.2FGVI는 흐름 기반 방법보다 15배 빠르게 실행됩니다.

그들은 논평한다:

'[이자형2FGVI]는 다른 모든 방법과 달리 가장 낮은 FLOP를 유지합니다. 이것은 제안하는 방법이 비디오 인페인팅에 매우 효율적임을 나타낸다.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*저자의 인라인 인용을 하이퍼링크로 변환했습니다.

19년 2022월 XNUMX일에 처음 게시되었습니다.