Rescale 미팅 예약

인공 지능

신경 렌더링: 입력 측면에서 얼마나 낮을 수 있습니까?

mm
업데이트 on

어제 인텔 연구원들이 공개한 것처럼 신경 이미지 합성의 놀라운 새 작업이 인터넷의 관심과 상상력을 사로잡았습니다. 새로운 방법 합성 이미지의 사실감을 향상시키기 위한 것입니다.

시스템은 비디오 Intel의 이 제품은 Grand Theft Auto V 비디오 게임의 이미지 파이프라인에 직접 개입하고 CNN(컨볼루션 신경망)에서 훈련된 이미지 합성 알고리즘을 통해 이미지를 자동으로 향상합니다. 메이필러리 GTA 게임 엔진의 덜 사실적인 조명과 텍스처링을 교체합니다.

Reddit 및 Hacker News와 같은 커뮤니티의 광범위한 반응에서 댓글 작성자는 이러한 유형의 신경 렌더링이 기존 게임 엔진 및 VFX 수준 CGI의 덜 사실적인 출력을 효과적으로 대체할 수 있을 뿐만 아니라 이 프로세스가 Intel GTA5 데모에서 시연된 것보다 훨씬 더 기본적인 입력으로 달성되어 매우 사실적인 출력으로 '꼭두각시' 프록시 입력을 효과적으로 생성합니다.

페어링된 데이터 세트

이 원칙은 지난 XNUMX년 동안 조잡한 도색에서 사실적인 경치 이미지를 생성하는 NVIDIA의 GauGAN과 같은 차세대 GAN 및 인코더/디코더 시스템에 의해 예시되었습니다.

효과적으로 이 원칙은 시맨틱 분할의 기존 사용을 뒤집어 컴퓨터 비전 기계 시스템이 관찰된 객체를 식별하고 창의적인 입력으로 분리할 수 있도록 하는 수동적 방법에서 사용자가 가짜 의미 분할 맵을 '페인트'하고 시스템이 이미 특정 객체를 분류하고 분할하여 이해하는 관계와 일치하는 이미지를 생성합니다. 풍경과 같은 도메인.

기계 학습 프레임워크는 의미론적 분할을 다양한 외부 장면에 적용하여 사용자가 의미론적 분할 블록을 페인트하고 시스템이 다음과 같은 도메인별 데이터 세트의 적절한 이미지로 블록을 채우는 대화형 시스템의 개발을 허용하는 건축 패러다임을 제공합니다. Intel의 GTA5 신경 렌더링 데모에 사용된 독일의 Mapillary 스트리트 뷰 세트. 출처: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

기계 학습 프레임워크는 다양한 외부 장면에 의미론적 분할을 적용하여 사용자가 의미론적 분할 블록을 그리면 시스템이 도메인별 데이터 세트의 적절한 이미지로 블록을 채우는 대화형 시스템의 개발을 허용하는 아키텍처 패러다임을 제공합니다. Intel의 GTA5 신경 렌더링 데모에 사용된 독일의 Mapillary 스트리트 뷰 세트. 출처: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

짝을 이룬 데이터세트 이미지 합성 시스템은 두 개의 데이터세트에서 시맨틱 레이블을 연관시켜 작동합니다. 실제 이미지(어제 Intel 데모에서 GTA5를 향상시키는 데 사용된 Mapillary 세트와 같이) 또는 합성 이미지에서 생성된 풍부하고 완전한 이미지 세트, CGI 이미지와 같은

서투른 스케치에서 신경 렌더링 문자를 생성하도록 설계된 이미지 합성 시스템의 쌍을 이룬 데이터 세트 예제입니다. 왼쪽에는 CGI 데이터 세트의 샘플이 있습니다. 중간, '스케치' 데이터세트의 해당 샘플. 맞습니다. 스케치를 다시 고품질 이미지로 번역한 신경 렌더링입니다. 출처: https://www.youtube.com/watch?v=miLIwQ7yPkA

서투른 스케치에서 신경 렌더링 문자를 생성하도록 설계된 이미지 합성 시스템의 쌍을 이룬 데이터 세트 예제입니다. 왼쪽에는 CGI 데이터 세트의 샘플이 있습니다. 중간, '스케치' 데이터세트의 해당 샘플. 맞습니다. 스케치를 다시 고품질 이미지로 변환한 신경 렌더링. 출처: https://www.youtube.com/watch?v=miLIwQ7yPkA

외부 환경은 이러한 종류의 쌍으로 된 데이터 세트 변환을 생성할 때 상대적으로 도전적이지 않습니다. 돌출부는 일반적으로 매우 제한적이고 지형은 데이터 세트에서 포괄적으로 캡처할 수 있는 제한된 범위의 분산을 가지며 인공 사람 생성을 처리할 필요가 없기 때문입니다. , 또는 Uncanny Valley 협상 (아직).

분할 지도 뒤집기

Google은 GauGAN 스키마의 애니메이션 버전을 개발했습니다. 무한한 자연, NVIDIA를 통해 가짜 시맨틱 맵을 사실적인 이미지로 변환하여 연속적이고 끝이 없는 가상의 풍경을 의도적으로 '환각'할 수 있습니다. 스페이드 채우기 시스템:

출처: https://www.youtube.com/watch?v=oXUf6anNAtc

출처: https://www.youtube.com/watch?v=oXUf6anNAtc

그러나 Infinite Nature는 단일 이미지를 시작점으로 사용하고 SPADE를 사용하여 연속 프레임의 누락된 부분을 칠하는 데만 사용하는 반면 SPADE 자체는 분할 맵에서 직접 이미지 변환을 생성합니다.

출처: https://nvlabs.github.io/SPADE/

출처: https://nvlabs.github.io/SPADE/

매우 조잡한 입력에서 실시간으로(결국) 매우 고품질의 사실적인 이미지를 도출할 수 있는 가능성인 Intel Image Enhancement 시스템에 찬사를 보낸 것은 바로 이러한 능력입니다.

텍스처와 조명을 신경 렌더링으로 교체

GTA5 입력의 경우 일부에서는 게임 엔진 출력의 연산 비용이 많이 드는 절차 및 비트맵 텍스처링과 조명이 미래의 신경 렌더링 시스템에 실제로 필요한지 또는 낮은 해상도, 게임 엔진의 음영, 텍스처링 및 조명 기능을 능가하는 실사 비디오에 대한 와이어프레임 수준 입력으로 '자리 표시자' 프록시 입력에서 초현실적인 장면을 생성합니다.

반사, 텍스처 및 기타 유형의 환경 세부 사항과 같은 게임 생성 측면이 인텔에서 시연하는 유형의 신경 렌더링 시스템에 대한 필수 정보 소스라는 것이 명백해 보일 수 있습니다. 그러나 NVIDIA가 출시된 지 몇 년이 지났습니다. UNIT (UNsupervised Image-to-image Translation Networks)는 도메인만 중요하며 '야간' 또는 '낮'과 같은 전반적인 측면도 본질적으로 스타일 전송으로 처리해야 하는 문제임을 보여주었습니다.

Day2Night이미지번역-06

필요한 입력 측면에서 신경 렌더링 엔진은 해석으로 시맨틱 맵을 사용하여 캡처된 데이터 세트에서 원하는 이미지를 합성하여 다른 모든 측면을 오버페인팅할 수 있기 때문에 게임 엔진은 기본 기하학 및 물리 시뮬레이션만 생성하면 됩니다. 층.

Intel의 시스템은 세분화 및 평가된 깊이 맵을 추가하여 GTA5에서 완전히 완성되고 렌더링된 프레임을 향상시킵니다. 이 두 가지 측면은 제거된 게임 엔진에서 직접 제공할 수 있습니다. 출처: https://www.youtube.com/watch?v=P1IcaBn3ej0

Intel의 시스템은 세분화 및 평가된 깊이 맵을 추가하여 GTA5에서 완전히 완성되고 렌더링된 프레임을 향상시킵니다. 이 두 가지 측면은 제거된 게임 엔진에서 직접 제공할 수 있습니다. 출처: https://www.youtube.com/watch?v=P1IcaBn3ej0

인텔의 신경 렌더링 접근 방식에는 GTA5 버퍼에서 완전히 렌더링된 프레임의 분석이 포함되며 신경 시스템은 깊이 맵과 분할 맵을 모두 생성해야 하는 추가 부담이 있습니다. 깊이 맵은 기존의 3D 파이프라인에서 암시적으로 사용할 수 있으므로(텍스처링, 레이 트레이싱 또는 전역 조명보다 생성 요구 사항이 적음) 게임 엔진에서 처리하도록 리소스를 더 잘 사용할 수 있습니다.

신경 렌더링 엔진을 위한 간소화된 입력

따라서 인텔 이미지 향상 네트워크의 현재 구현에는 게임 엔진이 신경 렌더링 엔진에 실제로 필요하지 않은 계산 비용이 많이 드는 텍스처링 및 조명을 생성하기 때문에 많은 중복 컴퓨팅 주기가 포함될 수 있습니다. 이것이 반드시 최적의 접근 방식이기 때문이 아니라 신경 렌더링 접근 방식에 최적화된 새로운 게임 엔진을 만드는 것보다 기존 파이프라인에 신경 렌더링 엔진을 적용하는 것이 더 쉽기 때문에 시스템이 이러한 방식으로 설계된 것 같습니다.

이러한 성격의 게임 시스템에서 리소스를 가장 경제적으로 사용하는 것은 신경망 렌더링 시스템에 의해 GPU를 완전히 선택하고 제거된 프록시 입력은 CPU에서 처리하는 것입니다.

또한 게임 엔진은 출력에서 ​​모든 음영과 조명을 꺼서 대표 분할 맵 자체를 쉽게 생성할 수 있습니다. 또한 일반적으로 요구되는 것보다 훨씬 낮은 해상도로 비디오를 제공할 수 있습니다. 비디오는 콘텐츠를 광범위하게 대표하기만 하면 되고 신경 엔진에서 고해상도 세부 정보를 처리하여 로컬 컴퓨팅 리소스를 추가로 확보할 수 있기 때문입니다.

분할에 대한 인텔 ISL의 이전 작업>이미지

세분화를 실사 비디오로 직접 변환하는 것은 가설과는 거리가 멉니다. 2017년 인텔 ISL, 어제의 열정을 만든 사람들이 이니셜을 발표했습니다. 연구 시맨틱 분할에서 직접 도시 비디오 합성을 수행할 수 있습니다.

인텔 ISL - 이미지로 분할

2017년부터 인텔 ISL의 이미지 작업 분할. 출처: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

사실, 원래 2017 파이프라인은 GTA5의 완전히 렌더링된 출력에 맞게 확장되었을 뿐입니다.

계단식 정제 네트워크를 사용한 사진 이미지 합성

VFX의 신경 렌더링

인공 분할 맵의 신경 렌더링은 모델 또는 합성(CGI) 이미지에서 가져온 도메인별 데이터 세트를 생성하여 매우 기본적인 비디오그램을 완성된 시각 효과 영상으로 직접 변환할 수 있는 가능성이 있는 VFX에 대한 유망한 기술로 보입니다.

각 대상 개체의 광범위한 적용 범위가 기여하는 데이터 세트로 추상화되고 인공적으로 생성된 세분화 맵이 전체 해상도의 사실적인 출력의 기반으로 사용되는 가상의 신경 렌더링 시스템입니다. 출처: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

각 대상 개체의 광범위한 적용 범위가 기여하는 데이터 세트로 추상화되고 인공적으로 생성된 세분화 맵이 전체 해상도의 사실적인 출력의 기반으로 사용되는 가상의 신경 렌더링 시스템입니다. 출처: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

이러한 시스템의 개발 및 채택은 예술적 노력의 위치를 ​​해석에서 대표적인 작업 흐름으로 이동하고 영역 기반 데이터 수집을 지원에서 시각 예술의 중심 역할로 끌어올릴 것입니다.

포토리얼리즘 향상


Intel ISL 4 연구에 대한 자료를 추가하기 위해 오후 55시 2017분에 기사가 업데이트되었습니다.