인공 지능

DALL-E 2와 같은 순수 이미지 합성 프레임워크용 감지 시스템

업데이트 on 2022 년 12 월 9 일

신제품 연구 University of California at Berkeley에서 Open AI와 같은 차세대 이미지 합성 프레임워크의 출력 여부를 결정하는 방법을 제공합니다. 달-이 2및 Google의 영상 과 왼쪽 – 합성된 이미지에 나타나는 기하학, 그림자 및 반사를 연구하여 '비현실'로 감지할 수 있습니다.

DALL-E 2의 텍스트 프롬프트에 의해 생성된 이미지를 연구한 결과, 연구원들은 아키텍처가 제공할 수 있는 인상적인 현실감에도 불구하고 글로벌 관점의 렌더링, 그림자의 생성 및 배치와 관련하여 일부 지속적인 불일치가 발생한다는 것을 발견했습니다. 특히 반사된 물체의 렌더링과 관련하여.

논문은 다음과 같이 말합니다.

'[기하학적] 구조, 캐스트 그림자 및 거울 표면의 반사는 자연 장면의 예상 원근 기하학과 완전히 일치하지 않습니다. 기하학적 구조와 그림자는 일반적으로 부분적으로 일관성이 있지만 전체적으로는 일관성이 없습니다.

'반면에 반사는 훈련 이미지 데이터 세트에서 덜 일반적이기 때문에 종종 믿기지 않게 렌더링됩니다.'

새로운 연구에 따르면 렌더링된 개체와 반사 렌더링 사이의 일관된 교차의 부족은 현재 DALL-E 2 이미지를 감지하는 신뢰할 수 있는 방법입니다. 출처 : https://arxiv.org/pdf/2206.14617.pdf

이 논문은 컴퓨터 비전 연구 커뮤니티에서 결국 주목할 만한 부분이 될 수 있는 이미지 합성 감지에 대한 초기 진출을 나타냅니다.

2017년 딥페이크 등장 이후 딥 페이크 감지 (주로 오토 인코더 다음과 같은 패키지의 출력 딥페이스랩 과 페이스 스왑)가 되었다 적극적이고 경쟁적 실제 비디오 장면에서 합성된 얼굴의 진화하는 '말'을 목표로 하는 다양한 논문 및 방법론과 함께 학문적 가닥입니다.

그러나 최근 하이퍼스케일 훈련 이미지 생성 시스템이 등장하기 전까지는 다음과 같은 텍스트 프롬프트 시스템의 출력이 쥐다 '포토리얼리티'의 현상 유지에 위협이 되지 않았습니다. 새 논문의 저자는 이것이 곧 바뀔 것이며 DALL-E 2 출력에서 발견한 불일치조차도 시청자를 속일 수 있는 출력 이미지의 잠재력에 큰 차이를 만들지 못할 수 있다고 믿습니다.

저자 상태*:

'[그런] 실패는 불일치를 포함하여 특정 기하학적 판단에 놀라울 정도로 무능한 것으로 밝혀진 인간의 시각 시스템에 그다지 중요하지 않을 수 있습니다. 조명, 그림자, 반사, 보기 위치및 원근 왜곡.'

사라지는 신뢰성

DALL-E 2 출력에 대한 저자의 첫 번째 포렌식 조사는 원근법 투영과 관련이 있습니다. 즉, 가까운 물체와 텍스처에서 직선 모서리의 위치 지정이 '소실점'으로 균일하게 해결되어야 하는 방식입니다.

왼쪽, 동일한 평면의 평행선은 공통 소실점으로 해석됩니다. 오른쪽, 동일하고 평행한 평면에 있는 여러 소실점이 소실선을 정의합니다(빨간색으로 표시됨).

이와 관련하여 DALL-E 2의 일관성을 테스트하기 위해 저자는 DALL-E 2를 사용하여 25개의 합성된 부엌 이미지를 생성했습니다. 개체 및 질감의 범위.

프롬프트의 출력 검사 '타일 바닥이 깔린 주방 사진', 연구자들은 각각의 경우에 일반적으로 설득력 있는 표현에도 불구하고(원근법과 관련이 없는 일부 이상하고 작은 인공물 제외) 묘사된 개체가 올바르게 수렴되지 않는 것 같다는 것을 발견했습니다.

저자는 타일 패턴의 각 평행선 세트가 일관되고 유일한 소실점(아래 이미지의 파란색)에서 교차하지만 카운터 상단(청록색)의 소실점은 두 소실선(빨간색)과 일치하지 않는다는 점에 주목합니다. ) 및 타일에서 파생된 소실점.

저자는 조리대가 타일과 평행하지 않더라도 청록색 소실점이 바닥 타일의 소실점에 의해 정의된 (빨간색) 소실선으로 해결되어야 한다는 것을 관찰했습니다.

논문은 다음과 같이 말합니다.

'이 이미지의 관점은 인상적으로 지역적으로 일관성이 있지만 전체적으로는 일관성이 없습니다. 이 같은 패턴은 25개의 합성된 부엌 이미지 각각에서 발견되었습니다.'

섀도우 포렌식

레이 트레이싱을 다룬 적이 있는 사람이라면 누구나 알고 있듯이 그림자에는 단일 또는 다중 소스 조명을 나타내는 잠재적인 소실점이 있습니다. 강한 햇빛 아래 외부 그림자의 경우 이미지의 모든 측면에 걸쳐 그림자가 단일 광원(태양)으로 일관되게 해결될 것으로 예상할 수 있습니다.

이전 실험과 마찬가지로 연구원들은 프롬프트 '와 함께 25개의 DALL-E 2 이미지를 생성했습니다.화창한 날에 찍은 보도 위의 큐브 세 개', 뿐만 아니라 ' 프롬프트가 있는 추가 25'흐린 날 촬영된 보도 위의 큐브 세 개'.

맨 윗줄에는 연구원의 프롬프트 '흐린 날에 촬영된 보도 위의 세 개의 큐브'에서 생성된 이미지가 있습니다. 아래 줄에는 '화창한 날에 촬영된 보도 위의 세 개의 큐브'라는 프롬프트에서 생성된 이미지입니다.

연구원들은 흐린 조건을 나타낼 때 DALL-E 2가 설득력 있고 그럴듯한 방식으로 더 확산된 관련 그림자를 렌더링할 수 있다는 점에 주목합니다. 프레임워크를 교육했습니다.

그러나 저자가 발견한 '맑은' 사진 중 일부는 단일 광원에서 비추는 장면과 일치하지 않았습니다.

위 이미지의 경우 명확성을 위해 세대가 회색조로 변환되었으며 각 개체에 전용 '태양'이 표시됩니다.

일반 뷰어는 이러한 이상 현상을 발견하지 못할 수 있지만 생성된 이미지 중 일부는 '그림자 오류'의 더 분명한 예를 보여줍니다.

그림자 중 일부는 단순히 잘못된 위치에 있지만 흥미롭게도 대부분은 가상 조명의 샘플 속도가 너무 낮을 때 CGI 모델링에서 생성되는 시각적 불일치 유형에 해당합니다.

DALL-E 2의 반사

포렌식 분석 측면에서 가장 치명적인 결과는 저자가 반사율이 높은 표면을 생성하는 DALL-E 2의 기능을 테스트했을 때 나왔습니다. 이는 CGI 레이 트레이싱 및 기타 기존 렌더링 알고리즘에서도 부담스러운 계산입니다.

이 실험을 위해 저자는 '장난감 공룡의 사진과 화장대 거울에 비친 공룡'이라는 프롬프트와 함께 25개의 DALL-E 2 이미지를 생성했습니다.

모든 경우에 저자는 렌더링된 장난감의 미러 이미지가 '진짜' 장난감 공룡의 측면 및 성향과 어떤 식으로든 분리되어 있다고 보고합니다. 저자는 문제가 텍스트 프롬프트의 변형에 저항했으며 시스템의 근본적인 약점인 것 같다고 말합니다.

일부 오류에는 논리가 있는 것 같습니다. 맨 윗줄의 첫 번째와 세 번째 예는 다음과 같은 공룡을 보여줍니다. 중복 된 매우 좋지만 미러링되지는 않습니다.

저자는 다음과 같이 논평합니다.

'이전 섹션의 캐스트 그림자 및 기하학적 구조와 달리 DALL·E-2는 아마도 그러한 반사가 훈련 이미지 데이터 세트에서 덜 일반적이기 때문에 그럴듯한 반사를 합성하는 데 어려움을 겪고 있습니다.'

이와 같은 결함은 출력의 전체 의미론적 논리를 보다 효과적으로 검토할 수 있고, 어느 정도 이전 장면에 추상적인 물리적 규칙을 부과할 수 있는 미래의 텍스트-이미지 모델에서 해결될 수 있습니다. 시스템의 잠재 공간에서 단어 관련 기능으로 조립됩니다.

점점 더 큰 합성 아키텍처를 향한 추세에 비추어 저자는 다음과 같이 결론을 내립니다.

'텍스트별 합성 엔진이 완전한 원근 일관성으로 이미지를 렌더링하는 방법을 배우는 것은 시간 문제일 수 있습니다. 그러나 그때까지는 기하학적 법의학 분석이 이러한 이미지를 분석하는 데 유용할 수 있습니다.'

* 저자의 인라인 인용을 하이퍼링크로 변환했습니다.

30년 2022월 XNUMX일에 처음 게시되었습니다.

다음 위로

모니터 조명을 통한 Deepfake 화상 통화 감지

놓치지 마세요.

기계 학습으로 Instagram Crowdturfers 식별

마틴 앤더슨

머신러닝, 인공지능, 빅데이터 분야의 작가입니다.
개인 사이트: martinanderson.ai
연락처 : [이메일 보호]
트위터: @manders_ai

Unite.AI

DALL-E 2와 같은 순수 이미지 합성 프레임워크용 감지 시스템

인공 지능