인공지능
DALL-E 2, 단순히 물건을 이어붙이는 것일 뿐 관계를 이해하지 못하는가?

하버드 대학의 새로운 연구 논문에 따르면 OpenAI의 주목할 만한 텍스트-이미지 프레임워크인 DALL-E 2는 합성된 사진에 구성된 요소 간의 관계를 재현하는 데 어려움을 겪고 있으며, 이는 그 출력의 화려한 정교함에도 불구하고 나타난다.
연구자들은 169명의 크라우드소싱 참여자를 대상으로 사용자 연구를 수행했으며, 참여자들은 DALL-E 2 이미지와 함께 가장 기본적인 인간의 관계 의미론 원칙을 기반으로 생성된 텍스트 프롬프트를 제시받았다. 이미지와 프롬프트가 관련이 있는지 묻자, DALL-E 2가 시각화하도록 요청된 매우 간단한 관계에 대해 이미지의 22% 미만이 관련이 있다고 인식되었다.

새로운 논문에 대한 테스트를 수행한 화면 캡처. 참여자들은 프롬프트와 일치하는 모든 이미지를 선택하도록 요청받았다. 출처: https://arxiv.org/pdf/2208.00005.pdf
결과는 또한 DALL-E의 다양한 요소를 결합하는能力이 시스템을 구동하는 실제 세계 훈련 데이터에서 발생할 가능성이 낮은 요소가 되면 약화될 수 있음을 시사한다.
예를 들어, ‘어린이가 그릇을 만지는’ 프롬프트에 대한 이미지의 경우 87%의 동의율(즉, 참여자가 이미지 대부분을 프롬프트와 관련이 있다고 클릭함)을 얻었지만, 유사한 사진적 렌더링인 ‘원숭이와 이구아나가 만지는’ 이미지는 11%의 동의율만을 얻었다.
두 번째 예에서 DALL-E 2는 빈번히 크기와 종을 잘못 인식하는 것으로 보이며, 이는 이러한 이벤트를 묘사하는 실제 세계 이미지의 부족 때문일 수 있다. 반면에, 어린이와 음식에 대한 훈련 사진은 많을 것으로 기대되며, 이 하위 도메인은 잘 발달되어 있을 수 있다.
DALL-E의 대조적인 이미지 요소를 결합하는 어려움은 시스템의 사진적이고 광범위한 해석 능력에 매료된 현재 공중이 이러한 시스템의 약점을 비판적으로 평가하지 않는다는 것을 시사한다.
새로운 논문은 다음과 같이 말한다:
‘관계 이해는 인간 지능의 기본 구성 요소이며, 이는 early in development에서 나타나며, in perception에서 빠르고 자동으로 계산된다.
‘DALL-E 2의 기본적인 공간 관계(예: in, on, under)에 대한 어려움은 시스템이 인간이 세계를 구조화하는 데 사용하는 종류의 표현을 아직 학습하지 못했음을 시사한다.
‘이 어려움의 직접적인 해석은 DALL-E 2와 같은 시스템이 아직 관계적 구성성을 가지고 있지 않다는 것이다.’
저자들은 텍스트-이미지 생성 시스템인 DALL-E 시리즈와 같은 시스템이 로봇공학에서 일반적으로 사용되는 알고리즘을 활용하여 동시에 身份와 관계를 모델링할 수 있을 것이라고 제안한다. 이는 에이전트가 환경과 상호작용해야 하기 때문이다.
이러한 접근 방식 중 하나인 CLIPort는 DALL-E 2의 품질 평가 요소로 사용되는 동일한 CLIP 메커니즘을 사용한다.

CLIPort, 2021년 워싱턴 대학교와 NVIDIA의 협력으로, CLIP을 실제로 사용하는 컨텍스트에서 시스템이 물리적 관계를 이해해야 하므로 DALL-E 2와 유사한 ‘환상적인’ 이미지 합성 프레임워크와는 달리 CLIPort는 실제로 사용된다. 출처: https://arxiv.org/pdf/2109.12098.pdf
저자들은 또한 ‘다른 가능한 업그레이드’는 이미지 합성 시스템의 아키텍처에 계산의 단일 계층에서 곱셈 효과를 포함시킴으로써 관계를 계산할 수 있도록 할 수 있다고 제안한다. 이는 생물학적 시스템의 정보 처리 능력에서 영감을 받은 방식이다.
새로운 논문은 다음과 같이 말한다:
‘현재 연구는 이전에 설명된, 조사된 또는 제안된 15개의 기본 관계에 중점을 둔다. 이 집합에는 공간 관계(예: ‘X on Y’)와 더 추상적인 에이전트 관계(예: ‘X가 Y를 도와줌’)가 포함된다.
‘프롬프트는 의도적으로 간단하며, 속성의 복잡성이나 세부 사항이 없다. 즉, ‘돼지와 오징어가 게임을 하는’과 같은 프롬프트 대신 ‘박스 위에 나이프’를 사용한다.
‘이러한 간단함에도 불구하고, 이는 인간 심리학의 다양한 하위 도메인에서 광범위한 관계를 포착하며, 잠재적인 모델 실패를 더 두드러지게 만든다.’
연구자들은 자신의 연구를 위해 169명의 참여자를 모집했으며, 평균 연령은 33세, 여성은 59%였다.
参与자들은 3×6 격자에 조직된 18개의 이미지와 함께 프롬프트가 표시되었으며, 하단에는 모든 이미지, 일부 이미지 또는 이미지 중 هیچ 하나가 표시된 프롬프트에서 생성되지 않았을 수 있다는免責 조항이 표시되었다. 참여자들은 이러한 방식으로 관련된 이미지를 선택하도록 요청받았다.
이미지는 언어적, 발달적, 인지적 문헌을 기반으로 하여 8개의 물리적 관계와 7개의 에이전트 관계로 구성되었다.
물리적 관계
in, on, under, covering, near, occluded by, hanging over, 와 tied to.
에이전트 관계
pushing, pulling, touching, hitting, kicking, helping, 와 hindering.
이러한 관계는 모두 이전에 언급된 비-CS 분야의 연구에서 가져온 것이다.
12개의 엔티티는 프롬프트에 사용하기 위해 파생되었으며, 6개의 객체와 6개의 에이전트가 포함되었다.
객체
박스, 실린더, 담요, 그릇, 티컵, 와 나이프.
에이전트
남자, 여자, 아이, 로봇, 원숭이, 와 이구아나.
(연구자들은 이구아나를 포함시킨 것은 ‘선물’이라고 인정한다)
각 관계에 대해 5개의 서로 다른 프롬프트가 생성되었으며, 2개의 엔티티를 5번 무작위로 샘플링하여 총 75개의 프롬프트가 생성되었다. 각 프롬프트는 DALL-E 2에 제출되었으며, 각 프롬프트에 대해 초기 18개의 이미지만 사용되었으며, 변형이나 두 번째 기회는 허용되지 않았다.
결과
논문은 다음과 같이 말한다:
‘참여자들은 평균적으로 DALL-E 2의 이미지와 생성된 프롬프트 사이에 낮은 수준의 동의를 보고했으며, 75개의 별도 프롬프트 전체에서 평균 22.2% [18.3, 26.6]를 기록했다.
‘에이전트 프롬프트는 평균 28.4% [22.8, 34.2]를 기록했으며, 물리적 프롬프트는 평균 16.9% [11.9, 23.0]를 기록했다.’

연구의 결과. 검은색 점은 모든 프롬프트를 나타내며, 각 점은 개별 프롬프트를 나타내고, 색상은 프롬프트의 주제가 에이전트인지 물리적인지에 따라 구분된다.
연구자들은 인간과 알고리즘의 이미지 인식 차이를 비교하기 위해 자신의 렌더링을 OpenAI의 오픈 소스 ViT-L/14 CLIP 기반 프레임워크를 통해 실행했다. 평균 점수를 계산한 결과, 두 집합의 결과 간에 중간 정도의 상관관계가 있는 것으로 나타났다. 이는 CLIP 자체가 이미지를 생성하는 데 도움이 되는 것에 비추어 볼 때 다소 놀라운 결과이다.

CLIP(ViT-L/14) 비교의 결과와 인간의 반응.
연구자들은 이러한 결과는 아마도 아키텍처 내의 다른 메커니즘과 훈련 세트의 데이터 부족 또는 과잉으로 인해 발생할 수 있다고 제안한다.
저자들은 DALL-E 2는 관계 이해를 재현하는 능력이 없거나 거의 없으며, 이는 인간 지능의 기본적인 측면이다.
‘DALL-E 2와 같은 시스템이 구성성을 가지고 있지 않다는 것은 놀라울 수 있다. 구성성은 단순히 이전에 관찰하지 못한 것들을 함께 붙이는 능력만이 아니다. 구성성은 물건들을 함께 묶는 규칙을 이해하는 것을 필요로 한다. 관계는 이러한 규칙이다.’
남자와 티렉스
의견 OpenAI는 최근 DALL-E 2의 베타 테스트를 통해 더 많은 사용자를 수용하고 있으며, 이제 대부분의 생성에 대해 요금을 지불해야 하므로, DALL-E 2의 관계 이해의 약점은 각 ‘실패’한 시도가 금전적 부담을 가질 수 있으므로 더 명백해질 수 있다. 또한 환불은 불가능하다.
우리는 초대받은 사용자로서 DALL-E 2와 더 오래 놀 수 있었으며, 이러한 시스템의 ‘관계 글리치’를 관찰할 수 있었다.
예를 들어, ジュラ기 공원 팬에게는 공룡이 사람을追う 이미지를 얻는 것이 매우 어렵다. 이는 ‘추격’ 개념이 DALL-E 2의 검열 시스템에 포함되지 않는 것처럼 보이기 때문이며, 공룡 영화의 긴 역사(至少 트레일러와 홍보 사진 형태로)로 인해 이러한 만남에 대한 충분한 훈련 예시가 제공되어야 한다.
이러한 이미지는 ‘[공룡]이 [사람]을追う’와 같은 프롬프트의 변형에 대한典型적인 결과이며, 프롬프트에 대한 자세한 설명을 추가해도 티렉스가 실제로追う 것을 만들 수 없다.
이것은 DALL-E 2가 훈련 데이터에서 ‘사람이 공룡을追う’와 같은 이미지만 접했기 때문일 수 있다. 예를 들어, 원 밀리언 이어스 비씨(1966)와 같은 오래된 영화의 홍보 사진에서이다. 제프 골드블룸의 유명한 티렉스로부터의 도피는 이러한 데이터의 아웃라이어일 수 있다.
















