인공 지능

Stability AI, 텍스트 투 이미지 모델 DeepFloyd IF 출시

게재

12 개월 전

2023 년 5 월 5 일

안정성 AI 다중 모드 AI 연구소인 DeepFloyd는 첨단 텍스트-이미지 계단식 픽셀 확산 모델인 DeepFloyd IF의 연구 릴리스를 발표했습니다. 이 모델은 초기에 비상업적이고 연구에 허용되는 라이선스로 출시되었지만 향후 오픈 소스 출시가 계획되어 있습니다.

DeepFloyd IF는 다음과 같은 몇 가지 놀라운 기능을 자랑합니다.

딥 텍스트 프롬프트 이해: 이 모델은 T5-XXL-1.1을 텍스트 인코더로 사용하고 수많은 텍스트-이미지 교차 주의 레이어를 사용하여 프롬프트와 이미지 간의 정렬을 개선합니다.
생성된 이미지와 함께 일관되고 명확한 텍스트: DeepFloyd IF는 다양한 속성과 공간적 관계를 가진 객체를 포함하는 이미지를 생성할 수 있습니다.
높은 수준의 포토리얼리즘: 이 모델은 COCO 데이터 세트에서 6.66이라는 인상적인 제로 샷 FID 점수를 달성했습니다.
종횡비 이동: 이 모델은 수직, 수평 및 표준 정사각형 종횡비를 포함하여 비표준 종횡비로 이미지를 생성할 수 있습니다.
제로샷 이미지 대 이미지 변환: 모델은 기본 형태를 유지하면서 이미지의 스타일, 패턴 및 세부 사항을 수정할 수 있습니다.

다음은 DeepFloyd IF에서 만든 몇 가지 예시 개념입니다.

DeepFloyd IF의 모듈형 계단식 픽셀 확산 설계는 상승적으로 상호 작용하는 여러 신경 모듈로 구성됩니다. 이 모델은 픽셀 공간에서 작동하며 서로 다른 해상도에서 개별적으로 훈련된 모델을 사용하여 계단식 방식으로 고해상도 데이터를 처리합니다. 여기에는 저해상도 샘플을 생성하는 기본 모델과 고해상도 이미지를 생성하는 연속적인 초해상도 모델이 포함됩니다.

이 모델은 LAION-1B 데이터 세트의 영어 부분의 하위 집합인 5억(이미지, 텍스트) 쌍을 포함하는 맞춤형 고품질 LAION-A 데이터 세트에서 훈련되었습니다. DeepFloyd의 맞춤형 필터는 워터마크, NSFW 및 기타 부적절한 콘텐츠를 제거하는 데 사용되었습니다.

DeepFloyd IF의 프로세스

처음에 DeepFloyd IF는 연구 라이선스로 출시되었습니다. 연구자들은 예술, 디자인, 스토리텔링, 가상 현실 및 접근성과 같은 영역에서 새로운 응용 프로그램 개발을 장려하는 것을 목표로 합니다. 잠재적인 연구에 영감을 주기 위해 그들은 몇 가지 기술적, 학술적, 윤리적 연구 질문을 제안했습니다.

기술 연구 질문은 다음과 같습니다.