부본 Stability AI, 텍스트 투 이미지 모델 DeepFloyd IF 출시 - Unite.AI
Rescale 미팅 예약

인공 지능

Stability AI, 텍스트 투 이미지 모델 DeepFloyd IF 출시

게재

 on

안정성 AI 다중 모드 AI 연구소인 DeepFloyd는 첨단 텍스트-이미지 계단식 픽셀 확산 모델인 DeepFloyd IF의 연구 릴리스를 발표했습니다. 이 모델은 초기에 비상업적이고 연구에 허용되는 라이선스로 출시되었지만 향후 오픈 소스 출시가 계획되어 있습니다.

DeepFloyd IF는 다음과 같은 몇 가지 놀라운 기능을 자랑합니다.

  1. 딥 텍스트 프롬프트 이해: 이 모델은 T5-XXL-1.1을 텍스트 인코더로 사용하고 수많은 텍스트-이미지 교차 주의 레이어를 사용하여 프롬프트와 이미지 간의 정렬을 개선합니다.
  2. 생성된 이미지와 함께 일관되고 명확한 텍스트: DeepFloyd IF는 다양한 속성과 공간적 관계를 가진 객체를 포함하는 이미지를 생성할 수 있습니다.
  3. 높은 수준의 포토리얼리즘: 이 모델은 COCO 데이터 세트에서 6.66이라는 인상적인 제로 샷 FID 점수를 달성했습니다.
  4. 종횡비 이동: 이 모델은 수직, 수평 및 표준 정사각형 종횡비를 포함하여 비표준 종횡비로 이미지를 생성할 수 있습니다.
  5. 제로샷 이미지 대 이미지 변환: 모델은 기본 형태를 유지하면서 이미지의 스타일, 패턴 및 세부 사항을 수정할 수 있습니다.

다음은 DeepFloyd IF에서 만든 몇 가지 예시 개념입니다.

DeepFloyd IF의 모듈형 계단식 픽셀 확산 설계는 상승적으로 상호 작용하는 여러 신경 모듈로 구성됩니다. 이 모델은 픽셀 공간에서 작동하며 서로 다른 해상도에서 개별적으로 훈련된 모델을 사용하여 계단식 방식으로 고해상도 데이터를 처리합니다. 여기에는 저해상도 샘플을 생성하는 기본 모델과 고해상도 이미지를 생성하는 연속적인 초해상도 모델이 포함됩니다.

이 모델은 LAION-1B 데이터 세트의 영어 부분의 하위 집합인 5억(이미지, 텍스트) 쌍을 포함하는 맞춤형 고품질 LAION-A 데이터 세트에서 훈련되었습니다. DeepFloyd의 맞춤형 필터는 워터마크, NSFW 및 기타 부적절한 콘텐츠를 제거하는 데 사용되었습니다.

DeepFloyd IF의 프로세스

처음에 DeepFloyd IF는 연구 라이선스로 출시되었습니다. 연구자들은 예술, 디자인, 스토리텔링, 가상 현실 및 접근성과 같은 영역에서 새로운 응용 프로그램 개발을 장려하는 것을 목표로 합니다. 잠재적인 연구에 영감을 주기 위해 그들은 몇 가지 기술적, 학술적, 윤리적 연구 질문을 제안했습니다.

기술 연구 질문은 다음과 같습니다.

  • IF 모델을 최적화하여 성능, 확장성 및 효율성을 향상시킵니다.
  • 모델 샘플링, 안내 또는 미세 조정을 개선하여 출력 품질을 개선합니다.
  • 안정적인 확산 출력을 DeepFloyd IF로 수정하는 데 사용되는 기술 적용.

학술 연구 질문에는 다음이 포함됩니다.

  • 전이 학습을 위한 사전 훈련의 역할을 탐색합니다.
  • 이미지 생성에 대한 모델의 제어를 강화합니다.
  • 여러 양식을 통합하여 텍스트-이미지 합성 이상으로 모델의 기능을 확장합니다.
  • 모델의 해석 가능성을 평가하여 생성된 이미지의 시각적 특징에 대한 이해를 높입니다.

윤리적 연구 질문에는 다음이 포함됩니다.

  • DeepFloyd IF의 편향 식별 및 완화.
  • 모델이 소셜 미디어 및 콘텐츠 생성에 미치는 영향을 평가합니다.
  • 모델을 활용한 효과적인 가짜 이미지 탐지기 개발.

모델의 가중치에 액세스하려면 사용자는 DeepFloyd의 라이선스에 동의해야 합니다. 포옹 얼굴 공간. 자세한 사항은 모델하우스 홈페이지, GitHub 저장소, 그라디오 데모, 또는 DeepFloyd를 통해 공개 토론에 참여 링크 트리.

Alex McFarland는 인공 지능의 최신 개발을 탐구하는 AI 저널리스트이자 작가입니다. 그는 전 세계 수많은 AI 스타트업 및 출판물과 협력해 왔습니다.