Artificial Intelligence
Stability AI が Text-to-Image モデル DeepFloyd IF をリリース

スタビリティAI とそのマルチモーダル AI 研究ラボ、DeepFloyd は、最先端のテキストから画像へのカスケード ピクセル拡散モデルである DeepFloyd IF の研究リリースを発表しました。 このモデルは当初、非営利で研究が許可されたライセンスに基づいてリリースされますが、将来的にはオープンソース リリースが計画されています。
DeepFloyd IF は、次のようないくつかの優れた機能を備えています。
- ディープテキストの理解が促進されます: このモデルは、テキスト エンコーダとして T5-XXL-1.1 を使用し、多数のテキストと画像のクロス アテンション レイヤーを備えており、プロンプトと画像間の位置合わせが向上します。
- 生成された画像と一緒に一貫性のあるクリアなテキスト: DeepFloyd IF は、さまざまなプロパティと空間関係を持つオブジェクトを含む画像を生成できます。
- 高度なフォトリアリズム: このモデルは、COCO データセットで 6.66 という素晴らしいゼロショット FID スコアを達成しました。
- アスペクト比シフト: このモデルは、垂直、水平、標準の正方形のアスペクトなど、標準以外のアスペクト比の画像を生成できます。
- ゼロショットの画像から画像への変換: モデルは、画像の基本的な形式を維持しながら、画像のスタイル、パターン、詳細を変更できます。
以下は、DeepFloyd IF によって作成されたコンセプトの例の一部です。
DeepFloyd IF のモジュール式カスケード ピクセル拡散設計は、相乗的に相互作用する複数のニューラル モジュールで構成されています。 このモデルはピクセル空間で動作し、さまざまな解像度で個別にトレーニングされたモデルを使用してカスケード方式で高解像度データを処理します。 これには、低解像度のサンプルを生成する基本モデルと、高解像度の画像を生成する連続した超解像度モデルが含まれます。
このモデルは、LAION-1B データセットの英語部分のサブセットである 5 億の (画像、テキスト) ペアを含むカスタムの高品質 LAION-A データセットでトレーニングされました。 DeepFloyd のカスタム フィルターは、透かし入り、NSFW、およびその他の不適切なコンテンツを削除するために使用されました。

DeepFloyd IFのプロセス
当初、DeepFloyd IF は研究ライセンスに基づいてリリースされています。 研究者らは、アート、デザイン、ストーリーテリング、仮想現実、アクセシビリティなどの分野にわたる新しいアプリケーションの開発を促進することを目指しています。 研究の可能性を刺激するために、彼らはいくつかの技術的、学術的、倫理的な研究課題を提案しました。
技術的な調査に関する質問には次のようなものがあります。
- IF モデルを最適化して、パフォーマンス、スケーラビリティ、効率を向上させます。
- モデルのサンプリング、ガイド、微調整を調整することにより、出力品質を向上させます。
- Stable Diffusion 出力を変更するために使用されるテクニックを DeepFloyd IF に適用します。
学術研究に関する質問には次のようなものがあります。
- 転移学習のための事前トレーニングの役割を探る。
- 画像生成に対するモデルの制御を強化します。
- 複数のモダリティを統合することで、テキストから画像への合成を超えてモデルの機能を拡張します。
- モデルの解釈可能性を評価して、生成された画像の視覚的特徴の理解を向上させます。
倫理的な研究の質問には次のようなものがあります。
- DeepFloyd IF のバイアスを特定して軽減します。
- ソーシャル メディアとコンテンツ生成に対するモデルの影響を評価します。
- モデルを利用した効果的な偽画像検出器を開発します。
モデルの重みにアクセスするには、ユーザーは DeepFloyd のライセンスに同意する必要があります。 ハグフェイススペース。 詳細については、モデルの Web サイトをご覧ください。 GitHubリポジトリ, グラデーションデモ、または DeepFloyd を通じて公開ディスカッションに参加することもできます。 リンクツリー.