プロンプトエンジニアリング

AIアートのマスター:ミッドジャーニーとプロンプトエンジニアリングのコンサイスガイド

mm
Midjourney Generated UNITE AI LOGO

ミッドジャーニーAI生成アートの紹介

AIは、不可能な壁を打ち破り、最近ではアートの領域に侵入し、完全に変化させました。現在、プロのアーティストやPhotoshopのエキスパートである必要はありません。自分のイメージを実現するために、シンプルで明確なプロンプトが必要です。ミッドジャーニーミッドジャーニーにより、これが可能になりました。

すべては、2022年にDALL-E、ミッドジャーニー、StableDiffusionなどの画期的なテクノロジーが導入されたことから始まりました。各革新は、ジェネレーティブAIのキャンバスに独自のタッチを与えました。ミッドジャーニーは、特に、印象的な旅を続けており、注目すべき進歩を遂げています。

ミッドジャーニーは現在、市場で最高の高解像度テキストからイメージのAIジェネレーターであり、テキストからイメージの生成、メディア編集とアップスケーリング、そしてアクティブなアートコミュニティへのアクセスを、月10ドルから提供しています。この包括的な機能セットは、アーティスト、テクノロジー愛好家、AIプロフェッショナルにとって、創造性と革新の環境を提供します。

アートの世界は確実に注目しています。ジェネレーティブAIはアート市場で40.5%の成長を予測されています。ミッドジャーニーは、AIを使用して最もリアルな高品質のビジュアルを作成することで、独自の地位を築いています。

効果的なプロンプトエンジニアリングは、単なる創造を超えて、ベストプラクティスを包含します。プロンプトは、明確で簡潔で、AIに十分なガイダンスを提供する必要があります。また、デザインの際には、年齢、性別、文化的背景などのターゲットオーディエンスを考慮する必要があります。

ミッドジャーニーの仕組み

ミッドジャーニーは、2つの新しい機械学習テクノロジー、言語モデルと拡散モデルを利用しています。言語モデルは、AIチャットボットのChatGPTと同様に、ミッドジャーニーがプロンプトの意味を解釈し、ベクトルに変換するのに役立ちます。このベクトルは、拡散プロセスを導きます。

ミッドジャーニーの内部動作は、ほとんど公開されていません。しかし、テキストからイメージの生成のために、2つの比較的新しい機械学習テクノロジー、言語モデルと拡散モデルを使用していることは明らかです。言語モデルは、AIプラットフォームのChatGPTと同様に、ミッドジャーニーがプロンプトの意味を解釈し、ベクトルに変換するのに役立ちます。拡散モデルは、AIアート生成の分野で有望な追加です。システム全体は、CLIPデータセットに基づいてトレーニングされており、OpenAIの研究ページで見つけることができます。

情報が限られているにもかかわらず、ミッドジャーニーの拡散モデル、すなわち「安定した拡散」の大まかな絵を描くことができます。基本的に、安定した拡散は、テキストプロンプトを様々なスタイルとコンテンツのイメージに変換するオープンソースモデルです。この洗練されたプロセスは、拡散モデル、つまりテキスト入力とイメージ出力の依存関係を橋渡しする生成モデルを介して実現されます。

拡散モデルは、非平衡熱力学に影響されたノイズ除去拡散法の基礎に基づいて構築されています。この方法は、データの構造を体系的に分解し、後に再構築します。このアプローチは、2020年にHoらによって画像生成のために適応され、現在見られる拡散モデルが生まれました。

拡散モデルのトレーニングには、2つの主要なステージがあります。最初のステージでは、前向きまたは拡散プロセスでは、入力イメージにランダムノイズを逐次的に追加し、完全にノイズに変化するまで続きます。このプロセスは、一定のマルコフ連鎖によって支配され、複数のステップで一貫してガウシアンノイズを追加します。

ミッドジャーニーの動作デモ

その後、逆または再構築段階では、モデルは拡散プロセスで達成されたノイズ支配状態から元のデータを再構築します。このプロセスは、学習されたガウシアントランジションを持つマルコフ連鎖によって推進され、任意の時点での確率密度の予測は、前の時点での状態のみに依存します。潜在的な「x1、…、xT」はデータと同じ次元性を共有するため、拡散モデルは潜在変数モデルとして分類されます。

ミッドジャーニーのコストとサブスクリプション

チャットボットのChatGPTやBing Chatのように、ほとんどのチャットボットは無料でほぼ無制限に使用できますが、ミッドジャーニーなどの画像ジェネレーターは、別のシナリオを提供します。GPUとビデオメモリの使用、特にノイズ除去プロセスに必要な大量のコンピューティングパワーにより、ミッドジャーニーのサービスは価格タグが付きます。

基本プランは月10ドルから始まり、約3.3時間のGPU時間を提供し、約200枚の画像生成に十分です。ただし、リラックスモードで無制限の画像を提供する高級プランもありますが、待ち時間は長くなります。

ミッドジャーニーの設定

  1. ミッドジャーニーを開始するには、公式ウェブサイトでミッドジャーニーにサインアップし、プランに登録し、Discordにリダイレクトされます。
  2. Discordのミッドジャーニーチャンネルにアクセスしたら、左側のNewcomer Groupsに移動し、他のユーザーがプロンプトを作成しているのを観察し、ミッドジャーニーのメカニズムを学び、活気ある環境で交流できます。
  3. 環境に慣れたら、ボットをプライベートサーバーに招待して、画像を生成します。ボットは、プロンプトに基づいて4つのプレビュー画像を生成し、オリジナルのアイデアに最も近いものを選択して、画像をさらに洗練することができます。

ミッドジャーニーのプロンプト構造

  1. ミッドジャーニーチャンネル内のDiscordチャンネルで/imagineコマンドを使用すると、短いテキスト説明(プロンプト)から一意の画像が生成されます。
  2. 様々な画像にわたって特定のスタイルを再現するには、画像URLをテキストプロンプトと一緒に入力します。新しい出力は、選択した画像とテキストの両方の要素を統合します。
    /imagine http://リンク先の画像 <画像説明> –パラメータ1 –パラメータ2
    ここで、http://リンク先の画像とパラメータはオプションです。
    画像へのリンクを生成するには、Discordチャンネルに画像をアップロードします。アップロード後、画像を右クリックして「リンクをコピー」を選択します。
  3. その後、ボットは画像の生成を開始し、約1分で4つの代替案を提供します。このプロセスには、各プロンプトを処理して解釈するための強力なGPUが使用されます。
  4. GPU使用状況を/infoコマンドで確認できます。Fast Time Remainingをチェックし、サブスクリプションのGPU時間を監視できます。

/infoプロンプトミッドジャーニー

画像のアップスケーリングと変更

より洗練された画像を得るには、画像の下にある「U」ボタンを使用して、好みの画像をアップスケールできます。さらに、「V」ボタンを使用して、特定の画像を変更できます。アップスケールされた画像のさらに変更するには、「バリエーションを作成する」、「ライトアップスケールをやり直す」、「ベータアップスケールをやり直す」などのオプションを使用します。「Web」ボタンを使用して、別のウィンドウで画像を大きいサイズで表示できます。

ミッドジャーニーでは、2048×2048(正方形)と2720×1530(ワイドスクリーン)解像度までの画像をアップスケールできます。デフォルトの生成グリッドサイズは1024×1024(正方形)と1456×816(ワイドスクリーン)です。各画像は「U」アップスケールオプションを使用してさらに強化できます。これにより、画像の特定の部分が改善されます。

ミッドジャーニーのバージョン5.2で生成される素晴らしいアートワークを示すプロンプトを見てみましょう。

/imagine アートワークは、星空の下で孤独な木の下で子供が読書している、フランス印象派の筆致、ペルシャのミニアチュール、バウハウスのシンプリシティ、クラシックな童話のイラストの感覚を呼び起こす、青とオレンジの色合い、非対称の調和、魅力的で、民俗的な、ナイーブなスタイルで –ar 15:19 –upbeta –q 2

ミッドジャーニープロンプトガイドの例

最初のミッドジャーニーAIアートの作成

  1. 基本的なブループリントの作成:自分をアーティストとして考え、イメージを実現するための明確で生きたイメージの説明から始めます。主な主題、雰囲気、または細かい詳細をアウトラインします。コンマ、括弧、ハイフンなどの句読点を使用して考えを構造化します。明確な結果を得るには、デザインのコンテキストと詳細について具体的に説明する必要があります。主題(例:ドラゴン、ヴィンテージカー、アブラハム・リンカーン)、メディア(例:デジタルアート、鉛筆スケッチ)、環境(例:宇宙、水中、活気ある都市)、照明(例:ソフト、ネオン、バックライト)、色(例:アーストーン、ビブリッド、ミューテッド)、ムード(例:メランコリー、ウィット、ピースフル)、構成(例:風景、クローズアップ、ワイドアングル)などの要素は重要です。例:
    • 日光に満たされたイデア的な森、遠くに続く歩道
    • 眠らない都市、歩道に反射するネオンライト、多様な人々の群れ
  2. スタイルとキーワードの注入:ミッドジャーニーのAIは、抽象的、シュルレアリスム、リアリスムなどの様々なスタイルで画像を生成できます。スタイルまたは関連キーワードを統合することで、AIがあなたのビジョンに合った画像を作成することができます。様々なスタイルとキーワードを試して、完璧なブレンドを見つけましょう。例:
    • ジョージア・オキーフのスタイルを模した、砂漠の日の出の風景、パステルカラー、有機的な形
    • ピエト・モンドリアンの構成に影響された、平和な森の抽象的な描写、幾何学的なパターンで木と葉を形成
  3. 高度な設定の活用:ミッドジャーニーをあなたの創造的なツールボックスとして考え、画像を生成するための高度な設定を提供します。魔法の杖を振るうように、ランダム性、スタイル化、画像のバリエーションを最適なミックスで生成することができます。例:
    • 静かな日本庭園、池に映る桜、–seed 22 –s 150 –c 40
    • ネオンライトで照らされたサイバーパンク都市、–seed 88 –s 600 –c 60
  4. 重み付けによる要素の強調:画像を大きなアンサンブルとして考え、各要素が貢献しています。「::」表記を使用して、画像のさまざまな要素の重要性を指定できます。例:
    • [美しいペacock]::3が[wisteria tree]::1に止まり、鲜やかな花が咲きます
    • [majestic elephant]::2が[sunset]::1の光を浴びて、サバンナで
  5. ミッドジャーニーは試行錯誤のプロセスです:さまざまな要素や機能を試すことは必要です。各反復は、イメージを実現するのに近づきます。

ミッドジャーニーパラメータ

ミッドジャーニーモデルの動作は、画像生成プロセスの結果を制御する調整可能なパラメータに基づいています。これらのパラメータにより、ユーザーは生成されたアートを調整して、目標に合った出力を生成することができます。

以下は、基本的なパラメータと高度なパラメータ、その機能、そしてミッドジャーニーの機能を最大限に活用する方法です:

  • アスペクト比(–aspectまたは–ar):このパラメータは、生成された画像の幅と高さの比率を制御します。例えば、16:9の比率はYouTubeサムネイルに適していますが、1:1はInstagramに適しています。
  • カオス(–chaos):このパラメータは、初期画像グリッドの多様性を調整し、0から100の範囲で設定できます。高いカオス値は予測不可能でユニークな結果をもたらし、低い値はより一貫した結果をもたらします。
  • 除外(–no):このパラメータは、生成された画像から特定の要素または特性を除去するのに役立ちます。例えば、画像から赤を除去したい場合は「–no red」を使用します。
  • 品質(–qualityまたは–q):この設定は、画像の生成に必要な時間を調整します。高い品質では、より詳細な画像が生成されますが、処理時間が長くなります。このパラメータは0.25、0.5、1、または2の値をとることができます。
  • シード(–seed):このパラメータは、生成された画像の基礎となる視覚的なノイズを決定し、0から4294967295の整数値をとることができます。同じシード番号とプロンプトを使用すると、類似した結果が生成されます。
  • 停止(–stop):このパラメータを使用して、ジョブを予定よりも早く終了させることができます。範囲は10から100で、例えば「–stop 50」を指定すると、画像生成プロセスは50%で終了し、詳細度の低い、抽象的な画像が生成されます。
  • スタイル化(–stylizeまたは–s):このパラメータは、生成された画像への芸術的な適用度を制御します。低いスタイル化値では、結果は初期のプロンプトに近くなり、高い値では、より抽象的で芸術的な解釈が生成されます。バージョン5では、デフォルト値は100ですが、0から1000の範囲で設定できます。
  • モデルバージョン:–versionまたは–vパラメータを使用して、ミッドジャーニーモデルのさまざまなバージョンを選択できます。
  • ニジ:アニメスタイルの画像を専門とするモデルで、–nijiパラメータを使用してアクセスできます。
  • ハイミディフィニション:抽象的または風景の画像の場合、–hdパラメータを使用して、以前のモデルバージョンを有効にし、大きなが粗い画像が生成されます。
  • テストモデル:ミッドジャーニーは、特定のユースケース用に特別なモデルを提供します。–testおよび–testpパラメータを使用して、標準および写真撮影に特化したテストモデルを有効にします。
  • アップスケーラー:ミッドジャーニーのアルゴリズムは、低解像度の画像グリッドから始まり、サイズと詳細を強化するためのさまざまなアップスケーリングモデルを提供します。
    • アップライト:–uplightパラメータを使用すると、詳細度は低いがスムーズなアップスケール画像が生成されます。
    • アップベータ:–upbetaパラメータを使用すると、追加の詳細が少ないが、元のグリッド画像に近い画像が生成されます。
    • アップアニメ:–upanimeアップスケーラーは、–nijiミッドジャーニーモデルと共同で作業するように設計されています。
  • 画像重み:–iwパラメータを使用して、画像プロンプトの重みをテキスト重みに相対的に調整します。デフォルト値は0.25です。
  • セームシード:–sameseedパラメータを使用すると、初期グリッド内のすべての画像が同じ開始ノイズを使用して生成され、非常に類似した画像が生成されます。
  • ビデオ:–videoパラメータを使用すると、初期画像グリッド生成プロセスの進捗をビデオとして保存できます。
  • クリエイティブ:–creativeパラメータを使用すると、テストおよびテストPモデルは、より多様でクリエイティブな画像を出力します。

ミッドジャーニーは、ユーザーエクスペリエンスを向上させるために、継続的に更新をリリースしています。最新のバージョン5.2は2023年6月にリリースされ、プロンプトまたは/settingsコマンドを介してアクセスできます。バージョン5.2では、画像の詳細が向上し、プロンプトの理解がより直感的になり、より明るい色と改善された構成が提供されます。

AI生成アートワークの著作権を理解する

ミッドジャーニー画像:AIと著作権法のミックス

2023年3月、米国著作権局は、AI生成作品の著作権についての姿勢を明確にしました。政策では、AI生成画像自体は著作権の対象にならないが、AI生成作品の中の人間によって作成された要素は保護されることが述べられています。

AIアートの文脈では、著作権は簡単ではありません。デジタルアートには人間のアーティストの入力がありますが、AI生成アートは直接人間の介入なしに生成され、所有権と著作権の問題を複雑にします。米国著作権局によると、初期の所有権は作品の著者、つまり人間の創作者に与えられます。しかし、AIは著者とみなされないため、AI生成アートには明確な所有権がありません。

米国著作権局の最新のガイダンスでは、AIアートは「十分な人間の著作権」が含まれている場合にのみ著作権で保護されることが示されています。「十分な人間の著作権」のレベルは未定義であり、AIアートワークの生成における人間の関与の程度に依存します。

興味深いことに、ミッドジャーニーは、AIベースの画像生成プラットフォームとして、使用権に関する独自のポリシーを確立しています。無料トライアルユーザーは、Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) の下で、非商用目的で画像を使用できます。ただし、有料サブスクライバーは、General Commercial Terms の下で、商用を含むすべての目的で画像を使用できます。この著作権の動向は、AIと人間の創造性の間にある興味深いダイナミクスを示しています。

ミッドジャーニーを使用したダイナミックUIデザインとクリエイティブロゴ生成

ウェブサイトやモバイルアプリの直感的なUIの設計から、ユニークなロゴやバナーの作成まで、ミッドジャーニーはコンテンツクリエーターに力を与え、数秒以内にさまざまなデザインの選択肢を生成します。

ここで、デザインはプロンプトから始まり、AIに従うためのブループリントとなります。オンラインチュートリアルプラットフォームアプリのUIを設計している場合、典型的なプロンプトは次のようになります:”/imagine オンラインチュートリアルプラットフォーム、ユーザーインターフェース、Dribbble、High Resolution、4K、Khan Academyのように”。

初期の結果は完全に当たることはありません。例えば、プロンプトに「Adobe XD」を追加することで、ミッドジャーニーがAdobe XDと互換性のあるデザインを生成することができます。最適化されたプロンプトは次のようになります:

/imagine オンラインチュートリアルプラットフォーム、ユーザーインターフェース、Adobe XD、Dribbble、High Resolution、4K、ミニマリストデザイン

ミッドジャーニー画像:デスクトップアプリのUI/UXデザイン

ミッドジャーニーを使用したテキストインスパイアードロゴまたはバナーの作成

UNITE AIのロゴとバナーの作成方法を見てみましょう。

まず、表示したいテキストのシンプルな画像を作成する必要があります。これは、グラフィックデザインツールまたはテキストエディターを使用して作成できます。次に、Discordチャンネルにアップロードします。

UNITE LOGOのサンプルテキスト
UNITEロゴを作成するためのテキストのシンプルな画像

バナーの作成プロンプトは次のようになります:

/imagine 文字: UNITE、未来的な、AIインスパイアードタイプのロゴ、文字UNITE –v 5 –ar 16:9

ミッドジャーニープロンプトガイドの機能画面

さらにアイデアを得るために、これらのプロンプト例を見てみましょう:

/imagine 浮遊都市でセレナーデを演奏する一人のミュージシャン、アールヌーボー様式

ミッドジャーニープロンプトガイド:インドアートの画像

/imagine 未来の人物が、ホログラフィックスクリーンや先進技術に囲まれた、未来的な机で作業している。人物はスリムなシルバージャンプスーツを着て、バーチャルリアリティゴーグルを着用しています。環境はネオンライトと浮遊ホログラムで満たされ、未来的なハイテクの雰囲気があり、革新の感覚があります。カメラは、高解像度のデジタルカメラで、精密に詳細を捉えています。芸術スタイルは、サイバーパンクとミニマリズムの融合で、クリーンなラインとボールドなカラーに焦点を当てています。コラボレーションしているディレクター、シネマトグラファー、写真家、ファッションデザイナー、漫画家、芸術家は、クリストファー・ノーラン、ロジャー・ディーキンス、アンニ・ライボヴィッツ、ヴィルジル・アブロー、宮崎駿、カウズです。

ミッドジャーニープロンプト:未来の人物が作業する

/imagine 1940年代スタイルのバービー、戦時看護師、ヴィンテージ軍事病院の設定、負傷した兵士の世話、クラシックマテルイラストの雰囲気、セピア色調の第二次世界大戦写真、8K –v 5 –ar 16:9

ミッドジャーニープロンプトガイド:バービーのユニークな設定

/imagine フローティングシティーのサイバーパンク、ホバーバイク、ジャパニーズアニメ、広大な都市風景、32K、繊細な宇宙港、儚い、スカイラインのパノラマ、スリム

ミッドジャーニー画像:サイバーパンクスタイルの女

最終的な考え:ミッドジャーニーとAIアートの世界をナビゲートする

「一枚の絵は千の言葉に値する」ということわざがあります。詳細で鲜やかな説明は、奇跡をもたらすことができます。はい、ミッドジャーニーは無料ではありません。しかし、AIを使用したテキストからイメージの変換という、革命的なテクノロジーにより、アートの世界を変革し、創造的可能性を拡大しています。アーティスト、UI/UXデザイナー、テクノロジー愛好家、AIプロフェッショナルにとって、無限の機会を提供するツールです。

以下は、ミッドジャーニー冒険を開始する際に覚えておくべき重要なポイントです:

  • ミッドジャーニープロンプトの基礎を学ぶ:明確で簡潔で包括的な説明を使用して、AIを効果的に導きます。オーディエンスを考慮し、様々なスタイル、ムード、コンテキストを試してみましょう。
  • パラメータを利用する:ミッドジャーニーが提供する多数の高度な設定を使用して、創造的体験を強化します。アスペクト比を制御することから、カオスパラメータを使用してユニークな結果を生成するまで、すべての詳細を調整することができます。
  • 反復プロセスを受け入れる:最初のAI生成アートワークが完璧でない場合でも、反復プロセスを受け入れて、プロンプトを改良して、より良い結果を得ることを学びましょう。
  • 著作権の影響を理解する:AI生成アートワーク自体は著作権で保護されませんが、人間によって作成された要素は保護されることがあります。

本質的に、AIのアートへの統合は、創造性を民主化し、人間と機械によって作られた傑作の境界を曖昧にしました。ジェネレーティブAIがアート市場で見られる驚異的な成長を目撃するにつれて、AIアート革命が、ミッドジャーニーを含むプラットフォームによって始まったことは、間違いありません。

私は過去5年間、機械学習とディープラーニングの魅力的世界に没頭してきました。私の情熱と専門知識は、AI/MLに特に焦点を当てた50以上の多様なソフトウェアエンジニアリングプロジェクトに貢献することになりました。私の継続的な好奇心は、自然言語処理という分野にも私を引き付け、さらに探求したいと思っています。