AI 101
AIにおける拡散モデル – すべてについて知る必要があること

AIエコシステムでは、拡散モデルが技術の進歩の方向とペースを決定しています。複雑な生成AIタスクに取り組む方法を変革しています。これらのモデルは、ガウシアン原理、分散、微分方程式、生成シーケンスの数学に基づいています。(以下で技術用語を説明します)
Nvidia、Google、Adobe、OpenAIによって開発された、AI中心の製品とソリューションは、拡散モデルを中心に注目しています。DALL.E 2、Stable Diffusion、Midjourneyは、最近インターネットで話題になっている、拡散モデルの著名な例です。ユーザーは単純なテキストプロンプトを入力し、これらのモデルはそれをリアルな画像に変換できます。以下に示す画像は、その例です。

Midjourney v5を使用して生成された画像:入力プロンプト「カリフォルニアポピーの鮮やかな色」 出典:Midjourney
拡散モデルの基本的な動作原理を探ってみましょう。現在の世界をどのように変えているのかを見ていきます。
拡散モデルとは何か?
研究論文「Denoising Diffusion Probabilistic Models」によると、拡散モデルは次のように定義されます。
「拡散モデルまたは確率的拡散モデルは、変分推論を使用して訓練される、パラメータ化されたマルコフ連鎖であり、有限時間後にデータに一致するサンプルを生成する」
簡単に言えば、拡散モデルは訓練データと似たデータを生成できます。モデルが猫の画像で訓練された場合、猫のリアルな画像を生成できます。
上記の技術的な定義を分解してみましょう。拡散モデルは、時間の経過とともに変化するシステムの挙動を分析および予測することができる、確率的モデルからインスピレーションを得ています。たとえば、株式市場のリターンやパンデミックの蔓延を予測する場合です。
定義によると、拡散モデルは変分推論を使用してパラメータ化されたマルコフ連鎖で訓練されます。マルコフ連鎖は、システムが時間の経過とともにさまざまな状態を遷移することを定義する数学的なモデルです。システムの現在の状態は、特定の状態への遷移の確率のみを決定します。言い換えると、システムの現在の状態は、システムが特定の時点で取得できる可能性のある状態を保持します。
変分推論を使用してモデルを訓練するには、確率分布の複雑な計算が必要です。観測された(既知または実際の)データに一致するマルコフ連鎖の正確なパラメータを見つけることを目指します。このプロセスにより、モデルの損失関数の値が最小化されます。損失関数は、予測された(未知の)状態と観測された(既知の)状態の差です。
モデルの訓練が完了すると、観測されたデータに一致するサンプルを生成できます。これらのサンプルは、システムが時間の経過とともに取得できる可能性のある軌跡または状態を表します。各軌跡には発生する可能性のある確率が異なります。したがって、モデルの将来の挙動を予測できます。サンプルを生成し、それぞれの確率(これらのイベントが発生する可能性)を見つけることで、システムの将来の挙動を予測できます。
AIにおける拡散モデルの解釈方法
拡散モデルは、深層生成モデルの一種で、利用可能な訓練データ(前向き拡散プロセスとして知られている)にノイズ(ガウシアンノイズ)を追加し、次にプロセスを逆転させ(ノイズ除去または逆拡散プロセスとして知られている)てデータを回復します。モデルは徐々にノイズを除去することを学習します。この学習されたノイズ除去プロセスは、ランダムなシード(ランダムなノイズ画像)から新しい、高品質な画像を生成します。以下の図に示すようにです。

逆拡散プロセス:訓練された拡散モデルを使用して、ノイズの付いた画像を除去して元の画像(またはそのバリエーション)を回復する 出典:Denoising Diffusion Probabilistic Models
拡散モデルの3つのカテゴリ
拡散モデルの背後にある科学を支える3つの基本的な数学的フレームワークがあります。すべてのフレームワークは、ノイズを追加してから除去して新しいサンプルを生成するという同じ原理で動作します。以下でそれらについて説明します。

拡散モデルは画像からノイズを追加してから除去します 出典:Diffusion Models in Vision: A Survey
1. ノイズ除去拡散確率モデル(DDPMs)
上記で説明したように、DDPMsは、主に視覚的または音声データからノイズを除去するために使用される生成モデルです。画像および音声のノイズ除去タスクで優れた結果を示しています。たとえば、映画産業では、映像やビデオの品質を向上させるために、最新の画像およびビデオ処理ツールを使用します。
2. ノイズ条件付きスコアベース生成モデル(SGMs)
SGMsは、与えられた分布から新しいサンプルを生成できます。対象分布の対数密度を推定できるスコア関数を学習することで機能します。対数密度推定では、利用可能なデータポイントが未知のデータセット(テストセット)の一部であると仮定します。このスコア関数は、分布から新しいデータポイントを生成できます。
たとえば、ディープフェイクは、有名人の偽のビデオやオーディオを生成することで悪名高いですが、主に生成対抗ネットワーク(GANs)に帰属します。ただし、SGMsは同等の、時には優れた機能を生成する能力を示しています。さらに、SGMsは、医療データセットの拡張に役立ちます。医療データセットは、厳格な規制と業界基準により、多量に利用できないためです。
3. ストックアスト微分方程式(SDEs)
SDEsは、時間に関連してランダムなプロセスの変化を記述します。物理学や金融市場で、結果に大きな影響を与えるランダムな要因が関係する場合に広く使用されています。
たとえば、商品の価格は非常にダイナミックで、さまざまなランダムな要因の影響を受けています。SDEsは、原油契約などの金融派生商品を計算できます。価格の変動をモデル化し、セキュリティを提供するために有利な価格を正確に計算できます。
AIにおける拡散モデルの主な応用
拡散モデルの広く採用されている実践とAIにおける使用例を見てみましょう。
高品質ビデオ生成
深層学習を使用して高品質のビデオを作成することは、ビデオフレームの連続性が高いことを要求するため、困難です。拡散モデルは、欠落しているフレームを補完するサブセットのビデオフレームを生成できるため、役立ちます。結果として、ラグなしでスムーズな高品質のビデオが生成されます。
研究者は、この目的を達成するためにFlexible Diffusion ModelとResidual Video Diffusionテクニックを開発しました。これらのモデルは、実際のフレーム間にAI生成フレームをシームレスに追加して、リアルなビデオを生成できます。
これらのモデルは、利用可能なフレームからパターンを学習した後、低FPSビデオのFPS(フレーム秒)をダミーフレームを追加することで拡張できます。フレームの損失がほとんどない場合、深層学習ベースのモデルが高品質のカメラ設定から撮影された自然なショットのように見える、スクラッチからAIベースのビデオを生成するのを支援できます。
2023年には、ビデオコンテンツの制作と編集を迅速かつ簡単に行える、注目すべきAIビデオジェネレーターが多数あります。
テキストから画像生成
テキストから画像モデルは、入力プロンプトを使用して高品質の画像を生成します。たとえば、「赤いリンゴが皿の上にある」という入力を与え、リンゴの写真のような写真を生成します。Blended DiffusionとunCLIPは、ユーザーの入力に基づいて高品質の画像を生成できる、そんなモデルの一例です。
また、GLIDE by OpenAIは、2021年にリリースされた、ユーザーの入力から写真のような画像を生成する別の有名なソリューションです。その後、OpenAIは、現在最も高度な画像生成モデルであるDALL.E-2をリリースしました。
同様に、Googleは、大規模な言語モデルを使用して入力テキストの深いテキスト理解を開発し、写真のような画像を生成する、Imagenという画像生成モデルも開発しました。
上記で説明したように、MidjourneyやStable Diffusion(DreamStudio)などの他の人気のある画像生成ツールがあります。Stable Diffusionを使用して生成された画像を見てみましょう。

Stable Diffusion 1.5を使用して生成された画像:プロンプト「コラージュ、ハイパーリアリスティック、多数のバリエーション、ポートレート、老人のトム・ヨーク、プロファイル、歌手、さまざまな年齢、マクロレンズ、リミナルスペース、リー・バーミージョ、アルフォンス・ミュシャ、グレッグ・ルトコフスキー、グレイビアード、スムーズな顔、頬骨、由来、アルフォンス・ミュシャ、グレッグ・ルトコフスキー、リー・バーミージョ」
AIにおける拡散モデルの将来
拡散モデルは、複雑な画像やビデオデータセットから高品質のサンプルを生成するためのロバストなアプローチとして、有望な潜在性を示しています。拡散モデルは、データの使用と操作の能力を向上させることで、現在の世界を変革する可能性があります。拡散モデルの応用が私たちの日常生活の一部になることを期待できます。
ただし、拡散モデルは、生成AIの唯一の手法ではありません。研究者は、生成対抗ネットワーク(GANs)、変分オートエンコーダー、フローベースの深層生成モデルも、AIコンテンツを生成するために使用しています。拡散モデルと他の生成モデルを区別する基本的な特性を理解することで、将来的により効果的なソリューションを生み出すことができます。
AIベースのテクノロジーについてもっと知りたい場合は、Unite.aiを訪問してください。以下に、生成AIツールに関する私たちのキュレーションリソースを紹介します。












