AI 101
AIにおける拡散モデル – 知っておくべきすべて

AIエコシステムでは、拡散モデルが技術の進歩の方向とペースを設定しています。複雑なジェネレーティブAIタスクへのアプローチを革命的に変えている。これらのモデルは、ガウシアン原理、分散、微分方程式、ジェネレーティブシーケンスの数学に基づいています。(以下で技術用語を説明します)
Nvidia、Google、Adobe、OpenAIによって開発された最新のAI中心の製品とソリューションは、拡散モデルを中心に注目しています。DALL.E 2、Stable Diffusion、Midjourneyは、最近インターネットで話題になっている拡散モデルの著名な例です。ユーザーは単純なテキストプロンプトを入力として提供し、これらのモデルはそれを現実的な画像に変換できます。

Midjourney v5を使用した入力プロンプト: カリフォルニアポピーの輝き。ソース: Midjourney
拡散モデルの基本的な動作原理と、それらが私たちが見る世界の方向と規範をどのように変えているかを探ってみましょう。
拡散モデルとは?
研究論文「ノイズ除去拡散確率モデル」によると、拡散モデルは次のように定義されます。
「拡散モデルまたは確率拡散モデルは、有限時間後にデータに一致するサンプルを生成するために、変分推論を使用してトレーニングされたパラメータ化されたマルコフ連鎖」
簡単に言えば、拡散モデルはトレーニングに使用されるデータと同様のデータを生成できます。モデルが猫の画像でトレーニングされた場合、モデルは現実的な猫の画像を生成できます。
上記の技術的な定義を分解してみましょう。拡散モデルは、時間の経過とともに変化するシステムの動作を分析および予測できる確率モデルの動作原理と数学的基礎からインスピレーションを得ています。
定義によると、拡散モデルはパラメータ化されたマルコフ連鎖であり、変分推論を使用してトレーニングされます。マルコフ連鎖は、時間の経過とともにさまざまな状態を切り替えるシステムを定義する数学モデルです。システムの現在の状態は、特定の状態への遷移の確率のみを決定します。言い換えると、システムの現在の状態は、システムが取得できる可能性のある状態を保持します。
変分推論を使用してモデルをトレーニングするには、確率分布の複雑な計算が必要です。目標は、特定の時間後に観測された(既知または実際の)データに一致するマルコフ連鎖の正確なパラメータを見つけることです。このプロセスにより、モデル損失関数の値が最小化されます。損失関数は、予測(未知)と観測(既知)状態の間の差です。
モデルがトレーニングされたら、観測されたデータに一致するサンプルを生成できます。これらのサンプルは、システムが時間の経過とともに取得できる可能性のある軌道または状態を表します。各軌道には発生する確率(これらのイベントが発生する可能性)が異なります。したがって、モデルは、さまざまなサンプルを生成し、それぞれの確率(これらのイベントが発生する可能性)を見つけることで、システムの将来の動作を予測できます。
AIにおける拡散モデルの解釈
拡散モデルは、ガウシアンノイズ(ノイズ)を利用可能なトレーニングデータ(前向き拡散プロセスとしても知られています)に追加し、次にプロセスを逆転させ(ノイズ除去または逆拡散プロセスとして知られています)データを回復することによって動作する深層ジェネレーティブモデルです。モデルは徐々にノイズを除去することを学習します。この学習されたノイズ除去プロセスにより、ランダムなシード(ランダムなノイズ画像)から新しい、高品質の画像が生成されます。

逆拡散プロセス: ノイズの付いた画像が、トレーニング済みの拡散モデルを介して元の画像(またはそのバリエーション)にノイズ除去されます。ソース: ノイズ除去拡散確率モデル
拡散モデルの3つのカテゴリ
拡散モデルの背後にある科学を支える3つの基本的な数学的フレームワークがあります。3つすべてがノイズを追加し、次にノイズを除去して新しいサンプルを生成する同じ原理で動作します。以下で説明します。

拡散モデルは画像からノイズを追加および除去します。ソース: Diffusion Models in Vision: A Survey
1. ノイズ除去拡散確率モデル(DDPMs)
上記のように説明したように、DDPMsは、主に視覚的または音響データからノイズを除去するために使用されるジェネレーティブモデルです。画像および音響ノイズ除去タスクのさまざまな実験で優れた結果を示しています。たとえば、映画制作業界は、制作品質を向上させるために、最新の画像およびビデオ処理ツールを使用します。
2. ノイズ条件付きスコアベースジェネレーティブモデル(SGMs)
SGMsは、与えられた分布から新しいサンプルを生成できます。対象分布の対数密度を推定するスコア関数を学習することで機能します。 対数密度推定は、利用可能なデータポイントが未知のデータセット(テストセット)の一部であると想定します。 このスコア関数は、分布から新しいデータポイントを生成できます。
たとえば、ディープフェイクは、有名人の偽のビデオやオーディオを生成することで悪名高いですが、主にジェネレーティブアドバーサリアルネットワーク(GANs)に帰属します。ただし、SGMsは、類似の機能を示し、時にはGANsを上回る、高品質の有名人の顔を生成する能力があります。さらに、SGMsは、厳格な規制や業界基準により大量に利用できないヘルスケアデータセットを拡張するのに役立ちます。
3. ストーチャスティック微分方程式(SDEs)
SDEsは、時間に関連するランダムプロセスの変化を記述します。物理学や金融市場で広く使用されており、市場の結果に大きな影響を与えるランダム要因が含まれます。
たとえば、商品の価格は非常にダイナミックであり、多数のランダム要因によって影響を受けます。 SDEsは、先物契約(原油契約など)などの金融派生商品を計算できます。 これらは変動をモデル化し、セキュリティを提供するために有利な価格を正確に計算できます。
AIにおける拡散モデルの主な応用
拡散モデルの広く採用されている実践と使用例を見てみましょう。
高品質ビデオ生成
ディープラーニングを使用して高品質のビデオを作成することは、ビデオフレームの連続性が高くなるため、課題です。拡散モデルは、欠落しているフレームを生成することで役立ちます。欠落しているフレームを生成することで、待ち時間のないスムーズなビデオが生成されます。
研究者は、この目的を達成するために、Flexible Diffusion ModelとResidual Video Diffusionテクニックを開発しました。これらのモデルは、実際のフレーム間にAI生成フレームをシームレスに追加することで、現実的なビデオを生成できます。
これらのモデルは、利用可能なフレームからパターンを学習することで、低FPSビデオのFPS(フレームレート)をダミーフレームを追加することで拡張できます。フレームロスがほとんどない場合、これらのフレームワークは、スクラッチから自然なショットのように見える高品質のビデオを生成するためのディープラーニングベースのモデルをさらに支援できます。
2023年には、ビデオコンテンツの制作と編集を迅速かつ簡単に行える、多数の優れたAIビデオジェネレーターが利用できます。
テキストから画像の生成
テキストから画像のモデルは、入力プロンプトを使用して高品質の画像を生成します。たとえば、「赤いリンゴが皿の上にある」という入力プロンプトを与え、リンゴが皿の上にある写真のように見える現実的な画像を生成します。 Blended DiffusionとunCLIPは、ユーザーの入力に基づいて高品質の画像を生成することができる、テキストから画像のモデルです。
また、GLIDE by OpenAIは、2021年にリリースされた、ユーザーの入力から現実的な画像を生成することができる、広く知られているソリューションです。後に、OpenAIは、現在までで最も高度な画像生成モデルであるDALL.E-2をリリースしました。
同様に、Googleは、大規模な言語モデルを使用して入力テキストの深いテキスト理解を開発し、現実的な画像を生成することができる、Imagenという画像生成モデルを開発しました。
上記で説明したように、MidjourneyやStable Diffusion(DreamStudio)などの他の人気のある画像生成ツールもあります。Stable Diffusionを使用して生成された画像を見てみましょう。

Stable Diffusion 1.5を使用して、次のプロンプトでコラージュを作成しました: 「コラージュ、ハイパーリアリスティック、多数のバリエーション、ポートレート、非常に老いたトム・ヨーク、顔のバリエーション、シンガーソングライター、(横)プロファイル、さまざまな年齢、 マクロレンズ、リミナルスペース、リー・バーメホ、アルフォンス・ミュシャ、グレッグ・ルートコフスキー、グレイビアード、スムーズな顔、ほこり、」
AIにおける拡散モデルの将来
拡散モデルは、複雑な画像およびビデオデータセットから高品質のサンプルを生成するための強力なアプローチとしての潜在性を示しています。拡散モデルは、人間の能力を向上させることで、世界を私たちが見るように革命的に変える可能性があります。拡散モデルの応用が私たちの日常生活の一部となることを期待できます。
ただし、拡散モデルは、ジェネレーティブAI技術の唯一の手法ではありません。研究者は、ジェネレーティブアドバーサリアルネットワーク(GANs)、変分オートエンコーダー、フローベースの深層ジェネレーティブモデルも、AIコンテンツを生成するために使用します。拡散モデルと他のジェネレーティブモデルを区別する基本的な特性を理解することで、将来的により効果的なソリューションを生み出すことができます。
AIベースのテクノロジーについてもっと学びたい場合は、Unite.aiを訪問してください。以下に、ジェネレーティブAIツールに関する私たちのキュレーションリソースを示します。










