人工知能

生成AI:CHATGPT、DALL-E、Midjourneyなどのアイデア

mm
Generative AI - Midjourney Prompt

芸術、コミュニケーション、現実の認識の世界は急速に変化しています。人間の革新の歴史を振り返ってみると、車輪の発明や電気の発見は大きな飛躍だったかもしれません。今日、人間の創造性と機械の計算の間の隔たりを埋める新しい革命が起こっています。那は生成AIです。

生成モデルは人間と機械の境界を曖昧にしました。GPT-4のようなモデルが登場し、トランスフォーマーモジュールを使用して自然でコンテキストに富んだ言語生成が可能になりました。これらの進歩は、文書作成、チャットボットの対話システム、合成音楽作成などのアプリケーションを促進しています。

最近の大手テクノロジー企業の決定はその重要性を強調しています。マイクロソフトは、来月にCortanaアプリを終了して、新しい生成AIの革新、例えばBing Chatに重点を置くことを発表しました。アップルも、22.6億ドルの研究開発予算のうち、ティム・クックCEOによって示されたように、生成AIに多大な資金を投入しています。

新しいモデル時代:生成vs. 判別

生成AIの話は、その応用だけでなく、根本的にその内部メカニズムについてです。人工知能のエコシステムには、2つのモデルがあります:判別モデルと生成モデル。

判別モデルは、日常生活で最も多く出会うアルゴリズムです。これらのアルゴリズムは入力データ、例えばテキストや画像を取り込み、ターゲット出力、例えば翻訳や医療診断をペアリングします。これらはマッピングと予測についてです。

生成モデルは、創造者です。これらは解釈したり予測したりするだけでなく、新しい複雑な出力を生成します。ベクトル番号から生成され、実世界の値に関係がない場合があります。

 

生成AIタイプ:テキストからテキスト、テキストから画像(GPT、DALL-E、Midjourney)

生成モデル背後のテクノロジー

生成モデルは、深層ニューラルネットワークにその存在を負っています。これらのネットワークは、人間の脳の機能を模倣するように設計されています。データの多面的な変化を捉え、処理することで、多くの生成モデルにとってのバックボーンとなります。

生成モデルはどのようにして実現されるのでしょうか?通常、深層ニューラルネットワークで構築され、データの多面的な変化を捉えるように最適化されています。代表的な例は、生成敵対ネットワーク(GAN)です。ここでは、2つのニューラルネットワーク、生成者と判別者が、ユニークな教師と学生の関係で競争し、学習します。絵画からスタイル転送、音楽作成からゲームプレイまで、これらのモデルは以前考えられなかった方法で進化し、拡大しています。

これはGANで止まりません。変分オートエンコーダー(VAE)も、生成モデル分野における重要なプレーヤーです。VAEは、ランダムな数字から写実的な画像を生成する能力で知られています。どうやって?これらの数字を潜在的なベクトルを通じて処理することで、人間の美的感覚の複雑さを反映した芸術が生まれます。

生成AIタイプ:テキストからテキスト、テキストから画像

トランスフォーマーとLLM

Google Brainの「Attention Is All You Need」という論文は、テキストモデリングについての考え方を変えるものでした。複雑で順序的なアーキテクチャ、例えば再帰型ニューラルネットワーク(RNN)や畳み込みニューラルネットワーク(CNN)ではなく、トランスフォーマーモデルは、コンテキストに応じて入力テキストの異なる部分に焦点を当てる「注意」概念を導入しました。トランスフォーマーの主な利点の1つは、並列化の容易さでした。RNNはテキストを順序的に処理し、拡張が難しいですが、トランスフォーマーはテキストの部分を同時に処理できます。したがって、大規模なデータセットでのトレーニングが速く、効率的になります。

長いテキストでは、読むすべての単語や文が同じ重要性を持っています。テキストのコンテキストに基づいて、特定の部分がより多くの注意を必要とする場合があります。これは、注意メカニズムが模倣する能力です。

これを理解するために、例えば「Unite AIはAIとロボティクスニュースを公開しています」という文を考えてみましょう。次の単語を予測するには、前のコンテキストを理解する必要があります。「ロボティクス」という用語は、ロボティクス分野の特定の進歩または出来事に関連する次の単語が来る可能性があることを示唆するかもしれません。一方、「公開」は、最近の出版物または記事に関する次のコンテキストについて言及する可能性があります。

セルフ注意メカニズムの説明
セルフ注意イラスト

トランスフォーマーの注意メカニズムは、この選択的な焦点を達成するように設計されています。入力テキストのさまざまな部分の重要性を評価し、応答を生成する際にどこに「注目」するかを決定します。これは、以前のアーキテクチャ、例えばRNNが、すべての入力テキストの本質を1つの「状態」または「メモリ」にまとめようとしたこととは異なります。

注意メカニズムの動作は、キーと値の検索システムに似ています。文の次の単語を予測しようとしている場合、前の各単語は、関連性を示唆する「キー」を提供し、現在のコンテキスト(またはクエリ)に基づいて「値」または重みを予測に貢献します。

これらの高度なAIディープラーニングモデルは、さまざまなアプリケーションにシームレスに統合されています。例えば、Googleの検索エンジンの強化にBERTが使用されています。GitHubのCopilotは、Large Language Models(LLM)を利用して、シンプルなコードスニペットを完全なソースコードに変換します。

Large Language Models(LLM) seperti GPT-4、Bard、LLaMAは、人間の言語、コード、その他の複雑なデータを解釈および生成するために設計された巨大な構造体です。これらのLLMの特徴は、数十億から数兆のパラメータを持つことです。これらのLLMは、豊富なテキストデータでトレーニングされており、人間の言語の複雑さを理解する能力を持っています。これらのモデルの特徴的な特性は、「少数の例」から学習する能力です。従来のモデルは、特定のトレーニングデータが大量に必要ですが、LLMはわずかな例(または「ショット」)から一般化できます。

LLMの状態(2023年中期以降)

モデル名 開発者 パラメータ 利用可能性とアクセス 注目すべき機能と備考
GPT-4 OpenAI 1.5兆 オープンソースではなく、APIアクセスのみ 多様なタスクで優れたパフォーマンスを発揮します。画像とテキストを処理できます。最大入力長は32,768トークンです。
GPT-3 OpenAI 175億 オープンソースではなく、APIアクセスのみ 少数の例とゼロショット学習の能力を示しました。自然言語でテキストを完了します。
BLOOM BigScience 176億 ダウンロード可能なモデル、ホストAPI利用可能 グローバルコラボレーションによって開発されたマルチリンガルLLM。13のプログラミング言語をサポートします。
LaMDA Google 173億 オープンソースではなく、APIまたはダウンロードはありません 対話にトレーニングされており、ほぼ何でも話すことができます。
MT-NLG Nvidia/Microsoft 530億 アプリケーションによるAPIアクセス TransformerベースのMegatronアーキテクチャを使用し、さまざまなNLPタスクに使用されます。
LLaMA Meta AI 7B〜65B アプリケーションによるダウンロード AIを民主化することを目的とし、研究、政府、学術分野の人々にアクセスを提供します。

LLMの使用方法

LLMは、以下のような方法で使用できます。

  1. 直接利用:事前トレーニングされたLLMをテキスト生成や処理に直接使用すること。例えば、GPT-4を使用してブログ記事を書くこと。
  2. ファインチューニング:事前トレーニングされたLLMを特定のタスクに適応させること。例えば、T5を特定の業界の文書の要約生成にカスタマイズすること。
  3. 情報検索:LLMを使用して情報を検索し、分類するシステムを開発すること。例えば、BERTやGPTを使用して情報を検索すること。
生成AIチャットGPTファインチューニング
チャットGPTファインチューニングアーキテクチャ

マルチヘッド注意:なぜ1つではなく多数を持つのか

しかし、単一の注意メカニズムに頼ることは制限的な場合があります。テキスト内の異なる単語やシーケンスには、さまざまな種類の関連性や関連付けが存在する可能性があります。これがマルチヘッド注意の出番です。1つの注意重みセットではなく、複数のセットを使用します。これにより、モデルは入力テキスト内のより豊かな関係のバリエーションを捉えることができます。各注意「ヘッド」は入力の異なる部分や側面に焦点を当てることができ、その統合された知識が最終的な予測に使用されます。

チャットGPT:最も人気のある生成AIツール

GPTの誕生から2018年、モデルは基本的に12層、12の注意ヘッド、1.2億のパラメータで構築され、BookCorpusというデータセットでトレーニングされました。これは、言語モデルの未来を示すものでした。2019年に発表されたGPT-2は、層と注意ヘッドの数を4倍に増やし、パラメータ数を15億に増やしました。WebTextというデータセットからトレーニングされました。2020年5月にリリースされたGPT-3は、96層、96の注意ヘッド、175億のパラメータを備え、CommonCrawl、WebText、英語Wikipedia、書籍コーパスなど、合計570GBのデータでトレーニングされました。

チャットGPTの内部メカニズムは、厳重に守られた秘密です。しかし、「人間のフィードバックからの強化学習」(RLHF)というプロセスが重要であることはわかっています。このテクニックは、GPT-3.5モデルを書き込まれた指示に合わせて改良するために使用されました。チャットGPTのトレーニングは、3段階のアプローチで構成されています。

  • 監督フィネチューニング:人間が書いた会話の入力と出力を使用して、基礎となるGPT-3.5モデルを改良します。
  • 報酬モデリング:人間がモデル出力の品質に基づいてランク付けを行い、会話のコンテキストに基づいて各出力にスコアを付ける報酬モデルをトレーニングします。
  • 強化学習:会話のコンテキストで、基礎モデルが出力を提案し、報酬モデルによって評価され、プロキシマルポリシーオプティマイゼーション(PPO)アルゴリズムを使用して最適化されます。

チャットGPTを初めて使用する場合は、こちらの包括的なガイドを参照してください。チャットGPTでのプロンプトエンジニアリングの詳細については、こちらの先端的なテクニックを紹介した記事をご覧ください。

拡散とマルチモーダルモデル

VAEやGANのようなモデルは、出力を1回のパスで生成し、生成したものに固定されます。一方、拡散モデルは「反復的改良」の概念を導入しました。ここでは、過去のミスの修正と、徐々に精密な結果の生成が行われます。

拡散モデルの中心にあるのは「汚染」と「改良」のアートです。トレーニング段階では、通常の画像に徐々にノイズが追加され、モデルはこのノイズを除去し、元の画像を復元することを学びます。これらのプロセスを繰り返すことで、モデルは微妙な歪みから重大な歪みまで、さまざまなレベルのノイズを理解し、修正する能力を身につけます。

Midjourneyから生成された画像
Midjourneyから生成された画像

新しい画像を生成するプロセスは興味深いものです。完全にランダム化された入力から開始し、モデルによる予測を使用して継続的に改良されます。目標は、最小限のステップ数で完璧な画像を達成することです。ノイズのレベルを制御するのは「ノイズスケジュール」と呼ばれるメカニズムです。これは、さまざまな段階でどれだけのノイズを適用するかを決定します。ライブラリ内の「diffusers」のようなスケジューラは、確立されたアルゴリズムに基づいてこれらのノイズのバージョンの性質を決定します。

多くの拡散モデルの重要なアーキテクチャ的バックボーンは、U-Netです。これは、出力の空間次元が入力の空間次元と一致するタスクに適した、畳み込みニューラルネットワークです。ダウンサンプリングとアップサンプリングの層が組み込まれており、高解像度のデータを保持するために複雑に接続されています。これは、画像関連の出力に不可欠です。

生成モデルの世界に深く潜ると、OpenAIのDALL-E 2が、テキストと視覚のAI能力の融合として輝く例です。これは、3段階の構造を採用しています。

DALL-E 2は、以下の3段階のアーキテクチャを特徴としています。

  1. テキストエンコーダー:テキストプロンプトを潜在的なベクトル空間に埋め込みます。このモデルはゼロから始めません。OpenAIの対比的言語イメージ事前トレーニング(CLIP)データセットを基盤としています。CLIPは、自然言語を使用して視覚的概念を学習することで、視覚とテキストの間のブリッジを形成します。対比的学習を通じて、画像と対応するテキストの説明を識別および一致させます。
  2. 事前処理:エンコーダーから得られたテキスト埋め込みは、画像埋め込みに変換されます。DALL-E 2は、このタスクにオートレグレッシブと拡散の両方の方法をテストしましたが、後者が優れた結果を示しました。オートレグレッシブモデル、例えばトランスフォーマーとPixelCNNは、シーケンスで出力を生成します。一方、拡散モデル、例えばDALL-E 2で使用されているものは、テキスト埋め込みの助けを借りて、ランダムノイズを予測された画像埋め込みに変換します。
  3. デコーダー:プロセスのクライマックスであり、テキストプロンプトと事前処理段階からの画像埋め込みに基づいて、最終的な視覚的出力を生成します。DALL-E 2のデコーダーは、GLIDEという別のモデルからそのアーキテクチャを借用しており、テキストのヒントからリアルな画像を生成する能力を持っています。
DALL-Eモデルアーキテクチャ(拡散マルチモデル)
簡略化されたDALL-Eモデルアーキテクチャ

PythonユーザーがLangchainに興味がある場合は、こちらの詳細なチュートリアルを参照してください。これには、基礎から高度なテクニックまでがカバーされています。

生成AIの応用

テキストドメイン

テキストから始めて、生成AIは、チャットボットのようなChatGPTによって根本的に変化しました。自然言語処理(NLP)と大規模言語モデル(LLM)に大きく依存するこれらのエンティティは、コード生成、言語翻訳、要約、感情分析などのタスクを実行する能力を持っています。ChatGPTは、LLMを活用した会話AIプラットフォームとともに、広く採用されています。これは、GPT-4、PaLM、BLOOMなどのLLMによってさらに強化されています。

商業的に見ると、これらのモデルは不可欠になっています。企業は、リスク管理、在庫の最適化、需要予測などのさまざまな運用にこれらを利用しています。注目すべき例としては、Bing AI、GoogleのBARD、ChatGPT APIがあります。

アート

画像の世界は、特に2022年のDALL-E 2の登場以降、生成AIによって劇的に変化しました。このテクストから画像を生成する技術は、芸術的にもプロフェッショナルにも影響を及ぼしています。Midjourneyがこの技術を活用して驚くほどリアルな画像を生成していることは注目に値します。この記事では、Midjourneyとそのプロンプトエンジニアリングの詳細なガイドを提供しています。さらに、Alpaca AIやPhotoroom AIなどのプラットフォームは、背景除去、オブジェクト除去、顔の復元などの高度な画像編集機能に生成AIを利用しています。

ビデオ制作

ビデオ制作は、生成AIの分野ではまだ初期段階ですが、進歩を遂げています。Imagen Video、Meta Make A Video、Runway Gen-2などのプラットフォームは、まだ完全にリアルな出力には至っていませんが、可能性を拡大しています。これらのモデルは、デジタルヒューマンビデオの作成に大きな利点を提供し、SynthesiaやSuperCreatorなどのアプリケーションが先駆けています。Tavus AIは、ビデオを個々の視聴者にパーソナライズすることで、ビジネスに大きな価値を提供しています。

コード作成

コーディングは、生成AIの影響を受けることなく残ったわけではありません。ChatGPTは人気のツールですが、コード作成のために開発された他のAIアプリケーションもあります。GitHub Copilot、Alphacode、CodeCompleteなどのプラットフォームは、コードアシスタントとして機能し、テキストプロンプトからコードを生成できます。興味深いのは、これらのツールの適応性です。GitHub Copilotを駆り立てるCodexは、個々のコーディングスタイルに合わせて調整できます。生成AIのパーソナライゼーションの潜在性を強調しています。

結論

人間の創造性と機械の計算を融合させた生成AIは、価値あるツールに進化しています。ChatGPTやDALL-E 2などのプラットフォームが、想像の限界を拡大しています。テキストコンテンツの作成から視覚的な傑作の作成まで、その応用は広範囲にわたります。

しかし、どの技術と同様に、倫理的影響も重要です。生成AIが無限の創造性を約束する一方で、責任を持って使用し、潜在的な偏見やデータ操作の力に気を付けることが不可欠です。

ChatGPTのようなツールがよりアクセスしやすくなっている今が、実験し、水を試す絶好の機会です。アーティスト、コーダー、テクノロジー愛好家であなたが何であっても、生成AIの世界は探索待ちの可能性で満ち溢れています。革命は地平線上ではなく、ここにあります。だから、飛び込んでみましょう!

私は過去5年間、機械学習とディープラーニングの魅力的世界に没頭してきました。私の情熱と専門知識は、AI/MLに特に焦点を当てた50以上の多様なソフトウェアエンジニアリングプロジェクトに貢献することになりました。私の継続的な好奇心は、自然言語処理という分野にも私を引き付け、さらに探求したいと思っています。