Artificial Intelligence

生成 AI: CHATGPT、Dall-E、Midjourney などの背後にあるアイデア

更新中 on 2023 年 8 月 8 日

アートの世界、コミュニケーション、そして現実の認識方法は急速に変化しています。人類のイノベーションの歴史を振り返ると、車輪の発明や電気の発見は記念碑的な飛躍であると考えるかもしれません。今日、人間の創造性と機械の計算の間の溝を埋める新たな革命が起きています。それがジェネレーティブAIです。

生成モデルにより、人間と機械の間の境界線があいまいになりました。変換モジュールを採用した GPT-4 のようなモデルの出現により、私たちは自然でコンテキストに富んだ言語生成に一歩近づきました。これらの進歩は、文書作成、チャットボット対話システム、さらには合成音楽の作曲におけるアプリケーションを促進してきました。

最近のビッグテックの決定は、その重要性を浮き彫りにしています。マイクロソフトはすでに Cortanaアプリを終了今月は、Bing Chat などの新しい生成 AI イノベーションを優先します。 Apple はまた、 22.6億ドルの研究開発予算 CEO のティム・クック氏が示唆したように、生成 AI への移行です。

モデルの新時代: ジェネレーティブ vs. 差別的

Generative AI の物語は、そのアプリケーションだけではなく、基本的にその内部の仕組みについても語られています。人工知能のエコシステムには、識別モデルと生成モデルの XNUMX つのモデルが存在します。

差別モデルは、ほとんどの人が日常生活で遭遇するものです。これらのアルゴリズムは、テキストや画像などの入力データを受け取り、それを単語の翻訳や医療診断などのターゲット出力と組み合わせます。それらはマッピングと予測に関するものです。

一方、生成モデルは作成者です。彼らは単に解釈したり予測したりするだけではありません。多くの場合、現実世界の値にさえ関連していない数値のベクトルから、新しい複雑な出力を生成します。

生成モデルの背後にあるテクノロジー

生成モデルの存在は、人間の脳の機能を模倣するように設計された洗練された構造であるディープニューラルネットワークのおかげです。データの多面的な変動を捕捉して処理することにより、これらのネットワークは多数の生成モデルのバックボーンとして機能します。

これらの生成モデルはどのように実現されるのでしょうか? 通常、これらはディープニューラルネットワークを使用して構築され、データの多面的な変化を捕捉するように最適化されています。その代表的な例は、生成的敵対ネットワーク (GAN) では、ジェネレーターとディスクリミネーターという XNUMX つのニューラルネットワークが、独特の教師と生徒の関係で互いに競合し、学習します。絵画からスタイルの伝達まで、音楽作曲からゲームプレイまで、これらのモデルは以前は想像もできなかった方法で進化し、拡大しています。

これは GAN にとどまりません。変分オートエンコーダ (VAE) も、生成モデル分野における重要なプレーヤーです。 VAE は、一見ランダムな数値からフォトリアリスティックな画像を作成する能力で際立っています。どうやって？潜在ベクトルを介してこれらの数値を処理すると、人間の美学の複雑さを反映する芸術が生まれます。

生成 AI タイプ: テキストからテキスト、テキストから画像

トランスフォーマーとLLM

紙 "注意はあなたが必要とするすべてですGoogle Brain の「」は、テキストモデリングについての考え方に変化をもたらしました。再帰型ニューラルネットワーク (RNN) や畳み込みニューラルネットワーク (CNN) のような複雑で逐次的なアーキテクチャの代わりに、Transformer モデルは注意の概念を導入しました。これは本質的に、コンテキストに応じて入力テキストのさまざまな部分に焦点を当てることを意味します。この主な利点の 1 つは、並列化が容易なことです。テキストを順次処理するためスケーリングが難しくなる RNN とは異なり、Transformers はテキストの一部を同時に処理できるため、大規模なデータセットでのトレーニングがより高速かつ効率的になります。

: トランスモデル建築

長いテキストでは、読んだすべての単語や文が同じ重要性を持つわけではありません。一部の部分は、文脈に基づいてさらに注意が必要です。関連性に基づいて焦点を移すこの機能は、注意メカニズムが模倣するものです。

これを理解するには、「AI を団結させ、AI とロボット工学のニュースを公開する」という文を考えてみましょう。さて、次の単語を予測するには、前のコンテキストで何が最も重要かを理解する必要があります。「ロボット工学」という用語は、次の単語がロボット工学分野の特定の進歩や出来事に関連している可能性があることを示唆している可能性があり、「出版」という用語は、次の文脈が最近の出版物や記事を詳しく掘り下げている可能性があることを示している可能性があります。

: 自己注意のイラスト

Transformers の注意メカニズムは、この選択的焦点を達成するように設計されています。彼らは入力テキストのさまざまな部分の重要性を評価し、応答を生成するときにどこを「見る」かを決定します。これは、すべての入力テキストの本質を単一の「状態」または「メモリ」に詰め込もうとした RNN のような古いアーキテクチャからの脱却です。

アテンションの仕組みは、キーと値の検索システムにたとえることができます。文内の次の単語を予測しようとする場合、先行する各単語は、その潜在的な関連性を示唆する「キー」を提供し、これらのキーが現在のコンテキスト (またはクエリ) とどの程度一致するかに基づいて、「値」または重み付けに寄与します。予測。

これらの高度な AI 深層学習モデルは、BERT による Google の検索エンジンの機能強化から、単純なコードスニペットを完全に機能するソースコードに変換する大規模言語モデル (LLM) の機能を活用する GitHub の Copilot に至るまで、さまざまなアプリケーションにシームレスに統合されています。

GPT-4、Bard、LLaMA などの大規模言語モデル (LLM) は、人間の言語やコードなどを解読して生成するために設計された巨大な構造物です。パラメータの数十億から数兆に及ぶその巨大なサイズは、特徴の XNUMX つです。これらの LLM には大量のテキストデータが与えられ、人間の言語の複雑さを理解できるようになります。これらのモデルの顕著な特徴は、「数発" 学ぶ。膨大な量の特定のトレーニングデータを必要とする従来のモデルとは異なり、LLM は非常に限られた数の例 (または「ショット」) から一般化できます。

2023 年半ば以降の大規模言語モデル (LLM) の状態

モデル名	Developer	計測パラメータ	可用性とアクセス	注目すべき機能と備考
GPT-4	OpenAI	1.5兆	オープンソースではなく、API アクセスのみ	さまざまなタスクで優れたパフォーマンスを発揮し、画像とテキストを処理できます。最大入力長は 32,768 トークンです
GPT-3	OpenAI	175億	オープンソースではなく、API アクセスのみ	少数ショットおよびゼロショット学習機能を実証しました。自然言語でテキスト補完を実行します。
咲く	ビッグサイエンス	176億	ダウンロード可能なモデル、ホスト型 API が利用可能	グローバル連携により開発された多言語LLM。 13 のプログラミング言語をサポートします。
TheMDA	でログイン	173億	オープンソースではない、API もダウンロードもなし	対話の訓練を受ければ、事実上どんなことでも話せるようになる
MT-NLG	エヌビディア/マイクロソフト	530億	アプリケーションによるAPIアクセス	さまざまな NLP タスクにトランスフォーマーベースの Megatron アーキテクチャを利用します。
ラマ	メタAI	7B～65B）	アプリでダウンロード可能	研究、政府、学術界の人々にアクセスを提供することで AI を民主化することを目的としています。

LLM はどのように使用されますか?

LLM は、次のようなさまざまな方法で使用できます。

直接利用: テキストの生成または処理に事前トレーニングされた LLM を使用するだけです。たとえば、GPT-4 を使用して、追加の微調整を行わずにブログ投稿を作成します。
微調整: 事前トレーニングされた LLM を特定のタスクに適応させる、転移学習として知られる方法。例としては、特定の業界のドキュメントの概要を生成するように T5 をカスタマイズすることが挙げられます。
情報検索: BERT や GPT などの LLM を大規模なアーキテクチャの一部として使用し、情報を取得して分類できるシステムを開発します。

: ChatGPT 微調整アーキテクチャ

マルチヘッドへの注意: 複数のヘッドを使用できるのに、なぜ XNUMX つなのか?

ただし、単一の注意メカニズムに依存すると制限が生じる可能性があります。テキスト内のさまざまな単語やシーケンスには、さまざまな種類の関連性や関連性がある可能性があります。ここで、マルチヘッドアテンションが登場します。マルチヘッドアテンションでは、XNUMX セットのアテンションウェイトの代わりに複数のセットを使用し、モデルが入力テキスト内のより豊富な種類の関係をキャプチャできるようにします。各注意の「頭」は入力のさまざまな部分または側面に焦点を当てることができ、それらの組み合わせられた知識が最終的な予測に使用されます。

ChatGPT: 最も人気のある生成 AI ツール

2018 年の GPT の開始以来、このモデルは基本的に 12 レイヤー、12 個のアテンションヘッド、および主に BookCorpus と呼ばれるデータセットでトレーニングされた 120 億 XNUMX 万個のパラメーターの基礎に基づいて構築されました。これは、言語モデルの将来を垣間見ることができる、印象的なスタートでした。

2 年に発表された GPT-2019 は、レイヤー数と注目度が 1.5 倍に増加しました。重要なことに、そのパラメータ数は 40 億に急増しました。この強化されたバージョンは、さまざまな Reddit リンクからの XNUMX GB のテキストで強化されたデータセットである WebText からトレーニングを派生しました。

3 年 2020 月に打ち上げられた GPT-96 には、96 のレイヤー、175 のアテンションヘッド、および 3 億もの膨大なパラメータ数がありました。 GPT-570 の特徴は、CommonCrawl、WebText、英語版 Wikipedia、書籍コーパス、その他のソースを含む、合計 XNUMX GB に及ぶ多様なトレーニングデータでした。

ChatGPT の仕組みの複雑さは、厳重に守られた秘密のままです。ただし、「ヒューマンフィードバックからの強化学習」(RLHF)と呼ばれるプロセスが極めて重要であることが知られています。以前の ChatGPT プロジェクトに由来するこの手法は、GPT-3.5 モデルを磨き、書面による指示にさらに適合させるのに役立ちました。

ChatGPT のトレーニングは XNUMX 段階のアプローチで構成されています。

監視付き微調整: 基礎となる GPT-3.5 モデルを改良するために、人間が作成した会話の入力と出力をキュレートすることが含まれます。
報酬モデリング: 人間は品質に基づいてさまざまなモデル出力をランク付けし、会話のコンテキストを考慮して各出力をスコアリングする報酬モデルのトレーニングに役立ちます。
強化学習: 会話のコンテキストは、基礎となるモデルが応答を提案する背景として機能します。この応答は報酬モデルによって評価され、プロセスは近接ポリシー最適化 (PPO) というアルゴリズムを使用して最適化されます。

ChatGPT に少し足を踏み入れたばかりの方向けに、包括的なスタートガイドが用意されています。こちら。 ChatGPT を使用したプロンプトエンジニアリングをさらに深く掘り下げたい場合は、最新の最先端のプロンプトテクニックを紹介した高度なガイドも用意されています。ChatGPT と高度なプロンプトエンジニアリング: AI の進化を推進'。

拡散モデルとマルチモーダルモデル

VAE や GAN のようなモデルは単一パスを通じて出力を生成するため、生成するものにロックされますが、拡散モデルには「」という概念が導入されています。反復的な改良'。この方法を通じて、前のステップでの間違いを修正し、徐々に洗練された結果を生み出します。

普及モデルの中心となるのは「」の技術です。腐敗」と「洗練」。トレーニング段階では、さまざまなレベルのノイズが追加されることで、一般的な画像が徐々に破損していきます。次に、このノイズのあるバージョンがモデルに供給され、モデルはそれを「ノイズ除去」または「破壊解除」しようとします。これを複数回繰り返すことで、モデルは復元に熟達し、微妙な収差と重大な収差の両方を理解できるようになります。

: ミッドジャーニーから生成された画像

トレーニング後に新しい画像を生成するプロセスは興味深いものです。完全にランダム化された入力から始まり、モデルの予測を使用して継続的に改良されます。その目的は、最小限の手順で元のイメージを取得することです。破損のレベルの制御は、さまざまな段階で適用されるノイズの量を制御するメカニズムである「ノイズスケジュール」を通じて行われます。「」のようなライブラリに見られるスケジューラディフューザー」は、確立されたアルゴリズムに基づいて、これらのノイズの多いレンディションの性質を決定します。

多くの普及モデルにとって重要なアーキテクチャのバックボーンは、 Uネット- 入力の空間次元を反映する出力を必要とするタスクに合わせて調整された畳み込みニューラルネットワーク。これはダウンサンプリングレイヤーとアップサンプリングレイヤーを組み合わせたもので、画像関連の出力にとって重要な高解像度データを保持するために複雑に接続されています。

生成モデルの領域をさらに深く掘り下げると、OpenAI の DALL-E2 は、テキスト AI 機能とビジュアル AI 機能の融合の輝かしい例として浮上します。次の XNUMX 層構造を採用しています。

DALL-E 2 は、次の XNUMX つのアーキテクチャを示しています。

テキストエンコーダー: テキストプロンプトを潜在空間内の概念的な埋め込みに変換します。このモデルはゼロから始まるわけではありません。 OpenAI の対照的な言語と画像の事前トレーニングに基づいています (CLIP) データセットを基盤として使用します。 CLIP は、自然言語を使用して視覚的な概念を学習することで、視覚データとテキストデータの間の橋渡しとして機能します。対照学習として知られるメカニズムを通じて、画像を識別し、対応するテキストの説明と照合します。
事前: エンコーダーから得られたテキスト埋め込みは、画像埋め込みに変換されます。 DALL-E 2 は、このタスクに関して自己回帰法と拡散法の両方をテストし、後者の方が優れた結果を示しました。 Transformers や PixelCNN に見られるように、自己回帰モデルはシーケンスで出力を生成します。一方、DALL-E 2 で使用されているような拡散モデルは、テキスト埋め込みを利用してランダムノイズを予測画像埋め込みに変換します。
デコーダー: プロセスのクライマックスであるこの部分では、テキストプロンプトと前のフェーズから埋め込まれた画像に基づいて、最終的なビジュアル出力が生成されます。 DALL.E 2 のデコーダは、そのアーキテクチャが別のモデルに依存しています。グライド、テキストの手がかりからリアルな画像を生成することもできます。

: DALL-E モデルの簡略化されたアーキテクチャ

興味のあるPythonユーザーラングチェーン基本から高度なテクニックまでを網羅した詳細なチュートリアルをご覧ください。

生成AIの応用

テキストドメイン

テキストから始まった生成 AI は、次のようなチャットボットによって根本的に変更されました。 AI言語モデルを活用してコードのデバッグからデータの異常検出まで、。これらのエンティティは、自然言語処理 (NLP) と大規模言語モデル (LLM) に大きく依存しており、コード生成や言語翻訳から要約や感情分析に至るまでのタスクを実行できます。たとえば、ChatGPT は広く採用され、何百万もの人々にとって定番となっています。これは、GPT-4 などの LLM に基づいた会話型 AI プラットフォームによってさらに強化されます。手のひら, 咲く、テキストを簡単に作成し、プログラミングを支援し、さらには数学的推論も提供します。

商業的な観点から見ると、これらのモデルは非常に貴重なものになりつつあります。企業は、リスク管理、在庫の最適化、需要の予測など、さまざまな業務にこれらを使用しています。注目すべき例には、Bing AI、Google の BARD、ChatGPT API などがあります。

宝品

画像の世界は、特に 2 年の DALL-E 2022 の導入以来、Generative AI によって劇的な変化を遂げています。テキストのプロンプトから画像を生成できるこのテクノロジーには、芸術的意味と専門的意味の両方があります。たとえば、midjourney はこの技術を活用して、印象的にリアルな画像を作成しました。この最近の投稿ミッドジャーニーの謎を解き明かす詳細なガイドでは、プラットフォームとそのプロンプトエンジニアリングの複雑さの両方を説明しています。さらに、Alpaca AI や Photoroom AI などのプラットフォームは、背景の削除、オブジェクトの削除、顔の復元などの高度な画像編集機能に Generative AI を利用しています。

動画制作

ビデオ制作は、生成 AI の分野ではまだ初期段階にありますが、有望な進歩を示しています。 Imagen Video、Meta Make A Video、Runway Gen-2 などのプラットフォームは、真にリアルな出力がまだ目前にあるにもかかわらず、可能性の限界を押し広げています。これらのモデルは、Synthesia や SuperCreator などのアプリケーションを筆頭に、デジタルヒューマンビデオを作成するための実質的な実用性を提供します。特に、Tavus AI は、個々の視聴者に合わせてビデオをパーソナライズすることで独自の販売提案を提供し、企業にとっては恩恵をもたらします。

コードの作成

私たちのデジタル世界に不可欠な要素であるコーディングは、生成 AI の影響を受けていないわけではありません。 ChatGPT は人気のツールですが、コーディング目的で他の AI アプリケーションもいくつか開発されています。 GitHub Copilot、Alphacode、CodeComplete などのこれらのプラットフォームはコーディングアシスタントとして機能し、テキストプロンプトからコードを生成することもできます。興味深いのは、これらのツールの適応性です。 GitHub Copilot の原動力である Codex は、個人のコーディングスタイルに合わせて調整でき、Generative AI のパーソナライゼーションの可能性を強調しています。

まとめ

人間の創造性と機械の計算を融合させたこのツールは、ChatGPT や DALL-E 2 などのプラットフォームによって、考えられるものの限界を押し広げ、非常に貴重なツールへと進化しました。テキストコンテンツの作成から視覚的な傑作の彫刻に至るまで、その用途は広大かつ多様です。

他のテクノロジーと同様に、倫理的な影響が最も重要です。 Generative AI は無限の創造性を約束しますが、潜在的なバイアスとデータ操作の力を認識して、責任を持って採用することが重要です。

ChatGPT のようなツールがよりアクセスしやすくなった今、水を試して実験するのに最適な時期です。あなたがアーティスト、プログラマー、またはテクノロジー愛好家であっても、生成 AI の領域には探索される可能性が溢れています。革命は目前に迫っているわけではない。それは今ここにあります。さあ、飛び込んでみよう！

次に

2023 Ai4 カンファレンスで生成 AI が主役に

お見逃しなく

AI の類推能力: 人間の知性への挑戦?

アーユシュ・ミタル

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェアエンジニアリングプロジェクトに貢献してきました。私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。