ソートリーダー
GPT-4は真のAI革命に私たちを近づけるか?

GPT-3が導入されてからほぼ3年が経過した。2020年5月にリリースされた以来、AIテキスト生成モデルは、人間が書いたように見え聞こえるテキストを作成する能力で多くの関心を集めてきた。現在、GPT-4と呼ばれる次世代ソフトウェアのリリースが近いと予想されており、2023年初頭のリリースが予想されている。
このAIニュースは非常に期待されているものの、GPT-4の詳細はあまり公開されていない。OpenAIは、GPT-4の機能や能力について公に情報を開示していない。ただし、特に自然言語処理(NLP)分野における最近の進歩は、GPT-4で何が期待できるかについての手がかりを提供するかもしれない。
GPTとは何か
具体的な内容に触れる前に、GPTとは何かを理解することが重要である。GPTとは、ジェネレーティブ・プレトレインド・トランスフォーマー(Generative Pre-trained Transformer)の略で、インターネットから利用可能なデータを使用して大量の機械生成テキストを作成するディープラーニング・ニューラルネットワーク・モデルである。GPT-3は、この技術の3世代目であり、現在利用可能な最も高度なAIテキスト生成モデルの1つである。
GPT-3を、SiriやAlexaのようなボイスアシスタントのように考えることができる。ただし、Alexaに好きな曲を再生したり、Siriにテキストを入力したりするのではなく、GPT-3に500語の記事を書いてもらったり、1分以内に100のソーシャルメディア投稿アイデアを生成してもらったりすることができる。ユーザーが必要とするのは、たとえば「創造性の重要性についての500語の記事を書いてください」というようなプロンプトを提供することだけである。プロンプトが明確で具体的であれば、GPT-3はほぼ何でも書くことができる。
GPT-3は一般にリリースされて以来、多くのビジネスアプリケーションを見つけてきた。企業はテキストの要約、言語翻訳、コード生成、大規模な自動化などのタスクにGPT-3を使用している。
ただし、GPT-3は確かに人間のようなテキストを作成する能力が非常に優れているものの、完璧なものではない。特に、複雑なトピックや洞察が必要な長い文章を書く場合に問題が発生することがある。たとえば、ウェブサイトのコードを生成するプロンプトは、正しいが最適化されていないコードを返すことがあり、人間のコーダーが改善する必要がある。同様の問題が、大規模なテキスト文書にも発生する。テキストの量が大きいほど、修正が必要なエラーが発生する可能性が高くなる。
簡単に言えば、GPT-3は人間のライターまたはコーダーの完全な代替品ではなく、代替品として考えられるべきではない。代わりに、GPT-3は、ブログ投稿のアイデアや広告コピーの粗いアウトライン、プレスリリースを作成する際に多くの時間を節約できるライティングアシスタントとして考えるべきである。
パラメータが多ければよい?
AIモデルについて理解する上で重要な点の1つは、パラメータを使用して予測を行う方法である。AIモデルのパラメータは、学習プロセスを定義し、出力に構造を提供する。一般的に、AIモデルのパラメータの数はパフォーマンスの尺度として使用されてきた。パラメータが多いほど、モデルはより強力で、滑らかで、予測可能である、というのがスケーリング仮説によるところである。
たとえば、2018年にリリースされたGPT-1には1.17億のパラメータがあり、1年後にリリースされたGPT-2には120億のパラメータがあり、GPT-3はさらにその数を175億まで引き上げた。2021年8月のWiredとのインタビューでは、OpenAIと提携しているCerebrasの創設者兼CEOであるAndrew Feldmanは、GPT-4には約100兆のパラメータがあると述べた。これにより、GPT-4はGPT-3の100倍のパワーを持つことになり、パラメータのサイズでは量子的な飛躍となる。
しかし、Feldmanの壮大な主張にもかかわらず、GPT-4が実際に100兆のパラメータを持つことはない理由がある。パラメータの数が大きいほど、モデルをトレーニングして微調整するコストが高くなるためである。大量の計算能力が必要になるからである。
さらに、モデルの有効性を決定する要因はパラメータの数だけではない。たとえば、NvidiaとMicrosoftが開発したテキスト生成モデル、Megatron-Turing NLGは500億を超えるパラメータを持っている。しかし、そのサイズにもかかわらず、MT-NLGはGPT-3に匹敵するものではなく、パフォーマンスも劣る。つまり、より大きなモデルが必ずしもより優れているわけではない。
GPT-4は確かにGPT-3よりも多くのパラメータを持つ可能性があるが、その数が実際に大きく増えるかどうかは不明である。代わりに、OpenAIは、アルゴリズム設計と整列の質的改善に焦点を当てた、よりスリムなモデルを追求している可能性がある。こうした改善の正確な影響は予測が難しいが、スパースモデルは、条件付き計算を通じて計算コストを削減できることが分かっている。つまり、AIモデルのすべてのパラメータが常に発火しているわけではない。人間の脳のニューロンが動作するのと同様である。
GPT-4は何ができる?
OpenAIが新しい声明を発表するか、GPT-4をリリースするまで、私たちにはGPT-4がGPT-3とどう異なるかを推測するしかない。
AIの深層学習開発の未来はマルチモーダルであると考えられるが、GPT-4はおそらくテキストのみのままである。人間は、さまざまな音響、視覚、テキスト入力で満たされた多感覚世界に住んでいる。したがって、最終的には、さまざまな入力を組み込むことができるマルチモーダルモデルが開発されるのは必然である。
しかし、良いマルチモーダルモデルを設計することは、テキストのみのモデルを設計するよりもはるかに難しい。現在、必要な技術はまだ存在しない。パラメータのサイズの制限を考慮すると、OpenAIはテキストのみのモデルを拡張して改善することに焦点を当てている可能性が高い。
また、GPT-4は正確なプロンプトに依存しない可能性もある。GPT-3の欠点の1つは、テキストプロンプトが慎重に書かれていないと、望ましい結果が得られないことである。プロンプトが不適切に書かれると、虚偽、有害、または極端な見解を反映した出力が生成されることがある。これは、AIモデルがユーザーの意図を完全に理解していないことを意味しており、これを整列問題と呼ぶ。
しかし、開発者が整列問題に進展を遂げている兆候もある。これは、InstructGPTの開発によるものである。InstructGPTは、ユーザーの指示や意図に従うように人間のフィードバックでトレーニングされた、GPT-3のより高度なバージョンである。人間の評価者は、InstructGPTがGPT-3よりもはるかにプロンプトに依存していないことを発見した。
ただし、これらのテストはOpenAIの従業員のみで行われたものであり、性別、宗教、政治的見解などで多様性に欠けるグループである。GPT-4はより多様なグループでトレーニングされる可能性が高く、整列性が向上する可能性があるが、その程度は不明である。
GPT-4は人間を置き換える?
GPT-4の約束にもかかわらず、完全に人間のライターまたはコーダーを置き換える可能性は低い。パラメータの最適化、多様性、整列性など、まだ多くの作業が必要である。人間の経験の複雑さやニュアンスを真正に理解できるテキスト生成モデルが開発されるまでには、多くの年がかかる可能性がある。
しかし、GPT-4の到来を期待する理由もある。パラメータの最適化、特に単純なパラメータの増加ではなく、より優れたAIモデルにつながる可能性がある。整列性の改善により、GPT-4はよりユーザーフレンドリーになる可能性がある。
さらに、AIツールの開発と採用はまだ初期段階にある。新しいユースケースが常に発見されており、人々がAIを職場で使用することに信頼と快適さを感じるにつれて、AIツールの広範な採用がビジネスのあらゆる分野で見られる可能性が高い。












