Andersonの視点

NLGコンテンツの認証に引用を使用することの危険性

mm

意見自然言語生成モデル、たとえばGPT-3は、物語を創造することがあり、事実情報の文脈で提示される資料を提示する。テキストベースの偽ニュースの成長に非常に懸念される時代に、これらの「喜んで飛ぶ」想像力は、自動化された文章と要約システムの開発、およびAI駆動のジャーナリズムの未来のために、存在的な障害を表す。

中心的な問題は、GPTスタイルの言語モデルが、非常に大きなコーパスのトレーニングテキストから主要な特徴とクラスを導き出し、これらの特徴を使用して言語を適切に構築することです。生成されたコンテンツの正確性、または受容性に関係なく、適切に構築します。

NLGシステムは現在、事実の人間による検証に頼っています。2つのアプローチがあります。1つは、モデルをシードテキストジェネレーターとして使用し、すぐに人間のユーザーに渡して検証または編集することです。もう1つは、人間を高価なフィルターとして使用して、抽象的で「創造的な」モデルに情報を提供するデータセットの品質を向上させることです。(これらのモデルは、事実の正確性について信頼できないものであり、さらに人間の監視が必要です。)

古いニュースと偽の事実

自然言語生成(NLG)モデルは、セマンティックアーキテクチャを学習したため、歴史、科学、経済学、またはその他のトピックについて意見を述べることができます。ただし、実際の歴史、科学、経済学、またはその他のトピックを抽象的に吸収するのではなく、ソースデータに「乗客」として組み込まれているためです。

NLGモデルが生成する情報の事実的正確性は、トレーニングに使用される入力が信頼性が高く最新であると想定しています。これは、事前処理と人間による検証の面で、NLP研究部門が現在対処している課題です。

GPT-3スケールのシステムをトレーニングするには、非常に長い時間と多大なコストがかかります。トレーニング後、コアモデルを更新することは困難です。セッションベースのローカル変更やユーザーベースのローカル変更は、実装されたモデルの有用性と正確性を高めることができますが、これらの利点をコアモデルに戻すことは、フルまたはパーシャルリトレーニングを必要とするため、困難または不可能な場合があります。

そのため、最新の情報を使用するトレーニング済み言語モデルを作成することは困難です。

COVID-19以前のトレーニング済みtext-davinci-002 - GPT-3の最も能力のあるイテレーション - は4000トークンを処理できますが、COVID-19や2022年のウクライナ侵攻について知りません(これらのプロンプトとレスポンスは2022年4月5日からのものです)。興味深いことに、「不明」は両方の失敗ケースで受け入れ可能な答えです。しかし、追加のプロンプトでは、GPT-3はこれらのイベントについて何も知らないことが簡単に確認できます。ソース:https://beta.openai.com/playground

COVID-19以前のトレーニング済みtext-davinci-002 – GPT-3の最も能力のあるイテレーション – は4000トークンを処理できますが、COVID-19や2022年のウクライナ侵攻について知りません(これらのプロンプトとレスポンスは2022年4月5日からのものです)。興味深いことに、「不明」は両方の失敗ケースで受け入れ可能な答えです。しかし、追加のプロンプトでは、GPT-3はこれらのイベントについて何も知らないことが簡単に確認できます。ソース:https://beta.openai.com/playground

トレーニング済みモデルは、トレーニング時に内部化した「真実」のみにアクセスでき、デフォルトのGPT-3(たとえば)から引用を取得する際の危険性は、時々正確な引用を生成することです。これにより、モデルが持つ機能についての誤った自信が生まれます。

上部、2021年版davinci-instruct-text GPT-3によって取得された3つの正確な引用。中央、GPT-3はアインシュタインの最も有名な引用の1つ(「神は宇宙でサイコロを振らない」)を引用できません。下部、GPT-3はアインシュタインにスキャンダラスで架空の引用を割り当てています。ソース:https://www.width.ai/post/business-applications-for-gpt-3

上部、2021年版davinci-instruct-text GPT-3によって取得された3つの正確な引用。中央、GPT-3はアインシュタインの最も有名な引用の1つ(「神は宇宙でサイコロを振らない」)を引用できません。下部、GPT-3はアインシュタインにスキャンダラスで架空の引用を割り当てています。ソース:https://www.width.ai/post/business-applications-for-gpt-3

GopherCite

NLGモデルのこの一般的な欠点に対処しようとして、GoogleのDeepMindは最近、GopherCiteを提案しました。GopherCiteは、280億パラメータのモデルで、特定の証拠を生成されたレスポンスに引用してサポートすることができます。

GopherCiteが実際の引用で主張を裏付ける3つの例。ソース:https://arxiv.org/pdf/2203.11147.pdf

GopherCiteが実際の引用で主張を裏付ける3つの例。 ソース:https://arxiv.org/pdf/2203.11147.pdf

GopherCiteは、人間の好みからの強化学習(RLHP)を使用して、実際の引用をサポートする証拠を提供することができるクエリモデルをトレーニングします。引用は、検索エンジンから取得された複数のドキュメントソース、またはユーザーによって提供された特定のドキュメントから取得されます。

GopherCiteの性能は、モデルレスポンスの人間による評価を通じて評価され、GoogleのNaturalQuestionsデータセットでは80%の時間が「高品質」であり、ELI5データセットでは67%の時間が「高品質」であった。

偽の引用

しかし、オックスフォード大学のTruthfulQAベンチマークに対してテストしたとき、GopherCiteのレスポンスは、人間によってキュレーションされた「正しい」答えと比較して、まれにしか真実と評価されませんでした。

著者は、これは「裏付けられた答え」の概念が客観的に真実を定義する方法ではないためであると示唆しています。引用の有用性は、引用の著者が自分で「物語を創造」している(つまり、架空の世界について書いている、広告コンテンツを生成している、または他の方法で非真実の資料を生成している)などの要因によって損なわれる可能性があるためです。

GopherCiteの場合、妥当性は必ずしも「真実」に相当しない。

実質的に、「裏付けられた」と「真実」の区別が必要になります。人間の文化は、真実の客観的な定義を得るための方法論とフレームワークの使用において、現在、機械学習をはるかに上回っています。そこでも、「重要な」真実の本来の状態は、争いと限定的な否定のようです。

問題は、真実を裏付けるメカニズムを考案しようとするNLGアーキテクチャにおいて再帰的です。人間主導のコンセンサスは、人間の評価者(およびそれらの間の紛争を仲裁する他の人間)が偏った人間であるアウトソーシングされた、AMTスタイルのモデルで真実のベンチマークとして使用されます。

たとえば、GopherCiteの初期実験では、モデル出力の評価に「スーパーレイター」モデルを使用して、人間の評価者を選択します。評価者は、品質保証セットと比較して少なくとも85%のスコアを獲得した評価者のみを選択します。最終的に、113人のスーパーレイターがタスクに選択されました。

GopherCiteの出力を評価するために使用される比較アプリのスクリーンショット。

GopherCiteの出力を評価するために使用される比較アプリのスクリーンショット。

議論の余地なく、これは勝ち目のないフラクタルな追求の完璧な絵です。評価者を評価するために使用される品質保証セットは、別の「人間定義」の真実の尺度であり、GopherCiteが不十分と判断されたオックスフォードTruthfulQAセットも同様です。

サポートされたコンテンツと「認証された」コンテンツの点で、NLGシステムが人間のデータから合成できるものは、人間の不一致と多様性のみです。これは、未解決の問題です。私たちは、視点を裏付ける引用を引用する傾向があり、情報が古くなったり、完全に不正確だったり、または他の方法で故意に歪曲されたりしている場合でも、権威的に話し、確信を持って話します。さらに、これらの視点を、知識のスクラッチフレームワークが新しいNLGフレームワークに供給するパスに、前例のないスケールと有効性で直接拡散させます。

したがって、引用をサポートするNLGシステムの開発に伴う危険は、ソース資料の予測不可能な性質に結びついています。NLG出力に対するユーザーの信頼を高める qualquer メカニズム(たとえば、直接引用や引用)は、現在の技術の状態では、出力の真実性ではなく、出力の信憑性を危険にさらすことになります。

これらのテクニックは、NLPが最終的にオーウェルの1984年の「万華鏡」を再現するときに役立つでしょう。しかし、客観的なドキュメント分析、AI中心のジャーナリズム、または機械による要約や自発的または誘導的なテキスト生成のための他の「非フィクション」アプリケーションにとって、危険な追求を表します。

2022年4月5日初版。東ヨーロッパ時間15:29に用語を修正して更新。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。