人工知能
NLPを通じて誤った質問に挑む

一部の質問は、質問自体に含まれる誤った情報 – 聞き手がフィルタリングして拒否しなければならない前提条件 – により答えることができない。これは、当然、聞き手が質問に挑戦するために十分な正しい情報を持っていることを前提としている。つまり、質問自体を(誤った)情報源として使用するのではなく、質問に挑戦するために必要な情報を持っているということである。
これは、GPT-3のようなNatural Language Processing(NLP)システムにとって課題である。GPT-3は、「妄想」の傾向があるため、対話を維持するために情報を「妄想」することがある。
現在、GPT-3に「マリー・キュリーはいつウランを発明したか?」と聞くと、「マリー・キュリーは1898年にウランを発明した」という回答が得られるだろう。

Source: https://beta.openai.com/playground (Da Vinci instruct beta).
実際、ウランは1789年にドイツの化学者マーティン・ハインリヒ・クラプロートによって発見された。キュリー夫妻の1898年の発見は、ラジウムの分離であった。
NLPシステムが誤った前提条件を無視する問題は、今年いくつかの報道で注目されてきた。たとえば、GoogleのAIアシスト検索結果は、「ニール・アームストロングは火星に足を踏み入れた時期は?」という質問で誤った情報を無視する。同様の問題は、トイ・ストーリーのバズ・ライトイヤーにも当てはまる。バズ・ライトイヤーは、1969年7月21日に月に着陸したとされる。
トム・ハンクスは、Googleによると、1970年に月に着陸したとされる。しかし、彼のApollo 13のキャラクター、ジム・ラヴェルは、月に着陸しなかったことで有名である。

前提条件の問題をNLP交換で解決する
Google Research、ジョンズ・ホプキンス大学、ブラウン大学の研究者は、NLPシステムが誤った質問に挑戦するために、新しい機械学習方法を開発している。この方法により、NLPシステムは、人間の教師が生徒との会話で行うように、事実的に誤った質問に挑戦できるようになる。
最近の論文 Which Linguist Invented the Lightbulb? Presupposition Verification for Question-Answeringでは、質問の前提条件を識別し、その妥当性を検証するための新しいシステムを開発するための努力が概説されている。
新しいアルゴリズムは、質問を事前に処理してから会話に戻る。質問の「認証」を3つのプロセスに分解する。

Does not compute! On the left, the ‘roadblock’ that occurs even when an advanced NLP system has been able to identify that the question does not make sense. On the right, a breakdown of a proposed algorithm that attempts to rectify the source error. Source: https://arxiv.org/pdf/2101.00391.pdf
これは、単純な検証ルーチンであるように思えるが、NLPシステムのトレーニングルーチンは、ディスクルージョン(たとえば、偽ニュース)を含むソースデータに対して不当なレベルの信頼を学習することが多い。したがって、重要な問題は、誤った「ニュース」の拡散を通じて社会的メディアが権威を与えるデフォルトの論理を使用するマシンラーニングの一般化に代わる、信頼できる事実の信頼できるソースをコンセンサスによって識別することである。
誤った質問へのアプローチを決定する
誤った情報を含む質問に適したアプローチを決定するために、研究者は100の質問を4つの異なるQ&Aモデルで実行し、人間の被験者に最も適切または最も問題のない解決策を選択するように求めた。
「悪い」質問に対する4つの可能なアーキテクチャ結果は、「答えられない」 – 閉じた本のQ&Aシステムが質問をさらに説明せずに終了する; 「前提条件の失敗に基づく説明」 – システムが誤った前提条件を検証できず、質問を「答えられない」と説明する; 「抽出説明」 – システムが関連するウィキペディアの引用を取得して「この質問は答えられない because…」という前置きに追加する; および「オープンドメインの書き換え」 – 競合システムがウィキペディアから追加のソースを探す。

This example of four possible answers to an apparently ‘unanswerable’ question illustrates the complexity of attempting a competitive domain-based solution to the problem.
テストの結果、5人の参加者(Googleの内部クラウドソーシングプラットフォームで募集)は、前提条件に基づく回答を好んだ。これにより、研究者は質問を分解して検証するための新しいフレームワークを開発することができた。
新しいシステムでは、質問から言語的トリガーをルールベースのジェネレーターで取得し、質問を仮定の事実の文に分解する。質問から複数の前提条件が導かれる場合、各前提条件は調査され、元の質問の間違った前提条件を解決する場合に最終的な回答に貢献する。
データセット
初期段階で生成された前提条件は、検証データセットを作成するために手動で修正された。「ゴールド」前提条件。質問の分岐から生じるが、元の質問にない前提条件は除去された。
論文の2人の著者は、各質問に関連するウィキペディアのページに基づいて、462の前提条件をyes/noの検証可能性について手動で注釈付けた。合意できなかった場合は、事後的な議論の後、データセットにコミットされた。
研究者は、ゼロショットNLIを使用した。これは、質問に関連するウィキペディアの記事を分解する必要がある、前提/仮説の分類タスクであった。ウィキペディアの記事から生成された結果は、質問のエントールやモデルサポートよりも多くのペアを生成するため、フィルタリングされた結果は集約され、ラベル付けされた。
結果と回答の生成
最も効果的な結果は、最も労力の多い解決策によって得られた。ウィキの文と前提条件から生成された、より微調整されたルールベース/NLIハイブリッドであるALBERT QNLI。

The performance of the verification models, where ‘Wiki sentences’ uses sentences obtained from question-related Wikipedia articles, and ‘Wiki presuppositions’ are generated presuppositions from those sentences.
この形式を使用して、研究者はウィキペディアからの否定的な事実を「この質問は答えられない because…」などのフレーズに追加するテンプレートシステムを開発した。理想的な解決策ではないが、著者は、検証不能性に基づく回答は、偽陰性の発生を減らす可能性があると示唆している。
システムは最終的に、拡張トランスフォーマーコンストラクション(ETC)モデルに実装された。
影響
最終的なパフォーマンスに応じて、このアプローチは「検証不能」と「答えられない」の単純な置き換えにつながる可能性がある。質問の誤った前提条件に対する有用な修正を評価できない場合に、システムは「検証不能」という回答を出すことになる。
研究者は、トークンベースのAPIリクエストのコストが、より長い回答を生成する際の制限要因であることを認めている。また、質問に対する「ライブ」な調査の追加のオーバーヘッドは、GPT-3のような大規模なシステムの応答性に影響を与える可能性がある。なぜなら、システムの応答性は、トレーニング時における知識の一般化に依存しているからである。
さらに、研究者は、システムには現在、テキストの意味的側面を解析する関連する制限があることを指摘している。
たとえば、who does pip believe is estella’s motherには、非事実の動詞believeの下に埋め込まれた所有格がありますが、私たちのジェネレーターは、‘estella’ has ‘mother’を生成するでしょう。
それでも、チームは、この研究を基盤として開発される、新しい柔軟な質問回答システムを想定している。
将来、我々は、この研究を基盤として、よりロバストで協力的なQAシステムを提案することを計画している。たとえば、さまざまな種類の前提条件の失敗は、より柔軟な回答戦略によって対処できる。たとえば、唯一性の前提条件の違反は、回答の可能性をすべて提供することでより適切に処理できる。












