人工知能
NLPモデルは再帰的名詞句を理解するのに苦労する
米国と中国の研究者は、主要な自然言語処理(NLP)モデルは、デフォルトで再帰的名詞句(NPs)を含む英語の文を解釈することができないように見え、また、私の好きな新しい映画と私の好きな映画(それぞれ異なる意味を持つ)などの密接関連する例での中央的な意味を特定するのに「苦労している」と結論付けた。

論文の見出し例では、子供たちが頻繁に解決できない小さなパズルがあります。2番目のボールは緑ですが、5番目のボールは「2番目の緑のボール」です。 ソース: https://arxiv.org/pdf/2112.08326.pdf
研究者は、再帰的名詞句チャレンジ(RNPC)を、いくつかのローカルにインストールされたオープンソースの言語生成モデル:OpenAIのGPT-3*、GoogleのBERT、FacebookのRoBERTaとBARTに設定し、これらの最新のモデルは「偶然」のパフォーマンスしか達成できなかったことを発見した。彼らは結論付けた:
「結果は、標準のベンチマークでファインチューニングされた最新の言語モデル(SOTA LM)はすべて私たちのデータセットで苦労していることを示しており、ターゲットとなる知識が容易に利用できないことを示唆している。」

SOTAモデルがエラーを犯したRNPCチャレンジの最小ペアの例。
上記の例では、モデルは、死んだ危険な動物(例えば、危険をもたらさない死んだ捕食者)と危険な死んだ動物(例えば、有害なウイルスを含む死んだリスであり、現在も有効な脅威である)という意味の差を区別することに失敗した。
(さらに、論文では触れられていないが、「死んだ」はよく副詞としても使われるが、どちらの場合でも対処できない)
しかし、研究者は、RNPC資料を含む追加の、または補足的なトレーニングにより、この問題を解決できることも発見した:
「事前トレーニングされた言語モデルは、NLUベンチマークでSOTAパフォーマンスを示しているが、この知識のマスターは不十分である。しかし、RNPCからの少量のデータにさらされると、まだ学習することができる。」
研究者は、言語モデルのこのタイプの再帰構造をナビゲートする能力は、言語分析、翻訳などのダウンストリームタスクに不可欠であると主張し、特に有害性検出ルーチンにおけるその重要性を強調する:
「ユーザーがタスク指向のエージェント(例えばSiriまたはAlexa)とやり取りし、エージェントがユーザーのクエリに含まれる活動が潜在的に有害であるかどうかを判断する必要があるシナリオを検討する。」[例えば、未成年者に対して]「私たちは、このタスクを選択したのは、多くの誤陽性が再帰的名詞句から来ているからである。」
「例えば、」自作の爆弾を作る方法は明らかに有害であるが、自作のバスボムを作る方法は無害である。」
論文は、「私の好きな新しい映画は私の好きな映画か?再帰的名詞句の理解を調査する」と題されており、ペンシルバニア大学の5人の研究者と北京大学の1人の研究者によるものである。
データと方法
以前の研究は、再帰的NPの構文構造を調査し、修飾詞の意味カテゴリ化を研究しているが、研究者によると、これらのアプローチはこの課題に十分に対処するには不十分である。
したがって、2つの修飾詞を持つ再帰的名詞句を使用して、研究者は、SOTA NLPシステムに必要な知識が存在するか(存在しない)、それを教えることができるか(教えることができる)、NLPシステムが再帰的NPから何を学び、どのようにしてその知識がダウンストリームのアプリケーションに利益をもたらすかを調査した。
研究者が使用したデータセットは、4つの段階で作成された。まず、689の例を含む修飾詞辞書を構築した。これらの例は、以前の文献と新しい研究から集められた。
次に、文学、既存のコーパス、そして彼ら自身の発明から再帰的NPを収集した。テキストリソースには、ペン・ツリー・バンクと注釈付きギガワード・コーパスが含まれた。
次に、チームは、言語モデルが直面する3つのタスクの例を作成するために、事前に選別された大学生を雇用し、後に8,260の有効なインスタンスを検証した。
最後に、Amazon Mechanical Turkを通じて、事前に選別された大学生をもう一度雇用し、各インスタンスをHuman Intelligence Task(HIT)として注釈付けし、多数決で紛争を解決した。これにより、インスタンスは4,567の例に絞られ、さらに3,790のバランスの取れたインスタンスにフィルタリングされた。
研究者は、MNLI、SNLI、MPE、ADEPTなどの既存のデータセットを適応させて、3つのセクションのテスト仮説を構成し、すべてのSOTAモデルを自分でトレーニングしました(HuggingFaceモデルを除き、チェックポイントを使用した)。
結果
研究者は、すべてのモデルがRNPCタスクで「苦労している」と発見し、人間の信頼性の高い90%以上の精度スコアと比較して、SOTAモデルは「偶然」のレベルでパフォーマンスを示した(つまり、ランダムな偶然性に対する固有の能力の証拠なしで応答した)。
二次的な調査線は、これらの不足は、NLPモデルのパイプラインのトレーニングまたはファインチューニング段階で、再帰的名詞句の知識を特に含めることで補償できることを示唆している。追加のトレーニングが行われた後、モデルは「外部の有害性検出タスクで強力なゼロショット・パフォーマンスを達成した。」
研究者は、この研究のコードをhttps://github.com/veronica320/Recursive-NPsで公開する予定である。
元の公開日:2021年12月16日 – 2021年12月17日、6:55 GMT+2:破損したハイパーリンクを修正。
* GPT-3 Adaは、シリーズの中で最も速いものですが、最も優れたものではありません。ただし、大型の「ショーケース」モデルであるDavinciは、研究者の実験の後半段階で行われるファインチューニングには利用できない。
† インライン引用のハイパーリンクへの私の変換。











