人工知能
GPT-2、人工知能テキスト・ジェネレーターが完全に公開される

TheNextWeb(TNW)によると、TheNextWeb(TNW)によると、OpenAI、数多くの人工知能プロジェクトの背後にある非営利組織は、GPT-2というテキスト・ジェネレーターに対する計画された段階的なリリースの最終モデルを公開した。このテキスト・ジェネレーターは、相当な議論を引き起こした。2019年2月にリリースが発表された。
OpenAIの研究論文「Language Models are Unsupervised Multitask Learners」によると、「GPT-2は、機械学習を使用して、限られた入力に基づいて新しいテキストを生成する。」これは、ユーザーが任意のテーマについて1、2つの文を入力すると、AIジェネレーターは元の入力に関連するテキストを生成することを意味する。実質的に、TNWによると、ほとんどの「テキスト・ジェネレーター」とは異なり、事前に書かれた文字列を出力しない。GPT-2は、以前存在しなかったテキストを作成する。
カーネギー・メロン大学図書館のプログラム・ディレクターであるScott B. Weingartは、ツイートで具体的な例を示している:
What is a Panther but a young lion?
An entire corridor filled entirely with people screaming。
How’s this for a happy ending? pic.twitter.com/qvPTrs790N
— Scott B. Weingart (@scott_bot) August 20, 2019
If death, in some obscure and distant hour,
Strikes me still as I slept, if I yet dream:
Is that my peace with an eternity spent?
[…]
But I fear it will be no peace or rest
Until the stars give me the full glow of their light
To see all my cares and woes in an instant。Shit. pic.twitter.com/QRoi1C3rjj
— Scott B. Weingart (@scott_bot) August 20, 2019
OpenAIは当初、システムの潜在的な悪用について懸念していたため、2019年2月にGPT-2を8か月間で4つのパートに分けてリリースすることを決定した。彼らはブログで説明したように、「技術の悪用についての懸念があるため、トレーニング済みモデルはリリースしません。責任ある開示の実験として、代わりに研究者が実験するための小さいモデルと技術論文をリリースします。」
説明されているように、完全なモデルには15億のパラメータが含まれています。「モデルがトレーニングされるパラメータの数が多いほど、より『賢い』ように見えます。人間と同様に、練習は完璧に近づけます。」
TNWによると、OpenAIは当初、1.24億のパラメータを持つモデルをリリースし、その後3.55億と7.74億のパラメータを持つモデルをリリースしました。彼らによると、リリースされたモデルをテストした結果、「各イテレーションは前のイテレーションよりも機能が大幅に改善されました。」
悪用を防ぐために、OpenAIは「悪用を予め阻止する」ためにGPT-2検出モデルをリリースしました。彼ら自身のブログ投稿によると、これらの検出モデルは、GPT-2自体で達成した品質レベルに達するために、まだ追加の作業が必要です。
興味がある場合は、GPT-2モデルをこちらのGithubからダウンロードし、モデルカードをこちらで確認し、OpenAIのブログ投稿をこちらで読むことができます。
