Artificial Intelligence
Quantum Stat が「Big Bad NLP データベース」をリリース

Quantum Stat は「」をリリースしました。ビッグ・バッド NLP データベース」は、自然言語処理 (NLP) にとって大きな前進です。データベースには、機械学習開発者が利用できる数百の異なるデータセットが含まれています。
同社によれば、NLPとAIの取り組みに対するソリューションを提供しているという。 これは、Web アプリ開発の前処理、機械学習とディープ ニューラル ネットワーク、チャットボットと対話管理、新しい NLP データベースを含む多面的なアプローチなどのサービスを通じて行われます。
同社はまた、個人が業界内の発展を分析できるようにするための一次および二次調査も実施しています。
NLP データの中央ハブ
自然言語処理における世界最大のデータ ライブラリであるデータベースを作成する決定は、NLP データを保持する中央ハブの必要性から生まれました。 同社は、研究者が複数のサードパーティ ライブラリを検索する必要があることが多い代替手段よりも、より簡単にアクセスして検索できるようにすることを目指しました。
同社は数週間にわたってデータベースの開発を行ってきました。 現在、約 200 のデータセットがあります。 古典的なものだけでなく、さまざまなデータセットがあります。 同社には CommonCrawl や Penn Treebank などが含まれています。
さまざまなデータベースに加えて、さまざまな NLP タスクも必要になります。 分類や質問応答に重点を置いたデータセットもありますが、テキストから SQL への変換、音声認識、マルチモーダル用のデータセットもあります。
Quantum Stat は、データベースがユーザーからの貢献によってコミュニティ主導型になることを望んでいます。 同社は、誰でも新しいデータセットを送信したり、変更を推奨したりできるように門戸を開きました。
もう XNUMX つの焦点は、厳密な英語から離れて言語を多様化するデータセットを追加することです。 彼らの目標は、図書館をよりグローバルにし、他の人がアクセスできるようにすることです。
「Big Bad NLP データベース」に入ると、ユーザーはきれいに整理されたレイアウトに直面することになります。 データセットの名前がリストされ、その後に言語と詳細な説明が続きます。 また、インスタンス、形式、タスク、作成年、作成者もリストされます。 各データベースにはダウンロード リンクがあります。
各種データベース
1836 年から 1922 年までの米国と英国の新聞の毎日の内容を含む歴史新聞デイリー ワールド タイム シリーズ データセットなどのデータベースに遭遇します。 SciQ データセット。物理学、生物学、化学の分野でクラウドソーシングされた科学試験問題 13,679 問が含まれています。 CommonCrawl には 25 億の Web ページのデータが含まれています。 MovieLens は、22,000,000 人のユーザーによる 580,000 本の映画の 33,000 件の評価と 240,000 個のタグを含むデータセットです。
Quantum Stat の優れたデータベースは、深層学習の進歩により研究者がより大規模で多様なデータセットを必要としているときに誕生しました。 人間の言語には膨大な量のデータが含まれているため、それぞれが独自のデータセットであるため、処理が少し簡単になります。 NLP の進歩はこれらのデータベースに依存しており、Quantum Stat は非常に多くのデータセットを XNUMX つの空間に収集することでその進歩の加速に貢献しました。
NLP は社会のさまざまな側面で重要になるでしょう。 電子医療記録や患者の会話に基づいて病気を予測したり、企業が製品について顧客の意見を見つけたり、フェイクニュースが横行する世界でフェイクニュースを特定したりするのに役立ちます。
このテクノロジーは非常に急速に進歩しており、これらの複雑なアプリケーションに対処できるようになるまで、そう長くはかからないでしょう。