スタブ Peter Staar 氏、IBM 科学者、新型コロナウイルス感染症オープンリサーチデータセット - インタビューシリーズ - Unite.AI
私達と接続

記事執筆

Peter Staar 氏、IBM 科学者、新型コロナウイルス感染症オープンリサーチデータセット – インタビューシリーズ

mm
更新中 on

IBMの科学者ピーター・スタールは、 AIツール これは、新型コロナウイルス感染症の治療法やワクチンを開発している 300 人以上の専門家によって使用されています。

研究者が構造化データと非構造化データに迅速にアクセスできるようにするために、IBM は、新型コロナウイルス感染症オープンリサーチデータセット (CORD-45,000) に含まれる 19 以上の科学論文数千のコーパスでトレーニングされたクラウドベースの AI 研究リソースを提供しています。ホワイトハウスと研究グループの連合によって作成され、DrugBank、Clinicaltrials.gov、GenBank からライセンス供与されたデータベースが使用されます。

Peter Staar 博士は、2015 年 2006 月に IBM Research – Zurich Laboratory の Foundations of Cognitive Solutions プロジェクトの博士研究員として入社しました。 ベルギー生まれの科学者が初めて IBM Research に来たのは XNUMX 年の夏期学生でした。

あなたは、2015 年 XNUMX 月に IBM Research – Zurich Laboratory に初めて参加しました。IBM ではどのような種類のプロジェクトに取り組んできましたか?

私の最初の研究はハイ パフォーマンス コンピューティングのアプリケーションに焦点を当てており、名誉ある ACM ゴードン ベル賞の受賞チームの一員でした。

最近では 2017 年頃から AI に焦点を当て始め、2018 年 2018 月に私のチームは、コーパス変換サービスと呼ばれる非常にスケーラブルなドキュメント インジェスト システムに関する論文を知識発見とデータ マイニングに関する ACM カンファレンス (KDD 100,000) で発表しました。この AI ベースのクラウド ツールは、97 日あたり 19 ページの PDF (スキャンされたドキュメントであっても) を XNUMX% 以上の精度で取り込むことができ、その後、これまでに達成されたことのない規模でこれらのドキュメントからコンテンツを抽出する高度な機械学習モデルをトレーニングして適用することができました。私たちは現在、これと同じテクノロジーを新型コロナウイルス感染症の研究者を支援するために応用しています。

IBM が最初に使用するというアイデアに出会ったのはいつですか? コーパス変換サービス 新型コロナウイルス感染症の流行に対処するには?

45,000月中旬、ホワイトハウスはコロナウイルスと新型コロナウイルス感染症(COVID-19)に関するXNUMX万XNUMX件以上の文書を公開する取り組みを主導した。 コーパスを見たとき、私たちのテクノロジーが PDF を検索可能にするだけでなく、それらの PDF 内の知識を次のような追加のデータセットと組み合わせるのにも役立つことがすぐにわかりました。 ドラッグバンク, ジェンバンク および 臨床試験.gov。 3 月 XNUMX 日にこのサービスを本格的に開始しました。

コーパス変換サービスとは何ですか?

大量の異種データ ソースと同様に、科学的な洞察を得る方法でそのデータを効率的に集約して分析することは困難です。 これらのデータ ソース間の接続を見つけて新しい知識を生み出す可能性があるナレッジ グラフを使用すると、これが簡単になります。

PDF 形式からデータを抽出して検索可能な形式にするという主な課題について説明してもらえますか?

Adobe によると、現在流通している PDF (Portable Document Format) ファイルの数はおよそ 2.5 兆 XNUMX 億です。 これらのファイルに含まれる知識について考えてみましょう: 科学論文、技術文献などです。 しかし、そのコンテンツはすべて「ダーク」または未使用です。これまで、大量の PDF ファイルを大規模に取り込んで、そのコンテンツを使用可能 (または構造化) にする方法がなかったためです。

PDF ファイルにはベクトル グラフィックス、テキスト、ビットマップ グラフィックスの組み合わせが含まれることが多く、これらすべてにより定性的および定量的データの抽出が非常に困難になります。 実際、コンテンツの自動再構成の変換は XNUMX 年以上にわたって問題となってきました。 多くのドキュメント変換ソリューションが利用可能ですが、どれもスケーラビリティに対応したり、AI を適用したりするものではないため、高価な人間によるメンテナンスとアップグレードに依存する必要があります。

私たちの知る限り、コーパス変換サービスは、このレベルの拡張性で高度な AI を使用する最初の包括的なシステムです。 既存のソリューションでは一度に XNUMX つのドキュメントしか目的の出力形式に変換できませんが、当社のツールはコレクション全体、つまりドキュメントのコーパスを取り込み、その上に機械学習モデルを構築できます。

文書に含まれるテキストだけでなく構造も抽出するにはどうすればよいでしょうか?

重要な要素は、コンピューター サイエンスの知識がなくても、非常に高速かつ大規模な注釈を付けられるように、システム内の人間とコンピューターの対話を設計したことです。 この機械学習への切り替えにより、ドキュメントの特定のテンプレートに迅速に適応し、高精度の結果を達成し、最終的には従来のルールベースのアルゴリズムに典型的なコストと時間のかかる調整を排除できるため、サービスに大きな柔軟性が与えられます。

数百、場合によっては数千の同時ユーザーに迅速に拡張して対応できる機械学習モデルを構築する際の課題について話してくれませんか?

当社は、IBM Cloud 上の OpenShift などの最先端のクラウド サービスを基盤としてコーパス変換サービスを開発しました。 これにより、需要の増加に応じてアプリケーションを簡単に拡張できるようになります。 したがって、私たちが適用する AI モデルは、多くのユーザーが同時に使用できます。

サービスに取り込まれたドキュメントの数は何ですか?

このツールを使用している産業顧客が複数いますが、それぞれが独自の IBM Cloud インスタンスを持っているため、彼らが取り込んだドキュメントの数はわかりません。 しかし、新型コロナウイルス感染症に関しては、ホワイトハウスから 19 件の論文をすべて摂取しました。

この AI ツールの使用について、研究コミュニティはどのような反応を示しましたか?

数週間前にツールの無料提供を発表して以来、十数か国から 400 名を超えるユーザーがいますが、そのほとんどが医師や教授です。

コーパス変換サービス、および/またはそれが新型コロナウイルス感染症の状況でどのように使用されているかについて、他に共有したいことはありますか?

当社のクライアントの XNUMX つであるイタリアのエネルギー会社 Eni は、炭化水素の探査に当社の技術を使用しています。これは、さまざまな工学および科学分野が連携する複雑で知識集約的なビジネスです。

Eni では、知識は大量の地質学的、物理学的、地球化学的データの処理に基づいており、その後、知識グラフに処理されます。 地球科学者は AI を使用して関連情報を文脈化して提示できるため、意思決定の向上や、考えられる代替探査シナリオの特定と検証に役立ちます。 より具体的には、Eni にとって、これは地質モデルのより現実的かつ正確な表現を意味します。

この非常に重要なインタビューに感謝します。これにより、研究者は計り知れないほどの時間を節約できます。 このテクノロジーについてさらに詳しく知りたい読者は、次のサイトにアクセスしてください。 コーパス変換サービス Webサイト。 研究者は次の場所を訪れるべきです。 新型コロナウイルス感染症 AI ツール ページ。 このリソースへのアクセスは資格のある研究者のみに許可されることに注意してください。 

Unite.AI の創設パートナーであり、 フォーブステクノロジー評議会、 アントワーヌさんは、 未来派 AI とロボット工学の未来に情熱を持っている人。

彼はの創設者でもあります 証券.io、破壊的テクノロジーへの投資に焦点を当てたウェブサイト。