ソートリーダー
AIの実装におけるデータ品質の重要性

人工知能と機械学習技術は、どの規模の業界にも大きな利益をもたらす可能性があります。McKinseyの報告書によると、人工知能技術を採用する企業は、2030年までにキャッシュフローを2倍に増やすことができます。一方、AIを導入しない企業は、キャッシュフローが20%減少することになります。ただし、こうした利益は財務面に限られません。AIは、企業が労働力不足に対処するのを助けることができます。AIはまた、顧客体験とビジネス成果を大幅に改善し、ビジネスをより信頼性の高いものにすることができます。
AIには多くの利点があるので、誰もがAIを採用していない理由は何ですか。2019年、 PwC の調査によると、76%の企業がビジネス価値を向上させるためにAIを使用する予定です。ただし、高品質のデータにアクセスできる企業はわずか15%です。Refinitivの別の調査 によると、66%の回答者は、低品質のデータがAIの導入と採用を妨げていると回答しました。
調査によると、機械学習とAI技術を使用する際のトップ3の課題は、データのカバレッジ、履歴、人口に関する正確な情報の取得、不完全または破損したレコードの特定、データのクリーンアップと正規化です。これは、低品質のデータが、高品質のAI分析を得るための主な障害であることを示しています。
データはなぜ重要か?
AI実装におけるデータ品質が重要な理由は多数あります。以下は最も重要なものです:
1. ガベージインガベージアウト
入力が重要であることは簡単に理解できます。この場合、データセットがエラーで満たされている場合や偏っている場合、結果も間違った方向に進むことになります。データ関連の問題の多くは、データの量ではなく、AIモデルにフィードする品質の問題です。如果低品質のデータを使用すると、AIモデルは正常に機能しません。
2. すべてのAIシステムは等しくない
データセットについて考えるとき、通常、数量データを想像します。しかし、ビデオ、個別のインタビュー、意見、写真など、質的データもあります。AIシステムでは、数量データセットは構造化されており、質的データセットは構造化されていません。すべてのAIモデルが両方の種類のデータセットを処理できるわけではありません。したがって、適切なモデルに適切なデータタイプを選択することは、期待される出力を得るために不可欠です。
3. 品質対数量
AIシステムは、多量のデータを学習する必要があると考えられています。品質と数量の議論では、後者が通常、企業によって好まれます。しかし、データセットが高品質で短い場合は、出力が関連性が高く信頼性が高いことを保証できます。
4. 良質なデータセットの特性
良質なデータセットの特性は主観的であり、主にAIが提供するアプリケーションに依存します。ただし、データセットを分析する際に検討するべき一般的な機能がいくつかあります。
- 完全性: データセットは、空のグリッドやスポットがない完全なものでなければなりません。各セルにはデータが入力されている必要があります。
- 包括性: データセットは可能な限り包括的なものである必要があります。たとえば、サイバー脅威ベクトルを探している場合、すべての署名プロファイルと必要なすべての情報を含める必要があります。
- 一貫性: データセットは、割り当てられた特定の変数に適合する必要があります。たとえば、箱のパッケージをモデル化している場合、選択した変数 (プラスチック、ペーパー、板紙など) には、それらの特定のカテゴリに適合する価格データが必要です。
- 正確性: 正確性は、良質なデータセットの重要な要素です。AIモデルにフィードするすべての情報は、信頼性が高く完全に正確である必要があります。如果データセットの大部分が不正確な場合、出力も不正確になります。
- 一意性: この点は一貫性と似ています。各データポイントは、提供する変数に一意的である必要があります。たとえば、プラスチックラッパーの価格を他のパッケージカテゴリに分類したくありません。
データ品質の確保
データ品質が高いことを保証する方法は多数あります。たとえば、データソースが信頼できることを確認するなどです。以下は、AIモデルに最適な品質のデータを取得するための最良のテクニックです:
1. データプロファイリング
データプロファイリングは、データを使用する前に理解するために不可欠です。データプロファイリングにより、値の分布、最大値、最小値、平均値、および外れ値に関する洞察が得られます。さらに、データの整合性の不一致を検出するのに役立ちます。データプロファイリングにより、データセットが使用可能かどうかを判断できます。
2. データ品質の評価
事前に構築されたデータ品質ルールのセントラルライブラリを使用して、任意のデータセットを検証できます。如果データカタログに組み込みのデータツールがある場合、顧客名、メールアドレス、製品コードなどを検証するためにこれらのルールを再利用できます。また、一部のデータを強化および標準化することもできます。
3. データ品質の監視と評価
科学者は、使用したいデータセットのデータ品質を事前に計算しています。彼らは、特定の属性に何が欠けているかを絞り込むことができ、使用するかどうかを決定できます。
4. データ準備
研究者や科学者は、データをAIモデリングのために準備するために、データを少し調整する必要があります。これらの研究者は、属性を解析して列を変換し、データから値を計算するための使いやすいツールが必要です。
人工知能の世界は不断に変化しています。各企業がデータを異なる方法で使用している間でも、データ品質はすべてのAI実装プロジェクトに不可欠です。如果信頼性が高く、高品質のデータを持っている場合、巨大なデータセットの必要性を排除し、成功する可能性を高めることができます。すべての組織と同様に、組織がAI実装に移行する場合、良質なデータを持っているかどうかを確認します。ソースが信頼できることを確認し、データ要件に準拠しているかどうかを確認するための尽力を行います。












