AI 101
ビッグデータとは?
何ですか ビッグデータ?
「ビッグデータ」は現代の流行語のひとつですが、実際には何を意味するのでしょうか?
ビッグデータの簡単で簡単な定義を次に示します。 ビッグデータ 従来のデータ処理および保存方法では処理できないほど大きすぎて複雑なデータです。 これはヒューリスティックとして使用できる簡単な定義ですが、ビッグ データをより深く完全に理解するのに役立ちます。 ストレージ、構造、処理など、ビッグ データの基礎となる概念をいくつか見てみましょう。
ビッグデータとはどのくらいの大きさですか?
「サイズ X を超えるデータはすべてビッグデータである」と言うほど単純ではなく、データが扱われる環境は非常に重要な要素です。 何がビッグデータに該当するかを判断する。 ビッグ データとみなされるために必要なデータのサイズは、コンテキスト、またはデータが使用されるタスクによって異なります。サイズが大きく異なる XNUMX つのデータセットは、異なるコンテキストでは「ビッグ データ」とみなされる可能性があります。
具体的には、200メガバイトのファイルをメールに添付して送信しようとしても送信できません。 この文脈では、200 メガバイトのファイルはビッグ データとみなされる可能性があります。 対照的に、200 メガバイトのファイルを同じ LAN 内の別のデバイスにコピーする場合は、まったく時間がかからない可能性があり、その文脈ではビッグ データとはみなされません。
ただし、トレーニングで使用するために 15 テラバイト相当のビデオを前処理する必要があると仮定します。 コンピュータビジョン アプリケーション。 この場合、ビデオ ファイルは非常に多くのスペースを占有し、強力なコンピュータでもすべてを処理するには長い時間がかかるため、通常は、処理時間を短縮するために、リンクされた複数のコンピュータに処理を分散します。 これらの 15 テラバイトのビデオ データは間違いなくビッグ データに該当します。
ビッグデータ構造の種類
ビッグ データには、非構造化データ、半構造化データ、構造化データという XNUMX つの異なる構造カテゴリがあります。
非構造化データ 定義可能な構造を持たないデータです。つまり、データは基本的に XNUMX つの大きなプール内にあるだけです。 非構造化データの例としては、ラベルのない画像が満載のデータベースが挙げられます。
半構造化データは、正式な構造を持たないが、緩やかな構造内に存在するデータです。 たとえば、電子メール データは、個々の電子メールに含まれるデータを参照できるため、半構造化データとしてカウントされる可能性がありますが、正式なデータ パターンは確立されていません。
構造化データは、さまざまな特徴によってデータ ポイントが分類された形式的な構造を持つデータです。 構造化データの一例は、名前、電子メール、電話番号、Web サイトなどの連絡先情報を含む Excel スプレッドシートです。
これらのデータ型の違いについて詳しく知りたい場合は、ここのリンクを確認してください。
ビッグデータを評価するための指標
ビッグデータは、量、速度、多様性という XNUMX つの異なる指標の観点から分析できます。
ボリュームとはデータのサイズを指します。 データセットの平均サイズは、多くの場合増加しています。 たとえば、2006 年の最大のハード ドライブは 750 GB のハード ドライブでした。 対照的に、Facebook は 500 日に 16 テラバイトを超えるデータを生成すると考えられており、現在入手可能な最大の消費者用ハード ドライブは XNUMX テラバイトのハード ドライブです。 ある時代ではビッグデータとして定量化されたものでも、別の時代ではビッグデータではない可能性があります。 今日、私たちの周囲のますます多くの物体にセンサー、カメラ、マイク、その他のデータ収集デバイスが装備されているため、より多くのデータが生成されています。
速度とは、データの移動速度、または言い換えると、一定期間内に生成されるデータの量を指します。 ソーシャル メディア ストリームでは毎分数十万件の投稿やコメントが生成されますが、自分の電子メールの受信箱のアクティビティはおそらくはるかに少ないでしょう。 ビッグ データ ストリームは、多くの場合、数十万または数百万のイベントを多かれ少なかれリアルタイムで処理するストリームです。 これらのデータ ストリームの例としては、オンライン ゲーム プラットフォームや高頻度の株式取引アルゴリズムが挙げられます。
多様性とは、データセット内に含まれるさまざまなタイプのデータを指します。 データは、オーディオ、ビデオ、テキスト、写真、シリアル番号など、さまざまな形式で構成できます。 一般に、従来のデータベースは XNUMX つまたは XNUMX つのタイプのデータを処理できるようにフォーマットされています。 別の言い方をすると、従来のデータベースは、かなり均質で一貫性のある予測可能な構造のデータを保持するように構造化されています。 アプリケーションがより多様になり、さまざまな機能が満載され、より多くの人が使用するようになると、より多くの種類のデータを保存できるようにデータベースも進化する必要がありました。 非構造化データベースは、互いに関連しない複数のデータ型を保持できるため、ビッグデータの保持に最適です。
ビッグデータの取り扱い方法
ビッグデータの分析を容易にするために設計されたさまざまなプラットフォームやツールが多数あります。 データから意味のあるパターンを抽出するにはビッグ データ プールを分析する必要がありますが、この作業は従来のデータ分析ツールでは非常に困難であることが判明します。 大量のデータを分析するツールのニーズに応えて、さまざまな企業がビッグデータ分析ツールを作成しました。 ビッグデータ分析ツールには、ZOHO Analytics、Cloudera、Microsoft BI などのシステムが含まれます。