人工知能

ビッグデータとは何か？

Published December 20, 2019

Updated March 21, 2026

Daniel Nelson

ビッグデータとは何か？

「ビッグデータ」は現代でよく使われるバズワードの一つですが、その本当の意味は何でしょうか？ここでは、ビッグデータの簡潔でシンプルな定義をご紹介します。ビッグデータとは、従来のデータ処理・保存方法では扱いきれないほど巨大で複雑なデータのことです。これはヒューリスティックとして使える簡潔な定義ですが、ビッグデータについてより深く完全に理解するのに役立つでしょう。ストレージ、構造、処理など、ビッグデータの基礎となる概念をいくつか見てみましょう。

ビッグデータの「ビッグ」とは？

「サイズが『X』を超えるデータはすべてビッグデータである」と単純に言えるものではありません。データが扱われる環境は、何がビッグデータに該当するかを決定する上で極めて重要な要素です。ビッグデータと見なされるために必要なデータのサイズは、文脈、つまりデータが使用されるタスクに依存します。大きく異なるサイズの2つのデータセットが、異なる文脈では「ビッグデータ」と見なされることがあります。より具体的に言うと、200メガバイトのファイルをメールの添付ファイルとして送信しようとすると、それはできません。この文脈では、200メガバイトのファイルはビッグデータと見なされる可能性があります。対照的に、同じLAN内の別のデバイスに200メガバイトのファイルをコピーするのはまったく時間がかからない場合があり、その文脈ではビッグデータとは見なされないでしょう。しかし、コンピュータビジョンアプリケーションのトレーニングに使用するために、15テラバイト相当の動画を前処理する必要があると仮定してみましょう。この場合、動画ファイルは非常に多くの容量を占めるため、強力なコンピュータでもすべてを処理するのに長い時間がかかり、通常、処理時間を短縮するために、複数のコンピュータを連結して分散処理が行われます。この15テラバイトの動画データは、間違いなくビッグデータに該当します。

ビッグデータの構造の種類

ビッグデータは、構造の観点から3つの異なるカテゴリに分類されます：非構造化データ、半構造化データ、構造化データです。非構造化データは、定義可能な構造を持たないデータ、つまりデータが本質的に1つの大きなプールに存在するだけのデータです。非構造化データの例としては、ラベル付けされていない画像でいっぱいのデータベースが挙げられます。半構造化データは、正式な構造を持たないが、緩やかな構造の中に存在するデータです。例えば、メールデータは半構造化データとしてカウントされる可能性があります。個々のメールに含まれるデータを参照することはできますが、正式なデータパターンは確立されていないからです。構造化データは、正式な構造を持ち、データポイントが異なる特徴によって分類されているデータです。構造化データの一例は、名前、メールアドレス、電話番号、ウェブサイトなどの連絡先情報を含むExcelスプレッドシートです。これらのデータタイプの違いについてさらに詳しく知りたい場合は、こちらのリンクを確認してください。

ビッグデータを評価するための指標

ビッグデータは、3つの異なる指標、つまりボリューム、ベロシティ、バラエティの観点から分析できます。ボリュームは、データのサイズを指します。データセットの平均サイズはしばしば増加しています。例えば、2006年の最大のハードドライブは750GBのハードドライブでした。対照的に、Facebookは1日に500テラバイト以上のデータを生成すると考えられており、現在入手可能な最大のコンシューマー向けハードドライブは16テラバイトのハードドライブです。ある時代にビッグデータとして定量化されるものが、別の時代にはビッグデータではないかもしれません。今日では、私たちの周囲の物体のますます多くがセンサー、カメラ、マイク、その他のデータ収集デバイスを備えているため、より多くのデータが生成されています。ベロシティは、データがどれだけ速く動いているか、言い換えれば、一定期間内にどれだけのデータが生成されるかを指します。ソーシャルメディアのストリームは毎分数十万の投稿やコメントを生成しますが、あなた自身のメール受信箱の活動はおそらくはるかに少ないでしょう。ビッグデータストリームとは、ほぼリアルタイムで数十万または数百万のイベントを処理するストリームのことです。これらのデータストリームの例としては、オンラインゲームプラットフォームや高頻度株式売買アルゴリズムが挙げられます。バラエティは、データセット内に含まれるデータの種類の違いを指します。データは、音声、動画、テキスト、写真、シリアル番号など、さまざまな形式で構成されることがあります。一般的に、従来のデータベースは、1つまたはほんの数種類のデータを処理するようにフォーマットされています。言い換えれば、従来のデータベースは、かなり均質で一貫性があり予測可能な構造のデータを保持するように構成されています。アプリケーションがより多様化し、さまざまな機能で満たされ、より多くの人々に使用されるにつれて、データベースはより多くの種類のデータを保存できるように進化しなければなりませんでした。非構造化データベースは、互いに関連のない複数のデータタイプを保持できるため、ビッグデータを保持するのに理想的です。

ビッグデータの処理方法

ビッグデータの分析を容易にするために設計されたさまざまなプラットフォームやツールが数多く存在します。ビッグデータのプールは、データから意味のあるパターンを抽出するために分析される必要があり、このタスクは従来のデータ分析ツールでは非常に困難であることが証明される可能性があります。大量のデータを分析するツールの必要性に応えて、さまざまな企業がビッグデータ分析ツールを開発しています。ビッグデータ分析ツールには、ZOHO Analytics、Cloudera、Microsoft BIなどのシステムが含まれます。