人工知能

ビッグデータとは何か?

mm

ビッグデータとは何か?

「ビッグデータ」は、現在の時代でよく使われる流行語のひとつですが、実際には何を指しているのでしょうか?

ビッグデータの簡単な定義を紹介します。 ビッグデータ は、従来のデータ処理とストレージ方法では扱うことができないほど大規模で複雑なデータです。簡単な定義としてはこれで十分ですが、ビッグデータの概念をより深く理解するために、ストレージ、構造、処理などの基礎となる概念を見ていきましょう。

ビッグデータはどのくらいの規模か?

「ビッグデータ」は、単に「サイズXを超えるデータ」であるということではありません。データを扱う環境は、ビッグデータとして扱われるかどうかを決定する上で非常に重要な要素です。 ビッグデータとみなされるデータのサイズ は、使用されるコンテキストやタスクによって異なります。サイズが大きく異なる2つのデータセットは、異なるコンテキストでビッグデータとみなされることがあります。

具体的には、200メガバイトのファイルをメール添付で送ることはできません。このコンテキストでは、200メガバイトのファイルはビッグデータとみなされることがあります。一方、同じLAN内のデバイス間で200メガバイトのファイルをコピーすることは時間がかからないかもしれません。このコンテキストでは、200メガバイトのファイルはビッグデータとみなされません。

ただし、コンピュータビジョンアプリケーションのトレーニングに使用するために、15テラバイトのビデオデータを事前に処理する必要があると仮定します。この場合、ビデオファイルは非常に多くのスペースを占めるため、強力なコンピュータでも処理に長時間かかります。通常、処理時間を短縮するために、複数のコンピュータをネットワークで接続して分散処理します。この15テラバイトのビデオデータは、確実にビッグデータとみなされます。

ビッグデータの構造の種類

ビッグデータは、3つのカテゴリの構造に分類されます:非構造化データ、準構造化データ、構造化データ。

非構造化データは、明確な構造を持たないデータで、基本的に大きなプールの中にあります。非構造化データの例としては、ラベル付けされていない画像のデータベースがあります。

準構造化データは、正式な構造を持たないデータですが、ある程度の構造を持っています。たとえば、メールデータは準構造化データとみなされることがあります。個々のメール内のデータを参照できますが、正式なデータパターンは確立されていません。

構造化データは、正式な構造を持つデータで、さまざまな特徴によってデータポイントが分類されます。構造化データの例としては、名前、メールアドレス、電話番号、ウェブサイトなどの連絡先情報を含むExcelスプレッドシートがあります。

これらのデータタイプの違いについてもっと知りたい場合は、こちらのリンクを参照してください。

ビッグデータの評価指標

ビッグデータは、3つの指標で分析できます:容量、速度、多様性。

容量は、データのサイズを指します。平均的なデータセットのサイズは、増加しています。例えば、2006年の最大のハードドライブは750 GBでした。一方、Facebookは1日に500テラバイトのデータを生成すると考えられています。現在利用可能な最大のコンシューマーハードドライブは16テラバイトです。ある時代にはビッグデータとみなされたデータは、別の時代にはビッグデータとみなされないかもしれません。より多くのデータが生成されるようになったのは、周囲の物体にセンサー、カメラ、マイク、他のデータ収集デバイスが搭載されているためです。

速度は、データがどのくらいの速さで移動しているか、あるいは、一定期間内にどのくらいのデータが生成されるかを指します。ソーシャルメディアのストリームは、1分間に数十万件の投稿やコメントを生成します。一方、自分のメールボックスにはあまり活動がないかもしれません。ビッグデータストリームは、ほぼリアルタイムで数十万件または数百万件のイベントを処理するストリームです。オンラインゲームプラットフォームや高頻度取引アルゴリズムがこれらのデータストリームの例です。

多様性は、データセット内のさまざまなデータタイプを指します。データは、オーディオ、ビデオ、テキスト、写真、シリアル番号など、さまざまな形式で構成されます。一般的に、従来のデータベースは、1つまたは2つのデータタイプのみを処理するように設計されています。言い換えれば、従来のデータベースは、同様の構造と予測可能な構造を持つ同質的なデータを保持するように設計されています。アプリケーションがより多様化し、より多くの機能を持ち、より多くのユーザーによって使用されるにつれて、データベースはより多くのデータタイプを保持できるように進化してきました。非構造化データベースは、ビッグデータを保持するのに理想的です。なぜなら、相互に関連しない複数のデータタイプを保持できるからです。

ビッグデータの処理方法

ビッグデータの分析を容易にするためのプラットフォームやツールが数多くあります。ビッグデータのプールを分析して、データから有意義なパターンを抽出するのは、従来のデータ分析ツールでは困難なタスクです。大量のデータを分析するためのツールの必要性に応じて、多くの企業がビッグデータ分析ツールを作成しています。ビッグデータ分析ツールには、ZOHO Analytics、Cloudera、Microsoft BIなどのシステムがあります。

ブログ作家およびプログラマーで、 Machine Learning Deep Learning のトピックを専門としています。Danielは、AIの力を社会のために利用する手助けを他者に与えることを希望しています。