Trí tuệ nhân tạo

Big Data Là Gì?

mm

Big Data Là Gì?

“Big Data” là một trong những từ khóa phổ biến được sử dụng trong thời đại hiện nay, nhưng nó thực sự có nghĩa là gì?

Dưới đây là định nghĩa đơn giản và nhanh chóng về big data. Big data là dữ liệu quá lớn và phức tạp để được xử lý bởi các phương pháp xử lý và lưu trữ dữ liệu truyền thống. Mặc dù đó là định nghĩa nhanh chóng mà bạn có thể sử dụng như một quy tắc thumb, nhưng nó sẽ hữu ích nếu có một sự hiểu biết sâu sắc và đầy đủ hơn về big data. Hãy cùng xem xét một số khái niệm cơ bản về big data, như lưu trữ, cấu trúc và xử lý.

Big Data Lớn Như Thế Nào?

Không đơn giản như nói “bất kỳ dữ liệu nào lớn hơn kích thước ‘X’ là big data”, môi trường mà dữ liệu được xử lý là một yếu tố cực kỳ quan trọng trong việc xác định什么 là big data. Kích thước mà dữ liệu cần phải có để được coi là big data phụ thuộc vào ngữ cảnh hoặc nhiệm vụ mà dữ liệu được sử dụng. Hai tập dữ liệu có kích thước khác nhau có thể được coi là “big data” trong các ngữ cảnh khác nhau.

Để cụ thể hơn, nếu bạn cố gắng gửi một tệp tin 200 megabyte dưới dạng tệp đính kèm email, bạn sẽ không thể làm được. Trong ngữ cảnh này, tệp tin 200 megabyte có thể được coi là big data. Ngược lại, sao chép một tệp tin 200 megabyte sang một thiết bị khác trong cùng một mạng LAN có thể không mất thời gian, và trong ngữ cảnh đó, nó sẽ không được coi là big data.

Tuy nhiên, hãy giả sử rằng 15 terabyte dữ liệu video cần được xử lý trước để sử dụng trong các ứng dụng tầm nhìn máy tính. Trong trường hợp này, các tệp tin video chiếm quá nhiều không gian đến mức thậm chí một máy tính mạnh cũng sẽ mất nhiều thời gian để xử lý tất cả, và vì vậy quá trình xử lý thường được phân phối trên nhiều máy tính liên kết với nhau để giảm thời gian xử lý. 15 terabyte dữ liệu video này chắc chắn sẽ được coi là big data.

Các Loại Cấu Trúc Big Data

Big data đến trong ba loại cấu trúc khác nhau: dữ liệu không cấu trúc, bán cấu trúc và dữ liệu cấu trúc.

Dữ liệu không cấu trúc là dữ liệu không có cấu trúc xác định, nghĩa là dữ liệu cơ bản chỉ là một hồ chứa lớn. Ví dụ về dữ liệu không cấu trúc sẽ là một cơ sở dữ liệu đầy đủ hình ảnh không được gắn nhãn.

Dữ liệu bán cấu trúc là dữ liệu không có cấu trúc chính thức, nhưng tồn tại trong một cấu trúc lỏng lẻo. Ví dụ, dữ liệu email có thể được coi là dữ liệu bán cấu trúc, vì bạn có thể tham khảo dữ liệu chứa trong các email riêng lẻ, nhưng các mẫu dữ liệu chính thức chưa được thiết lập.

Dữ liệu cấu trúc là dữ liệu có cấu trúc chính thức, với các điểm dữ liệu được phân loại theo các tính năng khác nhau. Một ví dụ về dữ liệu cấu trúc là một bảng tính Excel chứa thông tin liên hệ như tên, email, số điện thoại và trang web.

Nếu bạn muốn đọc thêm về sự khác biệt giữa các loại dữ liệu này, hãy kiểm tra liên kết tại đây.

Các Chỉ Số Để Đánh Giá Big Data

Big data có thể được phân tích theo ba chỉ số khác nhau: khối lượng, tốc độ và đa dạng.

Khối lượng đề cập đến kích thước của dữ liệu. Kích thước trung bình của các tập dữ liệu thường tăng. Ví dụ, ổ cứng lớn nhất vào năm 2006 là một ổ cứng 750 GB. Ngược lại, Facebook được cho là tạo ra hơn 500 terabyte dữ liệu mỗi ngày và ổ cứng lớn nhất hiện có trên thị trường tiêu dùng là một ổ cứng 16 terabyte. Những gì được coi là big data trong một thời đại có thể không phải là big data trong một thời đại khác. Ngày nay, nhiều dữ liệu hơn được tạo ra vì nhiều đối tượng xung quanh chúng ta được trang bị cảm biến, máy ảnh, micro và các thiết bị thu thập dữ liệu khác.

Tốc độ đề cập đến tốc độ di chuyển của dữ liệu, hoặc nói cách khác, lượng dữ liệu được tạo ra trong một khoảng thời gian nhất định. Các luồng truyền thông xã hội tạo ra hàng trăm nghìn bài đăng và bình luận mỗi phút, trong khi hộp thư đến của bạn có thể có ít hoạt động hơn. Các luồng big data là các luồng thường xử lý hàng trăm nghìn hoặc hàng triệu sự kiện trong thời gian thực hoặc gần như thời gian thực. Các ví dụ về các luồng dữ liệu này là các nền tảng chơi game trực tuyến và các thuật toán giao dịch chứng khoán tần suất cao.

Đa dạng đề cập đến các loại dữ liệu khác nhau trong tập dữ liệu. Dữ liệu có thể bao gồm nhiều định dạng khác nhau, như âm thanh, video, văn bản, ảnh hoặc số seri. Generally, các cơ sở dữ liệu truyền thống được định dạng để xử lý một hoặc chỉ một vài loại dữ liệu. Để nói cách khác, các cơ sở dữ liệu truyền thống được cấu trúc để giữ dữ liệu khá đồng nhất và có cấu trúc nhất quán và có thể dự đoán. Khi các ứng dụng trở nên đa dạng hơn, có nhiều tính năng hơn và được sử dụng bởi nhiều người hơn, các cơ sở dữ liệu đã phải phát triển để lưu trữ nhiều loại dữ liệu hơn. Các cơ sở dữ liệu không cấu trúc là lý tưởng để giữ big data, vì chúng có thể giữ nhiều loại dữ liệu không liên quan đến nhau.

Các Phương Pháp Xử Lý Big Data

Có một số nền tảng và công cụ được thiết kế để phân tích big data. Các hồ chứa big data cần được phân tích để trích xuất các mẫu có ý nghĩa từ dữ liệu, một nhiệm vụ có thể chứng minh khá thách thức với các công cụ phân tích dữ liệu truyền thống. Để đáp ứng nhu cầu về các công cụ để phân tích lượng lớn dữ liệu, một loạt các công ty đã tạo ra các công cụ phân tích big data. Các công cụ phân tích big data bao gồm các hệ thống như ZOHO Analytics, Cloudera và Microsoft BI.

Blogger và lập trình viên với chuyên môn về Machine Learning Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.