sơ khai Dữ liệu lớn là gì? - Đoàn kết.AI
Kết nối với chúng tôi

AI 101

Dữ liệu Lớn là gì?

mm
cập nhật on

Dữ liệu Lớn là gì?

“Dữ liệu lớn” là một trong những từ thông dụng được sử dụng phổ biến trong thời đại hiện tại của chúng ta, nhưng nó thực sự có nghĩa là gì?

Đây là một định nghĩa nhanh chóng, đơn giản về dữ liệu lớn. Lớn dữ liệu là dữ liệu quá lớn và phức tạp để có thể xử lý bằng các phương pháp lưu trữ và xử lý dữ liệu truyền thống. Mặc dù đó là một định nghĩa nhanh mà bạn có thể sử dụng như một kinh nghiệm, nhưng sẽ rất hữu ích nếu bạn hiểu sâu hơn, đầy đủ hơn về dữ liệu lớn. Chúng ta hãy xem xét một số khái niệm làm cơ sở cho dữ liệu lớn, như lưu trữ, cấu trúc và xử lý.

Dữ liệu lớn lớn như thế nào?

Không đơn giản như nói “bất kỳ dữ liệu nào có kích thước 'X' là dữ liệu lớn", môi trường mà dữ liệu đang được xử lý là một yếu tố cực kỳ quan trọng trong xác định những gì đủ điều kiện là dữ liệu lớn. Kích thước mà dữ liệu cần phải có, để được coi là dữ liệu lớn, phụ thuộc vào ngữ cảnh hoặc tác vụ mà dữ liệu đang được sử dụng. Hai bộ dữ liệu có kích thước rất khác nhau có thể được coi là “dữ liệu lớn” trong các ngữ cảnh khác nhau.

Cụ thể hơn, nếu bạn cố gắng gửi tệp 200 megabyte dưới dạng tệp đính kèm email, bạn sẽ không thể làm như vậy. Trong bối cảnh này, tệp 200 megabyte có thể được coi là dữ liệu lớn. Ngược lại, việc sao chép tệp 200 megabyte sang một thiết bị khác trong cùng mạng LAN có thể không mất thời gian và trong bối cảnh đó, nó sẽ không được coi là dữ liệu lớn.

Tuy nhiên, giả sử rằng video có dung lượng 15 terabyte cần được xử lý trước để sử dụng trong việc đào tạo các ứng dụng thị giác máy tính. Trong trường hợp này, các tệp video chiếm nhiều dung lượng đến mức ngay cả một máy tính mạnh cũng phải mất nhiều thời gian để xử lý tất cả và do đó quá trình xử lý thường được phân phối trên nhiều máy tính được liên kết với nhau để giảm thời gian xử lý. 15 terabyte dữ liệu video này chắc chắn sẽ đủ điều kiện là dữ liệu lớn.

Các loại cấu trúc dữ liệu lớn

Dữ liệu lớn có ba loại cấu trúc khác nhau: dữ liệu phi cấu trúc, bán cấu trúc và dữ liệu có cấu trúc.

Dữ liệu phi cấu trúc là dữ liệu không có cấu trúc có thể xác định được, nghĩa là về cơ bản dữ liệu chỉ nằm trong một nhóm lớn. Ví dụ về dữ liệu phi cấu trúc sẽ là cơ sở dữ liệu chứa đầy các hình ảnh không được gắn nhãn.

Dữ liệu bán cấu trúc là dữ liệu không có cấu trúc chính thức, nhưng tồn tại trong một cấu trúc lỏng lẻo. Ví dụ: dữ liệu email có thể được tính là dữ liệu bán cấu trúc, vì bạn có thể tham khảo dữ liệu chứa trong từng email riêng lẻ, nhưng các mẫu dữ liệu chính thức chưa được thiết lập.

Dữ liệu có cấu trúc là dữ liệu có cấu trúc chính thức, với các điểm dữ liệu được phân loại theo các tính năng khác nhau. Một ví dụ về dữ liệu có cấu trúc là bảng tính excel chứa thông tin liên hệ như tên, email, số điện thoại và trang web.

Nếu bạn muốn đọc thêm về sự khác biệt trong các loại dữ liệu này, hãy kiểm tra liên kết tại đây.

Số liệu để đánh giá dữ liệu lớn

Dữ liệu lớn có thể được phân tích theo ba số liệu khác nhau: khối lượng, tốc độ và sự đa dạng.

Khối lượng đề cập đến kích thước của dữ liệu. Kích thước trung bình của bộ dữ liệu thường tăng lên. Ví dụ, ổ cứng lớn nhất vào năm 2006 là ổ cứng 750 GB. Ngược lại, Facebook được cho là tạo ra hơn 500 terabyte dữ liệu trong một ngày và ổ cứng tiêu dùng lớn nhất hiện nay là ổ cứng 16 terabyte. Những gì định lượng là dữ liệu lớn trong thời đại này có thể không phải là dữ liệu lớn trong thời đại khác. Ngày nay, nhiều dữ liệu được tạo ra hơn vì ngày càng có nhiều đối tượng xung quanh chúng ta được trang bị cảm biến, máy ảnh, micrô và các thiết bị thu thập dữ liệu khác.

Vận tốc đề cập đến tốc độ di chuyển của dữ liệu hay nói cách khác là lượng dữ liệu được tạo ra trong một khoảng thời gian nhất định. Các luồng phương tiện truyền thông xã hội tạo ra hàng trăm nghìn bài đăng và nhận xét mỗi phút, trong khi hộp thư đến email của riêng bạn có thể sẽ có ít hoạt động hơn. Luồng dữ liệu lớn là luồng thường xử lý hàng trăm nghìn hoặc hàng triệu sự kiện trong ít nhiều thời gian thực. Ví dụ về các luồng dữ liệu này là nền tảng trò chơi trực tuyến và thuật toán giao dịch chứng khoán tần số cao.

Sự đa dạng đề cập đến các loại dữ liệu khác nhau có trong tập dữ liệu. Dữ liệu có thể được tạo thành từ nhiều định dạng khác nhau, chẳng hạn như âm thanh, video, văn bản, ảnh hoặc số sê-ri. Nói chung, cơ sở dữ liệu truyền thống được định dạng để xử lý một hoặc chỉ một vài loại dữ liệu. Nói cách khác, cơ sở dữ liệu truyền thống được cấu trúc để chứa dữ liệu khá đồng nhất và có cấu trúc nhất quán, có thể dự đoán được. Khi các ứng dụng trở nên đa dạng hơn, có đầy đủ các tính năng khác nhau và được nhiều người sử dụng hơn, cơ sở dữ liệu phải phát triển để lưu trữ nhiều loại dữ liệu hơn. Cơ sở dữ liệu phi cấu trúc là lý tưởng để chứa dữ liệu lớn, vì chúng có thể chứa nhiều loại dữ liệu không liên quan đến nhau.

Phương pháp xử lý dữ liệu lớn

Có một số nền tảng và công cụ khác nhau được thiết kế để tạo thuận lợi cho việc phân tích dữ liệu lớn. Nhóm dữ liệu lớn cần được phân tích để trích xuất các mẫu có ý nghĩa từ dữ liệu, một nhiệm vụ có thể tỏ ra khá khó khăn với các công cụ phân tích dữ liệu truyền thống. Để đáp ứng nhu cầu về các công cụ phân tích khối lượng dữ liệu lớn, nhiều công ty đã tạo ra các công cụ phân tích dữ liệu lớn. Các công cụ phân tích dữ liệu lớn bao gồm các hệ thống như ZOHO Analytics, Cloudera và Microsoft BI.

Blogger và lập trình viên có chuyên môn về Machine Learning Học kĩ càng chủ đề. Daniel hy vọng sẽ giúp những người khác sử dụng sức mạnh của AI vì lợi ích xã hội.