Refresh

This website www.unite.ai/mn/what-is-big-data/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

stub Big Data гэж юу вэ? - Нэгдсэн.AI
бидэнтэй хамт холбоно

AI 101

Том өгөгдөл гэж юу вэ?

mm
шинэчлэгдсэн on

Гэж юу вэ Их мэдээлэл?

"Big Data" бол бидний өнөөгийн эрин үед түгээмэл хэрэглэгддэг үгсийн нэг боловч энэ нь юу гэсэн үг вэ?

Том өгөгдлийн хурдан бөгөөд энгийн тодорхойлолтыг энд оруулав. Их мэдээлэл Мэдээлэл боловсруулах, хадгалах уламжлалт аргаар ажиллахад хэтэрхий том, төвөгтэй өгөгдөл юм. Хэдийгээр энэ нь эвристик болгон ашиглаж болох хурдан тодорхойлолт боловч том өгөгдлийн талаар илүү гүнзгий, бүрэн ойлголттой байх нь тустай байх болно. Хадгалалт, бүтэц, боловсруулалт гэх мэт том өгөгдлийн үндэс суурь болох зарим ойлголтыг авч үзье.

Big Data хэр том вэ?

Энэ нь "X" хэмжээнээс дээш аливаа өгөгдөл бол том өгөгдөл юм" гэж хэлэх нь тийм ч энгийн зүйл биш юм. Энэ нь өгөгдлийн боловсруулагдаж буй орчин нь маш чухал хүчин зүйл юм. том өгөгдөл гэж юу болохыг тодорхойлох. Өгөгдлийн хэмжээ нь том өгөгдөлд тооцогдохын тулд тухайн өгөгдлийг ашиглаж буй контекст эсвэл даалгавраас хамаарна. Өөр өөр хэмжээтэй хоёр өгөгдлийн багцыг өөр өөр контекст "том өгөгдөл" гэж үзэж болно.

Илүү тодорхой хэлэхэд, хэрэв та 200 мегабайт файлыг имэйлийн хавсралт болгон илгээх гэж оролдвол үүнийг хийх боломжгүй болно. Энэ утгаараа 200 мегабайт файлыг том өгөгдөл гэж үзэж болно. Үүний эсрэгээр, 200 мегабайт файлыг нэг LAN доторх өөр төхөөрөмж рүү хуулах нь ямар ч цаг хугацаа шаардахгүй бөгөөд энэ нөхцөлд үүнийг том өгөгдөл гэж үзэхгүй.

Гэсэн хэдий ч сургалтанд ашиглахын тулд 15 терабайт видеог урьдчилан боловсруулах шаардлагатай гэж үзье. компьютерийн алсын хараа програмууд. Энэ тохиолдолд видео файлууд нь маш их зай эзэлдэг тул хүчирхэг компьютер хүртэл бүгдийг нь боловсруулахад удаан хугацаа шаардагдах тул боловсруулах хугацааг багасгахын тулд ихэвчлэн хоорондоо холбогдсон олон компьютерт боловсруулалтыг хуваарилдаг. Эдгээр 15 терабайт видео өгөгдөл нь том өгөгдөлд хамаарах нь гарцаагүй.

Том өгөгдлийн бүтцийн төрлүүд

Том өгөгдөл нь бүтэцгүй өгөгдөл, хагас бүтэцтэй, бүтэцлэгдсэн өгөгдөл гэсэн гурван өөр бүтэцтэй.

Бүтэцгүй өгөгдөл Энэ нь тодорхой бүтэцгүй өгөгдөл бөгөөд өгөгдөл нь үндсэндээ зөвхөн нэг том санд байдаг гэсэн үг юм. Бүтэцгүй өгөгдлийн жишээ нь шошгогүй зургуудаар дүүрэн мэдээллийн сан байж болно.

Хагас бүтэцтэй өгөгдөл нь албан ёсны бүтэцгүй боловч сул бүтэц дотор оршдог өгөгдөл юм. Жишээлбэл, имэйлийн өгөгдлийг хагас бүтэцтэй өгөгдөлд тооцож болно, учир нь та бие даасан имэйлд агуулагдаж буй өгөгдөлд хандаж болох боловч албан ёсны өгөгдлийн загвар тогтоогдоогүй байна.

Бүтцийн өгөгдөл нь албан ёсны бүтэцтэй, өгөгдлийн цэгүүдийг өөр өөр шинж чанараар ангилсан өгөгдөл юм. Бүтэцлэгдсэн өгөгдлийн нэг жишээ бол нэр, имэйл, утасны дугаар, вэбсайт зэрэг холбоо барих мэдээллийг агуулсан Excel хүснэгт юм.

Хэрэв та эдгээр өгөгдлийн төрлүүдийн ялгааны талаар илүү ихийг уншихыг хүсвэл эндээс холбоосыг шалгана уу.

Том өгөгдлийг үнэлэх хэмжүүр

Том өгөгдлийг эзлэхүүн, хурд, олон янз байдал гэсэн гурван өөр хэмжүүрээр шинжилж болно.

Эзлэхүүн нь өгөгдлийн хэмжээг илэрхийлдэг. Өгөгдлийн багцын дундаж хэмжээ ихэвчлэн нэмэгддэг. Жишээлбэл, 2006 оны хамгийн том хатуу диск нь 750 ГБ хатуу диск байв. Үүний эсрэгээр, Facebook нь өдөрт 500 терабайт өгөгдөл үүсгэдэг гэж үздэг бөгөөд өнөөдөр хамгийн том хэрэглэгчийн хатуу диск нь 16 терабайт хатуу диск юм. Нэг эрин үед том өгөгдөл гэж тооцогддог зүйл нөгөө үед том өгөгдөл биш байж болно. Бидний эргэн тойрон дахь илүү олон объект мэдрэгч, камер, микрофон болон бусад мэдээлэл цуглуулах төхөөрөмжөөр тоноглогдсон тул өнөөдөр илүү их мэдээлэл бий болж байна.

Хурд гэдэг нь өгөгдөл хэр хурдан хөдөлж байгааг, өөрөөр хэлбэл тухайн хугацаанд хэр их өгөгдөл үүсгэж байгааг илэрхийлдэг. Олон нийтийн мэдээллийн хэрэгслээр дамжуулалт минут тутамд хэдэн зуун мянган нийтлэл, сэтгэгдлийг үүсгэдэг бол таны имэйл хайрцагт илүү бага идэвхжилтэй байх магадлалтай. Том өгөгдлийн урсгал нь ихэвчлэн олон зуун мянга, сая сая үйл явдлыг бодит цаг хугацаанд нь зохицуулдаг урсгал юм. Эдгээр мэдээллийн урсгалын жишээ бол онлайн тоглоомын платформууд болон өндөр давтамжийн хувьцааны арилжааны алгоритмууд юм.

Янз бүрийн байдал гэдэг нь өгөгдлийн багцад агуулагдах янз бүрийн төрлийн өгөгдлүүдийг хэлнэ. Өгөгдөл нь аудио, видео, текст, зураг, серийн дугаар гэх мэт олон янзын форматаас бүрдэж болно. Ерөнхийдөө уламжлалт өгөгдлийн сангууд нь нэг буюу хоёр төрлийн өгөгдөлтэй ажиллахаар форматлагдсан байдаг. Өөрөөр хэлбэл, уламжлалт мэдээллийн сангууд нь нэлээн нэгэн төрлийн, тууштай, урьдчилан таамаглахуйц бүтэцтэй өгөгдлийг хадгалах бүтэцтэй байдаг. Аппликейшн улам олон янз болж, өөр өөр функцээр дүүрэн, илүү олон хүн ашигладаг болохын хэрээр өгөгдлийн сангууд илүү олон төрлийн өгөгдлийг хадгалахын тулд хөгжих шаардлагатай болсон. Бүтэцгүй өгөгдлийн сан нь бие биенээсээ хамааралгүй олон төрлийн өгөгдлийн төрлийг хадгалах боломжтой тул том өгөгдлийг хадгалахад тохиромжтой.

Том өгөгдөлтэй ажиллах аргууд

Том өгөгдлийн шинжилгээг хөнгөвчлөх зорилготой олон төрлийн платформ, хэрэгслүүд байдаг. Өгөгдлөөс утга учиртай хэв маягийг гаргаж авахын тулд том өгөгдлийн санд дүн шинжилгээ хийх шаардлагатай бөгөөд энэ нь уламжлалт өгөгдлийн шинжилгээний хэрэгслүүдэд нэлээд төвөгтэй байж болох юм. Их хэмжээний өгөгдөлд дүн шинжилгээ хийх хэрэгслүүдийн хэрэгцээ шаардлагад нийцүүлэн янз бүрийн компаниуд том өгөгдлийн шинжилгээний хэрэгслүүдийг бий болгосон. Том өгөгдлийн шинжилгээний хэрэгслүүдэд ZOHO Analytics, Cloudera, Microsoft BI зэрэг системүүд орно.

Мэргэшсэн блоггер, программист Машины сургалт болон Гүн сурах сэдвүүд. Даниел бусад хүмүүст хиймэл оюун ухааны хүчийг нийгмийн сайн сайхны төлөө ашиглахад тусална гэж найдаж байна.