Refresh

This website www.unite.ai/gd/what-is-big-data/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

stub Dè a th’ ann an Dàta Mòr? — Unite.AI
Ceangal leinn

AI 101

Dè th 'ann an Dàta Mòr?

mm
Ùraichte on

Na th’ann Dàta Mòr?

Tha “Dàta Mòr” mar aon de na faclan buzz a thathas a’ cleachdadh gu cumanta san àm a th’ againn an-dràsta, ach dè tha e a’ ciallachadh dha-rìribh?

Seo mìneachadh sgiobalta, sìmplidh air dàta mòr. Dàta mòr is e dàta a tha ro mhòr agus iom-fhillte airson a làimhseachadh le dòighean giullachd is stòraidh dàta traidiseanta. Ged is e mìneachadh sgiobalta a tha sin as urrainn dhut a chleachdadh mar heuristic, bhiodh e cuideachail tuigse nas doimhne agus nas coileanta a bhith agad air dàta mòr. Bheir sinn sùil air cuid de na bun-bheachdan a tha mar bhunait air dàta mòr, leithid stòradh, structar, agus giullachd.

Dè cho mòr 'sa tha dàta mòr?

Chan eil e cho sìmplidh ri bhith ag ràdh “is e dàta mòr a th’ ann an dàta sam bith thairis air meud ‘X’”, tha an àrainneachd anns a bheilear a’ làimhseachadh an dàta na fheart air leth cudromach ann an co-dhùnadh dè a tha iomchaidh mar dhàta mòr. Tha meud an dàta a dh'fheumas a bhith, airson a bhith air a mheas mar dàta mòr, an urra ris a' cho-theacsa, neo an obair anns a bheilear a' cleachdadh an dàta. Faodar beachdachadh air dà sheata dàta de mheudan gu math eadar-dhealaichte mar “dàta mòr” ann an diofar cho-theacsan.

Gus a bhith nas cinntiche, ma dh'fheuchas tu ri faidhle 200 megabyte a chuir mar cheangal post-d, cha bhiodh e comasach dhut sin a dhèanamh. Anns a 'cho-theacsa seo, dh' fhaodadh am faidhle 200-megabyte a bhith air a mheas mar dhàta mòr. An coimeas ri sin, is dòcha nach toir leth-bhreac faidhle 200-megabyte gu inneal eile taobh a-staigh an aon LAN ùine sam bith idir, agus anns a’ cho-theacsa sin, cha bhiodh e air fhaicinn mar dhàta mòr.

Ach, gabhamaid ris gum feumar luach 15 terabytes de bhidio a phròiseasadh ro-làimh airson a chleachdadh ann an trèanadh lèirsinn coimpiutair iarrtasan. Anns a ’chùis seo, bidh na faidhlichean bhidio a’ gabhail uimhir de dh ’àite is gun toireadh eadhon coimpiutair cumhachdach ùine mhòr airson an làimhseachadh uile, agus mar sin bhiodh an giullachd mar as trice air a sgaoileadh thairis air grunn choimpiutairean ceangailte ri chèile gus an ùine giollachd a lughdachadh. Bhiodh na 15 terabytes seo de dhàta bhidio gu cinnteach airidh air dàta mòr.

Seòrsan de structaran dàta mòr

Tha dàta mòr a’ tighinn ann an trì roinnean structair eadar-dhealaichte: dàta neo-structaraichte, dàta leth-structaraichte, agus structarail.

Dàta neo-structaraichte is e dàta a th’ ann aig nach eil structar soilleir, a’ ciallachadh gu bheil an dàta gu bunaiteach dìreach ann an aon amar mòr. Is e eisimpleirean de dhàta neo-structaraichte a bhiodh ann an stòr-dàta làn de dhealbhan gun leubail.

Is e dàta leth-structaraichte dàta aig nach eil structar foirmeil, ach a tha ann an structar sgaoilte. Mar eisimpleir, dh’ fhaodadh dàta post-d cunntadh mar dhàta leth-structaraichte, oir dh’ fhaodadh tu iomradh a thoirt air an dàta a tha ann am puist-d fa leth, ach cha deach pàtrain dàta foirmeil a stèidheachadh.

Is e dàta structaraichte dàta aig a bheil structar foirmeil, le puingean dàta air an seòrsachadh a rèir diofar fheartan. Is e aon eisimpleir de dhàta structaraichte duilleag-clèithe excel anns a bheil fiosrachadh conaltraidh leithid ainmean, puist-d, àireamhan fòn, agus làraich-lìn.

Ma tha thu airson barrachd a leughadh mu na h-eadar-dhealachaidhean anns na seòrsaichean dàta seo, thoir sùil air a’ cheangal an seo.

Metrics airson Measadh Dàta Mòr

Faodar dàta mòr a sgrùdadh a thaobh trì meatrach eadar-dhealaichte: tomhas-lìonaidh, astar, agus measgachadh.

Tha tomhas-lìonaidh a’ toirt iomradh air meud an dàta. Tha meud cuibheasach nan stòran-dàta gu tric a’ dol am meud. Mar eisimpleir, b’ e cruth cruaidh 2006 GB an cruth cruaidh as motha ann an 750. An coimeas ri sin, thathas den bheachd gu bheil Facebook a’ gineadh còrr air 500 terabytes de dhàta ann an latha agus is e an cruth cruaidh luchd-cleachdaidh as motha a tha ri fhaighinn an-diugh draibhear cruaidh 16 terabyte. Is dòcha nach e an rud a tha a’ tomhas mar dhàta mòr ann an aon àm a bhith na dhàta mòr ann an àm eile. Tha barrachd dàta ga chruthachadh an-diugh leis gu bheil barrachd is barrachd de na stuthan timcheall oirnn uidheamaichte le mothachairean, camarathan, microfònan agus innealan cruinneachaidh dàta eile.

Tha luaths a’ toirt iomradh air cho luath sa tha dàta a’ gluasad, no airson sin a chuir air dòigh eile, cia mheud dàta a thèid a chruthachadh taobh a-staigh ùine shònraichte. Bidh sruthan meadhanan sòisealta a’ gineadh ceudan de mhìltean de phuist is bheachdan gach mionaid, agus is dòcha gum bi tòrr nas lugha de ghnìomhachd aig a’ bhogsa a-steach post-d agad fhèin. Is e sruthan dàta mòr sruthan a bhios gu tric a’ làimhseachadh ceudan de mhìltean no milleanan de thachartasan ann an ùine fìor no nas lugha. Is e eisimpleirean de na sruthan dàta sin àrd-ùrlaran cluich air-loidhne agus algorithms malairt stoc àrd-tricead.

Tha iomadachd a’ toirt iomradh air na diofar sheòrsaichean dàta a tha sa chlàr-dàta. Faodaidh dàta a bhith air a dhèanamh suas de dh’ iomadh cruth eadar-dhealaichte, leithid claisneachd, bhidio, teacsa, dealbhan, no àireamhan sreathach. San fharsaingeachd, tha stòran-dàta traidiseanta air an cruth gus làimhseachadh aon, no dìreach càraid, seòrsa dàta. Gus sin a chuir ann an dòigh eile, tha stòran-dàta traidiseanta air an structaradh gus dàta a chumail a tha gu math aon-ghnèitheach agus le structar cunbhalach, ro-innseach. Mar a bhios tagraidhean a’ fàs nas eadar-mheasgte, làn de fheartan eadar-dhealaichte, agus air an cleachdadh le barrachd dhaoine, feumaidh stòran-dàta a thighinn air adhart gus barrachd sheòrsan dàta a stòradh. Tha stòran-dàta neo-structaraichte air leth freagarrach airson dàta mòr a chumail, oir faodaidh iad iomadh seòrsa dàta a chumail nach eil càirdeach dha chèile.

Dòighean air Làimhseachadh Dàta Mòr

Tha grunn àrd-ùrlaran agus innealan eadar-dhealaichte air an dealbhadh gus mion-sgrùdadh air dàta mòr a dhèanamh comasach. Feumar mion-sgrùdadh a dhèanamh air stòran dàta mòra gus pàtrain brìoghmhor a thoirt a-mach às an dàta, gnìomh a dh’ fhaodadh a bhith gu math dùbhlanach le innealan sgrùdaidh dàta traidiseanta. Mar fhreagairt don fheum air innealan gus meudan mòra de dhàta a sgrùdadh, tha grunn chompanaidhean air innealan sgrùdaidh dàta mòra a chruthachadh. Tha innealan sgrùdaidh dàta mòr a’ toirt a-steach siostaman mar ZOHO Analytics, Cloudera, agus Microsoft BI.

Blogger agus prògramadair le speisealaichean ann an Machine Ionnsachadh agus Ionnsachadh domhainn cuspairean. Tha Daniel an dòchas daoine eile a chuideachadh gus cumhachd AI a chleachdadh airson math sòisealta.