- Terminoloģija (A līdz D)
- AI iespēju kontrole
- AI Ops
- albumi
- Aktīvu veiktspēja
- Autoencoder
- Pavairošana atpakaļ
- Bayes teorēma
- Big Datu
- Chatbot: ceļvedis iesācējiem
- Skaitļošanas domāšana
- Datoru vīzija
- Apjukuma matrica
- Konvolūcijas neironu tīkli
- Kiberdrošība
- Datu audums
- Datu stāstīšana
- Datu Zinātne
- Datu glabāšana
- Lēmumu koks
- Deepfakes
- Dziļa mācīšanās
- Dziļa pastiprināšanas mācīšanās
- DevOps
- DevSecOps
- Difūzijas modeļi
- Digital Twin
- Dimensiju samazināšana
- Terminoloģija (no E līdz K)
- Edge AI
- Emociju AI
- Ansambļa mācības
- Ētiskā uzkrāšana
- ETL
- Izskaidrojams AI
- Federēta mācīšanās
- FinOps
- Ģeneratīvais AI
- Ģeneratīvs pretrunīgs tīkls
- Ģeneratīvs pret diskriminējošu
- Gradienta palielināšana
- Gradienta nolaišanās
- Dažu metienu mācības
- Attēlu klasifikācija
- IT operācijas (ITOps)
- Incidentu automatizācija
- Ietekmes inženierija
- K-Means klasterizācija
- K-Tuvākie kaimiņi
- Terminoloģija (L–Q)
- Terminoloģija (no R līdz Z)
- Pastiprināšanas mācības
- Atbildīgs AI
- RLHF
- Robotu procesu automatizācija
- Strukturēts pret nestrukturētu
- Sentimentu analīze
- Uzraudzīts pret neuzraudzīto
- Atbalsta vektora mašīnas
- Sintētiskie dati
- Sintētiskie mediji
- Teksta klasifikācija
- TinyML
- Pārneses mācības
- Transformatoru neironu tīkli
- Tjūringa tests
- Vektoru līdzības meklēšana
AI 101
Strukturēti un nestrukturēti dati
Satura rādītājs
Nestrukturēti dati ir dati, kas nav sakārtoti iepriekš noteiktā veidā vai kuriem trūkst konkrēta datu modeļa. Tikmēr strukturēti dati ir dati, kuriem ir skaidras, definējamas attiecības starp datu punktiem, ar iepriekš definētu modeli, kas tos satur. Tā ir īsa atbilde par atšķirību starp strukturētiem un nestrukturētiem datiem, taču sīkāk aplūkosim atšķirības starp diviem datu veidiem.
Kas ir strukturētie dati?
Runājot par datorzinātnēm, datu struktūras attiecas uz konkrētiem datu glabāšanas un organizēšanas veidiem. Dažādām datu struktūrām ir dažādas attiecības starp datu punktiem, taču dati var būt arī nestrukturēti. Ko nozīmē teikt, ka dati ir strukturēti? Lai padarītu šo definīciju skaidrāku, apskatīsim dažus no dažādajiem datu strukturēšanas veidiem.
Strukturētie dati bieži tiek glabāti tabulās, piemēram, Excel failos vai SQL datu bāzes. Šādos gadījumos datu rindās un kolonnās ir dažādi mainīgie vai līdzekļi, un bieži vien ir iespējams noteikt attiecības starp datu punktiem, pārbaudot, kur krustojas datu rindas un kolonnas. Strukturētos datus var viegli ievietot relāciju datu bāzē, un dažādu strukturētu datu kopu funkciju piemēri var ietvert tādus vienumus kā vārdi, adreses, datumi, laikapstākļu statistika, kredītkaršu numuri utt. Lai gan strukturētie dati visbiežāk ir teksta dati, tie ir iespējams saglabāt arī tādas lietas kā attēlus un audio kā strukturētus datus.
Parastie strukturēto datu avoti ietver, piemēram, datus, kas savākti no sensoriem, tīmekļa žurnāliem, tīkla datiem un mazumtirdzniecības vai e-komercijas datiem. Strukturētus datus var ģenerēt arī cilvēki, kas aizpilda izklājlapas vai datu bāzes ar datiem, kas savākti no datoriem un citām ierīcēm. Piemēram, dati, kas savākti, izmantojot tiešsaistes veidlapas, bieži tiek nekavējoties ievadīti datu struktūrā.
Strukturētajiem datiem ir sena glabāšanas vēsture relāciju datu bāzes un SQL. Šīs uzglabāšanas metodes ir populāras, jo šajos formātos ir viegli lasīt un rakstīt, jo lielākā daļa platformu un valodu var interpretēt šos datu formātus.
Mašīnmācīšanās kontekstā strukturētus datus ir vieglāk apmācīt mašīnmācīšanās sistēmā, jo datu modeļi ir skaidrāki. Noteiktas funkcijas var ievadīt mašīnmācīšanās klasifikatorā un izmantot, lai marķētu citus datu gadījumus, pamatojoties uz šīm atlasītajām funkcijām. Turpretim mašīnmācības sistēmas apmācība uz nestrukturētiem datiem parasti ir grūtāka iemeslu dēļ, kas kļūs skaidri.
Kas ir nestrukturēti dati?
Nestrukturēti dati ir dati, kas nav sakārtoti saskaņā ar iepriekš definētu datu modeli vai struktūru. Nestrukturētus datus bieži sauc par kvalitatīviem datiem, jo tos nevar analizēt vai apstrādāt tradicionālā veidā, izmantojot parastās metodes, ko izmanto strukturētiem datiem.
Tā kā nestrukturētiem datiem nav definētu attiecību starp datu punktiem, tos nevar sakārtot relāciju datu bāzēs. Turpretim nestrukturēto datu glabāšanas veids parasti ir ar NoSQL datu bāze, vai nerelāciju datubāze. Ja datu bāzes struktūra nav svarīga, datu glabāšanai var izmantot datu ezeru vai lielu nestrukturētu datu kopu, nevis NoSQL datubāzi.
Nestrukturētus datus ir grūti analizēt, un nestrukturētu datu izpratne bieži ir saistīta ar atsevišķu datu vienību pārbaudi, lai noteiktu iespējamās iezīmes, un pēc tam pārbaudiet, vai šīs pazīmes ir sastopamas citos datu gabalos, kas ietverti pūlā.
Lielākā daļa datu ir nestrukturētā formātā, un tiek lēsts, ka nestrukturēti dati veido aptuveni 80% no visiem datiem. Datu ieguves metodes var izmantot, lai palīdzētu strukturēt datus.
Attiecībā uz mašīnmācību noteiktas metodes var palīdzēt sakārtot nestrukturētus datus un pārvērst tos strukturētos datos. Populārs rīks nestrukturētu datu pārvēršanai strukturētos datos ir sistēma, ko sauc par automātisko kodētāju.
Emuāru autors un programmētājs ar specialitātēm Mašīnu mācīšana un Dziļa mācīšanās tēmas. Daniels cer palīdzēt citiem izmantot mākslīgā intelekta spēku sociālā labuma gūšanai.