AI 101

Gestructureerde versus ongestructureerde gegevens

Bijgewerkt on 23 Augustus 2020

Ongestructureerde data zijn gegevens die niet op een vooraf gedefinieerde manier zijn georganiseerd of waarvoor een specifiek gegevensmodel ontbreekt. In de tussentijd, gestructureerde gegevens zijn gegevens met duidelijke, definieerbare relaties tussen de gegevenspunten, met een vooraf gedefinieerd model dat deze bevat. Dat is het korte antwoord op het verschil tussen gestructureerde en ongestructureerde gegevens, maar laten we de verschillen tussen de twee soorten gegevens eens nader bekijken.

Wat is gestructureerde data?

Als het gaat om informatica, verwijzen gegevensstructuren naar specifieke manieren om gegevens op te slaan en te organiseren. Verschillende datastructuren hebben verschillende relaties tussen datapunten, maar data kunnen ook ongestructureerd zijn. Wat betekent het om te zeggen dat gegevens gestructureerd zijn? Laten we, om deze definitie duidelijker te maken, eens kijken naar enkele van de verschillende manieren om gegevens te structureren.

Gestructureerde gegevens worden vaak bewaard in tabellen zoals Excel-bestanden of SQL-databases. In deze gevallen bevatten de rijen en kolommen van de gegevens verschillende variabelen of kenmerken en is het vaak mogelijk om de relatie tussen gegevenspunten te onderscheiden door te controleren waar gegevensrijen en kolommen elkaar kruisen. Gestructureerde gegevens kunnen eenvoudig in een relationele database worden ingepast, en voorbeelden van verschillende kenmerken in een gestructureerde gegevensset kunnen items omvatten zoals namen, adressen, datums, weerstatistieken, creditcardnummers, enz. Hoewel gestructureerde gegevens meestal tekstgegevens zijn, is het mogelijk om zaken als afbeeldingen en audio ook als gestructureerde gegevens op te slaan.

Veelvoorkomende bronnen van gestructureerde gegevens zijn gegevens die zijn verzameld via sensoren, weblogs, netwerkgegevens en gegevens over detailhandel of e-commerce. Gestructureerde gegevens kunnen ook worden gegenereerd door mensen die spreadsheets of databases invullen met gegevens die zijn verzameld van computers en andere apparaten. Zo worden gegevens die via online formulieren worden verzameld vaak direct in een datastructuur ingevoerd.

Gestructureerde gegevens hebben een lange geschiedenis van opslag relationele databases en SQL. Deze opslagmethoden zijn populair vanwege het lees- en schrijfgemak in deze formaten, waarbij de meeste platforms en talen deze dataformaten kunnen interpreteren.

In een machine learning-context is het gemakkelijker om een machine learning-systeem op gestructureerde data te trainen, omdat de patronen in de data explicieter zijn. Bepaalde functies kunnen worden ingevoerd in een machine learning-classificator en worden gebruikt om andere gegevensinstanties te labelen op basis van die geselecteerde functies. Daarentegen is het trainen van een machinaal leersysteem op ongestructureerde gegevens doorgaans moeilijker, om redenen die duidelijk zullen worden.

Wat is ongestructureerde data?

Ongestructureerde gegevens zijn gegevens die niet zijn georganiseerd volgens een vooraf gedefinieerd gegevensmodel of structuur. Ongestructureerde gegevens worden vaak kwalitatieve gegevens genoemd omdat ze niet op de traditionele manier kunnen worden geanalyseerd of verwerkt met de reguliere methoden die voor gestructureerde gegevens worden gebruikt.

Omdat ongestructureerde gegevens geen gedefinieerde relaties tussen gegevenspunten hebben, kunnen ze niet worden georganiseerd in relationele databases. De manier waarop ongestructureerde gegevens worden opgeslagen, is daarentegen typisch met een NoSQL-database, of een niet-relationele database. Als de structuur van de database van weinig belang is, kan een datameer of een grote pool met ongestructureerde gegevens worden gebruikt om de gegevens op te slaan in plaats van een NoSQL-database.

Ongestructureerde gegevens zijn moeilijk te analyseren, en om ongestructureerde gegevens te begrijpen, moeten vaak afzonderlijke stukjes gegevens worden onderzocht om mogelijke kenmerken te onderscheiden en vervolgens te kijken of die kenmerken voorkomen in andere stukjes gegevens binnen de pool.

De overgrote meerderheid van de gegevens is in ongestructureerde formaten, met schattingen dat ongestructureerde gegevens ongeveer 80% van alle gegevens uitmaken. Dataminingtechnieken kunnen worden gebruikt om gegevens te structureren.

Op het gebied van machine learning kunnen bepaalde technieken helpen om ongestructureerde data te ordenen en om te zetten in gestructureerde data. Een populair hulpmiddel om ongestructureerde gegevens om te zetten in gestructureerde gegevens is een systeem dat een autoencoder wordt genoemd.

Gerelateerde onderwerpen:101

Begeleid versus niet-gesuperviseerd leren

Mis het niet

Wat is transferleren?

Daniël Nelson

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.

Verenig.AI

Gestructureerde versus ongestructureerde gegevens

AI 101

Gestructureerde versus ongestructureerde gegevens

Inhoudsopgave

Wat is gestructureerde data?

Wat is ongestructureerde data?

Verenig.AI

Gestructureerde versus ongestructureerde gegevens

Inhoudsopgave

Wat is gestructureerde data?

Wat is ongestructureerde data?

Misschien vind je het leuk