Connect with us

Versterk uw ML- en AI-inspanningen met gegevenstransformatie – Thought Leaders

Kunstmatige intelligentie

Versterk uw ML- en AI-inspanningen met gegevenstransformatie – Thought Leaders

mm

Hoe groter de variëteit, snelheid en volume van de gegevens die we hebben, hoe haalbaarder het wordt om predictieve analytics en modellering te gebruiken om groei te voorspellen en gebieden van kansen en verbetering te identificeren. Echter, om de grootste waarde te krijgen uit rapportage, machine learning (ML) en artificial intelligence (AI)-tools, moet een organisatie toegang hebben tot gegevens uit veel bronnen en ervoor zorgen dat de gegevens van hoge kwaliteit en betrouwbaar zijn. Dit is vaak de grootste barrière om big data om te zetten in bedrijfsstrategie.

Data-professionals besteden zo veel tijd aan het verzamelen en valideren van gegevens om deze voor te bereiden op gebruik, dat ze weinig tijd over hebben om zich te concentreren op hun primaire doel: het analyseren van de gegevens en het afleiden van bedrijfswaarde ervan. Het is niet verwonderlijk dat 76 procent van de datawetenschappers zegt dat gegevensvoorbereiding het minst leuke deel van hun baan is. Bovendien vereisen huidige gegevensvoorbereidingsinspanningen, zoals data wrangling en traditionele ETL, handmatige inspanningen van IT-professionals en zijn niet genoeg om de omvang en complexiteit van big data aan te kunnen.

Bedrijven die de kracht van AI willen benutten, moeten afstappen van deze saaie en grotendeels handmatige processen die het risico van “ongeldige invoer, ongelde uitvoer”-resultaten verhogen. In plaats daarvan hebben ze gegevenstransformatieprocessen nodig die ruwe gegevens in meerdere bronnen en formaten extraheren, samenvoegen en normaliseren, en waarden toevoegen met bedrijfslogica en metrics om deze klaar te maken voor analytics. Met complexe gegevenstransformatie kunnen ze ervoor zorgen dat AI/ML-modellen zijn gebaseerd op schone, nauwkeurige gegevens die betrouwbare resultaten opleveren.

De kracht van de cloud benutten met ELT

De beste plek om gegevens vandaag voor te bereiden en te transformeren is een cloud datawarehouse (CDW) zoals Amazon Redshift, Google BigQuery, Microsoft Azure Synapse of Snowflake. Terwijl traditionele benaderingen van datawarehousing vereisen dat gegevens worden geëxtraheerd en getransformeerd voordat ze kunnen worden geladen, benut een CDW de schaalbaarheid en prestaties van de cloud voor snellere gegevensinname en -transformatie en maakt het mogelijk om gegevens te extraheren en te laden uit veel uiteenlopende gegevensbronnen voordat ze worden getransformeerd in de CDW.

Ideaal gezien, verplaatst het ELT-model de gegevens eerst naar een sectie van de CDW die is gereserveerd voor ruwe staging-gegevens. Van daaruit kan de CDW zijn bijna onbeperkte rekenbronnen gebruiken die beschikbaar zijn voor data-integratie- en ETL-taken die de gestage gegevens reinigen, aggregaten, filteren en samenvoegen. De gegevens kunnen vervolgens worden getransformeerd in een ander schema – data vault of Star Schema, bijvoorbeeld – om de gegevens te optimaliseren voor rapportage en analytics

De ELT-benadering stelt u ook in staat om ruwe gegevens binnen de CDW te repliceren voor latere voorbereiding en transformatie wanneer en zoals nodig. Dit laat u toe om business intelligence-tools te gebruiken die het schema bepalen op basis van leesactiviteiten en specifieke transformaties op aanvraag produceren, waardoor u effectief dezelfde gegevens op meerdere manieren kunt transformeren naarmate u nieuwe toepassingen ervoor ontdekt.

Machine learning-modellen versnellen

Deze real-world voorbeelden laten zien hoe twee bedrijven in verschillende branches gegevenstransformatie in een CDW gebruiken om AI-initiatieven aan te drijven.

Een boutique marketing- en reclamebureau bouwde een eigen klantbeheerplatform om zijn klanten te helpen hun klanten beter te identificeren, begrijpen en motiveren. Door gegevens te transformeren binnen een CDW, integreert het platform in real-time klantgegevens uit meerdere kanalen in een 360-graden klantbeeld dat de AI/ML-modellen van het platform informeert om klantinteracties meer consistent, tijdig en gepersonaliseerd te maken.

Een wereldwijd logistiek bedrijf dat 100 miljoen leveringen doet aan 37 miljoen unieke klanten in 72 landen, heeft een enorme hoeveelheid gegevens nodig om zijn dagelijkse operaties aan te drijven. Het adopteren van gegevenstransformatie binnen een CDW stelde het bedrijf in staat om 200 machine learning-modellen in één jaar te implementeren. Deze modellen doen elke dag 500.000 voorspellingen, wat de efficiëntie aanzienlijk verbetert en een superieure klantenservice biedt die het aantal inkomende callcenteroproepen met 40 procent heeft verlaagd.

Beste praktijken voor het beginnen

Bedrijven die hun AI/ML-initiatieven willen ondersteunen met de kracht van gegevenstransformatie in de cloud, moeten hun specifieke use case en behoeften begrijpen. Beginnen met wat u met uw gegevens wilt doen – brandstofkosten verlagen door leveringsroutes te optimaliseren, verkoop stimuleren door next best offers te bieden aan klantenserviceagenten in real-time, enz. – laat u toe om uw processen omgekeerd te ontwerpen, zodat u kunt identificeren welke gegevens relevante resultaten zullen opleveren.

Zodra u hebt bepaald welke gegevens uw AI/ML-project nodig heeft om modellen te bouwen, hebt u een cloud-native ELT-oplossing nodig die uw gegevens geschikt maakt voor gebruik. Zoek naar een oplossing die:

  • Vendor-neutraal is en kan werken met uw huidige technologie-stack

  • Voldoende flexibel is om op te schalen en aan te passen aan veranderingen in uw technologie-stack

  • Complexere gegevenstransformaties van meerdere gegevensbronnen kan verwerken

  • Een pay-as-you-go-prijzenmodel biedt waarbij u alleen betaalt voor wat u gebruikt

  • Specifiek is ontworpen voor uw voorkeurs-CDW, zodat u volledig gebruik kunt maken van de functies van die CDW om taken sneller uit te voeren en gegevens naadloos te transformeren.

Een cloud-gegevenstransformatieoplossing die is afgestemd op de gemeenschappelijke noemers van alle CDW’s, kan een consistente ervaring bieden, maar alleen een oplossing die de krachtige differentiërende functies van uw gekozen CDW inschakelt, kan de hoge prestaties leveren die de tijd tot inzicht versnellen. De juiste oplossing stelt u in staat om uw AI/ML-projecten te versterken met meer schone, betrouwbare gegevens uit meer bronnen in minder tijd – en snellere, betrouwbaardere resultaten te genereren die eerder onbereikte bedrijfswaarde en innovatie stimuleren.

David Langton is een ervaren softwareprofessional met meer dan 20 jaar ervaring in het creëren van prijswinnende technologie en producten. David is momenteel VP of Product bij Matillion, een aanbieder van data-transformatieoplossingen. Voordat hij bij Matillion kwam, werkte hij als datawarehouse-manager en contractor in de financiële sector.