Connect with us

Kunstig intelligens

Gi din ML og AI-innsats med datatransformasjon – Tankeledere

mm

Jo større variasjon, hastighet og mengde data vi har, jo mer mulig blir det å bruke prediktiv analyse og modellering til å forutsi vekst og identifisere områder for forbedring og innovasjon. Men for å få maksimal verdi fra rapportering, maskinlæring (ML) og kunstig intelligens (AI)-verktøy, må en organisasjon få tilgang til data fra mange kilder og sikre at dataene er av høy kvalitet og pålitelige. Dette er ofte den største barrieren for å transformere stor data til bedriftsstrategi.

Dataeksperter bruker så mye tid på å samle inn og validerer data for å forberede dem til bruk, at de har lite tid igjen til å fokusere på deres primære formål: å analysere dataene og trekke ut bedriftsverdi fra dem. Det er ikke overraskende at 76 prosent av dataforskere sier at dataforberedelse er den minst behagelige delen av jobben deres. I tillegg krever nåværende dataforberedelsesprosesser som datawrangling og tradisjonell ETL manuell innsats fra IT-eksperter og er ikke nok til å håndtere skalaen og kompleksiteten til stor data.

Selskaper som ønsker å utnytte kraften til AI, må bryte ut av disse kjedelige og i stor grad manuelle prosessene som øker risikoen for “skrald inn, skrald ut”-resultater. I stedet trenger de datatransformasjonsprosesser som trekker ut rådata i flere kilder og formater, kobler og normaliserer dem, og legger til verdi med forretningslogikk og målinger for å gjøre dem klare for analyse. Med kompleks datatransformasjon, kan de være sikre på at AI/ML-modellene er basert på rene, nøyaktige data som leverer pålitelige resultater.

Utnytte kraften til skyen med ELT

Det beste stedet å forberede og transformere data i dag er en skydatavarehus (CDW) som Amazon Redshift, Google BigQuery, Microsoft Azure Synapse eller Snowflake. Mens tradisjonelle tilnærminger til datawarehousing krever at dataene trekkes ut og transformeres før de kan lastes, utnytter en CDW skalerbarheten og ytelsen til skyen for raskere datainnsamling og transformasjon og gjør det mulig å trekke ut og laste data fra mange forskjellige datakilder før de transformeres inne i CDW-en.

Ideelt sett flytter ELT-modellen først dataene inn i en seksjon av CDW-en som er reservert for rå stagingsdata. Derfra kan CDW-en bruke sine nærmest ubegrensede beregningsresurser som er tilgjengelige for dataintegrerings- og ETL-jobber som rensker, agreggerer, filterer og kobler de stagingsdataene. Dataene kan deretter transformeres til en annen skjema – data vault eller Star Schema, for eksempel, optimaliserer dataene for rapportering og analyse

ELT-tilnærmingen tillater også å replikere rådata innenfor CDW-en for senere forberedelse og transformasjon når og som nødvendig. Dette lar deg bruke bedriftsintelligensverktøy som bestemmer skjema på lesing og produserer spesifikke transformasjoner på forespørsel, effektivt lar deg transformere samme data på flere måter mens du oppdager nye bruksområder for dem.

Accelerere maskinlæringsmodeller

Disse virkelige eksemplene viser hvordan to selskaper i forskjellige bransjer utnytter datatransformasjon i en CDW for å drive AI-initiativer.

Et boutique-markedsførings- og reklamebyrå bygget et proprietært kundestyringsplattform for å hjelpe kundene deres med å bedre identifisere, forstå og motivere kundene sine. Ved å transformere data innenfor en CDW, integrerte plattformen raskt og enkelt sanntidskundedata på tvers av kanaler i en 360-graders kundesyn som informerer plattformens AI/ML-modeller for å gjøre kundeinteraksjoner mer konsekvente, tidlige og personlige.

Et globalt logistikkfirma som gjør 100 millioner leveranser til 37 millioner unike kunder i 72 land, trenger store mengder data for å drive daglige operasjoner. Ved å adoptere datatransformasjon innenfor en CDW, kunne selskapet utvikle 200 maskinlæringsmodeller på ett år. Disse modellene gjør 500 000 forutsigelser hver dag, noe som betyr betydelig forbedring av effisiens og overlegen kundeservice som har redusert innkommende samtaler til kundesenteret med 40 prosent.

Beste praksis for å komme i gang

Selskaper som ønsker å støtte AI/ML-initiativene sine med kraften til datatransformasjon i skyen, må forstå sine spesifikke brukstilfeller og behov. Å starte med hva du vil gjøre med dine data – redusere drivstoffkostnader ved å optimere leveringsruter, øke salg ved å levere neste beste tilbud til kundeserviceagenter i sanntid, osv. – lar deg reversere prosessene dine så du kan identifisere hvilke data som vil levere relevante resultater.

Når du bestemmer hva slags data ditt AI/ML-prosjekt trenger for å bygge modellene sine, trenger du en sky-nativ ELT-løsning som gjør dine data klare for bruk. Søk etter en løsning som:

  • Er leverandør-uavhengig og kan fungere med din nåværende teknologistack

  • Er tilstrekkelig fleksibel til å skalerer opp og ned og tilpasse seg når teknologistacken din endres

  • Kan håndtere komplekse datatransformasjoner fra flere datakilder

  • Tilbyr en betal-per-bruk-modell hvor du bare betaler for hva du bruker

  • Er spesifikt utformet for din foretrukne CDW så du kan fullt ut utnytte CDW-ens funksjoner for å kjøre jobber raskere og transformere data sammenhengende.

En skydatatransformasjonsløsning som tilfredsstiller de felles nevnerne for alle CDW-er, kan gi en konsistent opplevelse, men bare en som aktiverer de kraftfulle differensierende funksjonene til din valgte CDW, kan levere høy ytelse som akselererer tid til innsikt. Riktig løsning vil aktivere deg til å gi kraft til dine AI/ML-prosjekter med mer ren, pålitelig data fra flere kilder på kortere tid – og generere raskere, mer pålitelige resultater som driver tidligere urealiserte bedriftsverdi og innovasjon.

David Langton er en erfaren programvareprofesjonell med over 20 års erfaring med å lage prisvinnende teknologi og produkter. David er for tiden VP of Product i Matillion, en leverandør av datatransformasjonsløsninger. Før sin rolle i Matillion, arbeidet han som datawarehouse-manager og underentreprenør i finansnæringen.