Connect with us

Tankeledere

Aktivering av virkelige AI-utrolleringer i stor skala

mm

Av Brad King, felt-CTO, Scality

Verktøyene for AI/ML og stor data har en felles tråd – de trenger data, og de trenger mye av det. Konvensjonell visdom sier at jo mer, jo bedre. Analytikere forutser at global dataopprettelse vil vokse til mer enn 180 zettabytes innen 2025 – og i 2020 nådde mengden av data som ble opprettet og replisert et nytt høydepunkt på 64,2 zettabytes.

Denne dataen er ekstremt verdifull – ofte er den ikke erstattbar og noen ganger representerer den en gang eller en livstidshendelse. Denne dataen må lagres trygt og sikkert; og selv om det estimeres at bare en liten prosent av denne nyopprettede dataen beholdes, øker etterspørselen etter lagringskapasitet fortsatt. Faktisk er den installerte basisen for lagringskapasitet forventet å vokse med en samlet årlig vekstrate på 19,2% mellom 2020 og 2025, ifølge forskere hos Statista.

Med mer data som opprettes – spesielt av disse AI/ML-arbeidsbelastningene – trenger organisasjonene mer lagring, men ikke alle lagringsløsninger kan håndtere disse intensive og massive arbeidsbelastningene. Hva som trengs, er en ny tilnærming til lagring. La oss se på hvordan organisasjonene overvinner disse utfordringene gjennom linsen til tre brukstilfeller.

Reiseindustrien

Mens mange av oss bare er vant til å reise igjen etter mer enn et år med nedstengninger, ser reiseindustrien på å komme tilbake til for-pandemiske tider på en stor måte. Og dette gjør viktigheten av data – spesielt den relevante anvendelsen og bruken av denne dataen – enda viktigere.

Tenk på hva du kunne gjøre med kunnskapen om hvor majoriteten av verdens flypassasjerer skal reise neste eller hvor de skal i morgen. For en reisebyrå, for eksempel, ville det være enormt.

Men disse reiseorganisasjonene håndterer så mye data at å sortere gjennom den for å finne ut hva som er meningsfullt, er en overveldende prospekt. Omtrent en petabyte med data genereres hver dag, og noe av dataen er duplisert av nettsteder som Kayak. Denne dataen er tidssensitiv, og reiseselskapene må raskt oppdage hvilken data som er meningsfull. De trenger et verktøy for å kunne håndtere denne nivået av skala mer effektivt.

Bilindustrien

Et annet eksempel kommer fra bilindustrien, som uten tvil er ett av de mest omtalte brukstilfellene. Industrien har vært hardt i gang i lang tid med hjelpemidler som lane-mindere, kollisjonsunngåelse og lignende. Alle disse sensorene bringer inn store mengder data. Og, naturligvis, utvikler de, tester og verifiserer selvkjørende algoritmer.

Hva industrien trenger, er en bedre måte å gjøre mening av denne lagrede dataen så de kan bruke den til å analysere hendelser hvor noe gikk galt, kuratere sensorutdata som en testfall, teste algoritmer mot sensordata og mer. De trenger QA-testing for å unngå tilbakeslag, og de trenger å dokumentere tilfeller som feiler.

Digital patologi

Et annet interessant brukstilfelle for AI/ML som også sliter med dataflommen og behovet for å gjøre bedre bruk av data, er digital patologi. Akkurat som de andre eksemplene, hva de virkelig trenger, er evnen til å gjøre bedre bruk av denne dataen så de kan gjøre ting som automatisk detektere patologier i vevsprøver, utføre fjernediagnostikk og så videre.

Men lagring i dag begrenser bruken. Bilder med nyttig oppløsning er for store til å lagre økonomisk. Imidlertid vil raskt objektlagring aktivere nye evner – som bildebanker som kan brukes som en nøkkelressurs for trening og bruken av rom-fyllende kurver til å navngi/lagre og hente multiresolusjonsbilder i et objektbutikk. Det gjør det også mulig å utvide og fleksible metadata-merking, som gjør det lettere å søke etter og gjøre mening av denne informasjonen.

AI-arbeidsbelastninger krever en ny tilnærming

Som vi har sett i de tre tilfellene ovenfor, er det kritisk å kunne aggregere og orkestrere enorme mengder data relatert til AI/ML-arbeidsbelastninger. Datamengder når ofte multi-petabyte-skala, med ytelseskrav som kunne mette hele infrastrukturen. Når man håndterer så store trenings- og testdatamengder, er det å overvinne lagringsbottlenecks (latens- og/eller gjennomstrømningsproblemer) og kapasitetsbegrensninger/hindringer nøkkellementer for suksess.

AI/ML/DL-arbeidsbelastninger krever en lagringsarkitektur som kan holde data flytende gjennom røret, med både utmerket rå ytelse og kapasitets-skaleringsmulighet. Lagringsinfrastrukturen må holde tritt med økende krav på alle stadier av AI/ML/DL-røret. Løsningen er en lagringsinfrastruktur som er bygget spesielt for hastighet og ubegrenset skala.

Utvinning av verdi

Ikke en uke går uten at det kommer historier om potensialet for AI og ML til å endre forretningsprosesser og hverdagsliv. Det er mange brukstilfeller som tydelig demonstrerer fordelen med å bruke disse teknologiene. Virkeligheten av AI i bedriftene i dag er en av overveldende store datamengder og lagringsløsninger som ikke kan håndtere disse massive arbeidsbelastningene. Innovasjoner i biler, helsevesen og mange flere industrier kan ikke gå videre før lagringsproblemet er løst. Raskt objektlagring overvinner utfordringen med å beholde stor data så organisasjonene kan utvinne verdien fra denne dataen for å flytte sine forretninger fremover.

Som felt CTO er Brad King ansvarlig for design av de største systemene Scality setter i drift over hele verden. Dette inkluderer multi-petabyte, multi-steds systemer med hundrevis av servere. Brad er en av medstifterne av Scality. Han startet sin mangfoldige karriere som en marinearkitekt med den franske marinen, der han utførte numeriske simuleringer av skipskollisjon og bølger rundt store skip. Han gikk deretter til et Schlumberger-forskningslaboratorium i Paris i flere år, der han arbeidet med turbulente fluiddynamikker, laboratorieautomatisering, storskala parallell numeriske simuleringer og nye internett-teknologier, inkludert overvåking av NCSA-prosjekter (som Mosaic) finansiert av Schlumberger.