Connect with us

Tankeledere

Aktivering af virkelighedsnære AI-udrulninger i stor målestok

mm

Af Brad King, felt-CTO, Scality

Værktøjerne til AI/ML og big data har en fælles tråd – de har brug for data, og de har brug for meget af det. Den almindelige visdom siger, at jo mere, jo bedre. Analytikere forudser, at den globale dataoprettelse vil vokse til mere end 180 zettabytes i 2025 – og i 2020 nåede mængden af data, der blev oprettet og replikeret, et nyt højdepunkt på 64,2 zettabytes.

Denne data er ekstremt værdifuld – ofte uerstattelig og nogle gange repræsenterer en gangs eller en livsvarig begivenhed. Denne data skal gemmes sikkert og sikret; og selvom det estimeres, at kun en lille procentdel af denne nyoprettede data gemmes, fortsætter efterspørgslen efter lagringskapacitet med at vokse. Faktisk forventes den installerende base af lagringskapacitet at vokse med en samlet årlig vækstrate på 19,2% mellem 2020 og 2025, ifølge forskere fra Statista.

Med mere data, der oprettes – især af disse AI/ML-workloads – har organisationer brug for mere lagring, men ikke alle lagringsløsninger kan håndtere disse intensive og massive workloads. Det, der er nødvendigt, er en ny tilgang til lagring. Lad os se, hvordan organisationer overvinder disse udfordringer gennem linserne på tre use-cases.

Rejseindustrien

Mens mange af os lige er ved at vænne os til at rejse igen efter mere end et år med lockdowns, ser rejseindustrien frem til at komme tilbage til tiden før pandemien på en stor måde. Og dette gør betydningen af data – specifikt, den relevante anvendelse af denne data – endnu mere vigtig.

Forestil dig, hvad du kunne gøre med viden om, hvor de fleste af verdens flypassagerer skal rejse hen næste gang eller hvor de skal i morgen. For en rejsebureau ville det for eksempel være enormt.

Men disse rejseorganisationer har med så meget data at gøre, at det er overvældende at sortere gennem det for at finde ud af, hvad der er meningsfuldt. Omkring en petabyte data genereres hver dag, og nogen af dataene er duplikeret af sites som Kayak. Denne data er tidsfølsom, og rejsefirmaer har brug for at kunne opdage, hvilken data der er meningsfuld hurtigt. De har brug for et værktøj til at kunne håndtere dette niveau af skala mere effektivt.

Bilindustrien

Et andet eksempel kommer fra bilindustrien, som bestemt er en af de mest omtalte use-cases. Branchen har været hårdt arbejdende i lang tid med hjælpemidler som lane-minders, kollisionsforebyggelse og lignende. Alle disse sensorer indsamler store mængder data. Og, selvfølgelig, udvikler de selv kørende algoritmer.

Hvad industrien har brug for, er en bedre måde at give mening til denne gemte data, så de kan bruge den til at analysere tilfælde, hvor noget gik galt, kuraterer sensorudgang som en testcase, tester algoritmer mod sensordata og mere. De har brug for QA-testning for at undgå regressioner, og de har brug for at dokumentere tilfælde, der fejler.

Digital patologi

Et andet interessant use-case for AI/ML, der også kæmper med data-overvældning og behovet for at gøre bedre brug af data, er digital patologi. Ligesom de andre eksempler har de virkelig brug for evnen til at gøre bedre brug af denne data, så de kan gøre ting som automatisk at opdage patologier i vævsprøver, udføre fjern-diagnosticering og så videre.

Men lagring i dag begrænser brugen. Billeder med nyttig opløsning er for store til at gemme økonomisk. Men hurtig objekt-lagring vil aktivere nye evner – som billedbanker, der kan bruges som en nøgle-træningsressource, og brugen af rum-fyldende kurver til at navngive/gemme og hente multiresolutionsbilleder i et objekt-lager. Det gør det også muligt at udvide og fleksible metadata-tagging, hvilket gør det lettere at søge efter og give mening til denne information.

AI-workloads kræver en ny tilgang

Som vi har set i de tre ovenstående tilfælde, er det kritisk at kunne aggregere og orkestrere enorme mængder data relateret til AI/ML-workloads. Data-sæt når ofte multi-petabyte-skalaen, med ydelseskrav, der kunne mætte hele infrastrukturen. Når man har med sådanne store trænings- og testdata-sæt at gøre, er overvindelse af lagringsbottlenecks (latence- og/eller gennemløbstidsproblemer) og kapacitetsbegrænsninger/barrierer nøgleelementer for succes.

AI/ML/DL-workloads kræver en lagringsarkitektur, der kan holde data flydende gennem pipeline, med både fremragende rå-ydelse og kapacitets-skala. Lagrings-infrastrukturen må følge med de stadig mere krævende krav på tværs af alle stadier i AI/ML/DL-pipeline. Løsningen er en lagrings-infrastruktur specifikt bygget til hastighed og ubegrænset skala.

At udtrække værdi

Ikke en uge går, uden at der kommer historier om potentialet for AI og ML til at ændre forretningsprocesser og hverdagsliv. Der er mange use-cases, der tydeligt demonstrerer fordelene ved at bruge disse teknologier. Realiteten af AI i virksomhederne i dag er dog en af overvældende store data-sæt og lagringsløsninger, der ikke kan håndtere disse massive workloads. Innovationer i biler, sundhedspleje og mange andre industrier kan ikke fortsætte, før lagringsproblemet er løst. Hurtig objekt-lagring overvinder udfordringen med at beholde big data, så organisationer kan udtrække værdien fra denne data for at føre deres forretninger fremad.

Som felt CTO er Brad King ansvarlig for designet af de største systemer Scality udruller verden over. Dette inkluderer multi-petabyte, multi-site systemer med hundredvis af servere. Brad er en af medstifterne af Scality. Han startede sin multifacetterede karriere som en skibsarkitekt med den franske flåde, hvor han udførte numeriske simulationer af skibskapsejl og bølger omkring store skibe. Han sluttede sig derefter til et Schlumberger-forskningslaboratorium i Paris i flere år, hvor han arbejdede med turbulente fluidodynamik, laboratorieautomatisering, storstilet parallel numerisk simulation og nye internetteknologier, herunder overvågning af NCSA-projekter (såsom Mosaic) finansieret af Schlumberger.