Connect with us

Tankeledare

Aktivera distribution av AI i verkligheten i stor skala

mm

Av Brad King, field CTO, Scality

Verktygen för AI/ML och stora mängder data har en gemensam tråd – de behöver data, och de behöver mycket av det. Konventionell visdom säger att ju mer, desto bättre. Analytiker förutspår att den globala dataskapelsen kommer att växa till mer än 180 zettabytes år 2025 – och år 2020 nådde den mängd data som skapades och replikerades en ny topp på 64,2 zettabytes.

Den här datan är extremt värdefull – ofta oumbärlig och ibland representerar den en engångs- eller livstids-händelse. Denna data måste lagras säkert och säkert; och medan det uppskattas att bara en liten procent av denna nysskapade data behålls, fortsätter efterfrågan på lagringskapacitet att växa. Faktum är att den installerade basen av lagringskapacitet förväntas växa med en årlig tillväxttakt på 19,2% mellan 2020 och 2025, enligt forskare på Statista.

Med mer data som skapas – särskilt av dessa AI/ML-arbetsbelastningar – behöver organisationer mer lagring, men inte alla lagringslösningar kan hantera dessa intensiva och massiva arbetsbelastningar. Vad som behövs är ett nytt tillvägagångssätt för lagring. Låt oss titta på hur organisationer övervinner dessa utmaningar genom tre användningsfall.

Resebranschen

Medan många av oss bara har börjat resa igen efter mer än ett år av låsningar, ser resebranschen fram emot att återgå till för-pandemiska tider på allvar. Och detta gör datans betydelse – särskilt den relevanta tillämpningen och användningen av denna data – ännu viktigare.

Föreställ er vad ni kunde göra med kunskapen om var majoriteten av världens flygresenärer kommer att resa till nästa eller var de kommer att resa till imorgon. För en resebyrå, till exempel, skulle det vara enormt.

Men dessa reseorganisationer hanterar så mycket data att det är en överväldigande uppgift att sortera igenom den för att ta reda på vad som är meningsfullt. Cirka en petabyte data genereras varje dag, och en del av datan är dubblett av webbplatser som Kayak. Denna data är tidskänslig, och reseföretag behöver snabbt upptäcka vilken data som är meningsfull. De behöver ett verktyg för att kunna hantera denna nivå av skala mer effektivt.

Bilindustrin

Ett annat exempel kommer från bilindustrin, som utan tvekan är ett av de mest omtalade användningsfallen. Branschen har arbetat hårt under en lång tid med hjälpmedel som lane minders, kollisionsundvikande och liknande. Alla dessa sensorer genererar stora mängder data. Och, naturligtvis, utvecklar de, testar och verifierar självkörande algoritmer.

Vad branschen behöver är ett bättre sätt att ge mening åt denna lagrade data så att de kan använda den för att analysera incidenter där något gick fel, kurera sensorutdata som testfall, testa algoritmer mot sensordata och mer. De behöver QA-testning för att undvika regressioner, och de behöver dokumentera fall som misslyckas.

Digital patologi

Ett annat intressant användningsfall för AI/ML som också kämpar med datadelugen och behovet av att göra bättre användning av data är digital patologi. Precis som de andra exemplen behöver de verkligen förmågan att göra bättre användning av denna data så att de kan göra saker som automatiskt upptäcka patologier i vävnadsprover, utföra fjärrdiagnostik och så vidare.

Men lagringen idag begränsar användningen. Bilder med användbar upplösning är för stora för att lagras ekonomiskt. Men snabb objektlagring kommer att möjliggöra nya förmågor – som bildbanker som kan användas som en viktig utbildningsresurs och användningen av rymdfyllande kurvor för att namnge/lagra och hämta multiresolutionsbilder i ett objektlagringsutrymme. Det möjliggör också utökad och flexibel metadata-märkning, vilket gör det lättare att söka efter och ge mening åt denna information.

AI-arbetsbelastningar kräver ett nytt tillvägagångssätt

Som vi har sett i de tre fallen ovan är det kritiskt att kunna aggregera och orkestrera stora mängder data relaterade till AI/ML-arbetsbelastningar. Datamängder når ofta multi-petabyte-skala, med prestandakrav som kan mätta hela infrastrukturen. När man hanterar sådana stora tränings- och testdatamängder är det avgörande att övervinna lagringsbottleneck (latens- och/eller genomsnittsproblem) och kapacitetsbegränsningar/hinder.

AI/ML/DL-arbetsbelastningar kräver en lagringsarkitektur som kan hålla datan i rörelse genom pipelinen, med både utmärkt rå I/O-prestanda och kapacitetsskalningsförmåga. Lagringsinfrastrukturen måste hålla jämna steg med alltmer krävande krav över alla stadier av AI/ML/DL-pipelinen. Lösningen är en lagringsinfrastruktur som är specifikt byggd för hastighet och obegränsad skala.

Att extrahera värde

Det går inte en vecka utan att det kommer berättelser om AI:s och ML:s potential att förändra affärsprocesser och vardagsliv. Det finns många användningsfall som tydligt demonstrerar fördelarna med att använda dessa teknologier. Verkligheten för AI i företaget idag är en av överväldigande stora datamängder och lagringslösningar som inte kan hantera dessa massiva arbetsbelastningar. Innovationer inom bilar, hälsovård och många fler branscher kan inte fortsätta förrän lagringsproblemet är löst. Snabb objektlagring övervinner utmaningen med att behålla stora mängder data så att organisationer kan extrahera värdet från denna data för att driva sina företag framåt.

Som fält CTO ansvarar Brad King för designen av de största system Scality distribuerar runt om i världen. Dessa inkluderar multi-petabyte, multi-site system med hundratals servrar. Brad är en av medgrundarna till Scality. Han började sin mångfacetterade karriär som navalarkitekt med den franska flottan, där han utförde numeriska simuleringar av fartygskapning och vågor runt stora fartyg. Han gick sedan med i ett Schlumberger-forskningslaboratorium i Paris under flera år, där han arbetade med turbulent fluidodynamik, laboratorieautomatisering, storskaliga parallella numeriska simuleringar och nya internetteknologier, inklusive övervakning av NCSA-projekt (såsom Mosaic) som finansierades av Schlumberger.