Connect with us

Thought leaders

Het mogelijk maken van AI-implementaties in de praktijk op grote schaal

mm

Door Brad King, field CTO, Scality

De tools van AI/ML en big data hebben een gemeenschappelijke draad – ze hebben data nodig, en ze hebben veel nodig. De conventionele wijsheid zegt dat meer, beter is. Analisten voorspellen dat de wereldwijde datageneratie tegen 2025 zal groeien tot meer dan 180 zettabytes – en in 2020 bereikte de hoeveelheid gegenereerde en gerepliceerde data een nieuw hoogtepunt van 64,2 zettabytes.

Deze data is extreem waardevol – vaak onvervangbaar en soms vertegenwoordigt het eenmalige of eenmalige gebeurtenissen. Deze data moet veilig en beveiligd worden opgeslagen; en hoewel het wordt geschat dat slechts een klein percentage van deze nieuw gegenereerde data wordt behouden, blijft de vraag naar opslagcapaciteit groeien. In feite wordt de geïnstalleerde basis van opslagcapaciteit naar verwachting tussen 2020 en 2025 met een samengestelde jaarlijkse groeipercentage van 19,2% groeien, volgens onderzoekers bij Statista.

Met meer gegenereerde data – met name door deze AI/ML-workloads – hebben organisaties meer opslagruimte nodig, maar niet alle oplossingen voor opslagruimte kunnen deze intensieve en massale workloads aan. Wat nodig is, is een nieuwe benadering van opslag. Laten we kijken hoe organisaties deze uitdagingen overwinnen via de lens van drie use cases.

De reisindustrie

Terwijl veel van ons net weer gewend raakt aan reizen na meer dan een jaar van lockdowns, kijkt de reisindustrie ernaar uit om terug te keren naar de pre-pandemische tijden op grote schaal. En dit maakt de belangrijkheid van data – specifiek, de relevante toepassing en het gebruik van die data – nog belangrijker.

Stel je voor wat je zou kunnen doen met de kennis van waar de meerderheid van de luchtreizigers in de wereld naartoe gaat reizen of waar ze morgen naartoe gaan. Voor een reisbureau, bijvoorbeeld, zou dat enorm zijn.

Maar deze reisorganisaties hebben te maken met zo veel data dat het doorspitten ervan om te bepalen wat belangrijk is, een overweldigende prospect is. Ongeveer een petabyte aan data wordt elke dag gegenereerd, en sommige van de data worden gedupliceerd door sites zoals Kayak. Deze data is tijdsgevoelig, en reisbedrijven moeten snel ontdekken welke data belangrijk is. Ze hebben een tool nodig om deze niveau van schaal effectiever te kunnen beheren.

De automobielindustrie

Een ander voorbeeld komt uit de automobielindustrie, die zeker een van de meest besproken use cases is. De industrie werkt al lang aan hulpmiddelen zoals rijstrookhouders, botsingsvermijding en dergelijke. Al deze sensoren brengen grote hoeveelheden data binnen. En, natuurlijk, ontwikkelen, testen en verifiëren ze zelfrijdende algoritmes.

Wat de industrie nodig heeft, is een betere manier om zin te geven aan deze opgeslagen data, zodat ze deze kunnen gebruiken om incidenten te analyseren waar iets misging, sensoruitvoer te cureren als testcase, algoritmes te testen tegen sensordata en meer. Ze hebben QA-testen nodig om regressies te voorkomen en ze moeten gevallen documenteren die falen.

Digitale pathologie

Een ander interessant use case voor AI/ML dat ook worstelt met de datavloed en de noodzaak om beter gebruik te maken van data, is digitale pathologie. Net als de andere voorbeelden, hebben ze echt de mogelijkheid nodig om beter gebruik te maken van deze data, zodat ze dingen kunnen doen zoals automatisch pathologieën detecteren in weefselmonsters, remote diagnostiek uitvoeren enz.

Maar opslag vandaag beperkt het gebruik. Afbeeldingen met een bruikbare resolutie zijn te groot om economisch op te slaan. Echter, snelle objectopslag zal nieuwe mogelijkheden mogelijk maken – zoals afbeeldingsbanken die kunnen worden gebruikt als een belangrijke trainingsbron en het gebruik van ruimtevullende curves om afbeeldingen op te slaan en op te halen in een objectopslag. Het maakt ook extensibele en flexibele metadatamarkering mogelijk, waardoor het gemakkelijker wordt om deze informatie te zoeken en te begrijpen.

AI-workloads vereisen een nieuwe benadering

Zoals we in de drie bovenstaande gevallen hebben gezien, is het kritiek om in staat te zijn om enorme hoeveelheden data te aggregeren en te orkestreren die verband houden met AI/ML-workloads. Dataverzamelingen bereiken vaak een schaal van meerdere petabytes, met prestatie-eisen die de hele infrastructuur kunnen verzadigen. Wanneer u te maken heeft met dergelijke grote trainings- en testdataverzamelingen, is het overwinnen van opslagbeperkingen (latentie- en/of doorvoerproblemen) en capaciteitsbeperkingen/barrières cruciaal voor succes.

AI/ML/DL-workloads vereisen een opslagarchitectuur die data door de pijplijn kan laten stromen, met zowel uitstekende brute I/O-prestaties als capaciteitsvergrotingsmogelijkheden. De opslaginfrastructuur moet de steeds veeleisender wordende vereisten bijhouden in alle fasen van de AI/ML/DL-pijplijn. De oplossing is een opslaginfrastructuur die speciaal is gebouwd voor snelheid en onbeperkte schaal.

Waarde extraheren

Er gaat geen week voorbij zonder verhalen over het potentieel van AI en ML om bedrijfsprocessen en het dagelijks leven te veranderen. Er zijn veel use cases die duidelijk de voordelen van het gebruik van deze technologieën demonstreren. De realiteit van AI in het bedrijfsleven van vandaag is echter een van overweldigend grote dataverzamelingen en oplossingen voor opslag die deze massale workloads niet aankunnen. Innovaties in de automobielindustrie, de gezondheidszorg en vele andere industrieën kunnen niet doorgaan totdat het opslagprobleem is opgelost. Snelle objectopslag overwint de uitdaging van het behouden van big data, zodat organisaties de waarde uit deze data kunnen halen om hun bedrijven vooruit te helpen.

Als field CTO is Brad King verantwoordelijk voor het ontwerp van de grootste systemen die Scality over de hele wereld implementeert. Deze omvatten multi-petabyte, multi-site systemen met honderden servers. Brad is een van de mede-oprichters van Scality. Hij begon zijn veelzijdige carrière als scheepsarchitect bij de Franse marine, waar hij numerieke simulaties van scheepsomkeringen en golven rond grote schepen uitvoerde. Vervolgens trad hij toe tot een onderzoekscentrum van Schlumberger in Parijs voor een aantal jaar, waar hij werkte aan turbulente vloeistofdynamica, laboratoriumautomatisering, grote parallelle numerieke simulaties en nieuwe internettechnologieën, waaronder het monitoren van NCSA-projecten (zoals Mosaic) die door Schlumberger werden gefinancierd.