Connect with us

Myslitelé

Povolení nasazení AI v reálném světě ve velkém měřítku

mm

Od Brada Kinga, field CTO, Scality

Nástroje AI/ML a big data mají společnou nit – potřebují data a potřebují jich hodně. Obecná moudrost říká, že čím více, tím lépe. Analytici předpovídají, že globální tvorba dat poroste na více než 180 zettabytů do roku 2025 – a v roce 2020 dosáhla vytvořená a replikovaná data nového maxima 64,2 zettabytů.

Tyto údaje jsou extrémně cenné – často nezaměnitelné a někdy představující jednorázové nebo jednou za život události. Tato data je třeba uložit bezpečně a zabezpečit; a zatímco se odhaduje, že pouze malý procentní podíl těchto nově vytvořených dat je uchováván, poptávka po úložné kapacitě dále roste. Skutečně, nainstalovaná základna úložné kapacity se má podle výzkumníků ze Statisty mezi lety 2020 a 2025 zvýšit o compound roční růstovou rychlost 19,2 %.

S rostoucím množstvím vytvářených dat – zejména těmi z AI/ML úloh – organizace potřebují více úložného prostoru, ale ne všechny úložné řešení mohou zvládnout tyto intenzivní a masivní úlohy. Co je zapotřebí, je nový přístup k úložnému prostoru. Podívejme se, jak organizace překonávají tyto výzvy prostřednictvím tří případových studií.

Průmysl cestovního ruchu

Zatímco mnozí z nás se teprve zvykají na cestování opět po více než roce lockdownů, průmysl cestovního ruchu se snaží vrátit k předpandemickému stavu velkolepým způsobem. A to činí důležitost dat – zejména relevantního uplatňování těchto dat – ještě důležitější.

Představte si, co byste mohli udělat s vědomím, kam většina leteckých cestujících na celém světě bude cestovat příště nebo kam budou cestovat zítra. Pro cestovní agenturu by to bylo obrovské.

Ale tyto cestovní organizace se potýkají s takovým množstvím dat, že procházet jimi, aby zjistily, co je významné, je ohromující perspektiva. Přibližně jeden petabyte dat je generován každý den a některá data jsou duplikována weby jako Kayak. Tato data jsou časově citlivá a cestovní společnosti potřebují rychle zjistit, která data jsou významná. Potřebují nástroj, který by jim umožnil spravovat tuto úroveň rozsahu účinněji.

Automobilový průmysl

Dalším příkladem je automobilový průmysl, který je určitě jedním z nejdiskutovanějších případových studií. Průmysl již dlouho pracuje na pomocných nástrojích, jako jsou nástroje pro sledování jízdních pruhů, zabránění kolizí a podobně. Všechny tyto senzory generují obrovská množství dat. A samozřejmě vyvíjejí, testují a ověřují algoritmy pro samořídící vozidla.

Co průmysl potřebuje, je lepší způsob, jak dát smysl uloženým datům, aby je mohli použít k analýze incidentů, kdy něco šlo špatně, kurátorovat výstupy senzorů jako testovací případ, testovat algoritmy proti datům senzorů a další. Potřebují testování QA, aby se vyhnuli regresím, a potřebují dokumentovat případy, které selžou.

Digitální patologie

Dalším zajímavým případovým studiem pro AI/ML, který se také potýká s přílivem dat a potřebou lépe využívat data, je digitální patologie. Stejně jako v předchozích příkladech potřebují lepší využití těchto dat, aby mohli automaticky detekovat patologie v tkáňových vzorcích, provádět vzdálenou diagnostiku a podobně.

Ale úložný prostor dnes omezuje využití. Obrázky s užitečným rozlišením jsou příliš velké na to, aby se daly ekonomicky uložit. Nicméně rychlý objektový úložný prostor umožní nové schopnosti – jako jsou obrazové banky, které lze použít jako klíčový tréninkový zdroj, a použití prostorových křivek pro pojmenování/uložení a načtení multirezolučních obrázků v objektovém úložišti. Také umožňuje rozšiřitelné a flexibilní označení metadat, což usnadňuje vyhledávání a pochopení této informace.

Úlohy AI vyžadují nový přístup

Jak jsme viděli v předchozích třech případech, je kritické být schopni agregovat a orchestrovat obrovská množství dat souvisejících s úlohami AI/ML. Datové sady často dosahují rozsahu několika petabytů, s požadavky na výkon, které by mohly nasátit celou infrastrukturu. Při zpracování tak velkých školicích a testovacích datových souborů je překonání úložných uzlů (problémy s latencí a/nebo propustností) a kapacitních omezení/limitů klíčovými prvky pro úspěch.

Úlohy AI/ML/DL vyžadují úložnou architekturu, která může udržet data proudící skrz potrubí, s vynikajícím surovým výkonem I/O a kapacitou škálovatelnosti. Úložná infrastruktura musí držet krok s rostoucími požadavky napříč všemi fázemi potrubí AI/ML/DL. Řešením je úložná infrastruktura speciálně postavená pro rychlost a neomezenou škálovatelnost.

Extrahování hodnoty

Neprojde týden, aby nevyšly příběhy o potenciálu AI a ML změnit obchodní procesy a každodenní životy. Existuje mnoho případových studií, které jasně demonstrují výhody používání těchto technologií. Realita AI v podniku dnes je však jedna z ohromujících velkých datových souborů a úložných řešení, která nemohou zvládnout tyto masivní úlohy. Inovace v automobilech, zdravotnictví a mnoha dalších odvětvích nemohou pokračovat, dokud nebude vyřešen problém s úložištěm. Rychlý objektový úložný prostor překonává výzvu uchovávání velkých dat, aby organizace mohly extrahovat hodnotu z těchto dat a posunout své podnikání dopředu.

Jako field CTO je Brad King zodpovědný za návrh největších systémů, které Scality nasazuje po celém světě. Tyto systémy zahrnují multi-petabyte, multi-site systémy s hundredy serverů. Brad je jedním ze spoluzakladatelů Scality. Začal svou mnohostrannou kariéru jako námořní architekt ve francouzském námořnictvu, kde prováděl numerické simulace převrhnutí lodí a vln kolem velkých lodí. Poté se připojil k výzkumnému centru Schlumberger v Paříži, kde pracoval několik let na turbulentní dynamice tekutin, laboratorní automatizaci, velkých paralelních numerických simulacích a nových internetových technologiích, včetně monitorování projektů NCSA (jako Mosaic) financovaných Schlumberger.