Suivez nous sur

Permettre des déploiements d'IA dans le monde réel à grande échelle

Des leaders d'opinion

Permettre des déploiements d'IA dans le monde réel à grande échelle

mm

Par Brad King, directeur technique sur le terrain, Scalité

Les outils de l'IA/ML et du big data ont un fil conducteur : ils ont besoin de donnĂ©es, et ils en ont besoin de beaucoup. La sagesse conventionnelle dit que plus il y en a, mieux c'est. Les analystes prĂ©disent que la crĂ©ation mondiale de donnĂ©es atteindra plus de 180 zettaoctets d'ici 2025 – et en 2020, la quantitĂ© de donnĂ©es créées et rĂ©pliquĂ©es a atteint un nouveau record de 64.2 zettaoctets.

Ces données sont extrêmement précieuses - souvent irremplaçables et représentent parfois des événements ponctuels ou uniques dans une vie. Ces données doivent être stockées en toute sécurité ; et même si l'on estime que seul un petit pourcentage de ces données nouvellement créées est conservé, la demande de capacité de stockage continue de croître. En fait, la base installée de capacité de stockage devrait croître à un taux de croissance annuel composé de 19.2 % entre 2020 et 2025, selon des chercheurs de Statesman.

Avec plus de données créées - en particulier par ces charges de travail AI/ML - les organisations ont besoin de plus de stockage, mais toutes les solutions de stockage ne peuvent pas gérer ces charges de travail intensives et massives. Ce qu'il faut, c'est une nouvelle approche du stockage. Examinons comment les organisations surmontent ces défis à travers le prisme de trois cas d'utilisation.

L'industrie du voyage

Alors que beaucoup d'entre nous commencent tout juste à se réhabituer à voyager après plus d'un an de confinement, l'industrie du voyage cherche à revenir de manière majeure à l'époque pré-pandémique. Et cela rend l'importance des données - en particulier, l'application et l'utilisation pertinentes de ces données - encore plus importante.

Imaginez ce que vous pourriez faire en sachant où la majorité des voyageurs aériens du monde vont voyager ou où ils vont demain. Pour une agence de voyage, par exemple, ce serait énorme.

Mais ces organisations de voyages traitent tellement de données que les trier pour déterminer ce qui est significatif est une perspective écrasante. Environ un pétaoctet de données est généré chaque jour, et certaines des données sont dupliquées par des sites comme Kayak. Ces données sont sensibles au facteur temps et les agences de voyages doivent découvrir rapidement quelles données sont significatives. Ils ont besoin d'un outil pour pouvoir gérer plus efficacement ce niveau d'échelle.

L'industrie automobile

Un autre exemple vient de l'industrie automobile, qui est certainement l'un des cas d'utilisation dont on parle le plus. L'industrie travaille dur depuis longtemps avec des outils d'assistance comme les gardes de voie, l'évitement de collision et autres. Tous ces capteurs apportent de grandes quantités de données. Et, bien sûr, ils développent, testent et vérifient des algorithmes d'auto-conduite.

Ce dont l'industrie a besoin, c'est d'un meilleur moyen de donner un sens à ces données stockées afin de pouvoir les utiliser pour analyser les incidents où quelque chose s'est mal passé, organiser les sorties des capteurs comme cas de test, tester les algorithmes par rapport aux données des capteurs, etc. Ils ont besoin de tests d'assurance qualité pour éviter les régressions et ils doivent documenter les cas qui échouent.

Pathologie numérique

Un autre cas d'utilisation intéressant pour l'IA/ML qui est également aux prises avec le déluge de données et la nécessité de mieux utiliser les données est la pathologie numérique. Tout comme les autres exemples, ce dont ils ont vraiment besoin, c'est de pouvoir mieux utiliser ces données afin de pouvoir détecter automatiquement des pathologies dans des échantillons de tissus, effectuer des diagnostics à distance, etc.

Mais le stockage limite aujourd'hui l'utilisation. Les images avec une résolution utile sont trop volumineuses pour être stockées de manière économique. Cependant, le stockage d'objets rapide permettra de nouvelles capacités - comme des banques d'images qui peuvent être utilisées comme ressource de formation clé et l'utilisation de courbes de remplissage d'espace pour nommer/stocker et récupérer des images multirésolutions dans un magasin d'objets. Il permet également un balisage de métadonnées extensible et flexible, ce qui facilite la recherche et la compréhension de ces informations.

Les charges de travail d'IA nécessitent une nouvelle approche

Comme nous l'avons vu dans les trois cas ci-dessus, il est essentiel de pouvoir agréger et orchestrer de grandes quantités de données liées aux charges de travail AI/ML. Les ensembles de données atteignent souvent une échelle de plusieurs pétaoctets, avec des exigences de performances susceptibles de saturer l'ensemble de l'infrastructure. Lorsqu'il s'agit d'ensembles de données de formation et de test à grande échelle, surmonter les goulots d'étranglement de stockage (problèmes de latence et/ou de débit) et les limitations/obstacles de capacité sont des éléments clés du succès.

Les charges de travail AI/ML/DL nécessitent une architecture de stockage capable de maintenir le flux de données dans le pipeline, avec à la fois d'excellentes performances d'E/S brutes et une capacité de mise à l'échelle de la capacité. L'infrastructure de stockage doit suivre le rythme des exigences de plus en plus exigeantes à toutes les étapes du pipeline AI/ML/DL. La solution est une infrastructure de stockage spécialement conçue pour la vitesse et l'évolutivité illimitée.

Extraction de valeur

Il ne se passe pas une semaine sans qu'il y ait des histoires sur le potentiel de l'IA et du ML pour changer les processus commerciaux et la vie quotidienne. Il existe de nombreux cas d'utilisation qui démontrent clairement les avantages de l'utilisation de ces technologies. La réalité de l'IA dans l'entreprise aujourd'hui, cependant, est celle d'ensembles de données et de solutions de stockage extrêmement volumineux qui ne peuvent pas gérer ces charges de travail massives. Les innovations dans les secteurs de l'automobile, de la santé et de nombreux autres secteurs ne peuvent pas progresser tant que le problème de stockage n'est pas résolu. Le stockage d'objets rapide surmonte le défi de la conservation du Big Data afin que les organisations puissent extraire la valeur de ces données pour faire avancer leurs activités.

En tant que Field CTO, Brad King est responsable de la conception des plus grands systèmes Scalité se déploie dans le monde entier. Il s'agit notamment de systèmes multi-pétaoctets et multi-sites avec des centaines de serveurs. Brad est l'un des co-fondateurs de Scality. Il a commencé sa carrière aux multiples facettes en tant qu'architecte naval au sein de la marine française, réalisant des simulations numériques de chavirage de navires et de vagues autour de grands navires. Il a ensuite rejoint un laboratoire de recherche Schlumberger à Paris pendant plusieurs années, où il a travaillé sur la dynamique des fluides turbulents, l'automatisation des laboratoires, les simulations numériques parallèles à grande échelle et les nouvelles technologies Internet, y compris le suivi des projets NCSA (comme Mosaic) financés par Schlumberger.