Connect with us

Vordenker

Ermöglichung von Real-World-AI-Deployments im großen Maßstab

mm

Von Brad King, Field CTO, Scality

Die Werkzeuge von KI/ML und Big Data haben einen gemeinsamen Faden – sie benötigen Daten und sie benötigen viele davon. Die gängige Meinung besagt, dass mehr besser ist. Analysten prognostizieren, dass die globale Datenproduktion bis 2025 auf mehr als 180 Zettabytes anwachsen wird – und im Jahr 2020 erreichte die Menge der erstellten und replizierten Daten mit 64,2 Zettabytes einen neuen Höchststand.

Diese Daten sind extrem wertvoll – oft unersetzlich und manchmal repräsentieren sie einmalige oder einmal-in-der-Lebenszeit-Ereignisse. Diese Daten müssen sicher und sicher aufbewahrt werden; und obwohl geschätzt wird, dass nur ein kleiner Prozentsatz dieser neu erstellten Daten aufbewahrt wird, wächst die Nachfrage nach Speicherkapazität weiter. Tatsächlich wird die installierte Basis der Speicherkapazität zwischen 2020 und 2025 mit einer jährlichen Wachstumsrate von 19,2 % wachsen, laut Forschern von Statista.

Mit der zunehmenden Datenproduktion – insbesondere durch diese KI/ML-Workloads – benötigen Unternehmen mehr Speicher, aber nicht alle Speicherlösungen können diese intensiven und massiven Workloads bewältigen. Was benötigt wird, ist ein neuer Ansatz für den Speicher. Lassen Sie uns sehen, wie Unternehmen diese Herausforderungen durch die Linse von drei Use-Cases überwinden.

Die Reiseindustrie

Während viele von uns gerade erst wieder an Reisen gewöhnt sind, nach mehr als einem Jahr der Lockdowns, will die Reiseindustrie auf großem Fuß wieder zu den Vorkrisenzeiten zurückkehren. Und das macht die Bedeutung von Daten – insbesondere die relevante Anwendung und Nutzung dieser Daten – noch wichtiger.

Stellen Sie sich vor, was Sie mit dem Wissen über die meisten Reiseziele der Welt tun könnten, oder wohin die Menschen morgen reisen werden. Für eine Reiseagentur wäre das beispielsweise enorm.

Aber diese Reiseunternehmen haben es mit so vielen Daten zu tun, dass es überwältigend ist, sie zu sortieren, um herauszufinden, was bedeutungsvoll ist. Etwa ein Petabyte an Daten wird täglich generiert, und einige der Daten werden durch Seiten wie Kayak dupliziert. Diese Daten sind zeitkritisch, und Reiseunternehmen müssen schnell herausfinden, welche Daten bedeutungsvoll sind. Sie benötigen ein Werkzeug, um diese Menge an Daten effektiver zu verwalten.

Die Automobilindustrie

Ein weiteres Beispiel kommt aus der Automobilindustrie, die sicherlich zu den meistdiskutierten Use-Cases gehört. Die Branche arbeitet bereits seit Langem an Hilfswerkzeugen wie Spurhalter, Kollisionsvermeidung und ähnlichen. All diese Sensoren liefern große Mengen an Daten. Und natürlich entwickeln, testen und verifizieren sie selbstfahrende Algorithmen.

Was die Branche benötigt, ist eine bessere Möglichkeit, diesen gespeicherten Daten Sinn zu geben, damit sie sie nutzen können, um Vorfälle zu analysieren, bei denen etwas schiefgelaufen ist, Sensorausgaben als Testfall zu kuratieren, Algorithmen gegen Sensordaten zu testen und mehr. Sie benötigen QA-Tests, um Rückfälle zu vermeiden, und sie müssen Fälle dokumentieren, die fehlschlagen.

Digitale Pathologie

Ein weiterer interessanter Use-Case für KI/ML, der auch mit dem Datenüberfluss und der Notwendigkeit, besseren Gebrauch von Daten zu machen, zu kämpfen hat, ist die digitale Pathologie. Genau wie die anderen Beispiele benötigen sie die Fähigkeit, besseren Gebrauch von diesen Daten zu machen, um Dinge wie automatische Erkennung von Pathologien in Gewebeproben, Remote-Diagnose und ähnliches zu ermöglichen.

Aber der Speicher heute limitiert die Nutzung. Bilder mit nützlicher Auflösung sind zu groß, um sie wirtschaftlich zu speichern. Allerdings ermöglicht schneller Objektspeicher neue Fähigkeiten – wie Bildbanken, die als wichtige Trainingsressource genutzt werden können, und die Verwendung von Raumfüllkurven, um Bilder in einem Objektspeicher zu benennen, zu speichern und abzurufen. Es ermöglicht auch erweiterbare und flexible Metadaten-Tagging, was es einfacher macht, diese Informationen zu suchen und zu verstehen.

KI-Workloads erfordern einen neuen Ansatz

Wie wir in den drei oben genannten Fällen gesehen haben, ist es kritisch, riesige Mengen an Daten im Zusammenhang mit KI/ML-Workloads zu aggregieren und zu orchestrieren. Datensätze erreichen oft eine Größe von mehreren Petabytes, mit Leistungsanforderungen, die die gesamte Infrastruktur überlasten könnten. Bei der Bewältigung solcher großen Trainings- und Testdatensätze sind die Überwindung von Speicherengpässen (Latenz- und/oder Durchsatzprobleme) und Kapazitätsgrenzen/Barrieren wichtige Elemente für den Erfolg.

KI/ML/DL-Workloads erfordern eine Speicherarchitektur, die die Daten durch die Pipeline fließen lassen kann, mit sowohl hervorragender Roh-I/O-Leistung als auch Kapazitätsskalierbarkeit. Die Speicherinfrastruktur muss mit den zunehmend anspruchsvolleren Anforderungen auf allen Stufen der KI/ML/DL-Pipeline Schritt halten. Die Lösung ist eine Speicherinfrastruktur, die speziell für Geschwindigkeit und unbegrenztes Wachstum entwickelt wurde.

Wert extrahieren

Keine Woche vergeht, ohne dass es Geschichten über das Potenzial von KI und ML gibt, um Geschäftsprozesse und den Alltag zu verändern. Es gibt viele Use-Cases, die deutlich die Vorteile der Nutzung dieser Technologien demonstrieren. Die Realität von KI im Unternehmen heute ist jedoch eine der überwältigend großen Datensätze und Speicherlösungen, die diese massiven Workloads nicht bewältigen können. Innovationen in der Automobilindustrie, im Gesundheitswesen und vielen anderen Branchen können nicht voranschreiten, bis das Speicherproblem gelöst ist. Schneller Objektspeicher überwindet die Herausforderung, Big Data zu speichern, damit Unternehmen den Wert aus diesen Daten extrahieren und ihre Geschäfte vorantreiben können.

Als Field CTO ist Brad King für die Gestaltung der größten Systeme verantwortlich, die Scality weltweit einsetzt. Dazu gehören Multi-Petabyte-, Multi-Site-Systeme mit Hunderten von Servern. Brad ist einer der Mitgründer von Scality. Er begann seine vielfältige Karriere als Schiffbauingenieur bei der französischen Marine, wo er numerische Simulationen von Schiffskentern und Wellen um große Schiffe durchführte. Anschließend trat er einem Schlumberger-Forschungslabor in Paris bei, wo er mehrere Jahre lang an turbulenten Fluidodynamiken, Laborautomatisierung, groß angelegten parallelen numerischen Simulationen und neuen Internet-Technologien arbeitete, einschließlich der Überwachung von NCSA-Projekten (wie Mosaic), die von Schlumberger finanziert wurden.