talón Habilitación de implementaciones de IA en el mundo real a escala - Unite.AI
Contáctanos

Líderes del pensamiento

Habilitación de implementaciones de IA en el mundo real a escala

mm

Publicado

 on

Por Brad King, CTO de campo, Escala

Las herramientas de AI/ML y big data tienen un hilo común: necesitan datos, y necesitan muchos. La sabiduría convencional dice que cuanto más, mejor. Los analistas predicen que la creación de datos globales crecerá a más de 180 zettabytes para 2025 – y en 2020, la cantidad de datos creados y replicados alcanzó un nuevo máximo de 64.2 zettabytes.

Esos datos son extremadamente valiosos, a menudo irreemplazables y, a veces, representan eventos únicos o únicos en la vida. Estos datos deben almacenarse de forma segura y protegida; y aunque se estima que solo se retiene un pequeño porcentaje de estos datos recién creados, la demanda de capacidad de almacenamiento sigue creciendo. De hecho, se prevé que la base instalada de capacidad de almacenamiento crezca a una tasa de crecimiento anual compuesta del 19.2 % entre 2020 y 2025, según investigadores de Statista.

Con la creación de más datos, particularmente por estas cargas de trabajo de IA/ML, las organizaciones necesitan más almacenamiento, pero no todas las soluciones de almacenamiento pueden manejar estas cargas de trabajo intensivas y masivas. Lo que se necesita es un nuevo enfoque para el almacenamiento. Veamos cómo las organizaciones están superando estos desafíos a través de la lente de tres casos de uso.

La industria de viajes

Si bien muchos de nosotros nos estamos acostumbrando a viajar nuevamente después de más de un año de bloqueos, la industria de viajes está buscando volver a los tiempos anteriores a la pandemia de manera importante. Y esto hace que la importancia de los datos, específicamente, la aplicación y el uso relevantes de esos datos, sea aún más importante.

Imagínese lo que podría hacer con el conocimiento de adónde viajará la mayoría de los pasajeros de las aerolíneas del mundo a continuación o hacia dónde se dirigirán mañana. Para una agencia de viajes, por ejemplo, eso sería enorme.

Pero estas organizaciones de viajes manejan tantos datos que clasificarlos para descubrir qué es significativo es una perspectiva abrumadora. Cada día se genera alrededor de un petabyte de datos, y algunos de los datos son duplicados por sitios como Kayak. Estos datos son sensibles al tiempo y las empresas de viajes necesitan descubrir rápidamente qué datos son significativos. Necesitan una herramienta para poder administrar este nivel de escala de manera más efectiva.

la industria del automóvil

Otro ejemplo proviene de la industria del automóvil, que es sin duda uno de los casos de uso más comentados. La industria ha estado trabajando arduamente durante mucho tiempo con herramientas de asistencia como avisos de carril, prevención de colisiones y similares. Todos estos sensores están trayendo grandes cantidades de datos. Y, por supuesto, están desarrollando, probando y verificando algoritmos de conducción autónoma.

Lo que la industria necesita es una mejor manera de dar sentido a estos datos almacenados para que puedan usarlos para analizar incidentes en los que algo salió mal, seleccionar las salidas de los sensores como un caso de prueba, probar algoritmos contra los datos de los sensores y más. Necesitan pruebas de control de calidad para evitar regresiones y documentar los casos que fallan.

Patología digital

Otro caso de uso interesante para AI/ML que también está lidiando con la avalancha de datos y la necesidad de hacer un mejor uso de los datos es la patología digital. Al igual que los otros ejemplos, lo que realmente necesitan es la capacidad de hacer un mejor uso de estos datos para que puedan hacer cosas como detectar automáticamente patologías en muestras de tejido, realizar diagnósticos remotos, etc.

Pero el almacenamiento hoy en día está limitando el uso. Las imágenes con una resolución útil son demasiado grandes para almacenarlas económicamente. Sin embargo, el almacenamiento rápido de objetos habilitará nuevas capacidades, como bancos de imágenes que se pueden usar como un recurso de capacitación clave y el uso de curvas que llenan el espacio para nombrar/almacenar y recuperar imágenes de resolución múltiple en un almacén de objetos. También permite el etiquetado de metadatos extensible y flexible, lo que facilita la búsqueda y el sentido de esta información.

Las cargas de trabajo de IA requieren un nuevo enfoque

Como hemos visto en los tres casos anteriores, es fundamental poder agregar y orquestar grandes cantidades de datos relacionados con las cargas de trabajo de IA/ML. Los conjuntos de datos a menudo alcanzan una escala de varios petabytes, con demandas de rendimiento que podrían saturar toda la infraestructura. Cuando se trata de conjuntos de datos de prueba y entrenamiento a gran escala, superar los cuellos de botella de almacenamiento (latencia y/o problemas de rendimiento) y las limitaciones/barreras de capacidad son elementos clave para el éxito.

Las cargas de trabajo de AI/ML/DL requieren una arquitectura de almacenamiento que pueda mantener el flujo de datos a través de la canalización, con excelente rendimiento de E/S sin procesar y capacidad de escalado de capacidad. La infraestructura de almacenamiento debe seguir el ritmo de los requisitos cada vez más exigentes en todas las etapas de la canalización AI/ML/DL. La solución es una infraestructura de almacenamiento construida específicamente para la velocidad y la escala ilimitada.

Extrayendo valor

No pasa una semana sin historias sobre el potencial de AI y ML para cambiar los procesos comerciales y la vida cotidiana. Hay muchos casos de uso que demuestran claramente los beneficios del uso de estas tecnologías. Sin embargo, la realidad de la IA en la empresa actual es una de conjuntos de datos y soluciones de almacenamiento abrumadoramente grandes que no pueden administrar estas cargas de trabajo masivas. Las innovaciones en automóviles, atención médica y muchas otras industrias no pueden avanzar hasta que se resuelva el problema del almacenamiento. El almacenamiento rápido de objetos supera el desafío de retener grandes datos para que las organizaciones puedan extraer el valor de estos datos para hacer avanzar sus negocios.

Como CTO de campo, Brad King es responsable del diseño de los sistemas más grandes Escala se despliega en todo el mundo. Estos incluyen sistemas de varios petabytes y sitios múltiples con cientos de servidores. Brad es uno de los cofundadores de Scality. Comenzó su carrera polifacética como arquitecto naval en la marina francesa, realizando simulaciones numéricas de zozobra de barcos y olas alrededor de grandes barcos. Luego se unió a un laboratorio de investigación de Schlumberger en París durante varios años, donde trabajó en dinámica de fluidos turbulentos, automatización de laboratorio, simulaciones numéricas paralelas a gran escala y nuevas tecnologías de Internet, incluido el monitoreo de proyectos NCSA (como Mosaic) financiados por Schlumberger.