Connect with us

Líderes de pensamento

Habilitando Implantações de IA no Mundo Real em Escala

mm

Por Brad King, field CTO, Scality

As ferramentas de IA/ML e big data têm um fio condutor em comum – elas precisam de dados, e precisam de muitos. A sabedoria convencional diz que quanto mais, melhor. Analistas preveem que a criação de dados globais crescerá para mais de 180 zettabytes até 2025 – e em 2020, a quantidade de dados criados e replicados atingiu um novo recorde de 64,2 zettabytes.

Esses dados são extremamente valiosos – muitas vezes irrecuperáveis e às vezes representando eventos únicos ou de uma vez na vida. Esses dados precisam ser armazenados com segurança e segurança; e embora se estime que apenas uma pequena porcentagem desses novos dados seja retida, a demanda por capacidade de armazenamento continua a crescer. De fato, a base instalada de capacidade de armazenamento deve crescer a uma taxa de crescimento anual composto de 19,2% entre 2020 e 2025, de acordo com pesquisadores da Statista.

Com mais dados sendo criados – particularmente por esses workloads de IA/ML – as organizações precisam de mais armazenamento, mas nem todas as soluções de armazenamento podem lidar com esses workloads intensivos e massivos. O que é necessário é uma nova abordagem para o armazenamento. Vamos olhar como as organizações estão superando esses desafios através da lente de três casos de uso.

A indústria de viagens

Enquanto muitos de nós estão apenas se acostumando a viajar novamente após mais de um ano de lockdowns, a indústria de viagens está procurando voltar aos tempos pré-pandêmicos de uma forma significativa. E isso está tornando a importância dos dados – especificamente, a aplicação e uso relevantes desses dados – ainda mais importante.

Imagine o que você poderia fazer com o conhecimento de para onde a maioria dos viajantes aéreos do mundo vai viajar em seguida ou para onde eles vão amanhã. Para uma agência de viagens, por exemplo, isso seria enorme.

Mas essas organizações de viagens estão lidando com tantos dados que separar o que é significativo é uma perspectiva esmagadora. Cerca de um petabyte de dados é gerado todos os dias, e alguns dos dados são duplicados por sites como o Kayak. Esses dados são sensíveis ao tempo, e as empresas de viagens precisam descobrir rapidamente quais dados são significativos. Eles precisam de uma ferramenta para gerenciar esse nível de escala de forma mais eficaz.

A indústria automobilística

Outro exemplo vem da indústria automobilística, que certamente é um dos casos de uso mais discutidos. A indústria tem trabalhado arduamente por um longo tempo com ferramentas de assistência como lane minders, collision avoidance e similares. Todos esses sensores estão trazendo grandes quantidades de dados. E, claro, eles estão desenvolvendo, testando e verificando algoritmos de condução autônoma.

O que a indústria precisa é de uma melhor maneira de dar sentido a esses dados armazenados para que possam usá-los para analisar incidentes em que algo deu errado, curar saídas de sensores como um caso de teste, testar algoritmos contra dados de sensores e mais. Eles precisam de testes de QA para evitar regressões, e precisam documentar casos que falham.

Patologia digital

Outro caso de uso interessante para IA/ML que também está lidando com o dilúvio de dados e a necessidade de fazer um melhor uso dos dados é a patologia digital. Assim como os outros exemplos, o que eles realmente precisam é da capacidade de fazer um melhor uso desses dados para que possam fazer coisas como detectar automaticamente patologias em amostras de tecido, realizar diagnósticos remotos e assim por diante.

Mas o armazenamento atual está limitando o uso. Imagens com resolução útil são muito grandes para serem armazenadas economicamente. No entanto, o armazenamento de objetos rápido permitirá novas capacidades – como bancos de imagens que podem ser usados como um recurso de treinamento-chave e o uso de curvas de preenchimento de espaço para nomear/armazenar e recuperar imagens multiresolução em um armazenamento de objetos. Isso também permite marcação de metadados extensível e flexível, o que facilita a busca e a compreensão dessas informações.

Cargas de trabalho de IA exigem uma nova abordagem

Como vimos nos três casos acima, é fundamental ser capaz de agregar e orquestrar vastas quantidades de dados relacionados a cargas de trabalho de IA/ML. Conjuntos de dados frequentemente atingem a escala de multi-petabyte, com demandas de desempenho que podem saturar toda a infraestrutura. Ao lidar com conjuntos de dados de treinamento e teste de grande escala, superar gargalos de armazenamento (problemas de latência e/ou throughput) e limitações/barreiras de capacidade são elementos-chave para o sucesso.

Cargas de trabalho de IA/ML/DL exigem uma arquitetura de armazenamento que possa manter os dados fluindo pelo pipeline, com excelente desempenho bruto de I/O e capacidade de escalabilidade. A infraestrutura de armazenamento deve acompanhar as demandas cada vez mais exigentes em todas as etapas do pipeline de IA/ML/DL. A solução é uma infraestrutura de armazenamento especificamente construída para velocidade e escala ilimitada.

Extraindo valor

Não passa uma semana sem histórias sobre o potencial da IA e da ML para mudar processos comerciais e vidas cotidianas. Existem muitos casos de uso que claramente demonstram os benefícios de usar essas tecnologias. A realidade da IA nas empresas hoje, no entanto, é uma de conjuntos de dados enormemente grandes e soluções de armazenamento que não podem gerenciar esses workloads massivos. Inovações em automóveis, saúde e muitas outras indústrias não podem avançar até que o problema de armazenamento seja resolvido. O armazenamento de objetos rápido supera o desafio de reter big data para que as organizações possam extrair o valor desses dados para impulsionar seus negócios para frente.

Como CTO de campo, Brad King é responsável pelo design dos maiores sistemas Scality implanta em todo o mundo. Isso inclui sistemas multi-petabyte, multi-local com centenas de servidores. Brad é um dos co-fundadores da Scality. Ele começou sua carreira multifacetada como arquiteto naval com a marinha francesa, realizando simulações numéricas de capotamento de navios e ondas ao redor de grandes navios. Ele então se juntou a um laboratório de pesquisa da Schlumberger em Paris por vários anos, onde trabalhou em dinâmica de fluidos turbulentos, automação de laboratório, simulações numéricas paralelas em larga escala e novas tecnologias de internet, incluindo monitoramento de projetos da NCSA (como Mosaic) financiados pela Schlumberger.