Entre em contato

Habilitando implantações de IA no mundo real em escala

Líderes de pensamento

Habilitando implantações de IA no mundo real em escala

mm

Por Brad King, CTO de campo, Escalação

As ferramentas de IA/ML e big data têm uma linha comum – elas precisam de dados e precisam de muitos deles. A sabedoria convencional diz que quanto mais, melhor. Os analistas preveem que a criação global de dados crescerá para mais de 180 zettabytes até 2025 – e em 2020, a quantidade de dados criados e replicados atingiu um novo recorde de 64.2 zettabytes.

Esses dados são extremamente valiosos – geralmente insubstituíveis e, às vezes, representando eventos únicos ou únicos na vida. Esses dados precisam ser armazenados com segurança; e, embora se estime que apenas uma pequena porcentagem desses dados recém-criados seja mantida, a demanda por capacidade de armazenamento continua a crescer. Na verdade, a base instalada de capacidade de armazenamento deverá crescer a uma taxa composta de crescimento anual de 19.2% entre 2020 e 2025, de acordo com pesquisadores da Estadista.

Com mais dados sendo criados – particularmente por essas cargas de trabalho de IA/ML – as organizações precisam de mais armazenamento, mas nem todas as soluções de armazenamento podem lidar com essas cargas de trabalho intensas e massivas. O que é necessário é uma nova abordagem de armazenamento. Vejamos como as organizações estão superando esses desafios através da lente de três casos de uso.

A indústria de viagens

Enquanto muitos de nós estamos apenas nos acostumando a viajar novamente após mais de um ano de bloqueios, a indústria de viagens está tentando voltar aos tempos pré-pandêmicos de uma maneira importante. E isso está tornando a importância dos dados – especificamente, a aplicação relevante e o uso desses dados – ainda mais importante.

Imagine o que você poderia fazer com o conhecimento de para onde a maioria das companhias aéreas do mundo viajará em seguida ou para onde irá amanhã. Para uma agência de viagens, por exemplo, isso seria enorme.

Mas essas organizações de viagens estão lidando com tantos dados que classificá-los para descobrir o que é significativo é uma perspectiva esmagadora. Cerca de um petabyte de dados é gerado a cada dia, e alguns dos dados são duplicados por sites como o Kayak. Esses dados são sensíveis ao tempo e as empresas de viagens precisam descobrir rapidamente quais dados são significativos. Eles precisam de uma ferramenta para poder gerenciar esse nível de escala com mais eficiência.

A indústria automobilística

Outro exemplo vem da indústria automobilística, que certamente é um dos casos de uso mais comentados. A indústria tem trabalhado arduamente por muito tempo com ferramentas de assistência, como alertas de faixa, prevenção de colisões e similares. Todos esses sensores estão trazendo grandes quantidades de dados. E, claro, eles estão desenvolvendo, testando e verificando algoritmos de direção autônoma.

O que o setor precisa é de uma maneira melhor de entender esses dados armazenados para que eles possam usá-los para analisar incidentes em que algo deu errado, organizar as saídas do sensor como um caso de teste, testar algoritmos em relação aos dados do sensor e muito mais. Eles precisam de testes de controle de qualidade para evitar regressões e precisam documentar os casos que falham.

patologia digital

Outro caso de uso interessante para AI/ML que também está enfrentando o dilúvio de dados e a necessidade de fazer melhor uso dos dados é a patologia digital. Assim como os outros exemplos, o que eles realmente precisam é a capacidade de fazer melhor uso desses dados para que possam fazer coisas como detectar automaticamente patologias em amostras de tecido, realizar diagnósticos remotos e assim por diante.

Mas o armazenamento hoje está limitando o uso. As imagens com resolução útil são muito grandes para armazenar economicamente. No entanto, o armazenamento rápido de objetos permitirá novas habilidades – como bancos de imagens que podem ser usados ​​como um recurso de treinamento chave e o uso de curvas de preenchimento de espaço para nomear/armazenar e recuperar imagens multirresolução em um armazenamento de objetos. Ele também permite a marcação de metadados extensível e flexível, o que facilita a busca e a compreensão dessas informações.

Cargas de trabalho de IA exigem uma nova abordagem

Como vimos nos três casos acima, é fundamental poder agregar e orquestrar grandes quantidades de dados relacionados a cargas de trabalho de AI/ML. Os conjuntos de dados geralmente atingem a escala de vários petabytes, com demandas de desempenho que podem saturar toda a infraestrutura. Ao lidar com conjuntos de dados de teste e treinamento em grande escala, a superação de gargalos de armazenamento (problemas de latência e/ou taxa de transferência) e limitações/barreiras de capacidade são elementos-chave para o sucesso.

As cargas de trabalho AI/ML/DL exigem uma arquitetura de armazenamento que possa manter os dados fluindo pelo pipeline, com excelente desempenho bruto de E/S e capacidade de escalabilidade. A infraestrutura de armazenamento deve acompanhar os requisitos cada vez mais exigentes em todos os estágios do pipeline AI/ML/DL. A solução é uma infraestrutura de armazenamento criada especificamente para velocidade e escala ilimitada.

Extraindo valor

Não passa uma semana sem histórias sobre o potencial da IA ​​e ML para mudar os processos de negócios e a vida cotidiana. Existem muitos casos de uso que demonstram claramente os benefícios do uso dessas tecnologias. A realidade da IA ​​na empresa hoje, no entanto, é um dos conjuntos de dados e soluções de armazenamento extremamente grandes que não conseguem gerenciar essas cargas de trabalho massivas. Inovações em automóveis, saúde e muitos outros setores não podem avançar até que o problema de armazenamento seja resolvido. O armazenamento rápido de objetos supera o desafio de reter big data para que as organizações possam extrair o valor desses dados para levar seus negócios adiante.

Como CTO de campo, Brad King é responsável pelo projeto dos maiores sistemas Escalação implanta em todo o mundo. Isso inclui sistemas de vários petabytes e vários sites com centenas de servidores. Brad é um dos cofundadores da Scality. Ele começou sua carreira multifacetada como arquiteto naval na marinha francesa, realizando simulações numéricas de naufrágios e ondas em torno de grandes navios. Ele então se juntou a um laboratório de pesquisa da Schlumberger em Paris por vários anos, onde trabalhou em dinâmica de fluidos turbulentos, automação de laboratório, simulações numéricas paralelas em larga escala e novas tecnologias de internet, incluindo monitoramento de projetos NCSA (como Mosaic) financiados pela Schlumberger.