toco O futuro da IA ​​generativa é o limite - Unite.AI
Entre em contato

Líderes de pensamento

O futuro da IA ​​generativa é o limite

mm

Publicado

 on

O advento do ChatGPT, e IA generativa em geral, é um divisor de águas na história da tecnologia e é comparado ao surgimento da Internet e do smartphone. A IA generativa mostrou um potencial ilimitado em sua capacidade de manter conversas inteligentes, passar em exames, gerar programas/códigos complexos e criar imagens e vídeos atraentes. Embora as GPUs executem a maioria dos modelos Gen AI na nuvem – tanto para treinamento quanto para inferência – esta não é uma solução escalonável de longo prazo, especialmente para inferência, devido a fatores que incluem custo, potência, latência, privacidade e segurança. Este artigo aborda cada um desses fatores, juntamente com exemplos motivadores para levar as cargas de trabalho de computação da Geração AI ao limite.

A maioria dos aplicativos é executada em processadores de alto desempenho – seja em dispositivos (por exemplo, smartphones, desktops, laptops) ou em data centers. À medida que a parcela de aplicativos que utilizam IA se expande, esses processadores apenas com CPUs são inadequados. Além disso, a rápida expansão das cargas de trabalho de IA generativa está a gerar uma procura exponencial de servidores habilitados para IA com GPUs dispendiosas e que consomem muita energia, o que, por sua vez, está a aumentar os custos de infraestrutura. Esses servidores habilitados para IA podem custar mais de 7 vezes o preço de um servidor normal e as GPUs são responsáveis ​​por 80% desse custo adicional.

Além disso, um servidor baseado em nuvem consome de 500 W a 2000 W, enquanto um servidor habilitado para IA consome entre 2000 W e 8000 W – 4x mais! Para suportar estes servidores, os data centers precisam de módulos de resfriamento adicionais e atualizações de infraestrutura – que podem ser ainda maiores que o investimento em computação. Os data centers já consomem 300 TWH por ano, quase 1% do consumo total de energia mundial Se as tendências de adoção da IA ​​continuarem, até 5% da energia mundial poderá ser utilizada pelos centros de dados até 2030. Além disso, há um investimento sem precedentes em centros de dados de IA generativa. Estima-se que os data centers consumirão até US$ 500 bilhões para despesas de capital até 2027, alimentado principalmente pelos requisitos de infraestrutura de IA.

O consumo de eletricidade dos Data Centers, já de 300 TwH, aumentará significativamente com a adoção da IA ​​generativa.

O custo de computação da IA, bem como o consumo de energia, impedirão a adoção em massa da IA ​​generativa. Os desafios de dimensionamento podem ser superados movendo a computação de IA para o limite e usando soluções de processamento otimizadas para cargas de trabalho de IA. Com esta abordagem, outros benefícios também são acumulados para o cliente, incluindo latência, privacidade, confiabilidade, bem como maior capacidade.

A computação segue os dados até o Edge

Desde há uma década, quando a IA emergiu do mundo acadêmico, o treinamento e a inferência de modelos de IA ocorreram na nuvem/data center. Com muitos dos dados sendo gerados e consumidos na borda – especialmente vídeo – só fazia sentido mover a inferência dos dados para a borda, melhorando assim o custo total de propriedade (TCO) para as empresas devido à redução dos custos de rede e computação. Embora os custos de inferência de IA na nuvem sejam recorrentes, o custo de inferência na borda é uma despesa única de hardware. Essencialmente, aumentar o sistema com um processador Edge AI reduz os custos operacionais gerais. Assim como a migração de cargas de trabalho convencionais de IA para o Edge (por exemplo, dispositivo, dispositivo), as cargas de trabalho de IA generativa seguirão o exemplo. Isto trará economias significativas para empresas e consumidores.

A mudança para o limite, juntamente com um acelerador de IA eficiente para executar funções de inferência, também oferece outros benefícios. O principal deles é a latência. Por exemplo, em aplicações de jogos, personagens não-jogadores (NPCs) podem ser controlados e aumentados usando IA generativa. Usando modelos LLM executando aceleradores de IA de ponta em um console de jogos ou PC, os jogadores podem dar objetivos específicos a esses personagens, para que possam participar de forma significativa na história. A baixa latência da inferência de borda local permitirá que a fala e os movimentos do NPC respondam aos comandos e ações dos jogadores em tempo real. Isso proporcionará uma experiência de jogo altamente envolvente de maneira econômica e com baixo consumo de energia.

Em aplicações como saúde, privacidade e confiabilidade são extremamente importantes (por exemplo, avaliação de pacientes, recomendações de medicamentos). Os dados e os modelos Gen AI associados devem estar no local para proteger os dados dos pacientes (privacidade) e quaisquer interrupções de rede que bloqueiem o acesso aos modelos de IA na nuvem podem ser catastróficas. Um dispositivo Edge AI executando um modelo Gen AI desenvolvido especificamente para cada cliente corporativo – neste caso, um provedor de saúde – pode resolver perfeitamente os problemas de privacidade e confiabilidade, ao mesmo tempo em que oferece menor latência e custo.

A IA generativa em dispositivos de ponta garantirá baixa latência em jogos, preservará os dados dos pacientes e aumentará a confiabilidade dos cuidados de saúde.

Muitos modelos Gen AI executados na nuvem podem ter perto de um trilhão de parâmetros – esses modelos podem atender com eficácia a consultas de uso geral. No entanto, aplicações específicas da empresa exigem que os modelos forneçam resultados pertinentes ao caso de uso. Vejamos o exemplo de um assistente baseado em Gen AI criado para receber pedidos em um restaurante fast-food – para que esse sistema tenha uma interação perfeita com o cliente, o modelo subjacente de Gen AI deve ser treinado nos itens do menu do restaurante, conhecendo também os alérgenos e ingredientes . O tamanho do modelo pode ser otimizado usando um superconjunto Large Language Model (LLM) para treinar um LLM relativamente pequeno, de 10 a 30 bilhões de parâmetros e, em seguida, usar ajuste fino adicional com os dados específicos do cliente. Esse modelo pode fornecer resultados com maior precisão e capacidade. E dado o tamanho menor do modelo, ele pode ser efetivamente implantado em um acelerador de IA no Edge.

Geração IA vai ganhar no Edge

Sempre haverá necessidade de Gen AI rodando na nuvem, especialmente para aplicativos de uso geral como ChatGPT e Claude. Mas quando se trata de aplicativos específicos da empresa, como o preenchimento generativo do Adobe Photoshop ou o copiloto do Github, a IA generativa no Edge não é apenas o futuro, é também o presente. Aceleradores de IA específicos são a chave para tornar isso possível.

Como veterano do Vale do Silício e CEO da Kinara Inc., Ravi Annavajjhala traz mais de 20 anos de experiência abrangendo desenvolvimento de negócios, marketing e engenharia, construindo produtos de tecnologia de ponta e
trazê-los ao mercado. Em sua função atual como CEO da Deep Vision, Ravi atua em
seu conselho de administração e arrecadou US$ 50 milhões levando o processador Ara-1 da empresa do pré-silício para
produção em grande escala e aumentar o volume do processador de 2ª geração, Ara-2. Antes de ingressar
Deep Vision, Ravi ocupou cargos de liderança executiva na Intel e na SanDisk, onde desempenhou funções importantes
na condução do crescimento da receita, no desenvolvimento de parcerias estratégicas e no desenvolvimento de roteiros de produtos que
liderou o setor com recursos e capacidades de ponta.