Connect with us

IA 101

Modelos de Difusão em IA – Tudo o que Você Precisa Saber

mm
A collage of human faces created using AI image generator

No ecossistema de IA, os modelos de difusão estão definindo a direção e o ritmo do avanço tecnológico. Eles estão revolucionando a forma como abordamos tarefas complexas de IA generativa. Esses modelos são baseados na matemática de princípios gaussianos, variância, equações diferenciais e sequências generativas. (Explicaremos o jargão técnico abaixo)

Produtos e soluções modernos centrados em IA, desenvolvidos pela Nvidia, Google, Adobe e OpenAI, colocaram os modelos de difusão no centro dos holofotes. DALL.E 2, Stable Diffusion e Midjourney são exemplos proeminentes de modelos de difusão que estão fazendo o rounds na internet recentemente. Os usuários fornecem um prompt de texto simples como entrada, e esses modelos podem convertê-los em imagens realistas, como a mostrada abaixo.

Uma imagem gerada com Midjourney v5 usando o prompt de entrada: vibrant California poppies.

Uma imagem gerada com Midjourney v5 usando o prompt de entrada: vibrant California poppies. Fonte: Midjourney

Vamos explorar os princípios fundamentais de funcionamento dos modelos de difusão e como eles estão mudando as direções e normas do mundo como o vemos hoje.

O que são Modelos de Difusão?

De acordo com a publicação de pesquisa “Denoising Diffusion Probabilistic Models”, os modelos de difusão são definidos como:

“Um modelo de difusão ou modelo de difusão probabilístico é uma cadeia de Markov parametrizada treinada usando inferência variacional para produzir amostras que correspondem aos dados após um tempo finito”

Em resumo, os modelos de difusão podem gerar dados semelhantes aos que são treinados. Se o modelo é treinado em imagens de gatos, ele pode gerar imagens realistas de gatos.

Agora, vamos tentar quebrar a definição técnica mencionada acima. Os modelos de difusão tiram inspiração do princípio de funcionamento e fundamento matemático de um modelo probabilístico que pode analisar e prever o comportamento de um sistema que varia com o tempo, como prever o retorno do mercado de ações ou a propagação de uma pandemia.

A definição afirma que eles são cadeias de Markov parametrizadas treinadas com inferência variacional. As cadeias de Markov são modelos matemáticos que definem um sistema que muda entre diferentes estados ao longo do tempo. O estado existente do sistema pode determinar apenas a probabilidade de transição para um estado específico. Em outras palavras, o estado atual de um sistema contém os estados possíveis que o sistema pode seguir ou adquirir a qualquer momento.

Treinar o modelo usando inferência variacional envolve cálculos complexos para distribuições de probabilidade. Ele visa encontrar os parâmetros exatos da cadeia de Markov que correspondem aos dados observados (conhecidos ou reais) após um tempo específico. Esse processo minimiza o valor da função de perda do modelo, que é a diferença entre o estado previsto (desconhecido) e o estado observado (conhecido).

Uma vez treinado, o modelo pode gerar amostras que correspondem aos dados observados. Essas amostras representam trajetórias possíveis ou estados que o sistema pode seguir ou adquirir ao longo do tempo, e cada trajetória tem uma probabilidade diferente de ocorrer. Portanto, o modelo pode prever o comportamento futuro do sistema gerando uma variedade de amostras e encontrando suas probabilidades (probabilidade desses eventos ocorrerem).

Como Interpretar Modelos de Difusão em IA?

Os modelos de difusão são modelos generativos profundos que funcionam adicionando ruído (ruído gaussiano) aos dados de treinamento disponíveis (também conhecido como o processo de difusão direta) e, em seguida, revertendo o processo (conhecido como desruído ou o processo de difusão reversa) para recuperar os dados. O modelo aprende gradualmente a remover o ruído. Esse processo de desruído aprendido gera novas imagens de alta qualidade a partir de sementes aleatórias (imagens ruidosas aleatórias), como mostrado na ilustração abaixo.

Processo de difusão reversa: uma imagem ruidosa é desruída para recuperar a imagem original (ou gerar suas variações) por meio de um modelo de difusão treinado.

Processo de difusão reversa: uma imagem ruidosa é desruída para recuperar a imagem original (ou gerar suas variações) por meio de um modelo de difusão treinado. Fonte: Denoising Diffusion Probabilistic Models

3 Categorias de Modelos de Difusão

Existem três estruturas matemáticas fundamentais que sustentam a ciência por trás dos modelos de difusão. Todos os três funcionam nos mesmos princípios de adicionar ruído e, em seguida, removê-lo para gerar novas amostras. Vamos discuti-los abaixo.

Um modelo de difusão adiciona e remove ruído de uma imagem.

Um modelo de difusão adiciona e remove ruído de uma imagem. Fonte: Diffusion Models in Vision: A Survey

1. Modelos de Difusão Probabilísticos de Desruído (DDPMs)

Como explicado acima, os DDPMs são modelos generativos principalmente usados para remover ruído de dados visuais ou de áudio. Eles mostraram resultados impressionantes em várias tarefas de desruído de imagens e áudio. Por exemplo, a indústria cinematográfica usa ferramentas modernas de processamento de imagens e vídeos para melhorar a qualidade de produção.

2. Modelos Generativos Baseados em Pontuações de Ruído (SGMs)

Os SGMs podem gerar novas amostras a partir de uma distribuição dada. Eles funcionam aprendendo uma função de pontuação de estimativa que pode estimar a densidade logarítmica da distribuição alvo. A estimativa da densidade logarítmica faz suposições para pontos de dados disponíveis que são parte de um conjunto de dados desconhecido (conjunto de teste). Essa função de pontuação pode, então, gerar novos pontos de dados a partir da distribuição.

Por exemplo, deepfakes são notórios por produzir vídeos e áudios falsos de personalidades famosas. Mas eles são principalmente atribuídos a Redes Adversárias Generativas (GANs). No entanto, os SGMs têm mostrado capacidades semelhantes – às vezes superando – na geração de faces de celebridades de alta qualidade. Além disso, os SGMs podem ajudar a expandir conjuntos de dados de saúde, que não estão facilmente disponíveis em grandes quantidades devido a regulamentações e padrões da indústria.

3. Equações Diferenciais Estocásticas (SDEs)

As SDEs descrevem mudanças em processos aleatórios em relação ao tempo. Elas são amplamente usadas em física e mercados financeiros que envolvem fatores aleatórios que impactam significativamente os resultados do mercado.

Por exemplo, os preços de commodities são altamente dinâmicos e impactados por uma variedade de fatores aleatórios. As SDEs calculam derivativos financeiros, como contratos futuros (como contratos de petróleo). Elas podem modelar as flutuações e calcular preços favoráveis com precisão para dar uma sensação de segurança.

Principais Aplicações de Modelos de Difusão em IA

Vamos olhar para algumas práticas e usos amplamente adaptados de modelos de difusão em IA.

Geração de Vídeo de Alta Qualidade

Criar vídeos de alta qualidade usando aprendizado profundo é desafiador, pois requer alta continuidade de quadros de vídeo. É aqui que os modelos de difusão entram em ação, pois podem gerar um subconjunto de quadros de vídeo para preencher os quadros ausentes, resultando em vídeos de alta qualidade e suaves sem latência.

Pesquisadores desenvolveram as técnicas Flexible Diffusion Model e Residual Video Diffusion para atender a esse propósito. Esses modelos também podem produzir vídeos realistas adicionando quadros gerados por IA entre os quadros reais.

Esses modelos podem simplesmente estender a taxa de quadros por segundo (FPS) de um vídeo com baixa taxa de quadros adicionando quadros fictícios após aprender os padrões a partir dos quadros disponíveis. Com quase nenhuma perda de quadros, esses frameworks podem ajudar ainda mais os modelos baseados em aprendizado profundo a gerar vídeos baseados em IA a partir do zero que parecem tiros naturais de configurações de câmera de alta qualidade.

Uma ampla gama de geradores de vídeo de IA está disponível em 2023 para tornar a produção e edição de conteúdo de vídeo rápida e fácil.

Geração de Imagem a Partir de Texto

Modelos de imagem a partir de texto usam prompts de entrada para gerar imagens de alta qualidade. Por exemplo, dar a entrada “maçã vermelha em um prato” e produzir uma imagem fotorealista de uma maçã em um prato. Blended diffusion e unCLIP são dois exemplos proeminentes de tais modelos que podem gerar imagens altamente relevantes e precisas com base na entrada do usuário.

Além disso, GLIDE da OpenAI é outra solução amplamente conhecida lançada em 2021 que produz imagens fotorealistas usando a entrada do usuário. Mais tarde, a OpenAI lançou o DALL.E-2, seu modelo de geração de imagem mais avançado até agora.

Da mesma forma, o Google desenvolveu um modelo de geração de imagem conhecido como Imagen, que usa um grande modelo de linguagem para desenvolver uma compreensão textual profunda da entrada de texto e, em seguida, gera imagens fotorealistas.

Mencionamos outras ferramentas de geração de imagem populares, como Midjourney e Stable Diffusion (DreamStudio), acima. Dê uma olhada em uma imagem gerada usando Stable Diffusion abaixo.

Uma imagem criada com Stable Diffusion 1.5

Uma imagem criada com Stable Diffusion 1.5 usando o seguinte prompt: “colagens, hiper-realistas, muitas variações de retrato de Thom Yorke muito velho, variações de rosto, cantor-compositor, (lado) perfil, várias idades, lente macro, espaço liminar, por Lee Bermejo, Alphonse Mucha e Greg Rutkowski, barba grisalha, rosto liso, maçãs do rosto”

Modelos de Difusão em IA – O que Esperar no Futuro?

Os modelos de difusão revelaram um potencial promissor como uma abordagem robusta para gerar amostras de alta qualidade a partir de conjuntos de dados de imagem e vídeo complexos. Ao melhorar a capacidade humana de usar e manipular dados, os modelos de difusão podem potencialmente revolucionar o mundo como o vemos hoje. Podemos esperar ver ainda mais aplicações de modelos de difusão se tornando parte integral de nossas vidas diárias.

Dito isso, os modelos de difusão não são a única técnica de IA generativa. Os pesquisadores também usam Redes Adversárias Generativas (GANs), Autoencoders Variacionais e modelos generativos baseados em fluxo para gerar conteúdo de IA. Entender as características fundamentais que diferenciam os modelos de difusão de outros modelos generativos pode ajudar a produzir soluções mais eficazes nos próximos dias.

Para aprender mais sobre tecnologias baseadas em IA, visite Unite.ai. Confira nossos recursos curados sobre ferramentas de IA generativa abaixo.

Haziqa é uma Cientista de Dados com ampla experiência em escrever conteúdo técnico para empresas de IA e SaaS.