Entre em contato

Modelos de difusĂŁo em IA – tudo o que vocĂȘ precisa saber

InteligĂȘncia artificial

Modelos de difusĂŁo em IA – tudo o que vocĂȘ precisa saber

mm
Uma colagem de rostos humanos criados usando o gerador de imagem AI

No ecossistema de IA, os modelos de difusĂŁo estĂŁo definindo a direção e o ritmo do avanço tecnolĂłgico. Eles estĂŁo revolucionando a maneira como abordamos IA generativa tarefas. Esses modelos sĂŁo baseados na matemĂĄtica dos princĂ­pios gaussianos, variĂąncia, equaçÔes diferenciais e sequĂȘncias generativas. (Explicaremos o jargĂŁo tĂ©cnico abaixo)

Produtos e soluçÔes modernos centrados em IA desenvolvidos pela Nvidia, Google, Adobe e OpenAI colocaram os modelos de difusĂŁo no centro das atençÔes. DALL.E 2, DifusĂŁo EstĂĄvel e Meio da jornada sĂŁo exemplos proeminentes de modelos de difusĂŁo que estĂŁo circulando na internet recentemente. Os usuĂĄrios fornecem um prompt de texto simples como entrada e esses modelos podem convertĂȘ-los em imagens realistas, como a mostrada abaixo.

Uma imagem gerada com Midjourney v5 usando o prompt de entrada: vibrantes papoulas da CalifĂłrnia.

Uma imagem gerada com Midjourney v5 usando o prompt de entrada: vibrantes papoulas da CalifĂłrnia. Fonte: Meio da jornada

Vamos explorar os princípios fundamentais de funcionamento dos modelos de difusão e como eles estão mudando as direçÔes e normas do mundo como o vemos hoje.

O que sĂŁo modelos de difusĂŁo?

De acordo com a publicação da pesquisa “Modelos probabilísticos de difusão sem ruído”, os modelos de difusão são definidos como:

“Um modelo de difusĂŁo ou modelo de difusĂŁo probabilĂ­stica Ă© uma cadeia de Markov parametrizada treinada usando inferĂȘncia variacional para produzir amostras correspondentes aos dados apĂłs um tempo finito”

Simplificando, os modelos de difusĂŁo podem gerar dados semelhantes Ă queles nos quais sĂŁo treinados. Se o modelo treinar com imagens de gatos, ele pode gerar imagens realistas semelhantes de gatos.

Agora, vamos tentar decompor a definição técnica mencionada acima. Os modelos de difusão se inspiram no princípio de funcionamento e na base matemåtica de um modelo probabilístico que pode analisar e prever o comportamento de um sistema que varia ao longo do tempo, como a previsão do retorno do mercado de açÔes ou a propagação de uma pandemia.

A definição afirma que sĂŁo cadeias de Markov parametrizadas treinadas com inferĂȘncia variacional. Cadeias de Markov sĂŁo modelos matemĂĄticos que definem um sistema que alterna entre diferentes estados ao longo do tempo. O estado existente do sistema sĂł pode determinar a probabilidade de transição para um estado especĂ­fico. Em outras palavras, o estado atual de um sistema contĂ©m os possĂ­veis estados que um sistema pode seguir ou adquirir a qualquer momento.

O treinamento do modelo usando inferĂȘncia variacional envolve cĂĄlculos complexos para distribuiçÔes de probabilidade. Tem como objetivo encontrar os parĂąmetros exatos da cadeia de Markov que correspondem aos dados observados (conhecidos ou reais) apĂłs um tempo especĂ­fico. Esse processo minimiza o valor da função de perda do modelo, que Ă© a diferença entre o estado previsto (desconhecido) e o estado observado (conhecido).

Uma vez treinado, o modelo pode gerar amostras correspondentes aos dados observados. Essas amostras representam possíveis trajetórias ou estados que o sistema poderia seguir ou adquirir ao longo do tempo, e cada trajetória tem uma probabilidade diferente de ocorrer. Portanto, o modelo pode prever o comportamento futuro do sistema gerando uma série de amostras e encontrando suas respectivas probabilidades (probabilidade desses eventos ocorrerem).

Como interpretar modelos de difusĂŁo em IA?

Os modelos de difusão são modelos generativos profundos que funcionam adicionando ruído (ruído Gaussiano) aos dados de treinamento disponíveis (também conhecido como processo de difusão direta) e, em seguida, invertendo o processo (conhecido como redução de ruído ou processo de difusão reversa) para recuperar os dados. O modelo aprende gradualmente a remover o ruído. Este processo de redução de ruído aprendido gera novas imagens de alta qualidade a partir de sementes aleatórias (imagens com ruído aleatório), conforme mostrado na ilustração abaixo.

Processo de difusão reversa: Uma imagem ruidosa é eliminada para recuperar a imagem original (ou gerar suas variaçÔes) por meio de um modelo de difusão treinado.

Processo de difusão reversa: Uma imagem ruidosa é eliminada para recuperar a imagem original (ou gerar suas variaçÔes) por meio de um modelo de difusão treinado. Fonte: Modelos probabilísticos de difusão sem ruído

3 categorias de modelos de difusĂŁo

Tem trĂȘs estruturas matemĂĄticas fundamentais que sustentam a ciĂȘncia por trĂĄs dos modelos de difusĂŁo. Todos os trĂȘs trabalham com os mesmos princĂ­pios de adicionar ruĂ­do e removĂȘ-lo para gerar novas amostras. Vamos discuti-los abaixo.

Um modelo de difusĂŁo adiciona e remove ruĂ­do de uma imagem.

Um modelo de difusĂŁo adiciona e remove ruĂ­do de uma imagem. Fonte: Modelos de difusĂŁo na visĂŁo: uma pesquisa

1. Modelos probabilísticos de difusão de redução de ruído (DDPMs)

Conforme explicado acima, os DDPMs sĂŁo modelos generativos usados ​​principalmente para remover o ruĂ­do de dados visuais ou de ĂĄudio. Eles mostraram resultados impressionantes em vĂĄrias tarefas de redução de ruĂ­do de imagem e ĂĄudio. Por exemplo, a indĂșstria cinematogrĂĄfica usa ferramentas modernas de processamento de imagem e vĂ­deo para melhorar a qualidade da produção.

2. Modelos Gerativos Baseados em Pontuação Condicionados por Ruído (SGMs)

SGMs podem gerar novas amostras de uma determinada distribuição. Eles trabalham aprendendo uma função de pontuação de estimativa que pode estimar a densidade de log da distribuição de destino. A estimativa de densidade de log faz suposiçÔes para pontos de dados disponíveis que fazem parte de um conjunto de dados desconhecido (conjunto de teste). Essa função de pontuação pode então gerar novos pontos de dados da distribuição.

Por exemplo, a falsificaçÔes profundas sĂŁo notĂłrios por produzirem vĂ­deos e ĂĄudios falsos de personalidades famosas. Mas eles sĂŁo atribuĂ­dos principalmente a Redes AdversĂĄrias Generativas (GANs). No entanto, os SGMs tĂȘm mostraram capacidades semelhantes - Ă s vezes superam – na geração de rostos de celebridades de alta qualidade. AlĂ©m disso, os SGMs podem ajudar a expandir os conjuntos de dados de saĂșde, que nĂŁo estĂŁo prontamente disponĂ­veis em grandes quantidades devido a regulamentos rĂ­gidos e padrĂ”es do setor.

3. EquaçÔes Diferenciais Estocåsticas (SDEs)

SDEs descrevem mudanças em processos aleatórios em relação ao tempo. Eles são amplamente utilizados em física e mercados financeiros envolvendo fatores aleatórios que impactam significativamente os resultados do mercado.

Por exemplo, os preços das commodities sĂŁo altamente dinĂąmicos e afetados por uma sĂ©rie de fatores aleatĂłrios. SDEs calculam derivativos financeiros como contratos futuros (como contratos de petrĂłleo bruto). Eles podem modelar as flutuaçÔes e calcular preços favorĂĄveis ​​com precisĂŁo para dar uma sensação de segurança.

Principais aplicaçÔes de modelos de difusão em IA

Vejamos algumas prĂĄticas amplamente adaptadas e usos de modelos de difusĂŁo em IA.

Geração de vídeo de alta qualidade

Criando vĂ­deos de alta qualidade usando deep learning Ă© desafiador, pois requer alta continuidade de quadros de vĂ­deo. É aqui que os modelos de difusĂŁo sĂŁo Ășteis, pois podem gerar um subconjunto de quadros de vĂ­deo para preencher entre os quadros ausentes, resultando em vĂ­deos suaves e de alta qualidade sem latĂȘncia.

Pesquisadores desenvolveram o Modelo de difusão flexível e difusão de vídeo residual técnicas para atender a esse propósito. Esses modelos também podem produzir vídeos realistas adicionando quadros gerados por AI entre os quadros reais.

Esses modelos podem simplesmente estender o FPS (quadros por segundo) de um vĂ­deo com baixo FPS adicionando quadros fictĂ­cios depois de aprender os padrĂ”es dos quadros disponĂ­veis. Com quase nenhuma perda de quadro, essas estruturas podem ajudar ainda mais os modelos baseados em aprendizado profundo a gerar vĂ­deos baseados em IA a partir do zero, que se parecem com fotos naturais de configuraçÔes de cĂąmera de Ășltima geração.

Uma vasta gama de notĂĄveis Geradores de vĂ­deo AI estĂĄ disponĂ­vel em 2023 para tornar a produção e edição de conteĂșdo de vĂ­deo rĂĄpida e direta.

Geração de texto para imagem

Os modelos de texto para imagem usam prompts de entrada para gerar imagens de alta qualidade. Por exemplo, dando entrada “maçã vermelha em um prato” e produzindo uma imagem fotorrealista de uma maçã em um prato. difusão mista e a soltar CLIP são dois exemplos proeminentes de tais modelos que podem gerar imagens altamente relevantes e precisas com base na entrada do usuário.

Também, GLIDE da OpenAI é outra solução amplamente conhecida lançada em 2021 que produz imagens fotorrealistas usando a entrada do usuårio. Mais tarde, a OpenAI lançou o DALL.E-2, seu modelo de geração de imagem mais avançado até então.

Da mesma forma, o Google também desenvolveu um modelo de geração de imagens conhecido como Imagem, que usa um grande modelo de linguagem para desenvolver uma compreensão textual profunda do texto de entrada e, em seguida, gera imagens fotorrealistas.

Mencionamos outras ferramentas populares de geração de imagens, como Midjourney e Stable Diffusion (Dream Studio) acima. DĂȘ uma olhada em uma imagem gerada usando Stable Diffusion abaixo.

Uma colagem de rostos humanos criada com Stable Diffusion 1.5

Uma imagem criada com Stable Diffusion 1.5 usando o seguinte prompt: “collages, hiper-realista, muitas variaçÔes retrato de thom yorke muito antigo, variaçÔes faciais, cantor e compositor, perfil (lateral), vĂĄrias idades, lente macro, espaço liminar, por lee bermejo, alphonse mucha e greg rutkowski, barba grisalha, rosto liso, maçãs do rosto”

Modelos de difusão em IA – O que esperar no futuro?

Os modelos de difusão revelaram um potencial promissor como uma abordagem robusta para gerar amostras de alta qualidade a partir de conjuntos de dados complexos de imagem e vídeo. Ao melhorar a capacidade humana de usar e manipular dados, os modelos de difusão podem potencialmente revolucionar o mundo como o vemos hoje. Podemos esperar ver ainda mais aplicaçÔes de modelos de difusão tornando-se parte integrante de nossas vidas diårias.

Dito isto, os modelos de difusĂŁo nĂŁo sĂŁo a Ășnica tĂ©cnica de IA generativa. Os pesquisadores tambĂ©m usam Generative Adversarial Networks (GANs), Variational Codificadores automĂĄticose modelos generativos profundos baseados em fluxo para gerar conteĂșdo de IA. Compreender as caracterĂ­sticas fundamentais que diferenciam os modelos de difusĂŁo de outros modelos generativos pode ajudar a produzir soluçÔes mais eficazes nos prĂłximos dias.

Para saber mais sobre tecnologias baseadas em IA, visite Unir.ai. Confira abaixo nossos recursos selecionados sobre ferramentas de IA generativas.

Haziqa Ă© um Cientista de Dados com vasta experiĂȘncia em escrever conteĂșdo tĂ©cnico para empresas de IA e SaaS.