InteligĂȘncia artificial
Modelos de difusĂŁo em IA â tudo o que vocĂȘ precisa saber

No ecossistema de IA, os modelos de difusĂŁo estĂŁo definindo a direção e o ritmo do avanço tecnolĂłgico. Eles estĂŁo revolucionando a maneira como abordamos IA generativa tarefas. Esses modelos sĂŁo baseados na matemĂĄtica dos princĂpios gaussianos, variĂąncia, equaçÔes diferenciais e sequĂȘncias generativas. (Explicaremos o jargĂŁo tĂ©cnico abaixo)
Produtos e soluçÔes modernos centrados em IA desenvolvidos pela Nvidia, Google, Adobe e OpenAI colocaram os modelos de difusĂŁo no centro das atençÔes. DALL.E 2, DifusĂŁo EstĂĄvel e Meio da jornada sĂŁo exemplos proeminentes de modelos de difusĂŁo que estĂŁo circulando na internet recentemente. Os usuĂĄrios fornecem um prompt de texto simples como entrada e esses modelos podem convertĂȘ-los em imagens realistas, como a mostrada abaixo.

Uma imagem gerada com Midjourney v5 usando o prompt de entrada: vibrantes papoulas da CalifĂłrnia. Fonte: Meio da jornada
Vamos explorar os princĂpios fundamentais de funcionamento dos modelos de difusĂŁo e como eles estĂŁo mudando as direçÔes e normas do mundo como o vemos hoje.
O que sĂŁo modelos de difusĂŁo?
De acordo com a publicação da pesquisa âModelos probabilĂsticos de difusĂŁo sem ruĂdoâ, os modelos de difusĂŁo sĂŁo definidos como:
âUm modelo de difusĂŁo ou modelo de difusĂŁo probabilĂstica Ă© uma cadeia de Markov parametrizada treinada usando inferĂȘncia variacional para produzir amostras correspondentes aos dados apĂłs um tempo finitoâ
Simplificando, os modelos de difusĂŁo podem gerar dados semelhantes Ă queles nos quais sĂŁo treinados. Se o modelo treinar com imagens de gatos, ele pode gerar imagens realistas semelhantes de gatos.
Agora, vamos tentar decompor a definição tĂ©cnica mencionada acima. Os modelos de difusĂŁo se inspiram no princĂpio de funcionamento e na base matemĂĄtica de um modelo probabilĂstico que pode analisar e prever o comportamento de um sistema que varia ao longo do tempo, como a previsĂŁo do retorno do mercado de açÔes ou a propagação de uma pandemia.
A definição afirma que sĂŁo cadeias de Markov parametrizadas treinadas com inferĂȘncia variacional. Cadeias de Markov sĂŁo modelos matemĂĄticos que definem um sistema que alterna entre diferentes estados ao longo do tempo. O estado existente do sistema sĂł pode determinar a probabilidade de transição para um estado especĂfico. Em outras palavras, o estado atual de um sistema contĂ©m os possĂveis estados que um sistema pode seguir ou adquirir a qualquer momento.
O treinamento do modelo usando inferĂȘncia variacional envolve cĂĄlculos complexos para distribuiçÔes de probabilidade. Tem como objetivo encontrar os parĂąmetros exatos da cadeia de Markov que correspondem aos dados observados (conhecidos ou reais) apĂłs um tempo especĂfico. Esse processo minimiza o valor da função de perda do modelo, que Ă© a diferença entre o estado previsto (desconhecido) e o estado observado (conhecido).
Uma vez treinado, o modelo pode gerar amostras correspondentes aos dados observados. Essas amostras representam possĂveis trajetĂłrias ou estados que o sistema poderia seguir ou adquirir ao longo do tempo, e cada trajetĂłria tem uma probabilidade diferente de ocorrer. Portanto, o modelo pode prever o comportamento futuro do sistema gerando uma sĂ©rie de amostras e encontrando suas respectivas probabilidades (probabilidade desses eventos ocorrerem).
Como interpretar modelos de difusĂŁo em IA?
Os modelos de difusĂŁo sĂŁo modelos generativos profundos que funcionam adicionando ruĂdo (ruĂdo Gaussiano) aos dados de treinamento disponĂveis (tambĂ©m conhecido como processo de difusĂŁo direta) e, em seguida, invertendo o processo (conhecido como redução de ruĂdo ou processo de difusĂŁo reversa) para recuperar os dados. O modelo aprende gradualmente a remover o ruĂdo. Este processo de redução de ruĂdo aprendido gera novas imagens de alta qualidade a partir de sementes aleatĂłrias (imagens com ruĂdo aleatĂłrio), conforme mostrado na ilustração abaixo.

Processo de difusĂŁo reversa: Uma imagem ruidosa Ă© eliminada para recuperar a imagem original (ou gerar suas variaçÔes) por meio de um modelo de difusĂŁo treinado. Fonte: Modelos probabilĂsticos de difusĂŁo sem ruĂdo
3 categorias de modelos de difusĂŁo
Tem trĂȘs estruturas matemĂĄticas fundamentais que sustentam a ciĂȘncia por trĂĄs dos modelos de difusĂŁo. Todos os trĂȘs trabalham com os mesmos princĂpios de adicionar ruĂdo e removĂȘ-lo para gerar novas amostras. Vamos discuti-los abaixo.

Um modelo de difusĂŁo adiciona e remove ruĂdo de uma imagem. Fonte: Modelos de difusĂŁo na visĂŁo: uma pesquisa
1. Modelos probabilĂsticos de difusĂŁo de redução de ruĂdo (DDPMs)
Conforme explicado acima, os DDPMs sĂŁo modelos generativos usados ââprincipalmente para remover o ruĂdo de dados visuais ou de ĂĄudio. Eles mostraram resultados impressionantes em vĂĄrias tarefas de redução de ruĂdo de imagem e ĂĄudio. Por exemplo, a indĂșstria cinematogrĂĄfica usa ferramentas modernas de processamento de imagem e vĂdeo para melhorar a qualidade da produção.
2. Modelos Gerativos Baseados em Pontuação Condicionados por RuĂdo (SGMs)
SGMs podem gerar novas amostras de uma determinada distribuição. Eles trabalham aprendendo uma função de pontuação de estimativa que pode estimar a densidade de log da distribuição de destino. A estimativa de densidade de log faz suposiçÔes para pontos de dados disponĂveis que fazem parte de um conjunto de dados desconhecido (conjunto de teste). Essa função de pontuação pode entĂŁo gerar novos pontos de dados da distribuição.
Por exemplo, a falsificaçÔes profundas sĂŁo notĂłrios por produzirem vĂdeos e ĂĄudios falsos de personalidades famosas. Mas eles sĂŁo atribuĂdos principalmente a Redes AdversĂĄrias Generativas (GANs). No entanto, os SGMs tĂȘm mostraram capacidades semelhantes - Ă s vezes superam â na geração de rostos de celebridades de alta qualidade. AlĂ©m disso, os SGMs podem ajudar a expandir os conjuntos de dados de saĂșde, que nĂŁo estĂŁo prontamente disponĂveis em grandes quantidades devido a regulamentos rĂgidos e padrĂ”es do setor.
3. EquaçÔes Diferenciais Estocåsticas (SDEs)
SDEs descrevem mudanças em processos aleatĂłrios em relação ao tempo. Eles sĂŁo amplamente utilizados em fĂsica e mercados financeiros envolvendo fatores aleatĂłrios que impactam significativamente os resultados do mercado.
Por exemplo, os preços das commodities sĂŁo altamente dinĂąmicos e afetados por uma sĂ©rie de fatores aleatĂłrios. SDEs calculam derivativos financeiros como contratos futuros (como contratos de petrĂłleo bruto). Eles podem modelar as flutuaçÔes e calcular preços favorĂĄveis ââcom precisĂŁo para dar uma sensação de segurança.
Principais aplicaçÔes de modelos de difusão em IA
Vejamos algumas prĂĄticas amplamente adaptadas e usos de modelos de difusĂŁo em IA.
Geração de vĂdeo de alta qualidade
Criando vĂdeos de alta qualidade usando deep learning Ă© desafiador, pois requer alta continuidade de quadros de vĂdeo. Ă aqui que os modelos de difusĂŁo sĂŁo Ășteis, pois podem gerar um subconjunto de quadros de vĂdeo para preencher entre os quadros ausentes, resultando em vĂdeos suaves e de alta qualidade sem latĂȘncia.
Pesquisadores desenvolveram o Modelo de difusĂŁo flexĂvel e difusĂŁo de vĂdeo residual tĂ©cnicas para atender a esse propĂłsito. Esses modelos tambĂ©m podem produzir vĂdeos realistas adicionando quadros gerados por AI entre os quadros reais.
Esses modelos podem simplesmente estender o FPS (quadros por segundo) de um vĂdeo com baixo FPS adicionando quadros fictĂcios depois de aprender os padrĂ”es dos quadros disponĂveis. Com quase nenhuma perda de quadro, essas estruturas podem ajudar ainda mais os modelos baseados em aprendizado profundo a gerar vĂdeos baseados em IA a partir do zero, que se parecem com fotos naturais de configuraçÔes de cĂąmera de Ășltima geração.
Uma vasta gama de notĂĄveis Geradores de vĂdeo AI estĂĄ disponĂvel em 2023 para tornar a produção e edição de conteĂșdo de vĂdeo rĂĄpida e direta.
Geração de texto para imagem
Os modelos de texto para imagem usam prompts de entrada para gerar imagens de alta qualidade. Por exemplo, dando entrada âmaçã vermelha em um pratoâ e produzindo uma imagem fotorrealista de uma maçã em um prato. difusĂŁo mista e a soltar CLIP sĂŁo dois exemplos proeminentes de tais modelos que podem gerar imagens altamente relevantes e precisas com base na entrada do usuĂĄrio.
Também, GLIDE da OpenAI é outra solução amplamente conhecida lançada em 2021 que produz imagens fotorrealistas usando a entrada do usuårio. Mais tarde, a OpenAI lançou o DALL.E-2, seu modelo de geração de imagem mais avançado até então.
Da mesma forma, o Google também desenvolveu um modelo de geração de imagens conhecido como Imagem, que usa um grande modelo de linguagem para desenvolver uma compreensão textual profunda do texto de entrada e, em seguida, gera imagens fotorrealistas.
Mencionamos outras ferramentas populares de geração de imagens, como Midjourney e Stable Diffusion (Dream Studio) acima. DĂȘ uma olhada em uma imagem gerada usando Stable Diffusion abaixo.

Uma imagem criada com Stable Diffusion 1.5 usando o seguinte prompt: âcollages, hiper-realista, muitas variaçÔes retrato de thom yorke muito antigo, variaçÔes faciais, cantor e compositor, perfil (lateral), vĂĄrias idades, lente macro, espaço liminar, por lee bermejo, alphonse mucha e greg rutkowski, barba grisalha, rosto liso, maçãs do rostoâ
Modelos de difusĂŁo em IA â O que esperar no futuro?
Os modelos de difusĂŁo revelaram um potencial promissor como uma abordagem robusta para gerar amostras de alta qualidade a partir de conjuntos de dados complexos de imagem e vĂdeo. Ao melhorar a capacidade humana de usar e manipular dados, os modelos de difusĂŁo podem potencialmente revolucionar o mundo como o vemos hoje. Podemos esperar ver ainda mais aplicaçÔes de modelos de difusĂŁo tornando-se parte integrante de nossas vidas diĂĄrias.
Dito isto, os modelos de difusĂŁo nĂŁo sĂŁo a Ășnica tĂ©cnica de IA generativa. Os pesquisadores tambĂ©m usam Generative Adversarial Networks (GANs), Variational Codificadores automĂĄticose modelos generativos profundos baseados em fluxo para gerar conteĂșdo de IA. Compreender as caracterĂsticas fundamentais que diferenciam os modelos de difusĂŁo de outros modelos generativos pode ajudar a produzir soluçÔes mais eficazes nos prĂłximos dias.
Para saber mais sobre tecnologias baseadas em IA, visite Unir.ai. Confira abaixo nossos recursos selecionados sobre ferramentas de IA generativas.
- As 10 melhores ferramentas de aprimorador e upscaler de imagem AI
- 10 melhores geradores de arte de IA
- 8 melhores geradores de mĂșsica AI
- 9 melhores ferramentas e aplicativos de aprimoramento de vĂdeo
- 8 âMelhoresâ Geradores de VĂdeo AI
- 10 melhores geradores de voz AI
- 9 âmelhoresâ ferramentas e aplicativos de escrita de IA












