Inteligência artificial

Como a Difusão Estável Pode se Desenvolver como um Produto de Consumo de Ponta

Published September 15, 2022

Updated April 28, 2026

Martin Anderson

Ironia à parte, a Difusão Estável, o novo quadro de síntese de imagem de IA que conquistou o mundo, não é nem estável nem realmente “difusa” – pelo menos, não ainda.

A gama completa de capacidades do sistema está espalhada por uma variedade mutável de ofertas de uma mão cheia de desenvolvedores que trocam freneticamente as últimas informações e teorias em colóquios diversos no Discord – e a vasta maioria dos procedimentos de instalação para os pacotes que estão criando ou modificando está muito longe de ser “plug and play”.

Em vez disso, tendem a exigir instalação via linha de comando ou via BAT, por meio de GIT, Conda, Python, Miniconda e outros quadros de desenvolvimento de ponta – pacotes de software tão raros entre o público em geral que sua instalação é frequentemente sinalizada por fornecedores de antivírus e anti-malware como evidência de um sistema comprometido.

Apenas uma pequena seleção de etapas no desafio que a instalação padrão da Difusão Estável atualmente exige. Muitas das distribuições também exigem versões específicas do Python, que podem entrar em conflito com as versões existentes instaladas na máquina do usuário – embora isso possa ser evitado com instalações baseadas em Docker e, até certo ponto, por meio do uso de ambientes Conda.

As threads de mensagem em ambas as comunidades SFW e NSFW da Difusão Estável estão inundadas de dicas e truques relacionados à manipulação de scripts Python e instalações padrão, a fim de habilitar funcionalidades aprimoradas ou resolver erros de dependência frequentes e uma série de outros problemas.

Isso deixa o consumidor médio, interessado em criar imagens incríveis a partir de prompts de texto, praticamente à mercê do número crescente de interfaces da web API monetizadas, a maioria das quais oferece um número mínimo de gerações de imagens gratuitas antes de exigir a compra de tokens.

Além disso, quase todas essas ofertas baseadas na web se recusam a produzir conteúdo NSFW (muito do qual pode se referir a assuntos não pornográficos de interesse geral, como “guerra”), o que distingue a Difusão Estável dos serviços censurados da OpenAI’s DALL-E 2.

‘Photoshop para Difusão Estável’

Seduzidos pelas imagens fabulosas, ousadas ou de outro mundo que povoam o hashtag #stablediffusion do Twitter diariamente, o que o mundo mais amplo está arguamente esperando é ‘Photoshop para Difusão Estável’ – um aplicativo instalável multiplataforma que incorpora a melhor e mais poderosa funcionalidade da arquitetura da Stability.ai, bem como as various inovações ingentes da comunidade de desenvolvimento emergente da SD, sem janelas CLI flutuantes, rotinas de instalação e atualização obscuras e mutáveis ou recursos faltantes.

O que temos atualmente, na maioria das instalações mais capazes, é uma página da web variadamente elegante, ladeada por uma janela de linha de comando desencarnada, e cuja URL é uma porta localhost:

Semelhante a aplicativos de síntese de CLI, como FaceSwap, e o DeepFaceLab centrado em BAT, a instalação ‘prepack’ da Difusão Estável mostra suas raízes de linha de comando, com a interface acessada via uma porta localhost (veja o topo da imagem acima) que se comunica com a funcionalidade baseada em CLI da Difusão Estável.

Sem dúvida, um aplicativo mais simplificado está a caminho. Já existem vários aplicativos integrais baseados em Patreon que podem ser baixados, como GRisk e NMKD (veja a imagem abaixo) – mas nenhum que, até agora, integre a gama completa de recursos que algumas das implementações mais avançadas e menos acessíveis da Difusão Estável podem oferecer.

Pacotes iniciais da Difusão Estável, levemente ‘aplicativados’. O NMKD é o primeiro a integrar a saída da CLI diretamente na GUI.

Vamos dar uma olhada no que uma implementação mais polida e integral da Difusão Estável pode eventualmente parecer – e quais desafios ela pode enfrentar.

Considerações Legais para um Aplicativo Comercial de Difusão Estável Totalmente Financiado

O Fator NSFW

O código-fonte da Difusão Estável foi lançado sob uma licença extremamente permissiva que não proíbe reimplementações comerciais e obras derivadas que se baseiam extensivamente no código-fonte.

Além do número crescente de builds da Difusão Estável baseados em Patreon, bem como do grande número de plugins de aplicativos em desenvolvimento para Figma, Krita, Photoshop, GIMP, e Blender (entre outros), não há razão prática pela qual uma casa de desenvolvimento de software bem financiada não pudesse desenvolver um aplicativo de Difusão Estável muito mais sofisticado e capaz. Do ponto de vista do mercado, há todos os motivos para acreditar que várias dessas iniciativas já estão bem em andamento.

Aqui, tais esforços enfrentam imediatamente o dilema de decidir se o aplicativo permitirá que o filtro NSFW nativo da Difusão Estável (um fragmento de código) seja desativado.

‘Enterrar’ o Switch NSFW

Embora a licença de código aberto da Stability.ai para a Difusão Estável inclua uma lista amplamente interpretável de aplicações para as quais ela não pode ser usada (arguivelmente incluindo conteúdo pornográfico e deepfakes), a única maneira pela qual um fornecedor poderia efetivamente proibir tal uso seria compilar o filtro NSFW em um executável opaco em vez de um parâmetro em um arquivo Python, ou aplicar uma comparação de checksum no arquivo Python ou DLL que contém a diretiva NSFW, de modo que os renders não possam ocorrer se os usuários alterarem essa configuração.

Isso deixaria o aplicativo putativo ‘castrado’ de maneira semelhante à como o DALL-E 2 atualmente é, diminuindo seu apelo comercial. Além disso, inevitavelmente, versões descompiladas e ‘manipuladas’ desses componentes (seja elementos de tempo de execução Python originais ou arquivos DLL compilados, como os usados na linha de ferramentas de melhoria de imagem de IA da Topaz) provavelmente surgiriam na comunidade de hacking/torrent para desbloquear tais restrições, simplesmente substituindo os elementos obstrutivos e anulando quaisquer requisitos de checksum.

No final, o fornecedor pode optar por simplesmente repetir o aviso da Stability.ai contra o uso indevido que caracteriza a primeira execução de muitas distribuições atuais da Difusão Estável.

No entanto, os pequenos desenvolvedores de código aberto que atualmente usam declarações informais desta forma têm pouco a perder em comparação com uma empresa de software que investiu quantias significativas de tempo e dinheiro para tornar a Difusão Estável completa e acessível – o que convida a uma consideração mais profunda.

Responsabilidade por Deepfakes

Como recentemente observamos, o banco de dados LAION-aesthetics, parte dos 4,2 bilhões de imagens nas quais os modelos atuais da Difusão Estável foram treinados, contém um grande número de imagens de celebridades, permitindo que os usuários criem efetivamente deepfakes, incluindo deepfakes de celebridades pornográficas.

De nosso artigo recente, quatro estágios de Jennifer Connelly ao longo de quatro décadas de sua carreira, inferidos a partir da Difusão Estável.

Isso é uma questão separada e mais controversa do que a geração de (usualmente) pornô “abstrato”, que não retrata pessoas “reais” (embora tais imagens sejam inferidas a partir de múltiplas fotos reais no material de treinamento).

Desde que um número crescente de estados dos EUA e países estão desenvolvendo ou instituíram leis contra a pornografia de deepfakes, a capacidade da Difusão Estável de criar pornô de celebridades pode significar que um aplicativo comercial que não esteja completamente censurado (ou seja, que possa criar material pornográfico) ainda precisaria de alguma capacidade de filtrar faces de celebridades percebidas.

Um método seria fornecer uma lista pré-definida de termos que não serão aceitos em um prompt do usuário, relacionados a nomes de celebridades e a personagens fictícias com as quais elas podem estar associadas. Presumivelmente, tais configurações precisariam ser instituídas em mais idiomas do que apenas o inglês, uma vez que os dados originais apresentam outros idiomas. Outra abordagem poderia ser incorporar sistemas de reconhecimento de celebridades, como os desenvolvidos pela Clarifai.

Pode ser necessário que os produtores de software incorporem tais métodos, talvez inicialmente desativados, como pode ajudar a prevenir que um aplicativo autônomo de Difusão Estável gere faces de celebridades, pendente de nova legislação que possa tornar tal funcionalidade ilegal.

Uma vez mais, no entanto, tal funcionalidade poderia inevitavelmente ser descompilada e revertida por partes interessadas; no entanto, o produtor de software poderia, nesse caso, alegar que isso é efetivamente vandalismo não sancionado – desde que esse tipo de engenharia reversa não seja feito excessivamente fácil.

Recursos que Podem Ser Incluídos

A funcionalidade principal em qualquer distribuição da Difusão Estável seria esperada de qualquer aplicativo comercial bem financiado. Isso inclui a capacidade de usar prompts de texto para gerar imagens apropriadas (texto-para-imagem); a capacidade de usar esboços ou outras imagens como diretrizes para novas imagens geradas (imagem-para-imagem); os meios para ajustar o quão “imaginativo” o sistema é instruído a ser; uma maneira de trocar o tempo de renderização pela qualidade; e outros “básicos”, como arquivamento de imagem/prompt automático opcional e escalonamento via RealESRGAN e, pelo menos, “correção de face” básica com GFPGAN ou CodeFormer.

Isso é uma instalação “vanilla” bastante padrão. Vamos dar uma olhada em alguns dos recursos mais avançados que estão sendo desenvolvidos ou estendidos, que poderiam ser incorporados em um aplicativo completo e tradicional de Difusão Estável.

Congelamento Estocástico

Mesmo se você reutilizar uma semente de um render anterior bem-sucedido, é terrivelmente difícil fazer com que a Difusão Estável repita com precisão uma transformação se qualquer parte do prompt ou da imagem de origem (ou ambos) for alterada para um render subsequente.

Isso é um problema se você quiser usar EbSynth para impor as transformações da Difusão Estável em vídeo real de forma temporalmente coerente – embora a técnica possa ser muito eficaz para tiros simples de cabeça e ombros:

Movimento limitado pode tornar o EbSynth um meio eficaz para transformar as transformações da Difusão Estável em vídeo realista. Fonte: https://streamable.com/u0pgzd

O EbSynth funciona extrapolando uma pequena seleção de ‘alterados’ quadros-chave em um vídeo que foi renderizado em uma série de arquivos de imagem (e que pode ser posteriormente rearmado em um vídeo).

Neste exemplo do site do EbSynth, uma pequena mão de quadros de um vídeo foi pintada de maneira artística. O EbSynth usa esses quadros como guias de estilo para alterar todo o vídeo para que ele combine com o estilo pintado. Fonte: https://www.youtube.com/embed/eghGQtQhY38

No exemplo abaixo, que apresenta quase nenhum movimento do (real) instrutor de yoga loiro à esquerda, a Difusão Estável ainda tem dificuldade em manter uma face consistente, porque os três quadros sendo transformados como ‘quadros-chave’ não são completamente idênticos, embora todos compartilhem a mesma semente numérica.

Aqui, mesmo com o mesmo prompt e semente em todos os três transformações, e muito poucas alterações entre os quadros de origem, os músculos do corpo variam em tamanho e forma, mas mais importante é que a face é inconsistente, dificultando a coerência temporal em um render do EbSynth potencial.

Embora o vídeo da SD/EbSynth abaixo seja muito inventivo, onde os dedos do usuário se transformam em (respectivamente) uma perna de calça ambulante e um pato, a inconsistência das calças é típica do problema que a Difusão Estável tem em manter a consistência em diferentes quadros-chave, mesmo quando os quadros de origem são semelhantes entre si e a semente é consistente.

Os dedos de um homem se tornam um homem ambulante e um pato, via Difusão Estável e EbSynth. Fonte: https://old.reddit.com/r/StableDiffusion/comments/x92itm/proof_of_concept_using_img2img_ebsynth_to_animate/

O usuário que criou este vídeo comentou que a transformação do pato, arguivelmente a mais eficaz das duas, se não menos impressionante e original, exigiu apenas um quadro transformado, enquanto foi necessário renderizar 50 imagens da Difusão Estável para criar as calças ambulantes, que exibem mais inconsistência temporal. O usuário também notou que levou cinco tentativas para alcançar a consistência para cada um dos 50 quadros-chave.

Portanto, seria um grande benefício para um aplicativo abrangente de Difusão Estável fornecer funcionalidade que preserve características ao máximo em diferentes quadros-chave.

Uma possibilidade é permitir que o usuário “congele” o encode estocástico para a transformação em cada quadro, o que atualmente só pode ser alcançado modificando o código-fonte manualmente. Como o exemplo abaixo mostra, isso ajuda na coerência temporal, embora certamente não a resolva:

Um usuário do Reddit transformou imagens de webcam de si mesmo em diferentes pessoas famosas, não apenas persistindo a semente (o que qualquer implementação da Difusão Estável pode fazer), mas garantindo que o parâmetro stochastic_encode() fosse idêntico em cada transformação. Isso foi realizado modificando o código, mas poderia facilmente se tornar um interruptor acessível ao usuário. Claramente, no entanto, isso não resolve todos os problemas temporais. Fonte: https://old.reddit.com/r/StableDiffusion/comments/wyeoqq/turning_img2img_into_vid2vid/

Inversão Textual Baseada em Nuvem

Uma solução melhor para evocar personagens e objetos temporalmente consistentes é “assar” eles em uma Inversão Textual – um arquivo de 5KB que pode ser treinado em algumas horas com base em apenas cinco imagens anotadas, que pode então ser evocado por um prompt especial ‘*’, permitindo, por exemplo, uma aparência persistente de personagens novos para inclusão em uma narrativa.

Imagens associadas a tags apropriadas podem ser convertidas em entidades discretas por meio da Inversão Textual e invocadas sem ambiguidade, e no contexto e estilo corretos, por palavras especiais de token. Fonte: https://huggingface.co/docs/diffusers/training/text_inversion

As Inversões Textuais são arquivos adjunctos ao modelo grande e totalmente treinado que a Difusão Estável usa e são efetivamente “slipstreamed” no processo de elicitação/prompting, de modo que possam participar em cenas derivadas do modelo e se beneficiar do enorme banco de dados de conhecimento do modelo sobre objetos, estilos, ambientes e interações.

No entanto, embora uma Inversão Textual não leve muito tempo para treinar, ela exige uma grande quantidade de VRAM; de acordo com vários walkthroughs atuais, algum lugar entre 12, 20 e até 40GB.

Como a maioria dos usuários casuais não tem esse tipo de potência de GPU à sua disposição, serviços de nuvem já estão surgindo que lidarão com a operação, incluindo uma versão da Hugging Face. Embora existam implementações do Google Colab que podem criar inversões textuais para a Difusão Estável, os requisitos de VRAM e tempo podem tornar isso desafiador para usuários do Colab de nível gratuito.

Para um aplicativo de Difusão Estável completo e bem investido, passar essa tarefa pesada para os servidores de nuvem da empresa parece uma estratégia de monetização óbvia (supondo que um aplicativo de Difusão Estável de baixo ou nenhum custo seja permeado por tal funcionalidade não gratuita, o que parece provável em muitos aplicativos que surgirão dessa tecnologia nos próximos 6-9 meses).

Além disso, o processo bastante complicado de anotar e formatar as imagens e texto submetidos poderia se beneficiar da automação em um ambiente integrado. O fator “viciante” potencial de criar elementos únicos que podem explorar e interagir com os vastos mundos da Difusão Estável pareceria potencialmente compulsivo, tanto para entusiastas em geral quanto para usuários mais jovens.

Pesagem de Prompt Versátil

Existem muitas implementações atuais que permitem que o usuário atribua maior ênfase a uma seção de um prompt de texto longo, mas o instrumento varia muito entre elas e é frequentemente desajeitado ou não intuitivo.

A bifurcação muito popular da Difusão Estável por AUTOMATIC1111, por exemplo, pode diminuir ou aumentar o valor de uma palavra de prompt, cercando-a com colchetes simples ou múltiplos (para desvalorização) ou colchetes para ênfase extra.

Colchetes e/ou parênteses podem transformar o café da manhã nessa versão da Difusão Estável de pesos de prompt, mas é um pesadelo de colesterol de qualquer forma.

Outras iterações da Difusão Estável usam pontos de exclamação para ênfase, enquanto as mais versáteis permitem que os usuários atribuam pesos a cada palavra no prompt por meio da GUI.

O sistema também deve permitir pesos de prompt negativos – não apenas para fãs de terror, mas porque pode haver mistérios menos alarmantes e mais edificantes no espaço latente da Difusão Estável do que nosso uso limitado da linguagem pode invocar.

Pintura Fora

Logo após a liberação de código aberto sensacional da Difusão Estável, a OpenAI tentou – em grande parte em vão – recapturar algum de seu trovão DALL-E 2 anunciando ‘pintura fora’, que permite que um usuário estenda uma imagem além de suas fronteiras com lógica semântica e coerência visual.

Naturalmente, isso já foi implementado em várias formas para a Difusão Estável, bem como no Krita, e certamente deve ser incluído em uma versão abrangente e estilo Photoshop da Difusão Estável.

Aumento baseado em azulejos pode estender um render padrão de 512x512 quase infinitamente, desde que os prompts, imagem existente e lógica semântica permitam. Fonte: https://github.com/lkwq007/stablediffusion-infinity

Aumento baseado em azulejos pode estender um render padrão de 512×512 quase infinitamente, desde que os prompts, imagem existente e lógica semântica permitam. Fonte: https://github.com/lkwq007/stablediffusion-infinity

Porque a Difusão Estável é treinada em imagens de 512x512px (e por uma variedade de outras razões), ela frequentemente corta as cabeças (ou outras partes essenciais do corpo) de sujeitos humanos, mesmo onde o prompt claramente indicou ‘ênfase na cabeça’, etc..

Exemplos típicos de ‘decapitação’ da Difusão Estável; mas a pintura fora pode colocar George de volta na imagem.

Qualquer implementação de pintura fora do tipo ilustrado na imagem animada acima (que é baseada exclusivamente em bibliotecas Unix, mas deve ser capaz de ser replicada no Windows) também deve ser ferramentada como um remédio de um clique/prompt para esse problema.

Atualmente, muitos usuários estendem a tela de ‘decapitações’ para cima, preenchem aproximadamente a área da cabeça e usam img2img para concluir o renderização falha.

Máscara Eficaz que Entende o Contexto

A máscara pode ser um assunto terrivelmente imprevisível na Difusão Estável, dependendo da bifurcação ou versão em questão. Frequentemente, onde é possível desenhar uma máscara coesa, a área especificada acaba sendo repintada com conteúdo que não leva em conta o contexto geral da imagem.

Em uma ocasião, eu mascarei os corneas de uma imagem de rosto e forneceu o prompt ‘olhos azuis’ como uma máscara de repintura – apenas para descobrir que eu parecia estar olhando através de dois olhos humanos cortados para uma imagem distante de um lobo sobrenatural. Eu acho que eu sou sortudo que não fosse Frank Sinatra.

A edição semântica também é possível identificando o ruído que construiu a imagem em primeiro lugar, o que permite que o usuário aborde elementos estruturais específicos em um render sem interferir no resto da imagem:

Alterar um elemento em uma imagem sem máscara tradicional e sem alterar o conteúdo adjacente, identificando o ruído que originou a imagem e abordando as partes que contribuíram para a área de destino. Fonte: https://old.reddit.com/r/StableDiffusion/comments/xboy90/a_better_way_of_doing_img2img_by_finding_the/

Esse método é baseado no amostrador K-Diffusion.

Filtros Semânticos para Gafes Fisiológicas

Como mencionamos anteriormente, a Difusão Estável pode frequentemente adicionar ou subtrair membros, em grande parte devido a problemas de dados e limitações nas anotações que acompanham as imagens que a treinaram.

Como aquele garoto travesso que colocou a língua para fora na foto de grupo da escola, as atrocidades biológicas da Difusão Estável nem sempre são imediatamente óbvias, e você pode ter compartilhado sua última obra-prima de IA no Instagram antes de notar as mãos extras ou membros derretidos.

É tão difícil consertar esses tipos de erros que seria útil se um aplicativo de Difusão Estável completo contivesse algum tipo de sistema de reconhecimento anatômico que empregasse segmentação semântica para calcular se a imagem de entrada apresenta deficiências anatômicas graves (como na imagem acima) e descarta-a em favor de um novo render antes de apresentá-la ao usuário.

É claro que você pode querer renderizar a deusa Kali, ou Doutor Octopus, ou até mesmo resgatar uma parte não afetada de uma imagem com membros afetados, então esse recurso deve ser uma opção toggle.

Se os usuários pudessem tolerar o aspecto de telemetria, tais disparos poderiam ser transmitidos anonimamente em um esforço coletivo de aprendizado federado que pode ajudar os futuros modelos a melhorar sua compreensão da lógica anatômica.

Melhoria Automática de Rosto Baseada em LAION

Como eu notei em meu olhar anterior em três coisas que a Difusão Estável pode abordar no futuro, não deve ser deixado apenas para alguma versão do GFPGAN tentar “melhorar” rostos renderizados em primeira instância.

As “melhorias” do GFPGAN são terrivelmente genéricas, frequentemente minam a identidade do indivíduo retratado e operam apenas em um rosto que recebeu tanto tempo de processamento quanto qualquer outra parte da imagem.

Portanto, um programa profissional para a Difusão Estável deve ser capaz de reconhecer um rosto (com uma biblioteca padrão e relativamente leve, como YOLO), aplicar o peso total da GPU disponível para re-renderizar o rosto e mesclar o rosto aprimorado na renderização original de contexto completo, ou salvar separadamente para re-composição manual. Atualmente, isso é uma operação bastante “hands on”.

Em casos em que a Difusão Estável foi treinada em um número adequado de imagens de uma celebridade, é possível focar a capacidade completa da GPU em um render subsequente apenas do rosto da imagem renderizada, o que geralmente é uma melhoria notável – e, ao contrário do GFPGAN, se baseia em dados treinados com LAION, em vez de simplesmente ajustar os pixels renderizados.

Pesquisas em LAION no Aplicativo

Desde que os usuários começaram a perceber que procurar no banco de dados LAION por conceitos, pessoas e temas poderia ser útil para um melhor uso da Difusão Estável, vários exploradores de LAION online foram criados, incluindo haveibeentrained.com.

A função de pesquisa em haveibeentrained.com permite que os usuários explorem as imagens que alimentam a Difusão Estável e descubram se objetos, pessoas ou ideias que eles gostariam de evocar do sistema são prováveis de terem sido treinados nele. Fonte: https://haveibeentrained.com/?search_text=bowl%20of%20fruit

Embora tais bancos de dados baseados na web frequentemente revelem algumas das tags que acompanham as imagens, o processo de generalização que ocorre durante o treinamento do modelo significa que é improvável que qualquer imagem particular possa ser invocada usando sua tag como um prompt.

Além disso, a remoção de ‘palavras de parada’ e a prática de stemming e lematização no Processamento de Linguagem Natural significa que muitas das frases exibidas foram divididas ou omitidas antes de serem treinadas na Difusão Estável.

No entanto, a forma como os agrupamentos estéticos se ligam nesses interfaces pode ensinar ao usuário final muito sobre a lógica (ou, arguivelmente, a ‘personalidade’) da Difusão Estável e provar um auxílio para uma melhor produção de imagens.

Conclusão

Existem muitos outros recursos que eu gostaria de ver em uma implementação de desktop nativa da Difusão Estável, como análise de imagem baseada em CLIP nativa, que reverte o processo padrão da Difusão Estável e permite que o usuário elicie frases e palavras que o sistema naturalmente associaria à imagem de origem ou ao render.

Além disso, escalonamento baseado em azulejos verdadeiro seria uma adição bem-vinda, pois o ESRGAN é quase tão bruto quanto o GFPGAN. Felizmente, planos para integrar a implementação txt2imghd do GOBIG estão rapidamente tornando isso uma realidade em todas as distribuições, e parece uma escolha óbvia para uma iteração de desktop.

Outros pedidos populares das comunidades do Discord me interessam menos, como dicionários de prompts integrados e listas aplicáveis de artistas e estilos, embora um caderno ou léxico personalizável de frases no aplicativo pareça uma adição lógica.

Da mesma forma, as limitações atuais da animação humana centrada na Difusão Estável, embora iniciadas pelo CogVideo e vários outros projetos, ainda estão incrivelmente em sua infância e à mercê da pesquisa upstream em priors temporais relacionados ao movimento humano autêntico.

Por enquanto, o vídeo da Difusão Estável é estritamente psicodélico, embora possa ter um futuro mais brilhante na marionetagem de deepfakes, via EbSynth e outras iniciativas de texto-para-vídeo relativamente nascentes (e vale notar a falta de pessoas sintetizadas ou ‘alteradas’ no vídeo promocional mais recente da Runway).

Outra funcionalidade valiosa seria a passagem transparente do Photoshop, longamente estabelecida no editor de texturas do Cinema4D, entre outras implementações semelhantes. Com isso, é possível transferir imagens entre aplicativos facilmente e usar cada aplicativo para realizar as transformações que ele executa melhor.

Finalmente, e talvez mais importante, um programa de desktop completo da Difusão Estável deve ser capaz não apenas de trocar facilmente entre checkpoints (ou seja, versões do modelo subjacente que alimenta o sistema), mas também deve ser capaz de atualizar Inversões Textuais personalizadas que funcionavam com lançamentos anteriores do modelo, mas que podem ser quebradas por versões posteriores do modelo (como os desenvolvedores no Discord oficial indicaram que poderia ser o caso).

Ironia à parte, a organização na melhor posição para criar tal matriz poderosa e integrada de ferramentas para a Difusão Estável, a Adobe, se aliou tão fortemente à Iniciativa de Autenticidade de Conteúdo que poderia parecer um passo de relações públicas retrógrado para a empresa – a menos que ela estivesse disposta a restringir os poderes gerativos da Difusão Estável tão completamente quanto a OpenAI fez com o DALL-E 2, e posicioná-la como uma evolução natural de suas consideráveis participações em fotografia de estoque.

Publicado pela primeira vez em 15 de setembro de 2022.