Engenharia de prompts

Dominando a Arte de IA: Um Guia Conciso para Midjourney e Engenharia de Prompt

mm
Midjourney Generated UNITE AI LOGO

Introdução à Arte Gerada por IA do MidJourney

A IA está rapidamente rompendo as barreiras do impossível e mais recentemente invadiu o domínio da arte, transformando-a completamente. Agora, você não precisa ser um artista mestre ou um especialista em Photoshop para trazer os fragmentos da sua imaginação à vida. Um simples e bem articulado prompt é tudo o que você precisa, graças ao Midjourney.

Tudo começou com a introdução de tecnologias inovadoras como DALL-E, Midjourney e StableDiffusion em 2022. Embora cada uma dessas inovações tenha trazido seu toque distinto para a tela da IA Geradora, o Midjourney, em particular, continuou sua jornada convincente, fazendo progressos notáveis.

O Midjourney é atualmente o principal gerador de imagens de texto de alta resolução do mercado e se destaca com sua combinação única de geração de imagens de texto, edição de mídia e escalonamento, e acesso à comunidade de arte ativa, tudo começando a $10 por mês. Essa suite abrangente de recursos apresenta um canvas emocionante para artistas, entusiastas da tecnologia e profissionais de IA, construindo um ambiente para criatividade e inovação.

O mundo da arte certamente está notando, com a IA geradora no mercado de arte projetada para testemunhar um crescimento impressionante de 40,5% CAGR. O Midjourney se destaca na criação das visuais mais realistas e de alta qualidade usando IA.

A engenharia de prompt eficaz vai além da mera criação; ela abrange as melhores práticas. Os prompts devem oferecer clareza e ser concisos, mas fornecer à IA orientação suficiente sem prescrição excessiva. Além disso, o público-alvo deve ser considerado durante o design, levando em conta variáveis como idade, gênero e origem cultural, entre outras.

Como funciona o MidJourney?

O Mid-Journey aproveita duas novas tecnologias de aprendizado de máquina – modelos de linguagem grande e modelos de difusão. O modelo de linguagem, semelhante a chatbots de IA como ChatGPT, ajuda o Mid-Journey a interpretar o significado dos seus prompts e convertê-los em vetores. Esse vetor então orienta o processo de difusão.

O funcionamento interno do Midjourney é amplamente não divulgado. No entanto, é evidente que ele usa geração de imagens de texto a partir de duas tecnologias de aprendizado de máquina relativamente novas: modelos de linguagem grande e modelos de difusão. O primeiro é talvez familiar aos usuários de plataformas de IA como ChatGPT, e o segundo é uma adição promissora ao setor de geração de arte de IA. O sistema inteiro depende do conjunto de dados CLIP para treinamento, que pode ser encontrado na página de pesquisa da OpenAI.

Apesar da informação limitada, é possível esboçar uma imagem geral do modelo de difusão do Midjourney, apropriadamente nomeado de ‘Stable Diffusion’. Basicamente, a Stable Diffusion é um modelo de código aberto que transforma prompts de texto em imagens de variados estilos e conteúdos. Esse procedimento sofisticado é alcançado por meio de um modelo de difusão, um modelo gerador que conecta as dependências entre entradas de texto e saídas de imagem.

Os modelos de difusão são construídos sobre a base do método de difusão de desruído, uma abordagem influenciada pela termodinâmica não equilibrada. Esse método desmonta sistematicamente a estrutura dos dados e mais tarde a restaura. Essa abordagem foi adaptada para geração de imagens por Ho et al. em 2020, levando à invenção dos modelos de difusão que vemos hoje.

O treinamento de modelos de difusão envolve dois estágios principais. Inicialmente, o processo de difusão ou direção envolve a adição incremental de ruído aleatório à imagem de entrada até que ela se transforme completamente em ruído. Esse processo é governado por uma cadeia de Markov fixa, que consistentemente adiciona ruído gaussiano em várias etapas consecutivas.

Demonstração de funcionamento do Midjourney

Posteriormente, na fase de reconstrução ou reversa, o modelo restaura os dados originais do estado dominado pelo ruído alcançado no processo de difusão. Esse processo é impulsionado por uma cadeia de Markov com transições gaussianas aprendidas, implicando que a previsão da densidade de probabilidade em um determinado momento depende apenas do estado alcançado no passo de tempo anterior. Como os latentes ‘x1, …, xT’ compartilham a mesma dimensionalidade que os dados, os modelos de difusão classificam-se como modelos de variáveis latentes.

Custo e Assinatura do Mid-Journey

Enquanto muitos chatbots como ChatGPT e Bing Chat oferecem uso quase ilimitado de graça, o cenário difere para geradores de imagens como o Mid-Journey. Devido ao poder de processamento substancial necessário, especialmente dos GPUs e uso de memória de vídeo para o processo de desruído, o serviço do Mid-Journey vem com uma etiqueta de preço.

O plano básico começa a $10 por mês, oferecendo cerca de 3,3 horas de tempo de GPU, suficiente para aproximadamente 200 gerações de imagens. No entanto, existem planos de mais alto nível que oferecem imagens ilimitadas no modo Relaxed, embora com um tempo de espera mais longo.

Configurando o Seu MidJourney

  1. Para começar com o MidJourney, é necessário se inscrever no site oficial, assinar um plano e, em seguida, ser redirecionado para o Discord.
  2. Uma vez que você localize o canal do Mid-Journey no Discord, navegue até os Grupos de Novos Membros no lado esquerdo. De lá, você pode observar outros usuários criando prompts, aprender os mecanismos do Mid-Journey e interagir em um ambiente movimentado.
  3. Depois de se familiarizar com o ambiente, convide o bot para o seu servidor privado para criar imagens sem distrações. O bot gera quatro imagens de pré-visualização com base no seu prompt, permitindo que você selecione a que melhor se aproxima da sua ideia original e refine a imagem.

Estrutura de Prompt para Midjourney

  1. O comando /imagine em um canal do Discord dentro do canal do Midjourney gera uma imagem única a partir de uma descrição de texto curta (Prompt).
  2. Para recriar um estilo específico em várias imagens, basta inserir a URL da imagem ao lado do seu prompt de texto. Suas novas saídas consistentes mesclarão elementos da imagem escolhida e do texto.
    /imagine http://link-para-sua-imagem –parâmetro1 –parâmetro2
    Você pode gerar um link para a sua imagem carregando-a no canal do Discord. Uma vez carregada, clique com o botão direito na imagem e selecione ‘Copiar Link’.
    Aqui http://link-para-sua-imagem e parâmetros são opcionais.
  3. Em seguida, o Bot começa a trabalhar na sua imagem, levando aproximadamente um minuto para oferecer quatro alternativas. Esse processo envolve o uso de GPUs robustas para processar e interpretar cada prompt.
  4. Mantenha o controle do uso da GPU usando o comando /info. Ele permite verificar o ‘Tempo Rápido Restante’ e monitorar o tempo de GPU da sua assinatura.

Prompt /info do Midjourney

Escalonamento e Alterações de Imagem

Para uma imagem mais refinada, use os botões ‘U’ abaixo das imagens para escalar sua escolha preferida. Você também pode usar os botões ‘V’ para fazer ajustes em imagens específicas. Para alterações adicionais em uma imagem escalada, use as opções ‘Fazer variações’, ‘Refaça Escalonamento Leve’ e ‘Refaça Escalonamento Beta’. O botão ‘Web’ permite visualizar a imagem em um tamanho maior em uma janela separada.

O Midjourney permite o escalonamento de imagens para resoluções de 2048×2048 (quadrada) e 2720×1530 (widescreen) via sua função de reescalonamento beta, com um tamanho de grade de geração padrão de 1024×1024 (quadrada) e 1456×816 (widescreen). Cada imagem pode ser aprimorada ainda mais por meio das opções de escalonamento ‘U’, que melhoram partes específicas da imagem.

Veja esse prompt que produz uma obra de arte fantástica com a versão 5.2 do Midjourney.

/imagine Obra de arte que retrata uma árvore solitária sob um céu estrelado, com uma criança lendo abaixo, nas cores do azul sereno e laranja quente, inspirada nos traços da pintura impressionista francesa, miniaturas persas, simplicidade Bauhaus, evocativa de ilustrações clássicas de contos de fadas infantis, alcançando uma harmonia assimétrica, expressa de forma encantadora, folclórica/ingênua: –ar 15:19 –upbeta –q 2

Exemplo de Prompt do Midjourney

Criando Sua Primeira Arte de IA do Midjourney

  1. Criando o Rascunho Básico: Pense em si mesmo como um artista. Comece com uma descrição simples e vívida da imagem que você aspira trazer à vida. Esboce o assunto principal, o ambiente ou até mesmo os detalhes mínimos que você deseja incorporar. Use pontuação como vírgulas, colchetes e hífen para estruturar seus pensamentos. Para resultados aprimorados, seja explícito sobre o contexto e detalhes do seu design. Elementos como assunto (por exemplo, Dragão, carro antigo, Abraham Lincoln), meio (por exemplo, arte digital, esboço a lápis), ambiente (por exemplo, espaço exterior, subaquático, cidade movimentada), iluminação (por exemplo, suave, neon, contra-iluminada), cor (por exemplo, tons de terra, vibrante, suave), humor (por exemplo, melancólico, caprichoso, pacífico) e composição (por exemplo, paisagem, close-up, ângulo amplo) podem ser críticos. Exemplos:
    • Uma floresta idílica banhada em luz solar, um caminho sinuoso que se estende até a distância
    • Uma cidade que nunca dorme, com luzes neon refletindo nos pavimentos e uma multidão diversa se movendo
  2. Inserindo Estilo e Palavras-Chave: A IA do Midjourney é capaz de ilustrar imagens em uma miríade de estilos, como abstrato, surreal ou realista. Ao integrar um estilo ou palavras-chave relacionadas, você pode orientar a IA para criar uma imagem que reflete sua visão. Experimente com vários estilos e palavras-chave para descobrir a combinação perfeita. Exemplos:
    • Uma pintura de paisagem que retrata um deserto ao amanhecer, espelhando o estilo de Georgia O’Keeffe, com uma paleta de cores pastéis e formas orgânicas.
    • Uma representação abstrata de uma floresta pacífica, com padrões geométricos formando árvores e folhagem, inspirada nas composições de Piet Mondrian.
  3. Aproveitando Configurações Avançadas: Considere o Midjourney como sua caixa de ferramentas criativa, repleta de configurações avançadas que permitem ajustar as imagens geradas. É como empunhar uma varinha mágica, permitindo conjurar o equilíbrio perfeito entre aleatoriedade, estilização e variação de imagem. Liberte seu poder criativo brincando com essas configurações até encontrar a combinação perfeita que ressoa com sua visão. Exemplos:
    • Um jardim japonês sereno com um lago refletindo as árvores de cerejeira – semente 22 – s 150 – c 40
    • Uma cidade ciberpunk distópica, iluminada por luzes neon – semente 88 – s 600 – c 60
  4. Destacando Elementos com Pesos: Visualize sua imagem como uma sinfonia, com cada elemento contribuindo para o grandioso ensemble. Usando a notação “::”, você pode ditar a importância de vários elementos em sua imagem, permitindo controlar o holofote. Exemplos:
    • [Um pavão elegante]::3 empoleirado em uma [árvore de glicínia]::1 florescendo com flores vibrantes
    • [Um elefante majestoso]::2 banhando-se no brilho de um [pôr do sol]::1 na savana
  5. O Midjourney é um processo de tentativa e erro: Experimentar com diferentes elementos e recursos é necessário. Cada iteração o levará mais perto da imagem que você imaginou trazer à vida.

Parâmetros do Mid-Journey

O modelo do Midjourney opera com parâmetros ajustáveis que controlam o resultado do processo de geração de imagens. Esses parâmetros permitem que os usuários ajustem e personalizem sua arte gerada, afinando o modelo para criar saídas que atendam perfeitamente ao seu objetivo.

Abaixo estão os parâmetros básicos e avançados, suas funções e como usá-los para aproveitar ao máximo as capacidades do Midjourney:

  • Proporções de Aspecto (–aspect ou –ar): Esse parâmetro controla a razão entre a largura e a altura da imagem gerada. Por exemplo, uma razão de 16:9 é perfeita para miniaturas do YouTube, enquanto 1:1 produz uma imagem quadrada ótima para o Instagram.
  • Caos (–chaos): Esse parâmetro ajusta a diversidade da grade de imagem inicial e varia de 0 a 100. Valores de caos mais altos darão resultados imprevisíveis e únicos, enquanto valores mais baixos garantirão resultados mais consistentes.
  • Não (–no): Esse parâmetro ajuda a eliminar elementos ou características específicos da imagem gerada. Por exemplo, se você quiser uma imagem sem nada vermelho, pode usar “–no vermelho”.
  • Qualidade (–quality ou –q): Esse ajuste controla o tempo necessário para gerar uma imagem. Qualidade mais alta requer mais tempo de processamento, mas rende detalhes intricados. Esse parâmetro pode assumir valores de .25, .5, 1 ou 2.
  • Semente (–seed): Esse parâmetro determina o ruído visual inicial, atuando como base para a imagem gerada. Usar o mesmo número de semente com o mesmo prompt dará resultados semelhantes. Ele aceita valores inteiros entre 0–4294967295.
  • Parar (–stop): Com esse parâmetro, você pode interromper prematuramente um trabalho, produzindo resultados menos detalhados, mas potencialmente interessantes. A faixa é de 10-100. Por exemplo, se você especificar ‘–stop 50’, o processo de geração de imagem parará em 50% de conclusão, resultando em uma imagem menos detalhada, possivelmente abstrata.
  • Estilizar (–stylize ou –s): Esse controle ajusta o nível de aplicação artística na imagem gerada. Valores de estilização mais baixos rendem resultados mais próximos do prompt inicial, enquanto valores mais altos resultam em interpretações mais abstratas e artísticas. Na versão 5, o valor padrão é 100, mas você pode definir entre 0-1000.
  • Versão do Modelo: Você pode selecionar entre várias versões do modelo do Midjourney usando o parâmetro –version ou –v.
  • Niji: Um modelo especializado em imagens no estilo anime. Pode ser acessado usando o parâmetro –niji.
  • Definição Alta: Para imagens abstratas e de paisagem, o parâmetro –hd ativa uma versão de modelo anterior que produz imagens maiores, mas menos consistentes.
  • Modelos de Teste: O Midjourney oferece modelos especiais para casos de uso específicos. –test e –testp ativam os modelos de teste padrão e focados em fotografia, respectivamente.
  • Escalonador: O algoritmo do Midjourney começa com uma grade de imagem de baixa resolução. Oferece vários modelos de escalonamento para melhorar o tamanho e o detalhe da imagem.
    • Uplight: Um escalonador de luz alternativo (–uplight) fornece imagens escalonadas menos detalhadas, mas mais suaves.
    • Upbeta: O parâmetro –upbeta leva a imagens com significativamente menos detalhes adicionais, mantendo-se mais próxima da imagem da grade original.
    • Upanime: O escalonador –upanime é projetado especificamente para funcionar com o modelo Niji do Midjourney.
  • Peso da Imagem: Use –iw para ajustar o peso do prompt de imagem em relação ao peso do texto. O valor padrão é 0,25.
  • Sameseed: O parâmetro –sameseed garante que todas as imagens na grade inicial usem o mesmo ruído inicial, criando imagens geradas muito semelhantes.
  • Vídeo: O Midjourney pode salvar um vídeo de progresso do processo de geração da grade de imagem inicial usando o parâmetro –video.
  • Criativo: Com o parâmetro –criativo, os modelos de teste e testp produzem imagens mais variadas e criativas.

O Midjourney lança atualizações consistentemente para melhorar a experiência do usuário, com a última sendo a versão 5.2, lançada em junho de 2023. Anexando –v 5.2 ao seu prompt ou selecionando-o por meio do comando /settings, os usuários podem acessar esse modelo avançado. A versão 5.2 oferece detalhamento de imagem superior e compreende prompts de forma mais intuitiva, trazendo cores mais vibrantes e composições aprimoradas.

Entendendo Direitos Autorais para Obra de Arte Gerada por IA

Imagem do Midjourney sobre Mistura de IA e Leis de Direitos Autorais

Em março de 2023, o Escritório de Direitos Autorais dos EUA esclareceu sua posição sobre a autorização de obras geradas por IA. A política afirma que, embora os elementos criados pelo homem nas criações de IA (como escritos ou designs únicos) possam ser protegidos, as imagens produzidas por IA não se qualificam para direitos autorais, seguindo normas globais de que apenas criações humanas são elegíveis para proteção de direitos autorais.

No contexto da arte de IA, os direitos autorais não são diretos. Embora a arte digital tenha a entrada do artista humano, a arte gerada por IA é criada sem intervenção humana direta, o que complica a questão de autoria e propriedade. De acordo com o Escritório de Direitos Autorais dos EUA, a propriedade inicial é concedida ao autor da obra – um criador humano. No entanto, como a IA não pode ser considerada um autor, a arte gerada por IA carece de propriedade clara.

A orientação mais recente do Escritório de Direitos Autorais dos EUA permite a autorização de arte de IA apenas quando contém autorship humana suficiente. O nível de ‘autorship humana suficiente’ permanece indefinido e depende do grau de envolvimento humano na criação da obra de arte de IA.

Interessantemente, o Midjourney, uma plataforma de IA para criação de imagens, estabeleceu suas próprias políticas para direitos de uso. Usuários de teste gratuito podem usar as imagens para fins não comerciais sob a Licença Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), com crédito adequado ao Midjourney. No entanto, assinantes pagantes podem usar as imagens para qualquer propósito, incluindo comercial, sob os Termos Comerciais Gerais. Esse desenvolvimento no espaço de direitos autorais apresenta uma dinâmica intrigante entre criatividade humana e IA.

Utilizando o Midjourney para Projetos de UI Dinâmicos e Geração de Logotipos Criativos

Desde o design de interfaces de usuário intuitivas para sites ou aplicativos móveis até a criação de logotipos únicos e banners, o Midjourney empodera criadores de conteúdo gerando uma variedade de alternativas de design dentro de segundos.

Veja como funciona. Cada design começa com um prompt, atuando como um plano para a IA seguir. Suponha que você esteja projetando uma interface de usuário para um aplicativo de plataforma de tutoria online. Um prompt típico poderia ser: “/imagine Interface do usuário da plataforma de tutoria online, Dribbble, Alta Resolução, 4K, como Khan Academy”.

Os resultados iniciais podem não atingir perfeitamente o alvo. Por exemplo, adicionar “Adobe XD” à mistura pode ajudar o Midjourney a adaptar seus designs para serem mais compatíveis com o Adobe XD. Um prompt otimizado seria:

/imagine Plataforma de tutoria online, interface do usuário, Adobe XD, Dribbble, Alta Resolução, 4K, design minimalista

Imagem do Midjourney de Projetos de UI/UX de Aplicativos de Desktop

 

Logotipos ou Banners Inspirados em Texto usando o Midjourney

Vamos explorar como criar um banner com um logotipo para UNITE AI.

Primeiro, você precisa ter uma imagem simples do texto que deseja exibir. Você pode criar isso usando qualquer ferramenta de design gráfico ou editor de texto e carregá-lo no seu canal do Discord.

Texto de exemplo para o logotipo UNITE
Imagem simples de texto usada para criar o logotipo UNITE

O prompt para criar o banner é:

/imagine Letras: UNITE em uma fonte de logotipo futurista e inspirada em IA com as letras UNITE –v 5 –ar 16:9

Guia de Prompt do Midjourney com Tela de Recursos

Veja esses exemplos de prompts para mais ideias:

/imagine Um músico solitário performando uma melodia serena em uma cidade flutuante ao entardecer, estilo art nouveau

Imagem do Midjourney: Arte Indiana

 

/imagine Uma imagem de uma pessoa do futuro trabalhando em uma mesa futurista, cercada por telas holográficas e tecnologia avançada. A pessoa está usando um traje espacial prateado e tem óculos de realidade virtual. O ambiente está repleto de luzes neon e hologramas flutuantes. A atmosfera é futurista e de alta tecnologia, com um senso de excitação e inovação. A câmera é uma câmera digital de alta resolução, capturando cada detalhe com precisão. O estilo artístico é uma mistura de ciberpunk e minimalismo, com foco em linhas limpas e cores vibrantes. Os diretores, cinematógrafos, fotógrafos, designers de moda, cartunistas e artistas colaborando nessa justaposição única são Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki e Kaws.

Prompt do Midjourney para uma pessoa do futuro trabalhando

/imagine Barbie do estilo dos anos 40 como uma enfermeira de guerra, em um ambiente de hospital militar antigo, cuidando dos soldados feridos, no estilo de ilustrações clássicas da Mattel, com a atmosfera de fotografia de guerra em preto e branco da Segunda Guerra Mundial 8k –v 5 –ar 16:9

Guia de Prompt do Midjourney: Imagem de Barbie em ConfiguraçÔes Únicas

/imagine Quadro de uma mulher apoiada em uma moto voadora ciberpunk, anime japonês, paisagens urbanas expansivas, 32k, detalhada, espaçoporto efêmero, panoramas de arranha-céus, elegante

Imagem do Midjourney em estilo ciberpunk de garota

 

Pensamentos Finais: Navegando o Mundo da Arte de IA com o Midjourney

Lembre-se, “Uma imagem vale mais do que mil palavras”. Uma descrição detalhada e vibrante pode trabalhar maravilhas. Sim, o Midjourney não é gratuito para usar. No entanto, está revolucionando o mundo da arte e expandindo nossas possibilidades criativas por meio de sua tecnologia de IA de texto para imagem de ponta. Com a capacidade de converter um simples prompt de texto em uma imagem de alta resolução, é uma ferramenta que promete oportunidades ilimitadas, não apenas para artistas, mas também para designers de UI/UX, entusiastas da tecnologia e profissionais de IA.

Aqui estão alguns pontos essenciais para lembrar ao embarcar em sua aventura no Midjourney:

  • Aprenda os fundamentos do prompt do Midjourney: Use descrições claras, concisas e abrangentes que encapsulam sua visão para orientar a IA de forma eficaz. Lembre-se de considerar seu público e não hesite em experimentar com vários estilos, humores e contextos.
  • Aproveite os parâmetros: Aumente sua experiência criativa aproveitando a miríade de configurações avançadas que o Midjourney oferece. Desde controlar a proporção de aspecto até ajustar o parâmetro de caos para resultados únicos, cada detalhe pode ser personalizado de acordo com sua preferência.
  • Abrace o processo iterativo: Sua primeira obra de arte gerada por IA pode não ser perfeita. Abrace esse processo iterativo e aprenda a refinar e otimizar seus prompts para melhores resultados.
  • Entenda as implicações de direitos autorais: Embora as próprias obras de arte geradas por IA não sejam elegíveis para direitos autorais, os componentes criados pelo homem nelas podem ser protegidos.

Em essência, a integração da IA na arte democratizou a criatividade e borrifou as linhas entre obras-primas feitas pelo homem e pela máquina. À medida que continuamos a testemunhar o crescimento notável da IA geradora no mercado de arte, é inegável que a revolução da arte de IA, liderada por plataformas como o Midjourney, está apenas começando.

Eu passei os Ășltimos cinco anos me imergindo no fascinante mundo de Aprendizado de MĂĄquina e Aprendizado Profundo. Minha paixĂŁo e expertise me levaram a contribuir para mais de 50 projetos de engenharia de software diversificados, com um foco particular em IA/ML. Minha curiosidade contĂ­nua tambĂ©m me levou em direção ao Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.