Engenharia imediata

Mastering AI Art: um guia conciso para Midjourney e Prompt Engineering

Publicado 27 de julho de 2023

Atualização do 23 de abril de 2024

Aayush Mittal Mittal

Introdução à arte gerada por IA do MidJourney

A IA está rompendo rapidamente as barreiras da impossibilidade e recentemente invadiu o domínio da arte, transformando-o inteiramente. Agora, você não precisa ser um artista mestre ou um especialista em Photoshop para dar vida às invenções de sua imaginação. Um prompt simples e bem articulado é tudo o que você precisa, graças a Meio da jornada.

Tudo começou com a introdução de tecnologias inovadoras como DALL-E, Midjourney e StableDiffusion em 2022. Embora cada uma dessas inovações tenha trazido seu toque distinto à tela da IA generativa, Midjourney, em particular, continuou sua jornada atraente, tornando passos notáveis.

Midjourney é atualmente o principal gerador de IA de texto para imagem de alta resolução no mercado e se destaca com sua combinação única de geração de texto para imagem, edição e upscaling de mídia e acesso ativo à comunidade de arte, tudo a partir de $ 10 por mês. Este conjunto abrangente de recursos apresenta uma tela interessante para artistas, entusiastas de tecnologia e profissionais de IA, criando um ambiente para criatividade e inovação.

O mundo da arte certamente está prestando atenção, com IA generativa no mercado de arte projetada para testemunhar um crescimento impressionante de 40.5% CAGR. Midjourney é inigualável na criação dos visuais mais realistas e de alta qualidade usando IA.

A engenharia imediata eficaz vai além da mera criação; abrange as melhores práticas. Os prompts devem oferecer clareza e ser sucintos, mas fornecer à IA orientação suficiente sem prescrição excessiva. Além disso, o público-alvo deve ser considerado durante o projeto, levando em consideração variáveis como idade, gênero, formação cultural, entre outras.

Como funciona o MidJourney?

Mid-Journey aproveita duas novas tecnologias de aprendizado de máquina – linguagem grande e modelos de difusão. O modelo de linguagem, semelhante aos chatbots de IA como o ChatGPT, auxilia o Mid-Journey a interpretar o significado de seus prompts e convertê-los em vetores. Este vetor então orienta o processo de difusão.

O funcionamento interno do Midjourney é em grande parte desconhecido. No entanto, é evidente que ele utiliza a geração de texto para imagem a partir de duas tecnologias de aprendizado de máquina relativamente novas: modelos de linguagem de grande porte e modelos de difusão. O primeiro talvez seja familiar para usuários de plataformas de IA como o ChatGPT, e o último é uma adição promissora ao setor de geração de arte por IA. Todo o sistema depende do CLIP conjunto de dados para treinamento, que pode ser encontrado na página de pesquisa da OpenAI.

Apesar das informações limitadas, é possível traçar um panorama geral da Midjourney modelo de difusão, apropriadamente chamado de "Difusão Estável". Essencialmente, a Difusão Estável é um modelo de código aberto que transforma habilmente prompts de texto em imagens de estilos e conteúdos variados. Esse procedimento sofisticado é alcançado por meio de um modelo de difusão, um modelo generativo que conecta as dependências entre entradas textuais e saídas de imagens.

Os modelos de difusão são construídos com base no método Denoising Diffusion, uma abordagem influenciada pela termodinâmica de não-equilíbrio. Este método desmonta sistematicamente a estrutura de dados e depois a restaura. Esta abordagem foi adaptada para geração de imagens por Ho et al. em 2020, levando ao início dos modelos de difusão que vemos hoje.

Os modelos de difusão de treinamento envolvem dois estágios principais. Inicialmente, o processo de avanço ou difusão envolve a adição incremental de ruído aleatório à imagem de entrada até que ela se transforme completamente em ruído. Este processo é governado por uma cadeia de Markov fixa, que consistentemente adiciona ruído gaussiano em várias etapas sucessivas.

Posteriormente, na fase de reversão ou reconstrução, o modelo restaura os dados originais a partir do estado dominado por ruído alcançado no processo de difusão. Esse processo é conduzido por uma cadeia de Markov com transições gaussianas aprendidas, o que implica que a previsão da densidade de probabilidade em qualquer dado instante depende exclusivamente do estado alcançado no passo de tempo anterior. Como as variáveis latentes 'x1, …, xT' compartilham a mesma dimensionalidade dos dados, os modelos de difusão são classificados como modelos de variáveis latentes.

Custo e assinatura do meio da viagem

Embora muitos chatbots, como ChatGPT e Bing Chat, ofereçam uso quase ilimitado gratuitamente, o cenário é diferente para geradores de imagens como o Mid-Journey. Devido ao substancial poder computacional necessário, especialmente das unidades de processamento gráfico (GPUs) e do uso de memória de vídeo para o processo de redução de ruído, o serviço do Mid-Journey inclui um etiqueta de preço.

O plano básico começa em $ 10 por mês, fornecendo cerca de 3.3 horas de tempo de GPU, o suficiente para aproximadamente 200 gerações de imagens. No entanto, existem planos mais sofisticados que oferecem imagens ilimitadas no modo Relaxado, embora com um tempo de espera maior.

Configurando sua jornada intermediária

Começando Meio da Jornada envolve inscrever-se em seu site oficial, assinar um plano e, em seguida, ser redirecionado para o Discord.
Depois de localizar o canal Mid-Journey no Discord, navegue até Grupos de recém-chegados no lado esquerdo. A partir daí, você pode observar outros usuários criando prompts, aprender a mecânica do Mid-Journey e interagir em um ambiente movimentado.
Depois de se familiarizar com o ambiente, convide o bot para seu servidor privado para criar imagens sem perturbações. O bot gera quatro imagens de visualização com base no seu prompt, permitindo que você selecione a correspondência mais próxima da sua ideia original e refine ainda mais a imagem.

Estrutura de prompt para o meio da jornada

O comando /imagine em um canal discord dentro do canal Midjourney gera uma imagem única a partir de uma breve descrição de texto (Prompt).
Para recriar um estilo específico em várias imagens, basta inserir o URL da imagem ao lado do prompt de texto. Suas saídas novas e consistentes mesclarão elementos da imagem e do texto escolhidos.
/imagine http://link-para-sua-imagem –parâmetro1 –parâmetro2
Você pode gerar um link para sua imagem enviando-a para o canal do Discord. Após o envio, clique com o botão direito do mouse na imagem e selecione "Copiar Link".
Aqui http://link-to-your-image e os parâmetros são opcionais.
Em seguida, o Bot começa a trabalhar na sua imagem, levando aproximadamente um minuto para oferecer quatro alternativas. Esse processo envolve o uso de unidades de processamento gráfico (GPUs) robustas para processar e interpretar cada solicitação.
Acompanhe o uso da sua GPU usando o comando /info. Ele permite que você verifique o "Tempo de Velocidade Restante" e monitore o tempo de GPU da sua assinatura.

Upscaling e Alterações de Imagem

Para uma imagem mais refinada, use os botões "U" abaixo das imagens para ampliar a imagem de sua preferência. Você também pode usar os botões "V" para fazer ajustes em imagens específicas. Para mais alterações em uma imagem ampliada, use as opções "Fazer variações", "Refazer ampliação leve" e "Refazer ampliação beta". O botão "Web" permite visualizar a imagem em tamanho maior em uma janela separada.

O Midjourney permite o upscaling da imagem para resoluções de 2048 × 2048 (quadrado) e 2720 × 1530 (widescreen) por meio de seu recurso refazer beta upscale, com um tamanho de grade de geração padrão de 1024 × 1024 (quadrado) e 1456 × 816 (widescreen). Cada imagem pode ser aprimorada ainda mais por meio das opções de upscale “U”, que melhoram partes específicas da imagem.

Dê uma olhada neste prompt que produz uma arte fantástica com a versão V5.2 do Midjourney.

/imagine A obra de arte retrata uma árvore solitária sob um céu estrelado, com uma criança lendo abaixo, em tons de azul sereno e laranja quente, inspirada nas pinceladas do impressionismo francês, miniaturas persas, simplicidade Bauhaus, evocando ilustrações clássicas de contos de fadas infantis, alcançando uma harmonia assimétrica, expressa de forma encantadora, folclórica/ingênua: –ar 15:19 –upbeta –q 2

Criando sua primeira arte de IA no meio da jornada

Criando o Projeto Básico: Pense em si mesmo como um artista. Comece com uma descrição direta e vívida da imagem que você deseja dar vida. Descreva o tema principal, o ambiente ou até mesmo os mínimos detalhes que deseja incorporar. Use pontuação, como vírgulas, colchetes e hífens, para estruturar suas ideias. Para melhores resultados, seja explícito sobre o contexto e os detalhes do seu design. Elementos como tema (ex.: Dragão, carro antigo, Abraham Lincoln), meio (ex.: arte digital, esboço a lápis), ambiente (ex.: espaço sideral, subaquático, cidade movimentada), iluminação (ex.: suave, neon, retroiluminação), cor (ex.: tons terrosos, vibrantes, suaves), clima (ex.: melancólico, excêntrico, tranquilo) e composição (ex.: paisagem, close-up, grande angular) podem ser cruciais. Exemplos:
- Uma floresta idílica banhada pela luz do sol, uma trilha serpenteando ao longe
- Uma cidade que nunca dorme, com luzes de néon refletidas nas calçadas e uma multidão diversificada circulando
Incorpore estilo e palavras-chave: a IA da Midjourney é capaz de ilustrar imagens em uma infinidade de estilos, como abstrato, surreal ou realista. Ao integrar um estilo ou palavras-chave relacionadas, você pode guiar a IA para criar uma imagem que reflita sua visão. Experimente diferentes estilos e palavras-chave para encontrar a combinação perfeita. Exemplos:
- Uma pintura de paisagem retratando um deserto ao amanhecer, refletindo o estilo de Georgia O'Keeffe, com uma paleta de cores pastéis e formas orgânicas.
- Uma representação abstrata de uma floresta pacífica, com padrões geométricos formando árvores e folhagens, inspirada nas composições de Piet Mondrian.
Aproveitando as configurações avançadas: considere Midjourney como sua caixa de ferramentas criativa, repleta de configurações avançadas que permitem ajustar suas imagens geradas. É como empunhar uma varinha mágica, permitindo que você conjure o equilíbrio ideal de aleatoriedade, estilização e variação de imagem. Libere sua proeza criativa mexendo nessas configurações até encontrar a combinação perfeita que ressoa com sua visão. Exemplos:
- Um sereno jardim japonês com um lago refletindo as cerejeiras em flor –seed 22 –s 150 –c 40
- Uma cidade cyberpunk distópica, iluminada por luzes neon –seed 88 –s 600 –c 60
Destacando elementos com pesos: Visualize sua imagem como uma sinfonia, com cada elemento contribuindo para o grande conjunto. Usando a notação “::”, você pode ditar o significado de vários elementos em sua imagem, permitindo que você controle os holofotes. Exemplos:
- [Um pavão elegante]::3 empoleirado em uma [árvore de glicínias]::1 florescendo com flores vibrantes
- [Um elefante majestoso]::2 aquecendo-se sob o brilho de um [sol poente]::1 na savana
O meio da jornada é o processo de tentativa e erro: é necessário experimentar diferentes elementos e recursos. Cada iteração o aproximará da imagem que você imaginou dar vida.

Parâmetros no meio da viagem

O modelo Midjourney opera usando parâmetros ajustáveis que controlam o resultado do processo de geração da imagem. Esses parâmetros permitem que os usuários ajustem e adaptem sua arte gerada, ajustando o modelo para criar resultados que atendam perfeitamente ao seu objetivo.

Abaixo estão os parâmetros básicos e avançados, suas funções e como usá-los para aproveitar ao máximo os recursos do Midjourney:

Aspect Ratios (–aspect ou –ar): Este parâmetro controla a proporção entre a largura e a altura da imagem gerada. Por exemplo, uma proporção de 16:9 é perfeita para miniaturas do YouTube, enquanto 1:1 produz uma imagem quadrada ótima para o Instagram.
Chaos (–chaos): Este parâmetro ajusta a diversidade da grade da imagem inicial e varia de 0 a 100. Valores de caos mais altos fornecerão resultados imprevisíveis e únicos, enquanto valores mais baixos garantirão resultados mais consistentes.
Não (–no): Este parâmetro ajuda a eliminar elementos ou características específicas da imagem gerada. Por exemplo, se você quiser uma imagem sem vermelho, pode usar “–no red”.
Qualidade (–qualidade ou –q): Esta configuração ajusta o tempo necessário para gerar uma imagem. Maior qualidade requer mais tempo de processamento, mas produz detalhes intrincados. Este parâmetro pode assumir valores de 25, 5, 1 ou 2.
Seed (–seed): Este parâmetro determina o ruído visual inicial, atuando como uma linha de base para a imagem gerada. Usar o mesmo número de semente com o mesmo prompt fornecerá saídas semelhantes. Aceita valores inteiros entre 0–4294967295.
Parar (–stop): Com este parâmetro, você pode encerrar uma tarefa prematuramente, produzindo resultados menos detalhados, mas potencialmente interessantes. O intervalo é de 10 a 100. Por exemplo, se você especificar "–stop 50", o processo de geração de imagem será interrompido em 50% da conclusão, resultando em uma imagem menos detalhada e possivelmente abstrata.
Stylize (–stylize ou –s): Controla o nível de aplicação artística na imagem gerada. Valores de estilização mais baixos produzem resultados mais próximos do prompt inicial, enquanto valores mais altos resultam em interpretações mais abstratas e artísticas. Na v5, o valor padrão é 100, mas você pode defini-lo entre 0 e 1000.
Versão do modelo: Você pode selecionar entre várias versões do modelo Midjourney usando o parâmetro –version ou –v.
Niji: Um modelo especializado em imagens de estilo anime. Ele pode ser acessado usando o parâmetro –niji.
Definição Highmi: Para imagens abstratas e de paisagem, o parâmetro –hd ativa uma versão inicial do modelo que produz imagens maiores e menos consistentes.
Modelos de teste: Midjourney oferece modelos especiais para casos de uso específicos. –test e –testp ativam os modelos de teste padrão e focado em fotografia, respectivamente.
Upscaler: o algoritmo Midjourney começa com uma grade de imagem de baixa resolução. Ele oferece vários modelos de upscaling para aprimorar o tamanho e os detalhes da imagem.
- Uplight: Um upscaler de luz alternativo (–uplight) fornece imagens aprimoradas que são menos detalhadas, mas mais suaves.
- Upbeta: O parâmetro –upbeta leva a imagens com significativamente menos detalhes adicionais, ficando mais próximas da imagem da grade original.
- Upanime: O upscaler –upanime foi projetado especificamente para funcionar com o modelo –niji Midjourney.
Peso da imagem: use –iw para ajustar o peso do prompt de imagem em relação ao peso do texto. O valor padrão é 0.25.
Sameseed: O parâmetro –sameseed garante que todas as imagens na grade inicial usem o mesmo ruído inicial, criando imagens geradas muito semelhantes.
Vídeo: Midjourney pode salvar um vídeo de progresso do processo inicial de geração da grade de imagem usando o parâmetro –video.
Creative: Com o parâmetro –creative, os modelos test e testp produzem imagens mais variadas e criativas.

O Midjourney lança atualizações de forma consistente para aprimorar a experiência do usuário, sendo a última versão 5.2, lançada em junho de 2023. Ao anexar –v 5.2 ao seu prompt ou selecioná-lo por meio do comando /settings, os usuários podem acessar esse modelo avançado. A versão 5.2 oferece detalhamento de imagem superior e entende os prompts de forma mais intuitiva, trazendo cores mais vivas e composições aprimoradas.

Compreendendo os direitos autorais de obras de arte geradas por IA

Em março de 2023, o US Copyright Office esclareceu sua posição sobre os direitos autorais de Trabalhos gerados por IA. A política afirma que, embora os elementos feitos pelo homem nas criações da IA (como escritos ou designs exclusivos) possam ser protegidos, as imagens produzidas pela IA não se qualificam para direitos autorais, aderindo às normas globais de que apenas as criações humanas são elegíveis para proteção de direitos autorais.

No contexto da arte com IA, os direitos autorais não são simples. Enquanto a arte digital conta com a contribuição do artista humano, a arte gerada por IA é criada sem intervenção humana direta, o que complica a questão da autoria e propriedade. De acordo com o Escritório de Direitos Autorais dos EUA, a propriedade inicial é concedida ao autor da obra – um criador humano. No entanto, como a IA não pode ser considerada um autor, a arte gerada por IA carece de propriedade clara.

As diretrizes mais recentes do Escritório de Direitos Autorais dos EUA permitem a proteção de direitos autorais de arte com IA somente quando esta contém autoria humana suficiente. O nível de "autoria humana suficiente" permanece indefinido e depende do grau de envolvimento humano na criação da arte com IA.

Curiosamente, a Midjourney, uma plataforma baseada em IA para criação de imagens, estabeleceu suas próprias políticas de direitos de uso. Os usuários de avaliação gratuita podem usar as imagens para fins não comerciais sob a Licença Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), com o devido crédito para Midjourney. No entanto, os assinantes pagantes podem usar as imagens para qualquer finalidade, inclusive comercial, de acordo com os Termos Comerciais Gerais. Esse desenvolvimento no espaço do copyright apresenta uma dinâmica intrigante entre a IA e a criatividade humana.

Utilizando o Midjourney para designs dinâmicos de interface do usuário e geração de logotipos criativos

Desde o design de interfaces de usuário intuitivas para sites ou aplicativos móveis até a criação de logotipos e banners exclusivos, o Midjourney capacita os criadores de conteúdo gerando uma variedade de alternativas de design em segundos.

Veja como funciona. Cada design começa com um prompt, que funciona como um modelo a ser seguido pela IA. Suponha que você esteja projetando uma interface de usuário para um aplicativo de plataforma de tutoria online. Um prompt típico poderia ser: "/imagine a interface de usuário de uma plataforma de tutoria online, Dribbble, alta resolução, 4K, como a Khan Academy".

Os resultados iniciais podem não atingir o alvo perfeitamente. Por exemplo, adicionar “Adobe XD” à mistura pode ajudar a Midjourney a adaptar seus designs para serem mais compatíveis com o Adobe XD. Um prompt otimizado será:

/imagine Plataforma de tutoria online, interface de usuário, Adobe XD, Dribbble, alta resolução, 4K, design minimalista

Logotipo ou banners inspirados em texto usando Midjourney

Vamos explorar como criar um banner com um logotipo para o UNITE AI.

Primeiro, você precisa ter uma imagem simples do texto que deseja exibir. Você pode criar isso usando qualquer ferramenta de design gráfico ou editor de texto e enviá-lo para o seu canal do Discord.

: Uma imagem simples de texto usada para criar o logotipo UNITE

O prompt para criar o banner é:

/imaginar Letras: UNITE em um logotipo futurista inspirado em IA com as letras UNITE –v 5 –ar 16:9

Dê uma olhada nestes exemplos de prompts para mais ideias:

/imagine Um músico solitário tocando uma melodia serena em uma cidade flutuante ao entardecer, estilo art nouveau

/imagine Uma imagem de uma futura pessoa trabalhando em uma mesa futurística, cercada por telas holográficas e tecnologia avançada. A pessoa está vestindo um elegante macacão prateado e usa óculos de realidade virtual. O ambiente é repleto de luzes neon e hologramas flutuantes. A atmosfera é futurista e de alta tecnologia, com uma sensação de entusiasmo e inovação. A câmera é uma câmera digital de alta resolução, capturando cada detalhe com precisão. O estilo artístico é uma mistura de cyberpunk e minimalismo, com foco em linhas limpas e cores ousadas. Os diretores, diretores de fotografia, fotógrafos, designers de moda, cartunistas e artistas que colaboram nesta justaposição única são Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki e Kaws.

/imagine a década de 1940 – estilize a Barbie como uma enfermeira do tempo de guerra, em um hospital do exército vintage, cuidando dos soldados feridos, no estilo das ilustrações clássicas da Mattel, com a atmosfera da fotografia em tons de sépia da Segunda Guerra Mundial 8k –v 5 –ar 16 :9

/imagine Quadro de uma mulher encostada em um cyberpunk, hoverbike, anime japonês, extensas paisagens urbanas, 32k, intrincado espaçoporto, fugaz, panoramas de arranha-céus, elegante

Considerações finais: Navegando no mundo da arte da IA com Midjourney

Lembre-se: "Uma imagem vale mais que mil palavras". Uma descrição detalhada e vibrante pode fazer maravilhas. Sim, o Midjourney não é gratuito. No entanto, ele está revolucionando o mundo da arte e expandindo nossas possibilidades criativas por meio de sua tecnologia de IA de última geração que converte texto em imagem. Com a capacidade de converter um simples texto em uma imagem de alta resolução, é uma ferramenta que promete oportunidades ilimitadas, não apenas para artistas, mas também para designers de UI/UX, entusiastas de tecnologia e profissionais de IA.

Aqui estão alguns tópicos essenciais para lembrar ao embarcar em sua aventura no meio da jornada:

Aprenda os princípios básicos do prompt Midjourney: use descrições claras, sucintas e abrangentes que resuma sua visão para guiar a IA de forma eficaz. Lembre-se de considerar seu público e não hesite em experimentar diferentes estilos, climas e contextos.
Utilize parâmetros: melhore sua experiência criativa aproveitando a multiplicidade de configurações avançadas que o Midjourney oferece. Desde o controle da proporção até o ajuste do parâmetro de caos para obter resultados exclusivos, cada detalhe pode ser adaptado de acordo com sua preferência.
Abrace o processo iterativo: sua primeira arte gerada por IA pode não ser perfeita. Abrace esse processo iterativo e aprenda a refinar e otimizar seus prompts para obter melhores resultados.
Entenda as implicações de direitos autorais: embora as próprias obras de arte geradas por IA não sejam elegíveis para direitos autorais, os componentes feitos pelo homem dentro delas podem ser protegidos.

Em essência, a integração da IA na arte democratizou a criatividade e confundiu as linhas entre obras-primas feitas por humanos e feitas por máquinas. À medida que continuamos a testemunhar o notável crescimento da IA generativa no mercado de arte, é inegável que a revolução da arte da IA, liderada por plataformas como Midjourney, está apenas começando.

Tópicos relacionados:Inteligência artificial como guiar Meio da jornada ENGENHARIA IMEDIATA

Aayush Mittal

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.

Unir-se.AI