toco Mastering AI Art: Um guia conciso para Midjourney e Prompt Engineering - Unite.AI
Entre em contato

Engenharia imediata

Mastering AI Art: um guia conciso para Midjourney e Prompt Engineering

mm
Atualização do on
LOGO UNITE AI gerado no meio da jornada

Introdução à arte gerada por IA do MidJourney

A IA está rompendo rapidamente as barreiras da impossibilidade e recentemente invadiu o domínio da arte, transformando-o inteiramente. Agora, você não precisa ser um artista mestre ou um especialista em Photoshop para dar vida às invenções de sua imaginação. Um prompt simples e bem articulado é tudo o que você precisa, graças a Meio da jornada.

Tudo começou com a introdução de tecnologias inovadoras como DALL-E, Midjourney e StableDiffusion em 2022. Embora cada uma dessas inovações tenha trazido seu toque distinto à tela da IA ​​generativa, Midjourney, em particular, continuou sua jornada atraente, tornando passos notáveis.

Midjourney é atualmente o principal gerador de IA de texto para imagem de alta resolução no mercado e se destaca com sua combinação única de geração de texto para imagem, edição e upscaling de mídia e acesso ativo à comunidade de arte, tudo a partir de $ 10 por mês. Este conjunto abrangente de recursos apresenta uma tela interessante para artistas, entusiastas de tecnologia e profissionais de IA, criando um ambiente para criatividade e inovação.

O mundo da arte certamente está prestando atenção, com IA generativa no mercado de arte projetada para testemunhar um crescimento impressionante de 40.5% CAGR. Midjourney é inigualável na criação dos visuais mais realistas e de alta qualidade usando IA.

A engenharia imediata eficaz vai além da mera criação; abrange as melhores práticas. Os prompts devem oferecer clareza e ser sucintos, mas fornecer à IA orientação suficiente sem prescrição excessiva. Além disso, o público-alvo deve ser considerado durante o projeto, levando em consideração variáveis ​​como idade, gênero, formação cultural, entre outras.

Como funciona o MidJourney?

Mid-Journey aproveita duas novas tecnologias de aprendizado de máquina – linguagem grande e modelos de difusão. O modelo de linguagem, semelhante aos chatbots de IA como o ChatGPT, auxilia o Mid-Journey a interpretar o significado de seus prompts e convertê-los em vetores. Este vetor então orienta o processo de difusão.

O funcionamento interno de Midjourney não é amplamente divulgado. No entanto, é evidente que ele usa a geração de texto para imagem a partir de duas tecnologias de aprendizado de máquina relativamente novas: grandes modelos de linguagem e modelos de difusão. O primeiro talvez seja familiar para usuários de plataformas de IA como o ChatGPT, e o último é uma adição promissora ao setor de geração de arte de IA. Todo o sistema depende do CLIP conjunto de dados para treinamento, que pode ser encontrado na página de pesquisa da OpenAI.

Apesar das informações limitadas, é possível esboçar um quadro amplo do Midjourney's modelo de difusão, apropriadamente chamado de 'Difusão estável'. Essencialmente, Stable Diffusion é um modelo de código aberto que habilmente transforma prompts de texto em imagens de vários estilos e conteúdos. Esse procedimento sofisticado é obtido por meio de um modelo de difusão, um modelo generativo que faz a ponte entre as entradas textuais e as saídas de imagens.

Os modelos de difusão são construídos com base no método Denoising Diffusion, uma abordagem influenciada pela termodinâmica de não-equilíbrio. Este método desmonta sistematicamente a estrutura de dados e depois a restaura. Esta abordagem foi adaptada para geração de imagens por Ho et al. em 2020, levando ao início dos modelos de difusão que vemos hoje.

Os modelos de difusão de treinamento envolvem dois estágios principais. Inicialmente, o processo de avanço ou difusão envolve a adição incremental de ruído aleatório à imagem de entrada até que ela se transforme completamente em ruído. Este processo é governado por uma cadeia de Markov fixa, que consistentemente adiciona ruído gaussiano em várias etapas sucessivas.

Demonstração de trabalho no meio da jornada

Posteriormente, na fase reversa ou de reconstrução, o modelo restaura os dados originais do estado dominado por ruído alcançado no processo de difusão. Este processo é conduzido por uma cadeia de Markov com transições gaussianas aprendidas, o que implica que a previsão da densidade de probabilidade em um determinado momento depende exclusivamente do estado alcançado na etapa de tempo anterior. Como os latentes 'x1, …, xT' compartilham a mesma dimensionalidade que os dados, os modelos de difusão são classificados como modelos de variáveis ​​latentes.

Custo e assinatura do meio da viagem

Enquanto muitos chatbots como ChatGPT e Bing Chat oferecem uso quase ilimitado de graça, o cenário é diferente para geradores de imagens como Mid-Journey. Devido ao poder de computação substancial necessário, especialmente das unidades de processamento gráfico (GPUs) e uso de memória de vídeo para o processo de redução de ruído, o serviço Mid-Journey vem com um etiqueta de preço.

O plano básico começa em $ 10 por mês, fornecendo cerca de 3.3 horas de tempo de GPU, o suficiente para aproximadamente 200 gerações de imagens. No entanto, existem planos mais sofisticados que oferecem imagens ilimitadas no modo Relaxado, embora com um tempo de espera maior.

Configurando sua jornada intermediária

  1. Começando Meio da Jornada envolve inscrever-se em seu site oficial, assinar um plano e, em seguida, ser redirecionado para o Discord.
  2. Depois de localizar o canal Mid-Journey no Discord, navegue até Grupos de recém-chegados no lado esquerdo. A partir daí, você pode observar outros usuários criando prompts, aprender a mecânica do Mid-Journey e interagir em um ambiente movimentado.
  3. Depois de se familiarizar com o ambiente, convide o bot para seu servidor privado para criar imagens sem perturbações. O bot gera quatro imagens de visualização com base no seu prompt, permitindo que você selecione a correspondência mais próxima da sua ideia original e refine ainda mais a imagem.

Estrutura de prompt para o meio da jornada

  1. O comando /imagine em um canal discord dentro do canal Midjourney gera uma imagem única a partir de uma breve descrição de texto (Prompt).
  2. Para recriar um estilo específico em várias imagens, basta inserir o URL da imagem ao lado do prompt de texto. Suas saídas novas e consistentes mesclarão elementos da imagem e do texto escolhidos.
    /imagine http://link-para-sua-imagem –parâmetro1 –parâmetro2
    Você pode gerar um link para sua imagem enviando-a para o canal Discord. Após o upload, clique com o botão direito do mouse na imagem e selecione 'Copiar link'.
    Aqui http://link-to-your-image e os parâmetros são opcionais.
  3. Em seguida, o Bot começa a trabalhar na sua imagem, levando aproximadamente um minuto para oferecer quatro alternativas. Esse processo envolve o uso de unidades de processamento gráfico (GPUs) robustas para processar e interpretar cada solicitação.
  4. Acompanhe o uso da GPU usando o comando /info. Ele permite que você verifique seu 'Fast Time Remaining' e monitore o tempo de GPU da sua assinatura.

/informações no meio da jornada

Upscaling e Alterações de Imagem

Para uma imagem mais refinada, use os botões 'U' sob as imagens para aprimorar sua escolha preferida. Você também pode usar os botões 'V' para fazer ajustes em imagens específicas. Para mais alterações em uma imagem aprimorada, use as opções 'Criar variações', 'Refazer em escala leve' e 'Refazer em escala beta beta'. O botão 'Web' permite visualizar a imagem em tamanho maior em uma janela separada.

O Midjourney permite o upscaling da imagem para resoluções de 2048 × 2048 (quadrado) e 2720 × 1530 (widescreen) por meio de seu recurso refazer beta upscale, com um tamanho de grade de geração padrão de 1024 × 1024 (quadrado) e 1456 × 816 (widescreen). Cada imagem pode ser aprimorada ainda mais por meio das opções de upscale “U”, que melhoram partes específicas da imagem.

Dê uma olhada neste prompt que produz arte fantástica com a versão V5.2 do Midjourney.

/imagine Artwork retrata uma árvore solitária sob um céu estrelado, com uma criança lendo embaixo, em tons de azul sereno e laranja quente, inspirado nas pinceladas do impressionismo francês, miniaturas persas, simplicidade Bauhaus, evocativas de ilustrações clássicas de contos de fadas infantis, alcançando uma harmonia assimétrica, expressa em um encantamento, folk/ingênuo: –ar 15:19 –upbeta –q 2

Exemplo de guia de solicitação no meio da jornada

Criando sua primeira arte de IA no meio da jornada

  1. Elaborando o Projeto Básico: Pense em você como um artista. Comece com uma descrição direta e vívida da imagem que você deseja trazer à vida. Descreva o assunto principal, o ambiente ou até mesmo os mínimos detalhes que deseja incorporar. Use pontuação como vírgulas, colchetes e hífens para estruturar seus pensamentos. Para melhores resultados, seja explícito sobre o contexto e os detalhes do seu design. Elementos como assunto (por exemplo, Dragão, carro antigo, Abraham Lincoln), meio (por exemplo, arte digital, desenho a lápis), ambiente (por exemplo, espaço sideral, debaixo d'água, cidade movimentada), iluminação (por exemplo, suave, neon, retroiluminado) , cor (por exemplo, tons de terra, vibrantes, suaves), humor (por exemplo, melancólico, caprichoso, pacífico) e composição (por exemplo, paisagem, close-up, grande angular) podem ser críticos. Exemplos:
    • Uma floresta idílica banhada pela luz do sol, uma trilha serpenteando ao longe
    • Uma cidade que nunca dorme, com luzes de néon refletidas nas calçadas e uma multidão diversificada circulando
  2. Infundindo estilo e palavras-chave: a IA do Midjourney é capaz de ilustrar imagens em uma infinidade de estilos, como abstrato, surreal ou realista. Ao integrar um estilo ou palavras-chave relacionadas, você pode guiar a IA para criar uma imagem que reflita sua visão. Experimente vários estilos e palavras-chave para descobrir a combinação perfeita. Exemplos:
    • Uma pintura de paisagem retratando um deserto ao amanhecer, espelhando o estilo de Georgia O'Keeffe, apresentando uma paleta de cores pastel e formas orgânicas.
    • Uma representação abstrata de uma floresta pacífica, com padrões geométricos formando árvores e folhagens, inspirada nas composições de Piet Mondrian.
  3. Aproveitando as configurações avançadas: considere Midjourney como sua caixa de ferramentas criativa, repleta de configurações avançadas que permitem ajustar suas imagens geradas. É como empunhar uma varinha mágica, permitindo que você conjure o equilíbrio ideal de aleatoriedade, estilização e variação de imagem. Libere sua proeza criativa mexendo nessas configurações até encontrar a combinação perfeita que ressoa com sua visão. Exemplos:
    • Um sereno jardim japonês com um lago refletindo as cerejeiras em flor –seed 22 –s 150 –c 40
    • Uma cidade cyberpunk distópica, iluminada por luzes neon –seed 88 –s 600 –c 60
  4. Destacando elementos com pesos: Visualize sua imagem como uma sinfonia, com cada elemento contribuindo para o grande conjunto. Usando a notação “::”, você pode ditar o significado de vários elementos em sua imagem, permitindo que você controle os holofotes. Exemplos:
    • [Um pavão elegante]::3 empoleirado em uma [árvore de glicínias]::1 florescendo com flores vibrantes
    • [Um elefante majestoso]::2 aquecendo-se sob o brilho de um [sol poente]::1 na savana
  5. O meio da jornada é o processo de tentativa e erro: é necessário experimentar diferentes elementos e recursos. Cada iteração o aproximará da imagem que você imaginou dar vida.

Parâmetros no meio da viagem

O modelo Midjourney opera usando parâmetros ajustáveis ​​que controlam o resultado do processo de geração da imagem. Esses parâmetros permitem que os usuários ajustem e adaptem sua arte gerada, ajustando o modelo para criar resultados que atendam perfeitamente ao seu objetivo.

Abaixo estão os parâmetros básicos e avançados, suas funções e como usá-los para aproveitar totalmente os recursos do Midjourney:

  • Aspect Ratios (–aspect ou –ar): Este parâmetro controla a proporção entre a largura e a altura da imagem gerada. Por exemplo, uma proporção de 16:9 é perfeita para miniaturas do YouTube, enquanto 1:1 produz uma imagem quadrada ótima para o Instagram.
  • Chaos (–chaos): Este parâmetro ajusta a diversidade da grade da imagem inicial e varia de 0 a 100. Valores de caos mais altos fornecerão resultados imprevisíveis e únicos, enquanto valores mais baixos garantirão resultados mais consistentes.
  • Não (–no): Este parâmetro ajuda a eliminar elementos ou características específicas da imagem gerada. Por exemplo, se você quiser uma imagem sem vermelho, pode usar “–no red”.
  • Qualidade (–qualidade ou –q): Esta configuração ajusta o tempo necessário para gerar uma imagem. Maior qualidade requer mais tempo de processamento, mas produz detalhes intrincados. Este parâmetro pode assumir valores de 25, 5, 1 ou 2.
  • Seed (–seed): Este parâmetro determina o ruído visual inicial, atuando como uma linha de base para a imagem gerada. Usar o mesmo número de semente com o mesmo prompt fornecerá saídas semelhantes. Aceita valores inteiros entre 0–4294967295.
  • Stop (–stop): Com este parâmetro, você pode encerrar prematuramente um trabalho, produzindo saídas menos detalhadas, mas potencialmente interessantes. O intervalo é 10-100. Por exemplo, se você especificar '–stop 50', o processo de geração da imagem será interrompido em 50% da conclusão, resultando em uma imagem menos detalhada e possivelmente abstrata.
  • Stylize (–stylize ou –s): Controla o nível de aplicação artística na imagem gerada. Valores de estilização mais baixos produzem resultados mais próximos do prompt inicial, enquanto valores mais altos resultam em interpretações mais abstratas e artísticas. Na v5, o valor padrão é 100, mas você pode defini-lo entre 0 e 1000.
  • Versão do modelo: Você pode selecionar entre várias versões do modelo Midjourney usando o parâmetro –version ou –v.
  • Niji: Um modelo especializado em imagens de estilo anime. Ele pode ser acessado usando o parâmetro –niji.
  • Definição Highmi: Para imagens abstratas e de paisagem, o parâmetro –hd ativa uma versão inicial do modelo que produz imagens maiores e menos consistentes.
  • Modelos de teste: Midjourney oferece modelos especiais para casos de uso específicos. –test e –testp ativam os modelos de teste padrão e focado em fotografia, respectivamente.
  • Upscaler: o algoritmo Midjourney começa com uma grade de imagem de baixa resolução. Ele oferece vários modelos de upscaling para aprimorar o tamanho e os detalhes da imagem.
    • Uplight: Um upscaler de luz alternativo (–uplight) fornece imagens aprimoradas que são menos detalhadas, mas mais suaves.
    • Upbeta: O parâmetro –upbeta leva a imagens com significativamente menos detalhes adicionais, ficando mais próximas da imagem da grade original.
    • Upanime: O upscaler –upanime foi projetado especificamente para funcionar com o modelo –niji Midjourney.
  • Peso da imagem: use –iw para ajustar o peso do prompt de imagem em relação ao peso do texto. O valor padrão é 0.25.
  • Sameseed: O parâmetro –sameseed garante que todas as imagens na grade inicial usem o mesmo ruído inicial, criando imagens geradas muito semelhantes.
  • Vídeo: Midjourney pode salvar um vídeo de progresso do processo inicial de geração da grade de imagem usando o parâmetro –video.
  • Creative: Com o parâmetro –creative, os modelos test e testp produzem imagens mais variadas e criativas.

O Midjourney lança atualizações de forma consistente para aprimorar a experiência do usuário, sendo a última versão 5.2, lançada em junho de 2023. Ao anexar –v 5.2 ao seu prompt ou selecioná-lo por meio do comando /settings, os usuários podem acessar esse modelo avançado. A versão 5.2 oferece detalhamento de imagem superior e entende os prompts de forma mais intuitiva, trazendo cores mais vivas e composições aprimoradas.

Compreendendo os direitos autorais de obras de arte geradas por IA

Imagem no meio da jornada de mistura de IA e leis de direitos autorais

Em março de 2023, o US Copyright Office esclareceu sua posição sobre os direitos autorais de Trabalhos gerados por IA. A política afirma que, embora os elementos feitos pelo homem nas criações da IA ​​(como escritos ou designs exclusivos) possam ser protegidos, as imagens produzidas pela IA não se qualificam para direitos autorais, aderindo às normas globais de que apenas as criações humanas são elegíveis para proteção de direitos autorais.

No contexto da arte da IA, os direitos autorais não são simples. Enquanto a arte digital tem a contribuição do artista humano, a arte gerada por IA é criada sem intervenção humana direta, o que complica a questão da autoria e propriedade. De acordo com o US Copyright Office, a propriedade inicial é concedida ao autor da obra – um criador humano. No entanto, como a IA não pode ser considerada um autor, a arte gerada pela IA carece de propriedade clara.

A orientação mais recente do Escritório de Direitos Autorais dos EUA permite direitos autorais de arte de IA somente quando ela contém autoria humana suficiente. O nível de 'autoria humana suficiente' permanece indefinido e depende do grau de envolvimento humano na criação da arte da IA.

Curiosamente, a Midjourney, uma plataforma baseada em IA para criação de imagens, estabeleceu suas próprias políticas de direitos de uso. Os usuários de avaliação gratuita podem usar as imagens para fins não comerciais sob a Licença Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), com o devido crédito para Midjourney. No entanto, os assinantes pagantes podem usar as imagens para qualquer finalidade, inclusive comercial, de acordo com os Termos Comerciais Gerais. Esse desenvolvimento no espaço do copyright apresenta uma dinâmica intrigante entre a IA e a criatividade humana.

Utilizando o Midjourney para designs dinâmicos de interface do usuário e geração de logotipos criativos

Desde o design de interfaces de usuário intuitivas para sites ou aplicativos móveis até a criação de logotipos e banners exclusivos, o Midjourney capacita os criadores de conteúdo gerando uma variedade de alternativas de design em segundos.

Veja como funciona. Cada design começa com um prompt, atuando como um modelo para a IA seguir. Suponha que você esteja projetando uma IU para um aplicativo de plataforma de tutoria online. Um prompt típico pode ser: “/imagine Interface de usuário da plataforma de tutoria on-line, Dribbble, alta resolução, 4K, como a khan academy”.

Os resultados iniciais podem não atingir o alvo perfeitamente. Por exemplo, adicionar “Adobe XD” à mistura pode ajudar a Midjourney a adaptar seus designs para serem mais compatíveis com o Adobe XD. Um prompt otimizado será:

/imagine Plataforma de tutoria online, interface de usuário, Adobe XD, Dribbble, alta resolução, 4K, design minimalista

Imagem no meio da jornada dos designs de UI/UX do aplicativo de desktop

 

Logotipo ou banners inspirados em texto usando Midjourney

Vamos explorar como criar um banner com um logotipo para o UNITE AI.

Primeiro, você precisa ter uma imagem simples do texto que deseja exibir. Você pode criar isso usando qualquer ferramenta de design gráfico ou editor de texto e enviá-lo para o seu canal do Discord.

exemplo de texto para UNITE LOGO
Uma imagem simples de texto usada para criar o logotipo UNITE

O prompt para criar o banner é:

/imaginar Letras: UNITE em um logotipo futurista inspirado em IA com as letras UNITE –v 5 –ar 16:9

Tela de recursos do guia de prompt no meio da jornada

Dê uma olhada nestes exemplos de prompts para mais ideias:

/imagine Um músico solitário tocando uma melodia serena em uma cidade flutuante ao entardecer, estilo art nouveau

Guia de dicas no meio da jornada: imagem da arte indiana

 

/imagine Uma imagem de uma futura pessoa trabalhando em uma mesa futurística, cercada por telas holográficas e tecnologia avançada. A pessoa está vestindo um elegante macacão prateado e usa óculos de realidade virtual. O ambiente é repleto de luzes neon e hologramas flutuantes. A atmosfera é futurista e de alta tecnologia, com uma sensação de entusiasmo e inovação. A câmera é uma câmera digital de alta resolução, capturando cada detalhe com precisão. O estilo artístico é uma mistura de cyberpunk e minimalismo, com foco em linhas limpas e cores ousadas. Os diretores, diretores de fotografia, fotógrafos, designers de moda, cartunistas e artistas que colaboram nesta justaposição única são Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki e Kaws.

Aviso no meio da jornada para uma futura pessoa trabalhando

/imagine a década de 1940 – estilize a Barbie como uma enfermeira do tempo de guerra, em um hospital do exército vintage, cuidando dos soldados feridos, no estilo das ilustrações clássicas da Mattel, com a atmosfera da fotografia em tons de sépia da Segunda Guerra Mundial 8k –v 5 –ar 16 :9

Midjourney Prompt Guide: Imagem da Barbie em configurações exclusivas

/imagine Quadro de uma mulher encostada em um cyberpunk, hoverbike, anime japonês, extensas paisagens urbanas, 32k, intrincado espaçoporto, fugaz, panoramas de arranha-céus, elegante

Imagem no meio da jornada de uma garota estilo cyberpunk

 

Considerações finais: Navegando no mundo da arte da IA ​​com Midjourney

Lembre que uma imagem vale mais que mil palavras". Uma descrição detalhada e vibrante pode fazer maravilhas. Sim, Midjourney não é gratuito. No entanto, está revolucionando o mundo da arte e expandindo nossas possibilidades criativas por meio de sua tecnologia de IA de conversão de texto em imagem de última geração. Com a capacidade de converter um simples prompt de texto em uma imagem de alta resolução, é uma ferramenta que promete oportunidades ilimitadas, não apenas para artistas, mas também para designers de UI/UX, entusiastas de tecnologia e profissionais de IA.

Aqui estão alguns tópicos essenciais para lembrar ao embarcar em sua aventura no meio da jornada:

  • Aprenda os fundamentos do Midjourney prompt: Use descrições claras, sucintas e abrangentes que encapsulam sua visão para guiar a IA de forma eficaz. Lembre-se de considerar seu público e não hesite em experimentar vários estilos, humores e contextos.
  • Utilize parâmetros: melhore sua experiência criativa aproveitando a multiplicidade de configurações avançadas que o Midjourney oferece. Desde o controle da proporção até o ajuste do parâmetro de caos para obter resultados exclusivos, cada detalhe pode ser adaptado de acordo com sua preferência.
  • Abrace o processo iterativo: sua primeira arte gerada por IA pode não ser perfeita. Abrace esse processo iterativo e aprenda a refinar e otimizar seus prompts para obter melhores resultados.
  • Entenda as implicações de direitos autorais: embora as próprias obras de arte geradas por IA não sejam elegíveis para direitos autorais, os componentes feitos pelo homem dentro delas podem ser protegidos.

Em essência, a integração da IA ​​na arte democratizou a criatividade e confundiu as linhas entre obras-primas feitas por humanos e feitas por máquinas. À medida que continuamos a testemunhar o notável crescimento da IA ​​generativa no mercado de arte, é inegável que a revolução da arte da IA, liderada por plataformas como Midjourney, está apenas começando.

Passei os últimos cinco anos mergulhando no fascinante mundo do Machine Learning e Deep Learning. Minha paixão e experiência me levaram a contribuir para mais de 50 projetos diversos de engenharia de software, com foco particular em AI/ML. Minha curiosidade contínua também me atraiu para o Processamento de Linguagem Natural, um campo que estou ansioso para explorar mais.