Engenharia imediata
Mastering AI Art: um guia conciso para Midjourney e Prompt Engineering

Introdução à arte gerada por IA do MidJourney
A IA está rompendo rapidamente as barreiras da impossibilidade e recentemente invadiu o domĂnio da arte, transformando-o inteiramente. Agora, vocĂŞ nĂŁo precisa ser um artista mestre ou um especialista em Photoshop para dar vida Ă s invenções de sua imaginação. Um prompt simples e bem articulado Ă© tudo o que vocĂŞ precisa, graças a Meio da jornada.
Tudo começou com a introdução de tecnologias inovadoras como DALL-E, Midjourney e StableDiffusion em 2022. Embora cada uma dessas inovações tenha trazido seu toque distinto à tela da IA ​​generativa, Midjourney, em particular, continuou sua jornada atraente, tornando passos notáveis.
Midjourney Ă© atualmente o principal gerador de IA de texto para imagem de alta resolução no mercado e se destaca com sua combinação Ăşnica de geração de texto para imagem, edição e upscaling de mĂdia e acesso ativo Ă comunidade de arte, tudo a partir de $ 10 por mĂŞs. Este conjunto abrangente de recursos apresenta uma tela interessante para artistas, entusiastas de tecnologia e profissionais de IA, criando um ambiente para criatividade e inovação.
O mundo da arte certamente está prestando atenção, com IA generativa no mercado de arte projetada para testemunhar um crescimento impressionante de 40.5% CAGR. Midjourney é inigualável na criação dos visuais mais realistas e de alta qualidade usando IA.
A engenharia imediata eficaz vai além da mera criação; abrange as melhores práticas. Os prompts devem oferecer clareza e ser sucintos, mas fornecer à IA orientação suficiente sem prescrição excessiva. Além disso, o público-alvo deve ser considerado durante o projeto, levando em consideração variáveis ​​como idade, gênero, formação cultural, entre outras.
Como funciona o MidJourney?
Mid-Journey aproveita duas novas tecnologias de aprendizado de máquina – linguagem grande e modelos de difusão. O modelo de linguagem, semelhante aos chatbots de IA como o ChatGPT, auxilia o Mid-Journey a interpretar o significado de seus prompts e convertê-los em vetores. Este vetor então orienta o processo de difusão.
O funcionamento interno de Midjourney não é amplamente divulgado. No entanto, é evidente que ele usa a geração de texto para imagem a partir de duas tecnologias de aprendizado de máquina relativamente novas: grandes modelos de linguagem e modelos de difusão. O primeiro talvez seja familiar para usuários de plataformas de IA como o ChatGPT, e o último é uma adição promissora ao setor de geração de arte de IA. Todo o sistema depende do CLIP conjunto de dados para treinamento, que pode ser encontrado na página de pesquisa da OpenAI.
Apesar das informações limitadas, Ă© possĂvel esboçar um quadro amplo do Midjourney's modelo de difusĂŁo, apropriadamente chamado de 'DifusĂŁo estável'. Essencialmente, Stable Diffusion Ă© um modelo de cĂłdigo aberto que habilmente transforma prompts de texto em imagens de vários estilos e conteĂşdos. Esse procedimento sofisticado Ă© obtido por meio de um modelo de difusĂŁo, um modelo generativo que faz a ponte entre as entradas textuais e as saĂdas de imagens.
Os modelos de difusĂŁo sĂŁo construĂdos com base no mĂ©todo Denoising Diffusion, uma abordagem influenciada pela termodinâmica de nĂŁo-equilĂbrio. Este mĂ©todo desmonta sistematicamente a estrutura de dados e depois a restaura. Esta abordagem foi adaptada para geração de imagens por Ho et al. em 2020, levando ao inĂcio dos modelos de difusĂŁo que vemos hoje.
Os modelos de difusĂŁo de treinamento envolvem dois estágios principais. Inicialmente, o processo de avanço ou difusĂŁo envolve a adição incremental de ruĂdo aleatĂłrio Ă imagem de entrada atĂ© que ela se transforme completamente em ruĂdo. Este processo Ă© governado por uma cadeia de Markov fixa, que consistentemente adiciona ruĂdo gaussiano em várias etapas sucessivas.
Posteriormente, na fase reversa ou de reconstrução, o modelo restaura os dados originais do estado dominado por ruĂdo alcançado no processo de difusĂŁo. Este processo Ă© conduzido por uma cadeia de Markov com transições gaussianas aprendidas, o que implica que a previsĂŁo da densidade de probabilidade em um determinado momento depende exclusivamente do estado alcançado na etapa de tempo anterior. Como os latentes 'x1, …, xT' compartilham a mesma dimensionalidade que os dados, os modelos de difusĂŁo sĂŁo classificados como modelos de variáveis ​​latentes.
Custo e assinatura do meio da viagem
Enquanto muitos chatbots como ChatGPT e Bing Chat oferecem uso quase ilimitado de graça, o cenário Ă© diferente para geradores de imagens como Mid-Journey. Devido ao poder de computação substancial necessário, especialmente das unidades de processamento gráfico (GPUs) e uso de memĂłria de vĂdeo para o processo de redução de ruĂdo, o serviço Mid-Journey vem com um etiqueta de preço.
O plano básico começa em $ 10 por mês, fornecendo cerca de 3.3 horas de tempo de GPU, o suficiente para aproximadamente 200 gerações de imagens. No entanto, existem planos mais sofisticados que oferecem imagens ilimitadas no modo Relaxado, embora com um tempo de espera maior.
Configurando sua jornada intermediária
- Começando Meio da Jornada envolve inscrever-se em seu site oficial, assinar um plano e, em seguida, ser redirecionado para o Discord.
- Depois de localizar o canal Mid-Journey no Discord, navegue atĂ© Grupos de recĂ©m-chegados no lado esquerdo. A partir daĂ, vocĂŞ pode observar outros usuários criando prompts, aprender a mecânica do Mid-Journey e interagir em um ambiente movimentado.
- Depois de se familiarizar com o ambiente, convide o bot para seu servidor privado para criar imagens sem perturbações. O bot gera quatro imagens de visualização com base no seu prompt, permitindo que você selecione a correspondência mais próxima da sua ideia original e refine ainda mais a imagem.
Estrutura de prompt para o meio da jornada
- O comando /imagine em um canal discord dentro do canal Midjourney gera uma imagem única a partir de uma breve descrição de texto (Prompt).
- Para recriar um estilo especĂfico em várias imagens, basta inserir o URL da imagem ao lado do prompt de texto. Suas saĂdas novas e consistentes mesclarĂŁo elementos da imagem e do texto escolhidos.
/imagine http://link-para-sua-imagem –parâmetro1 –parâmetro2
VocĂŞ pode gerar um link para sua imagem enviando-a para o canal Discord. ApĂłs o upload, clique com o botĂŁo direito do mouse na imagem e selecione 'Copiar link'.
Aqui http://link-to-your-image e os parâmetros são opcionais. - Em seguida, o Bot começa a trabalhar na sua imagem, levando aproximadamente um minuto para oferecer quatro alternativas. Esse processo envolve o uso de unidades de processamento gráfico (GPUs) robustas para processar e interpretar cada solicitação.
- Acompanhe o uso da GPU usando o comando /info. Ele permite que vocĂŞ verifique seu 'Fast Time Remaining' e monitore o tempo de GPU da sua assinatura.
Upscaling e Alterações de Imagem
Para uma imagem mais refinada, use os botões 'U' sob as imagens para aprimorar sua escolha preferida. VocĂŞ tambĂ©m pode usar os botões 'V' para fazer ajustes em imagens especĂficas. Para mais alterações em uma imagem aprimorada, use as opções 'Criar variações', 'Refazer em escala leve' e 'Refazer em escala beta beta'. O botĂŁo 'Web' permite visualizar a imagem em tamanho maior em uma janela separada.
O Midjourney permite o upscaling da imagem para resoluções de 2048 Ă— 2048 (quadrado) e 2720 Ă— 1530 (widescreen) por meio de seu recurso refazer beta upscale, com um tamanho de grade de geração padrĂŁo de 1024 Ă— 1024 (quadrado) e 1456 Ă— 816 (widescreen). Cada imagem pode ser aprimorada ainda mais por meio das opções de upscale “U”, que melhoram partes especĂficas da imagem.
Dê uma olhada neste prompt que produz arte fantástica com a versão V5.2 do Midjourney.
/imagine Artwork retrata uma árvore solitária sob um céu estrelado, com uma criança lendo embaixo, em tons de azul sereno e laranja quente, inspirado nas pinceladas do impressionismo francês, miniaturas persas, simplicidade Bauhaus, evocativas de ilustrações clássicas de contos de fadas infantis, alcançando uma harmonia assimétrica, expressa em um encantamento, folk/ingênuo: –ar 15:19 –upbeta –q 2
Criando sua primeira arte de IA no meio da jornada
- Elaborando o Projeto Básico: Pense em vocĂŞ como um artista. Comece com uma descrição direta e vĂvida da imagem que vocĂŞ deseja trazer Ă vida. Descreva o assunto principal, o ambiente ou atĂ© mesmo os mĂnimos detalhes que deseja incorporar. Use pontuação como vĂrgulas, colchetes e hĂfens para estruturar seus pensamentos. Para melhores resultados, seja explĂcito sobre o contexto e os detalhes do seu design. Elementos como assunto (por exemplo, DragĂŁo, carro antigo, Abraham Lincoln), meio (por exemplo, arte digital, desenho a lápis), ambiente (por exemplo, espaço sideral, debaixo d'água, cidade movimentada), iluminação (por exemplo, suave, neon, retroiluminado) , cor (por exemplo, tons de terra, vibrantes, suaves), humor (por exemplo, melancĂłlico, caprichoso, pacĂfico) e composição (por exemplo, paisagem, close-up, grande angular) podem ser crĂticos. Exemplos:
- Uma floresta idĂlica banhada pela luz do sol, uma trilha serpenteando ao longe
- Uma cidade que nunca dorme, com luzes de néon refletidas nas calçadas e uma multidão diversificada circulando
- Infundindo estilo e palavras-chave: a IA do Midjourney é capaz de ilustrar imagens em uma infinidade de estilos, como abstrato, surreal ou realista. Ao integrar um estilo ou palavras-chave relacionadas, você pode guiar a IA para criar uma imagem que reflita sua visão. Experimente vários estilos e palavras-chave para descobrir a combinação perfeita. Exemplos:
- Uma pintura de paisagem retratando um deserto ao amanhecer, espelhando o estilo de Georgia O'Keeffe, apresentando uma paleta de cores pastel e formas orgânicas.
- Uma representação abstrata de uma floresta pacĂfica, com padrões geomĂ©tricos formando árvores e folhagens, inspirada nas composições de Piet Mondrian.
- Aproveitando as configurações avançadas: considere Midjourney como sua caixa de ferramentas criativa, repleta de configurações avançadas que permitem ajustar suas imagens geradas. É como empunhar uma varinha mágica, permitindo que vocĂŞ conjure o equilĂbrio ideal de aleatoriedade, estilização e variação de imagem. Libere sua proeza criativa mexendo nessas configurações atĂ© encontrar a combinação perfeita que ressoa com sua visĂŁo. Exemplos:
- Um sereno jardim japonês com um lago refletindo as cerejeiras em flor –seed 22 –s 150 –c 40
- Uma cidade cyberpunk distópica, iluminada por luzes neon –seed 88 –s 600 –c 60
- Destacando elementos com pesos: Visualize sua imagem como uma sinfonia, com cada elemento contribuindo para o grande conjunto. Usando a notação “::”, você pode ditar o significado de vários elementos em sua imagem, permitindo que você controle os holofotes. Exemplos:
- [Um pavĂŁo elegante]::3 empoleirado em uma [árvore de glicĂnias]::1 florescendo com flores vibrantes
- [Um elefante majestoso]::2 aquecendo-se sob o brilho de um [sol poente]::1 na savana
- O meio da jornada é o processo de tentativa e erro: é necessário experimentar diferentes elementos e recursos. Cada iteração o aproximará da imagem que você imaginou dar vida.
Parâmetros no meio da viagem
O modelo Midjourney opera usando parâmetros ajustáveis ​​que controlam o resultado do processo de geração da imagem. Esses parâmetros permitem que os usuários ajustem e adaptem sua arte gerada, ajustando o modelo para criar resultados que atendam perfeitamente ao seu objetivo.
Abaixo estão os parâmetros básicos e avançados, suas funções e como usá-los para aproveitar totalmente os recursos do Midjourney:
- Aspect Ratios (–aspect ou –ar): Este parâmetro controla a proporção entre a largura e a altura da imagem gerada. Por exemplo, uma proporção de 16:9 é perfeita para miniaturas do YouTube, enquanto 1:1 produz uma imagem quadrada ótima para o Instagram.
- Chaos (–chaos): Este parâmetro ajusta a diversidade da grade da imagem inicial e varia de 0 a 100. Valores de caos mais altos fornecerĂŁo resultados imprevisĂveis e Ăşnicos, enquanto valores mais baixos garantirĂŁo resultados mais consistentes.
- NĂŁo (–no): Este parâmetro ajuda a eliminar elementos ou caracterĂsticas especĂficas da imagem gerada. Por exemplo, se vocĂŞ quiser uma imagem sem vermelho, pode usar “–no red”.
- Qualidade (–qualidade ou –q): Esta configuração ajusta o tempo necessário para gerar uma imagem. Maior qualidade requer mais tempo de processamento, mas produz detalhes intrincados. Este parâmetro pode assumir valores de 25, 5, 1 ou 2.
- Seed (–seed): Este parâmetro determina o ruĂdo visual inicial, atuando como uma linha de base para a imagem gerada. Usar o mesmo nĂşmero de semente com o mesmo prompt fornecerá saĂdas semelhantes. Aceita valores inteiros entre 0–4294967295.
- Stop (–stop): Com este parâmetro, vocĂŞ pode encerrar prematuramente um trabalho, produzindo saĂdas menos detalhadas, mas potencialmente interessantes. O intervalo Ă© 10-100. Por exemplo, se vocĂŞ especificar '–stop 50', o processo de geração da imagem será interrompido em 50% da conclusĂŁo, resultando em uma imagem menos detalhada e possivelmente abstrata.
- Stylize (–stylize ou –s): Controla o nĂvel de aplicação artĂstica na imagem gerada. Valores de estilização mais baixos produzem resultados mais prĂłximos do prompt inicial, enquanto valores mais altos resultam em interpretações mais abstratas e artĂsticas. Na v5, o valor padrĂŁo Ă© 100, mas vocĂŞ pode defini-lo entre 0 e 1000.
- Versão do modelo: Você pode selecionar entre várias versões do modelo Midjourney usando o parâmetro –version ou –v.
- Niji: Um modelo especializado em imagens de estilo anime. Ele pode ser acessado usando o parâmetro –niji.
- Definição Highmi: Para imagens abstratas e de paisagem, o parâmetro –hd ativa uma versão inicial do modelo que produz imagens maiores e menos consistentes.
- Modelos de teste: Midjourney oferece modelos especiais para casos de uso especĂficos. –test e –testp ativam os modelos de teste padrĂŁo e focado em fotografia, respectivamente.
- Upscaler: o algoritmo Midjourney começa com uma grade de imagem de baixa resolução. Ele oferece vários modelos de upscaling para aprimorar o tamanho e os detalhes da imagem.
- Uplight: Um upscaler de luz alternativo (–uplight) fornece imagens aprimoradas que são menos detalhadas, mas mais suaves.
- Upbeta: O parâmetro –upbeta leva a imagens com significativamente menos detalhes adicionais, ficando mais próximas da imagem da grade original.
- Upanime: O upscaler –upanime foi projetado especificamente para funcionar com o modelo –niji Midjourney.
- Peso da imagem: use –iw para ajustar o peso do prompt de imagem em relação ao peso do texto. O valor padrão é 0.25.
- Sameseed: O parâmetro –sameseed garante que todas as imagens na grade inicial usem o mesmo ruĂdo inicial, criando imagens geradas muito semelhantes.
- VĂdeo: Midjourney pode salvar um vĂdeo de progresso do processo inicial de geração da grade de imagem usando o parâmetro –video.
- Creative: Com o parâmetro –creative, os modelos test e testp produzem imagens mais variadas e criativas.
O Midjourney lança atualizações de forma consistente para aprimorar a experiência do usuário, sendo a última versão 5.2, lançada em junho de 2023. Ao anexar –v 5.2 ao seu prompt ou selecioná-lo por meio do comando /settings, os usuários podem acessar esse modelo avançado. A versão 5.2 oferece detalhamento de imagem superior e entende os prompts de forma mais intuitiva, trazendo cores mais vivas e composições aprimoradas.
Compreendendo os direitos autorais de obras de arte geradas por IA
Em março de 2023, o US Copyright Office esclareceu sua posição sobre os direitos autorais de Trabalhos gerados por IA. A polĂtica afirma que, embora os elementos feitos pelo homem nas criações da IA ​​(como escritos ou designs exclusivos) possam ser protegidos, as imagens produzidas pela IA nĂŁo se qualificam para direitos autorais, aderindo Ă s normas globais de que apenas as criações humanas sĂŁo elegĂveis para proteção de direitos autorais.
No contexto da arte da IA, os direitos autorais não são simples. Enquanto a arte digital tem a contribuição do artista humano, a arte gerada por IA é criada sem intervenção humana direta, o que complica a questão da autoria e propriedade. De acordo com o US Copyright Office, a propriedade inicial é concedida ao autor da obra – um criador humano. No entanto, como a IA não pode ser considerada um autor, a arte gerada pela IA carece de propriedade clara.
A orientação mais recente do EscritĂłrio de Direitos Autorais dos EUA permite direitos autorais de arte de IA somente quando ela contĂ©m autoria humana suficiente. O nĂvel de 'autoria humana suficiente' permanece indefinido e depende do grau de envolvimento humano na criação da arte da IA.
Curiosamente, a Midjourney, uma plataforma baseada em IA para criação de imagens, estabeleceu suas prĂłprias polĂticas de direitos de uso. Os usuários de avaliação gratuita podem usar as imagens para fins nĂŁo comerciais sob a Licença Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0), com o devido crĂ©dito para Midjourney. No entanto, os assinantes pagantes podem usar as imagens para qualquer finalidade, inclusive comercial, de acordo com os Termos Comerciais Gerais. Esse desenvolvimento no espaço do copyright apresenta uma dinâmica intrigante entre a IA e a criatividade humana.
Utilizando o Midjourney para designs dinâmicos de interface do usuário e geração de logotipos criativos
Desde o design de interfaces de usuário intuitivas para sites ou aplicativos móveis até a criação de logotipos e banners exclusivos, o Midjourney capacita os criadores de conteúdo gerando uma variedade de alternativas de design em segundos.
Veja como funciona. Cada design começa com um prompt, atuando como um modelo para a IA seguir. Suponha que vocĂŞ esteja projetando uma IU para um aplicativo de plataforma de tutoria online. Um prompt tĂpico pode ser: “/imagine Interface de usuário da plataforma de tutoria on-line, Dribbble, alta resolução, 4K, como a khan academy”.
Os resultados iniciais podem nĂŁo atingir o alvo perfeitamente. Por exemplo, adicionar “Adobe XD” Ă mistura pode ajudar a Midjourney a adaptar seus designs para serem mais compatĂveis com o Adobe XD. Um prompt otimizado será:
/imagine Plataforma de tutoria online, interface de usuário, Adobe XD, Dribbble, alta resolução, 4K, design minimalista
Logotipo ou banners inspirados em texto usando Midjourney
Vamos explorar como criar um banner com um logotipo para o UNITE AI.
Primeiro, você precisa ter uma imagem simples do texto que deseja exibir. Você pode criar isso usando qualquer ferramenta de design gráfico ou editor de texto e enviá-lo para o seu canal do Discord.
O prompt para criar o banner Ă©:
/imaginar Letras: UNITE em um logotipo futurista inspirado em IA com as letras UNITE –v 5 –ar 16:9
DĂŞ uma olhada nestes exemplos de prompts para mais ideias:
/imagine Um músico solitário tocando uma melodia serena em uma cidade flutuante ao entardecer, estilo art nouveau
/imagine Uma imagem de uma futura pessoa trabalhando em uma mesa futurĂstica, cercada por telas holográficas e tecnologia avançada. A pessoa está vestindo um elegante macacĂŁo prateado e usa Ăłculos de realidade virtual. O ambiente Ă© repleto de luzes neon e hologramas flutuantes. A atmosfera Ă© futurista e de alta tecnologia, com uma sensação de entusiasmo e inovação. A câmera Ă© uma câmera digital de alta resolução, capturando cada detalhe com precisĂŁo. O estilo artĂstico Ă© uma mistura de cyberpunk e minimalismo, com foco em linhas limpas e cores ousadas. Os diretores, diretores de fotografia, fotĂłgrafos, designers de moda, cartunistas e artistas que colaboram nesta justaposição Ăşnica sĂŁo Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki e Kaws.
/imagine a década de 1940 – estilize a Barbie como uma enfermeira do tempo de guerra, em um hospital do exército vintage, cuidando dos soldados feridos, no estilo das ilustrações clássicas da Mattel, com a atmosfera da fotografia em tons de sépia da Segunda Guerra Mundial 8k –v 5 –ar 16 :9
/imagine Quadro de uma mulher encostada em um cyberpunk, hoverbike, anime japonês, extensas paisagens urbanas, 32k, intrincado espaçoporto, fugaz, panoramas de arranha-céus, elegante
Considerações finais: Navegando no mundo da arte da IA ​​com Midjourney
Lembre que uma imagem vale mais que mil palavras". Uma descrição detalhada e vibrante pode fazer maravilhas. Sim, Midjourney não é gratuito. No entanto, está revolucionando o mundo da arte e expandindo nossas possibilidades criativas por meio de sua tecnologia de IA de conversão de texto em imagem de última geração. Com a capacidade de converter um simples prompt de texto em uma imagem de alta resolução, é uma ferramenta que promete oportunidades ilimitadas, não apenas para artistas, mas também para designers de UI/UX, entusiastas de tecnologia e profissionais de IA.
Aqui estĂŁo alguns tĂłpicos essenciais para lembrar ao embarcar em sua aventura no meio da jornada:
- Aprenda os fundamentos do Midjourney prompt: Use descrições claras, sucintas e abrangentes que encapsulam sua visão para guiar a IA de forma eficaz. Lembre-se de considerar seu público e não hesite em experimentar vários estilos, humores e contextos.
- Utilize parâmetros: melhore sua experiência criativa aproveitando a multiplicidade de configurações avançadas que o Midjourney oferece. Desde o controle da proporção até o ajuste do parâmetro de caos para obter resultados exclusivos, cada detalhe pode ser adaptado de acordo com sua preferência.
- Abrace o processo iterativo: sua primeira arte gerada por IA pode nĂŁo ser perfeita. Abrace esse processo iterativo e aprenda a refinar e otimizar seus prompts para obter melhores resultados.
- Entenda as implicações de direitos autorais: embora as prĂłprias obras de arte geradas por IA nĂŁo sejam elegĂveis para direitos autorais, os componentes feitos pelo homem dentro delas podem ser protegidos.
Em essência, a integração da IA ​​na arte democratizou a criatividade e confundiu as linhas entre obras-primas feitas por humanos e feitas por máquinas. À medida que continuamos a testemunhar o notável crescimento da IA ​​generativa no mercado de arte, é inegável que a revolução da arte da IA, liderada por plataformas como Midjourney, está apenas começando.