Ingénierie rapide
Maîtriser l'art de l'IA : un guide concis de l'ingénierie à mi-parcours et rapide

Introduction à l'art généré par l'IA MidJourney
L'IA franchit rapidement les barrières de l'impossibilité et a récemment envahi le domaine de l'art, le transformant entièrement. Maintenant, vous n'avez pas besoin d'être un maître artiste ou un expert de Photoshop pour donner vie aux fruits de votre imagination. Une invite simple et bien articulée est tout ce dont vous avez besoin, grâce à À mi-parcours.
Tout a commencé avec l'introduction de technologies révolutionnaires telles que DALL-E, Midjourney et StableDiffusion en 2022. Alors que chacune de ces innovations a apporté sa touche distincte à la toile de l'IA générative, Midjourney, en particulier, a poursuivi son voyage fascinant, faisant des avancées notables.
Midjourney est actuellement le principal générateur d'IA de texte à image haute résolution sur le marché et il se distingue par son mélange unique de génération de texte à image, d'édition et de mise à l'échelle des médias et d'accès actif à la communauté artistique, le tout à partir de 10 $ par mois. Cette suite complète de fonctionnalités présente une toile passionnante pour les artistes, les passionnés de technologie et les professionnels de l'IA, créant un environnement propice à la créativité et à l'innovation.
Le monde de l'art en prend certainement note, avec l'IA générative sur le marché de l'art qui devrait connaître une croissance fulgurante de 40.5% CAGR. Midjourney est inégalé dans la création des visuels les plus réalistes et de haute qualité à l'aide de l'IA.
L'ingénierie rapide efficace va au-delà de la simple création; il englobe les meilleures pratiques. Les invites doivent être claires et succinctes, tout en fournissant à l'IA suffisamment de conseils sans prescription excessive. De plus, le public cible doit être pris en compte lors de la conception, en tenant compte de variables telles que l'âge, le sexe et le contexte culturel, entre autres.
Comment fonctionne MidJourney ?
Mid-Journey exploite deux nouvelles technologies d'apprentissage automatique : les grands modèles de langage et de diffusion. Le modèle de langage, similaire aux chatbots IA comme ChatGPT, aide Mid-Journey à interpréter la signification de vos invites et à les convertir en vecteurs. Ce vecteur guide alors le processus de diffusion.
Le fonctionnement interne de Midjourney est largement méconnu. Néanmoins, il est évident qu'il utilise la génération de texte en image grâce à deux technologies d'apprentissage automatique relativement novatrices : les grands modèles de langage et les modèles de diffusion. Le premier est peut-être familier aux utilisateurs de plateformes d'IA comme ChatGPT, tandis que le second constitue un atout prometteur pour la génération d'art par l'IA. L'ensemble du système repose sur CLIP ensemble de données pour la formation, qui peut être trouvé sur la page de recherche d'OpenAI.
Malgré les informations limitées, il est possible d'esquisser une image générale de Midjourney. modèle de diffusion, judicieusement nommé « Diffusion Stable ». Fondamentalement, la diffusion stable est un modèle open source qui transforme habilement des invites textuelles en images de styles et de contenus variés. Cette procédure sophistiquée est réalisée grâce à un modèle de diffusion, un modèle génératif qui relie les dépendances entre les entrées textuelles et les sorties image.
Les modèles de diffusion sont construits sur la base de la méthode Denoising Diffusion, une approche influencée par la thermodynamique hors équilibre. Cette méthode démonte systématiquement la structure des données et la restaure ultérieurement. Cette approche a été adaptée pour la génération d'images par Ho et al. en 2020, conduisant à la création des modèles de diffusion que nous voyons aujourd'hui.
Les modèles de diffusion de la formation impliquent deux étapes principales. Initialement, le processus direct ou de diffusion implique l'ajout incrémentiel de bruit aléatoire à l'image d'entrée jusqu'à ce qu'elle se transforme complètement en bruit. Ce processus est régi par une chaîne de Markov fixe, qui ajoute systématiquement du bruit gaussien sur plusieurs étapes successives.
Par la suite, lors de la phase inverse ou de reconstruction, le modèle restaure les données d'origine à partir de l'état dominé par le bruit obtenu lors du processus de diffusion. Ce processus est piloté par une chaîne de Markov avec transitions gaussiennes apprises, ce qui implique que la prédiction de la densité de probabilité à un instant donné dépend uniquement de l'état atteint lors du pas de temps précédent. Comme les variables latentes « x1, …, xT » partagent la même dimensionnalité que les données, les modèles de diffusion sont classés comme des modèles à variables latentes.
Coût et abonnement de mi-parcours
Alors que de nombreux chatbots comme ChatGPT et Bing Chat offrent une utilisation gratuite quasi illimitée, la situation est différente pour les générateurs d'images comme Mid-Journey. En raison de la puissance de calcul importante requise, notamment par les processeurs graphiques (GPU) et la mémoire vidéo utilisée pour le processus de débruitage, le service de Mid-Journey est fourni avec un étiquette de prix.
Le plan de base commence à partir de 10 $ par mois, fournissant environ 3.3 heures de temps GPU, assez pour environ 200 générations d'images. Cependant, il existe des plans haut de gamme offrant des images illimitées en mode Relax, mais avec un temps d'attente plus long.
Configurer votre mi-parcours
- Commençant par À mi-parcours implique de s'inscrire sur leur site officiel, de souscrire à un plan, puis d'être redirigé vers Discord.
- Une fois que vous avez localisé le canal Mid-Parcours sur Discord, accédez aux groupes de nouveaux arrivants sur le côté gauche. À partir de là , vous pouvez observer d'autres utilisateurs créer des invites, apprendre les mécanismes de Mid-Journey et interagir dans un environnement animé.
- Après vous être familiarisé avec l'environnement, invitez le bot sur votre serveur privé pour créer des images sans être dérangé. Le bot génère quatre images d'aperçu en fonction de votre invite, vous permettant de sélectionner la correspondance la plus proche de votre idée originale et d'affiner davantage l'image.
Structure rapide pour le milieu de la journée
- La commande /imagine sur un canal discord à l'intérieur du canal Midjourney génère une image unique à partir d'une courte description textuelle (invite).
- Pour recréer un style spécifique sur différentes images, saisissez simplement l'URL de l'image à côté de votre invite de texte. Vos nouvelles sorties cohérentes fusionneront des éléments de l'image et du texte que vous avez choisis.
/imaginez http://lien-vers-votre-image –paramètre1 –paramètre2
Vous pouvez générer un lien vers votre image en la téléchargeant sur le canal Discord. Une fois téléchargée, faites un clic droit sur l'image et sélectionnez « Copier le lien ».
Ici http://link-to-your-image et les paramètres sont facultatifs. - Ensuite, le Bot se met au travail sur votre image, prenant environ une minute pour proposer quatre alternatives. Ce processus implique l'utilisation d'unités de traitement graphique (GPU) robustes pour traiter et interpréter chaque invite.
- Suivez l'utilisation de votre GPU grâce à la commande /info. Elle vous permet de vérifier votre temps Fast restant et de surveiller le temps GPU de votre abonnement.
Mise à l'échelle et modifications d'image
Pour une image plus précise, utilisez les boutons « U » sous les images pour agrandir votre sélection. Vous pouvez également utiliser les boutons « V » pour ajuster des images spécifiques. Pour modifier davantage une image agrandie, utilisez les options « Variantes », « Répéter l'agrandissement léger » et « Répéter l'agrandissement bêta ». Le bouton « Web » vous permet d'agrandir l'image dans une fenêtre séparée.
Midjourney permet une mise à l'échelle de l'image à des résolutions de 2048 × 2048 (carré) et 2720 × 1530 (écran large) via sa fonction de rétablissement de l'échelle bêta, avec une taille de grille de génération par défaut de 1024 × 1024 (carré) et 1456 × 816 (écran large). Chaque image peut être encore améliorée grâce aux options de mise à l'échelle "U", qui améliorent des parties spécifiques de l'image.
Jetez un œil à cette invite qui produit des illustrations fantastiques avec la version V5.2 de Midjourney.
/imagine L'œuvre représente un arbre solitaire sous un ciel étoilé, avec un enfant lisant en dessous, dans des tons de bleu serein et d'orange chaud, inspirés des coups de pinceau de l'impressionnisme français, des miniatures persanes, de la simplicité du Bauhaus, évoquant les illustrations classiques de contes de fées pour enfants, atteignant une harmonie asymétrique, exprimée dans un style enchanteur, folklorique/naïf : –ar 15:19 –upbeta –q 2
Créer votre premier art IA de mi-journée
- Élaboration du plan de base : Imaginez-vous comme un artiste. Commencez par une description simple et vivante de l’image que vous souhaitez donner vie. Décrivez le sujet principal, l’ambiance, voire les détails infimes que vous souhaitez intégrer. Utilisez des signes de ponctuation tels que des virgules, des crochets et des tirets pour structurer vos idées. Pour un résultat optimal, soyez explicite quant au contexte et aux détails de votre création. Des éléments tels que le sujet (par exemple, un dragon, une voiture ancienne, Abraham Lincoln), le support (par exemple, une œuvre d’art numérique, un croquis au crayon), l’environnement (par exemple, l’espace, les fonds marins, une ville animée), l’éclairage (par exemple, doux, néon, rétro-éclairé), la couleur (par exemple, tons terreux, vibrants, atténués), l’ambiance (par exemple, mélancolique, fantaisiste, paisible) et la composition (par exemple, un paysage, un gros plan, un grand angle) peuvent être essentiels. Exemples :
- Une forêt idyllique baignée de soleil, un sentier serpentant au loin
- Une ville qui ne dort jamais, avec des néons qui se reflètent sur les trottoirs et une foule hétéroclite qui s'agite
- Insuffler du style et des mots-clés : L'IA de Midjourney est capable d'illustrer des images dans une multitude de styles, tels que l'abstrait, le surréaliste ou le réaliste. En intégrant un style ou des mots-clés associés, vous pouvez guider l'IA pour créer une image qui reflète votre vision. Expérimentez différents styles et mots-clés pour trouver la combinaison parfaite. Exemples :
- Une peinture de paysage représentant un désert à l'aube, reflétant le style de Georgia O'Keeffe, avec une palette de couleurs pastel et des formes organiques.
- Un rendu abstrait d'une forêt paisible, avec des motifs géométriques formant des arbres et du feuillage, inspiré des compositions de Piet Mondrian.
- Exploitation des paramètres avancés : Considérez Midjourney comme votre boîte à outils créative, débordant de paramètres avancés qui vous permettent d'affiner vos images générées. C'est comme manier une baguette magique, vous permettant d'évoquer l'équilibre idéal entre le hasard, la stylisation et la variation de l'image. Libérez vos prouesses créatives en modifiant ces paramètres jusqu'à ce que vous trouviez le mélange parfait qui résonne avec votre vision. Exemples:
- Un jardin japonais serein avec un étang reflétant les cerisiers en fleurs – graine 22 – s 150 – c 40
- Une ville cyberpunk dystopique, illuminée par des néons –graine 88 –s 600 –c 60
- Mise en évidence des éléments avec des poids : visualisez votre image comme une symphonie, chaque élément contribuant au grand ensemble. En utilisant la notation « :: », vous pouvez dicter la signification de divers éléments de votre image, ce qui vous permet de contrôler le projecteur. Exemples:
- [Un paon élégant] :: 3 perché sur un [arbre de glycine] :: 1 fleuri de fleurs vibrantes
- [Un éléphant majestueux]::2 se prélassant à la lueur d'un [soleil couchant]::1 dans la savane
- Midjourney est le processus d'essais et d'erreurs : il est nécessaire d'expérimenter différents éléments et fonctionnalités. Chaque itération vous rapprochera de l'image que vous avez imaginé donner vie.
Paramètres de mi-parcours
Le modèle de Midjourney fonctionne à l'aide de paramètres ajustables qui contrôlent le résultat du processus de génération d'images. Ces paramètres permettent aux utilisateurs d'ajuster et d'adapter leur art généré, en affinant le modèle pour créer des sorties qui correspondent parfaitement à leur objectif.
Vous trouverez ci-dessous les paramètres de base et avancés, leurs fonctions et comment les utiliser pour exploiter pleinement les capacités de Midjourney :
- Rapports d'aspect (–aspect ou –ar) : ce paramètre contrôle le rapport entre la largeur et la hauteur de l'image générée. Par exemple, un rapport de 16:9 est parfait pour les vignettes YouTube, tandis que 1:1 produit une image carrée idéale pour Instagram.
- Chaos (–chaos): Ce paramètre ajuste la diversité de la grille d'image initiale et va de 0 à 100. Des valeurs de chaos plus élevées vous donneront des résultats imprévisibles et uniques, tandis que des valeurs plus faibles garantiront des résultats plus cohérents.
- Non (–no) : ce paramètre vous aide à éliminer des éléments ou des caractéristiques spécifiques de l'image générée. Par exemple, si vous voulez une image sans rouge, vous pouvez utiliser "-pas de rouge".
- Qualité (–qualité ou –q) : ce paramètre ajuste le temps nécessaire pour générer une image. Une qualité supérieure nécessite plus de temps de traitement mais donne des détails complexes. Ce paramètre peut prendre les valeurs .25, .5, 1 ou 2.
- Seed (–seed) : ce paramètre détermine le bruit visuel de départ, agissant comme une ligne de base pour l'image générée. L'utilisation du même numéro de départ avec la même invite donnera des résultats similaires. Il accepte les valeurs entières comprises entre 0 et 4294967295.
- Arrêt (–stop) : Ce paramètre permet d'interrompre prématurément une tâche et d'obtenir des résultats moins détaillés, mais potentiellement intéressants. La plage de valeurs est comprise entre 10 et 100. Par exemple, si vous spécifiez « –stop 50 », le processus de génération d'image s'arrêtera à 50 % d'achèvement, produisant une image moins détaillée, voire abstraite.
- Styliser (–styliser ou –s) : Ceci contrôle le niveau d'application artistique sur l'image générée. Des valeurs de stylisation plus faibles donnent des résultats plus proches de l'invite initiale, tandis que des valeurs plus élevées donnent des interprétations plus abstraites et artistiques. Dans la v5, la valeur par défaut est 100, mais vous pouvez la définir n'importe où entre 0 et 1000.
- Version du modèle : vous pouvez sélectionner parmi différentes versions du modèle Midjourney à l'aide du paramètre –version ou –v.
- Niji : Un modèle spécialisé dans les images de style anime. Il est accessible à l'aide du paramètre –niji.
- Définition Highmi : pour les images abstraites et de paysage, le paramètre –hd active une version antérieure du modèle qui produit des images plus grandes et moins cohérentes.
- Modèles de test : Midjourney propose des modèles spéciaux pour des cas d'utilisation spécifiques. –test et –testp activent respectivement les modèles de test standard et axés sur la photographie.
- Upscaler : l'algorithme Midjourney commence par une grille d'images basse résolution. Il propose plusieurs modèles de mise à l'échelle pour améliorer la taille et les détails de l'image.
- Uplight : un upscaler de lumière alternatif (–uplight) fournit des images upscalées moins détaillées mais plus fluides.
- Upbeta : Le paramètre –upbeta conduit à des images avec beaucoup moins de détails supplémentaires, restant plus proches de l'image de grille d'origine.
- Upanime : L'upscaler –upanime est conçu spécifiquement pour fonctionner avec le modèle –niji Midjourney.
- Poids de l'image : utilisez -iw pour ajuster le poids de l'invite de l'image par rapport au poids du texte. La valeur par défaut est 0.25.
- Sameed : le paramètre –sameseed garantit que toutes les images de la grille initiale utilisent le même bruit de départ, créant ainsi des images générées très similaires.
- Vidéo : Midjourney peut enregistrer une vidéo de progression du processus initial de génération de la grille d'image à l'aide du paramètre –video.
- Creative : avec le paramètre –creative, les modèles test et testp génèrent des images plus variées et créatives.
Midjourney déploie régulièrement des mises à jour pour améliorer l'expérience utilisateur, la dernière étant la version 5.2, lancée en juin 2023. En ajoutant –v 5.2 à votre invite ou en le sélectionnant via la commande /settings, les utilisateurs peuvent accéder à ce modèle avancé. La version 5.2 offre des détails d'image supérieurs et comprend les invites de manière plus intuitive, apportant des couleurs plus vives et des compositions améliorées.
Comprendre les droits d'auteur pour les illustrations générées par l'IA
En mars 2023, le US Copyright Office a clarifié sa position sur le droit d'auteur de Œuvres générées par l'IA. La politique stipule que si les éléments créés par l'homme dans les créations d'IA (comme les écrits ou les conceptions uniques) peuvent être protégés, les images produites par l'IA ne sont pas éligibles au droit d'auteur, adhérant aux normes mondiales selon lesquelles seules les créations humaines sont éligibles à la protection du droit d'auteur.
Dans le contexte de l'art IA, le droit d'auteur n'est pas simple. Alors que l'art numérique bénéficie de la contribution d'un artiste humain, l'art généré par l'IA est créé sans intervention humaine directe, ce qui complexifie la question de la paternité et de la propriété. Selon le Bureau américain du droit d'auteur, la propriété initiale revient à l'auteur de l'œuvre, un créateur humain. Cependant, l'IA ne pouvant être considérée comme un auteur, l'art généré par l'IA manque de propriété claire.
Les dernières directives du Bureau américain du droit d'auteur autorisent la protection par le droit d'auteur des œuvres d'IA uniquement si elles bénéficient d'une contribution humaine suffisante. Le niveau de « partenariat humain suffisant » reste indéfini et dépend du degré d'implication humaine dans la création de l'œuvre d'IA.
Fait intéressant, Midjourney, une plate-forme basée sur l'IA pour la création d'images, a établi ses propres politiques en matière de droits d'utilisation. Les utilisateurs d'un essai gratuit peuvent utiliser les images à des fins non commerciales sous la licence internationale Creative Commons Attribution-NonCommercial 4.0 (CC BY-NC 4.0), avec un crédit approprié pour Midjourney. Toutefois, les abonnés payants peuvent utiliser les images à toutes fins, y compris commerciales, conformément aux Conditions Générales de Vente. Ce développement dans l'espace du droit d'auteur présente une dynamique intrigante entre l'IA et la créativité humaine.
Utilisation de Midjourney pour les conceptions d'interface utilisateur dynamiques et la génération de logos créatifs
De la conception d'interfaces utilisateur intuitives pour les sites Web ou les applications mobiles à la création de logos et de bannières uniques, Midjourney permet aux créateurs de contenu de générer un éventail d'alternatives de conception en quelques secondes.
Voici comment cela fonctionne. Chaque conception commence par une invite, servant de modèle à l'IA. Imaginez que vous conceviez l'interface utilisateur d'une plateforme de tutorat en ligne. Une invite typique pourrait être : « /imagine l'interface utilisateur d'une plateforme de tutorat en ligne, Dribbble, haute résolution, 4K, comme Khan Academy ».
Les résultats initiaux pourraient ne pas atteindre parfaitement la marque. Par exemple, ajouter "Adobe XD" dans le mélange peut aider Midjourney à adapter ses conceptions pour qu'elles soient plus compatibles avec Adobe XD. Une invite optimisée sera :
/imagine Plateforme de tutorat en ligne, interface utilisateur, Adobe XD, Dribbble, Haute Résolution, 4K, design minimaliste
Logo ou bannières inspirés du texte utilisant Midjourney
Explorons comment créer une bannière avec un logo pour UNITE AI.
Tout d'abord, vous devez avoir une image simple du texte que vous souhaitez afficher. Vous pouvez le créer à l'aide de n'importe quel outil de conception graphique ou éditeur de texte et le télécharger sur votre canal Discord.
L'invite pour créer la bannière est :
/imaginez les lettres : UNITE dans un logo de police futuriste inspiré de l'IA avec les lettres UNITE –v 5 –ar 16:9
Jetez un œil à ces exemples d'invites pour plus d'idées :
/imaginez un musicien solitaire interprétant une mélodie sereine sur une ville flottante au crépuscule, style art nouveau
/imaginez Une image d'une future personne travaillant sur un bureau futuriste, entourée d'écrans holographiques et de technologie de pointe. La personne porte une élégante combinaison argentée et porte des lunettes de réalité virtuelle. L'environnement est rempli de néons et d'hologrammes flottants. L'atmosphère est futuriste et high-tech, avec un sentiment d'excitation et d'innovation. L'appareil photo est un appareil photo numérique haute résolution, capturant chaque détail avec précision. Le style artistique est un mélange de cyberpunk et de minimalisme, avec un accent sur les lignes épurées et les couleurs vives. Les réalisateurs, directeurs de la photographie, photographes, créateurs de mode, dessinateurs et artistes qui collaborent à cette juxtaposition unique sont Christopher Nolan, Roger Deakins, Annie Leibovitz, Virgil Abloh, Hayao Miyazaki et Kaws.
/ imaginez les années 1940 - style Barbie en tant qu'infirmière de guerre, dans un cadre d'hôpital militaire vintage, soignant les soldats blessés, dans le style des illustrations classiques de Mattel, avec l'atmosphère de la photographie sépia de la Seconde Guerre mondiale 8k -v 5 -ar 16 :9
/imaginez Cadre d'une femme appuyée contre un cyberpunk, un hoverbike, un anime japonais, des paysages urbains tentaculaires, 32k, un port spatial complexe, des panoramas éphémères, des gratte-ciel, élégant
Réflexions finales : Naviguer dans le monde de l'art de l'IA avec Midjourney
N'oubliez pas : « Une image vaut mille mots ». Une description détaillée et vivante peut faire des merveilles. Certes, Midjourney n'est pas gratuit. Pourtant, il révolutionne le monde de l'art et élargit nos possibilités créatives grâce à sa technologie d'IA de pointe de conversion de texte en image. Capable de convertir un simple texte en image haute résolution, cet outil promet des possibilités infinies, non seulement pour les artistes, mais aussi pour les concepteurs UI/UX, les passionnés de technologie et les professionnels de l'IA.
Voici quelques points essentiels Ă retenir lorsque vous vous lancez dans votre aventure Midjourney :
- Apprenez les bases de l'invite Midjourney : utilisez des descriptions claires, concises et complètes qui résument votre vision pour guider efficacement l'IA. Pensez à votre public et n'hésitez pas à expérimenter différents styles, ambiances et contextes.
- Utilisez les paramètres : améliorez votre expérience créative en tirant parti de la multitude de paramètres avancés proposés par Midjourney. Du contrôle du rapport d'aspect à l'ajustement du paramètre de chaos pour des résultats uniques, chaque détail peut être adapté à vos préférences.
- Adoptez le processus itératif : Votre première illustration générée par l'IA n'est peut-être pas parfaite. Adoptez ce processus itératif et apprenez à affiner et à optimiser vos invites pour de meilleurs résultats.
- Comprendre les implications du droit d'auteur : bien que les œuvres d'art générées par l'IA elles-mêmes ne soient pas éligibles au droit d'auteur, les composants créés par l'homme qu'elles contiennent peuvent être protégés.
Essentiellement, l'intégration de l'IA dans l'art a démocratisé la créativité et estompé les frontières entre les chefs-d'œuvre humains et les chefs-d'œuvre fabriqués par la machine. Alors que nous continuons d'assister à la croissance remarquable de l'IA générative sur le marché de l'art, il est indéniable que la révolution artistique de l'IA, menée par des plateformes comme Midjourney, ne fait que commencer.





















