提示工程

掌握 AI 艺术:Midjourney 和提示工程的简明指南

mm
Midjourney Generated UNITE AI LOGO

介绍 MidJourney AI 生成艺术

AI 正在迅速突破不可能的界限,并最近入侵了艺术领域,彻底改变了它。现在,您不需要成为一位大师级艺术家或 Photoshop 专家来将您想象中的东西变为现实。一个简单、清晰的提示就足够了,感谢 Midjourney。

一切从 2022 年开始,当时像 DALL-E、Midjourney 和 StableDiffusion 这样的开创性技术被引入。虽然每个创新都为生成性 AI 的画布带来了独特的风格,但 Midjourney 特别地继续其令人信服的旅程,取得了显著的进步。

Midjourney 目前是市场上领先的高分辨率文本到图像 AI 生成器,凭借其独特的文本到图像生成、媒体编辑和升级以及活跃的艺术社区访问的综合套件,所有这些都从每月 10 美元开始。该功能套件为艺术家、技术爱好者和 AI 专业人员提供了一个令人兴奋的画布,创造了一个创造力和创新环境。

艺术界当然注意到了这一点,预计生成性 AI 在艺术市场的增长将达到 40.5% 的复合年增长率。Midjourney 在使用 AI 创建最真实和高质量的视觉效果方面无与伦比。

有效的提示工程不仅仅是创造;它包含最佳实践。提示应该提供清晰度,并且简洁,但要给 AI 提供足够的指导,而不至于过度指定。另外,设计时必须考虑目标受众,考虑诸如年龄、性别和文化背景等变量。

MidJourney 如何工作?

Mid-Journey 利用两种新型机器学习技术 – 大型语言和扩散模型。语言模型,类似于 AI 聊天机器人,如 ChatGPT,帮助 Mid-Journey 解释提示的含义并将其转换为向量。然后,该向量引导扩散过程。

Midjourney 的内部工作原理基本上没有公开。然而,很明显它使用了两种相对新颖的机器学习技术:大型语言模型和扩散模型。前者可能对使用过 ChatGPT 等 AI 平台的用户来说很熟悉,后者是 AI 艺术生成领域的一个有前途的补充。整个系统依赖于 CLIP 数据集进行训练,该数据集可以在 OpenAI 的研究页面上找到。

尽管信息有限,但可以对 Midjourney 的 扩散模型 有一个大致的了解,恰当地命名为“稳定扩散”。本质上,稳定扩散是一个开源模型,巧妙地将文本提示转换为具有不同风格和内容的图像。这种复杂的过程是通过扩散模型实现的,扩散模型是一种生成模型,连接了文本输入和图像输出之间的依赖关系。

扩散模型建立在去噪扩散方法的基础上,这是一种受非平衡热力学影响的方法。这种方法系统地分解数据结构,然后恢复它。这种方法于 2020 年由 Ho 等人为图像生成所采用,导致了我们今天看到的扩散模型的诞生。

训练扩散模型涉及两个主要阶段。最初,向前或扩散过程涉及将随机噪声逐渐添加到输入图像中,直到它完全变成噪声。该过程由一个固定马尔可夫链控制,该链在多个连续步骤中一致地添加高斯噪声。

Midjourney 工作演示

随后,在反向或重建阶段,模型从扩散过程中获得的噪声主导状态恢复原始数据。该过程由具有学习的高斯转换的马尔可夫链驱动,这意味着在任何给定时间预测概率密度仅取决于前一步骤中获得的状态。由于潜在的“x1,…,xT”与数据共享相同的维度,因此扩散模型被归类为潜在变量模型。

Mid-Journey 的成本和订阅

虽然像 ChatGPT 和 Bing Chat 这样的聊天机器人几乎提供无限的免费使用,但像 Mid-Journey 这样的图像生成器的情况却有所不同。由于需要大量的计算能力,特别是图形处理单元(GPU)和视频内存用于去噪过程,Mid-Journey 的服务带有价格标签。

基本计划从每月 10 美元开始,提供大约 3.3 小时的 GPU 时间,足以生成大约 200 张图像。然而,还有更高级的计划提供无限图像生成,尽管等待时间更长。

设置您的 MidJourney

  1. MidJourney 开始,需要在其官方网站上注册,订阅计划,然后被重定向到 Discord。
  2. 一旦您在 Discord 上找到 Mid-Journey 频道,请在左侧导航到新手群组。从那里,您可以观察其他用户创建提示,学习 Mid-Journey 的机制,并在一个热闹的环境中互动。
  3. 在熟悉环境之后,将机器人邀请到您的私人服务器,以便在不受干扰的情况下创建图像。机器人根据您的提示生成四个预览图像,允许您选择最接近您原始想法的图像并进一步完善图像。

Midjourney 的提示结构

  1. 在 Discord 频道内的 Midjourney 频道中,/imagine 命令会根据短文本描述(提示)生成一个唯一的图像。
  2. 要在多个图像中重现特定的风格,只需将图像 URL 与文本提示一起输入。您的新一致输出将合并您选择的图像和文本的元素。
    /imagine http://link-to-your-image –parameter1 –parameter2
    您可以通过将图像上传到 Discord 频道来生成指向图像的链接。上传后,右键单击图像并选择“复制链接”。
    这里 http://link-to-your-image 和参数是可选的。
  3. 之后,机器人开始处理您的图像,大约需要一分钟时间来提供四个替代方案。该过程涉及使用强大的图形处理单元(GPU)来处理和解释每个提示。
  4. 使用 /info 命令跟踪您的 GPU 使用情况。它允许您检查“剩余快速时间”并监控您的订阅的 GPU 时间。

/info 提示 Midjourney

图像升级和修改

要获得更精细的图像,请使用图像下方的“U”按钮来升级您偏爱的图像。您还可以使用“V”按钮来修改特定图像。要对升级图像进行进一步修改,请使用“创建变体”、“轻量升级重做”和“Beta 升级重做”选项。“Web”按钮允许您在单独的窗口中以更大的尺寸查看图像。

Midjourney 允许将图像升级到 2048×2048(正方形)和 2720×1530(宽屏)分辨率,通过其 Beta 升级重做功能,具有 1024×1024(正方形)和 1456×816(宽屏)的默认生成网格大小。每个图像都可以通过“U”升级选项进一步增强,该选项可以改进图像的特定部分。

看看这个提示,它使用 Midjourney 的 V5.2 版本生成了令人惊叹的艺术作品。

/imagine 一幅艺术作品描绘了一棵孤独的树站在星空下,一个孩子在树下阅读,色调为宁静的蓝色和温暖的橙色,受法国印象派、波斯小画和包豪斯风格的启发,唤起经典儿童童话插图的感觉,实现了不对称的和谐,表达为迷人的、民间/天真的风格:–ar 15:19 –upbeta –q 2

Midjourney 提示指南示例

创建您的第一个 Midjourney AI 艺术

  1. 创建基本蓝图:将自己想象成一位艺术家。首先描述您想将其变为现实的图像。概述主要主题、氛围,甚至您想嵌入的细节。使用标点符号,如逗号、括号和连字符来组织您的想法。为了获得更好的结果,请明确说明您的设计的背景和细节。元素,如主题(例如,龙、复古汽车、亚伯拉罕·林肯)、媒介(例如,数字艺术、铅笔素描)、环境(例如,外太空、水下、繁忙的城市)、照明(例如,柔和、霓虹、背光)、颜色(例如,土色、鲜艳、柔和)、情绪(例如,忧郁、异想天开、宁静)和构图(例如,风景、特写、广角)可能很重要。示例:
    • 一个阳光照耀的田园风景,蜿蜒的小路通向远处
    • 一个不眠之城,霓虹灯照亮人行道,人群多样,熙熙攘攘
  2. 注入风格和关键词:Midjourney 的 AI 可以以多种风格创建图像,例如抽象、超现实或写实。通过集成风格或相关关键词,您可以引导 AI 创建一幅反映您愿景的图像。尝试不同的风格和关键词来找到完美的组合。示例:
    • 一幅描绘沙漠日出的风景画,模仿乔治亚·奥基夫的风格,采用柔和的色彩和有机形式。
    • 一个抽象的宁静森林,几何图案形成树木和树叶,受皮特·蒙德里安的构图启发。
  3. 利用高级设置:将 Midjourney 视为您的创意工具箱,里面充满了高级设置,允许您微调生成的图像。它就像挥舞一根魔杖,让您能够召唤出随机性、风格化和图像变化的完美平衡。通过尝试这些设置,直到找到与您的愿景产生共鸣的完美组合,释放您的创造力。示例:
    • 一个宁静的日本花园,池塘中映照着樱花树 – 种子 22 – s 150 – c 40
    • 一个反乌托邦的赛博朋克城市,霓虹灯照亮 – 种子 88 – s 600 – c 60
  4. 使用权重突出元素:将您的图像想象成一个交响乐,每个元素都为宏伟的合奏做出贡献。使用“::”符号,您可以指示图像中各个元素的重要性,允许您控制聚光灯。示例:
    • [一只优雅的孔雀]::3 栖息在 [紫藤树]::1 上,开着鲜艳的花
    • [一头雄伟的象]::2沐浴在 [夕阳]::1 的光辉中,在草原上
  5. Midjourney 是一个试错的过程:尝试不同的元素和功能是必要的。每次迭代都会使您更接近您想象的图像。

Mid-Journey 参数

Midjourney 模型的工作原理是使用可调参数来控制图像生成过程的结果。这些参数允许用户调整和定制生成的艺术作品,以便为他们的目标创建完美的输出。

以下是基本和高级参数、其功能以及如何使用它们来充分利用 Midjourney 的功能:

  • 宽高比(–aspect 或 –ar):此参数控制生成图像的宽高比。例如,16:9 的比率非常适合 YouTube 缩略图,而 1:1 则产生适合 Instagram 的正方形图像。
  • 混乱(–chaos):此参数调整初始图像网格的多样性,范围从 0 到 100。更高的混乱值将产生不可预测和独特的结果,而较低的值将确保更一致的结果。
  • 否定(–no):此参数帮助您从生成的图像中排除特定的元素或特征。例如,如果您想要一张没有红色的图片,可以使用“–no red”。
  • 质量(–quality 或 –q):此设置调整生成图像所需的时间。更高的质量需要更长的处理时间,但会产生更详细的细节。该参数可以取 0.25、0.5、1 或 2 的值。
  • 种子(–seed):此参数决定了生成图像的起始视觉噪声,作为生成图像的基准。使用相同的种子号和相同的提示将产生相似的输出。它接受 0 到 4294967295 之间的整数值。
  • 停止(–stop):使用此参数,您可以提前终止作业,生成的图像可能不那么详细,但可能很有趣。范围是 10-100。例如,如果您指定“–stop 50”,图像生成过程将在 50% 完成时停止,生成的图像可能不那么详细,可能是抽象的。
  • 风格化(–stylize 或 –s):此参数控制生成图像的艺术应用程度。较低的风格化值会产生更接近初始提示的结果,而较高的值会产生更抽象和艺术化的解释。在 v5 中,默认值为 100,但您可以将其设置在 0-1000 的范围内。
  • 模型版本:您可以使用 –version 或 –v 参数从 Midjourney 的各种模型版本中选择。
  • Niji:一个专门用于动漫风格图像的模型。可以使用 –niji 参数访问它。
  • 高分辨率定义:对于抽象和风景图像,–hd 参数激活一个早期模型版本,生成更大、不太一致的图像。
  • 测试模型:Midjourney 提供用于特定用例的特殊模型。–test 和 –testp 激活标准和摄影专用测试模型。
  • 升级器:Midjourney 算法从低分辨率图像网格开始。它提供了多个升级模型来增强图像大小和细节。
    • Uplight:一个替代的轻量升级器(–uplight)提供的升级图像更不详细但更平滑。
    • Upbeta:–upbeta 参数导致图像具有显著更少的额外细节,保持更接近原始网格图像。
    • Upanime:–upanime 升级器专门为 –niji Midjourney 模型设计。
  • 图像权重:使用 –iw 调整图像提示权重相对于文本权重。默认值为 0.25。
  • 相同种子:–sameseed 参数确保初始网格中的所有图像都使用相同的起始噪声,生成非常相似的图像。
  • 视频:Midjourney 可以使用 –video 参数保存初始图像网格生成过程的进度视频。
  • 创意:–creative 参数允许测试和测试模型输出更多样化和创新的图像。

Midjourney 不断发布更新以增强用户体验,最近一次更新是 2023 年 6 月发布的版本 5.2。通过在提示中追加 –v 5.2 或使用 /settings 命令选择它,用户可以访问此高级模型。版本 5.2 提供更好的图像细节,并更直观地理解提示,带来更鲜艳的颜色和更好的构图。

了解 AI 生成艺术品的版权

Midjourney 图像:AI 和版权法的混合

2023 年 3 月,美国版权局澄清了其对 AI 生成作品的立场。政策规定,虽然 AI 创作中的人类元素(如书面作品或独特设计)可以受到保护,但 AI 生成的图像本身不符合版权保护的条件,遵循只允许人类创作受到版权保护的全球规范。

在 AI 艺术的背景下,版权并非一目了然。虽然数字艺术包含人类艺术家的输入,但 AI 生成的艺术则没有直接的人类干预,这使得作者和所有权的问题变得复杂。根据美国版权局,最初的所有权授予作品的作者,即人类创作者。然而,由于 AI 不被视为作者,因此 AI 生成的艺术缺乏明确的所有权。

美国版权局的最新指导规定,只有当 AI 艺术包含足够的人类创作时,才可以对其进行版权保护。“足够的人类创作”的程度尚未定义,并取决于创建 AI 艺术作品时人类的参与程度。

有趣的是,Midjourney,一家基于 AI 的图像创建平台,已经为使用权建立了自己的政策。免费试用用户可以在遵循 Creative Commons Attribution-NonCommercial 4.0 International License(CC BY-NC 4.0)的条件下,用于非商业目的,并且必须向 Midjourney 提供适当的署名。然而,付费订阅者可以在一般商业条款下,将图像用于任何目的,包括商业用途。这一版权领域的发展为 AI 和人类创造力之间带来了令人着迷的动态。

利用 Midjourney 进行动态 UI 设计和创意标志生成

从为网站或移动应用程序设计直观的 UI 开始,到为标志和横幅创建独特的设计,Midjourney 通过在几秒钟内生成一系列设计选项,赋予内容创作者以力量。

它的工作原理如下。每个设计都以提示开始,作为 AI 的蓝图。假设您正在为在线辅导平台应用程序设计 UI。一个典型的提示可能是:/imagine 在线辅导平台用户界面,Dribbble,高分辨率,4K,类似 Khan Academy。

初始结果可能并不完美。例如,添加“Adobe XD”到混合中可能会帮助 Midjourney 将其设计调整为更适合 Adobe XD。优化后的提示将是:

/imagine 在线辅导平台,用户界面,Adobe XD,Dribbble,高分辨率,4K,极简主义设计

Midjourney 图像:桌面应用程序 UI/UX 设计

 

使用 Midjourney 创建文本启发的标志或横幅

让我们探索如何为 UNITE AI 创建一个带有标志的横幅。

首先,您需要一张简单的文本图像,您可以使用任何图形设计工具或文本编辑器创建,并将其上传到您的 Discord 频道。

UNITE 标志示例文本
用于创建 UNITE 标志的简单文本图像

创建横幅的提示是:

/imagine 文本:<指向简单文本图像的链接> UNITE,以未来主义、AI 风格的字体为标志,带有字母 UNITE –v 5 –ar 16:9

Midjourney 提示指南功能屏幕

看看这些示例提示,获取更多想法:

/imagine 一位独奏音乐家在一个浮空城市的黄昏时分演奏一首宁静的旋律,采用新艺术风格

Midjourney 提示指南:印度艺术图像

 

/imagine 一位未来人物在一个未来主义的办公桌上工作,周围有全息屏幕和先进技术。该人物穿着一件时尚的银色连身服,并佩戴虚拟现实眼镜。环境中充满了霓虹灯和悬浮全息图。氛围是未来主义和高科技的,带有一种兴奋和创新感。相机是一台高分辨率的数字相机,精确地捕捉每一个细节。艺术风格是赛博朋克和极简主义的融合,注重干净的线条和大胆的颜色。参与这一独特融合的导演、摄影师、摄影师、时装设计师、漫画家和艺术家分别是克里斯托弗·诺兰、罗杰·迪金斯、安妮·莱博维茨、维吉尔·阿布洛、宫崎骏和考斯。

Midjourney 提示:未来人物在工作

/imagine 1940 年代风格的芭比娃娃,作为一名战争护士,在一个复古军事医院环境中,照顾受伤的士兵,以经典的 Mattel 插图风格,带有二战摄影的棕褐色调,分辨率为 8k –v 5 –ar 16:9

Midjourney 提示指南:芭比娃娃在独特环境中

/imagine 一个女人靠在赛博朋克风格的悬浮自行车上,日本动漫风格,广阔的城市景观,32k,错综复杂的太空港,短暂的,摩天大楼全景,流线型

Midjourney 图像:赛博朋克风格的女孩

 

结论:使用 Midjourney 导航 AI 艺术世界

请记住,“一张图片值得一千个字”。一个详细、生动的描述可以起到奇迹的作用。是的,Midjourney 不是免费使用的。然而,它正在通过其最先进的文本到图像 AI 技术革新艺术世界,并扩展我们的创造可能性。凭借将简单文本提示转换为高分辨率图像的能力,它是一个为艺术家、UI/UX 设计师、技术爱好者和 AI 专业人员提供无限机遇的工具,而不仅仅是艺术家。

以下是您开始 Midjourney 之旅时需要记住的一些关键要点:

  • 学习 Midjourney 提示的基础知识:使用清晰、简洁、全面的描述来指导 AI 有效地实现您的愿景。记得考虑您的受众,并不要犹豫尝试不同的风格、情绪和背景。
  • 利用参数:通过利用 Midjourney 提供的众多高级设置来增强您的创造性体验。从控制宽高比到调整混乱参数以获得独特的结果,每个细节都可以根据您的偏好进行定制。
  • 接受迭代过程:您的第一个 AI 生成的艺术作品可能不完美。接受这个迭代过程,并学习如何完善和优化您的提示以获得更好的结果。
  • 了解版权含义:虽然 AI 生成的艺术作品本身不符合版权保护的条件,但其中的人类创作元素可以受到保护。

本质上,AI 与艺术的融合使创造力民主化,并模糊了人类和机器创作的界限。随着我们继续见证生成性 AI 在艺术市场的显著增长,毫无疑问,AI 艺术革命由 Midjourney 等平台引领,才刚刚开始。

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献,特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣,这是一个我渴望进一步探索的领域。