Connect with us

人工智能

Stable Diffusion 3.5:文本到图像 AI 的架构进步

mm

Stability AI 推出了 Stable Diffusion 3.5,这标志着文本到图像 AI 模型的又一重大进步。这一版本代表着一个全面性的改进,驱动力来自于宝贵的社区反馈和致力于推动生成式 AI 技术的边界。

在六月份发布 Stable Diffusion 3 Medium 后,Stability AI 承认该模型并没有完全满足他们的标准或社区的期望。与其急忙修复问题,不如说公司采取了一个有意的方法,专注于开发一个能够推进他们转变视觉媒体使命的版本,同时在整个开发过程中实施安全措施。

与前版本的关键改进

新版本在几个关键领域带来了实质性的改进:

  • 增强的提示遵循: 模型生成的图像对复杂提示有了显著改善的理解,媲美更大模型的能力。
  • 架构进步: 在变换器块中实现查询-键归一化(Query-Key Normalization)有助于提高训练稳定性和简化微调过程。
  • 多样化输出生成: 高级能力生成代表不同皮肤色调和特征的图像,无需广泛的提示工程。
  • 优化性能: 图像质量和生成速度有了显著的改进,特别是在 Turbo 变体中。

Stable Diffusion 3.5 在生成式 AI 公司的格局中脱颖而出的原因是其独特的可访问性和强大的结合。该版本保持了 Stability AI 致力于广泛可访问的创意工具的承诺,同时推动技术能力的边界。这使得该模型家族成为个人创作者和企业用户的可行解决方案,后者得到了明确的商业许可框架的支持,可以支持中型企业和更大规模的组织。

Stable Diffusion 输出(Stability AI)

三个强大的模型适用于每种用例

Stable Diffusion 3.5 Large

发布的旗舰模型 Stable Diffusion 3.5 Large,带来了 8 亿参数的处理能力,用于专业图像生成任务。

关键特性包括:

  • 专业级输出,分辨率高达 1 兆像素
  • 优越的提示遵循,用于精确的创意控制
  • 高级能力,处理复杂的图像概念
  • 在多样化的艺术过程中表现稳健

Large Turbo

Large Turbo 变体代表了高效性能的突破,提供:

  • 仅需 4 步即可生成高质量图像
  • 尽管速度更快,但仍然具有异常的提示遵循能力
  • 与非蒸馏模型相比,表现出色的竞争力
  • 生产工作流中速度和质量的最佳平衡

中型模型

计划于 10 月 29 日发布的中型模型,拥有 2.5 亿参数,民主化了专业级图像生成的访问:

  • 在标准消费者硬件上高效运行
  • 从 0.25 到 2 兆像素的图像生成能力
  • 优化的架构,提高性能
  • 与其他中型模型相比,结果更优

每个模型都经过精心设计,以服务于特定的用例,同时保持 Stability AI 对图像质量和提示遵循的高标准。

Stable Diffusion 3.5 Large(Stability AI)

下一代架构改进

Stable Diffusion 3.5 的架构代表了图像生成技术的一个重大飞跃。在其核心,修改的 MMDiT-X 架构引入了复杂的多分辨率生成能力,特别是在中型变体中显现。这一架构改进使训练过程更加稳定,同时保持了高效的推理时间,解决了前几代中确定的关键技术限制。

查询-键(QK)归一化:技术实现

QK 归一化成为模型变换器架构中的一个关键技术进步。这一实现从根本上改变了训练期间注意力机制的工作方式,提供了一个更稳定的特征表示基础。通过归一化注意力机制中的查询和键的交互,架构实现了在不同尺度和域上更一致的性能。这一改进特别有利于从事微调过程的开发人员,因为它降低了将模型适应专用任务的复杂性。

基准测试和性能分析

性能分析显示,Stable Diffusion 3.5 在关键指标上取得了显著的成果。Large 变体展示了媲美更大模型的提示遵循能力,同时保持了合理的计算需求。在多样化图像概念上的测试显示了一致的质量改进,特别是在以前版本面临挑战的领域。这些基准测试是在各种硬件配置上进行的,以确保可靠的性能指标。

硬件要求和部署架构

部署架构在变体之间有显著的差异。拥有 8 亿参数的 Large 模型,需要大量的计算资源来实现最佳性能,特别是在生成高分辨率图像时。相比之下,中型变体引入了一个更灵活的部署模型,在更广泛的硬件配置中有效运行,同时保持专业级的输出质量。

Stable Diffusion 基准测试(Stability AI)

结论

Stable Diffusion 3.5 代表了生成式 AI 模型演进中的一个重要里程碑,平衡了先进的技术能力和实际的可访问性。这一版本展示了 Stability AI 致力于转变视觉媒体的使命,同时实施综合的安全措施,并保持高标准的图像质量和道德考虑。随着生成式 AI 持续塑造创意和企业工作流,Stable Diffusion 3.5 的强健架构、高效性能和灵活的部署选项使其成为开发人员、研究人员和组织的宝贵工具,他们寻求利用 AI 驱动的图像生成。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。