人工智能

稳定扩散 3.5：文本到图像 AI 的架构进步

发布时间 2024 年 10 月 22 日

亚历克斯麦克法兰

稳定扩散 3.5 大图像（稳定性 AI）

稳定人工智能发布了 Stable Diffusion 3.5，标志着文本转图像 AI 模型的又一次进步。此版本代表了一次全面改革，由宝贵的社区反馈和对突破生成式 AI 技术界限的承诺推动。

在 3 月份发布 Stable Diffusion XNUMX Medium 之后，Stability AI 承认该模型并未完全满足他们的标准或社区期望。公司没有仓促寻求快速解决方案，而是采取了审慎的方法，专注于开发一个能够推进其转型视觉媒体使命的版本，同时在整个开发过程中实施安全措施。

与以前版本相比的主要改进

新版本在几个关键领域带来了重大改进：

增强及时遵守: 该模型生成的图像对复杂提示的理解能力显著提高，可与更大规模模型的能力相媲美。
建筑进步: Transformer 块中查询键规范化的实现有助于提高训练稳定性并简化微调过程。
多样化的输出生成: 无需大量的快速工程即可生成代表不同肤色和特征的图像的高级功能。
优化性能: 图像质量和生成速度都有了显著的提高，尤其是在 Turbo 版本中。

Stable Diffusion 3.5 在众多生成式 AI 公司中脱颖而出，在于其兼具易用性和强大功能的独特优势。此次发布秉承了 Stability AI 致力于打造广泛易用的创意工具的承诺，同时不断突破技术能力的极限。这使得该模型系列成为个人创作者和企业用户的可行解决方案，并由清晰的商业许可框架提供支持，可同时支持中型企业和大型组织。

稳定扩散输出（稳定性 AI）

适用于每种用例的三个强大模型

稳定扩散3.5大号

此次发布的旗舰机型，稳定扩散3.5大号，带来8亿个参数的处理能力，可以胜任专业的图像生成任务。

主要功能包括：

1 万像素分辨率的专业级输出
卓越的快速依从性，实现精确的创意控制
处理复杂图像概念的高级能力
在各种艺术创作过程中均表现出色

大型涡轮

此大型涡轮变体代表了高效性能的突破，提供：

仅需 4 步即可生成高质量图像
尽管速度加快，但仍能保持出色的快速响应
与非蒸馏模型的竞争性能
生产工作流程的速度和质量的最佳平衡

中型

Medium 模型将于 29 月 2.5 日发布，该模型拥有 XNUMX 亿个参数，使专业级图像生成变得民主化：

在标准消费硬件上高效运行
生成能力从 0.25 百万像素到 2 百万像素分辨率
优化架构以提高性能
与其他中型模型相比效果更佳

每个模型都经过精心定位，以服务于特定的用例，同时保持 Stability AI 对图像质量和及时遵守的高标准。

稳定扩散 3.5 大（稳定性 AI）

下一代架构改进

Stable Diffusion 3.5 的架构代表了图像生成技术的重大飞跃。从本质上讲，经过修改的 MMDiT-X 架构引入了复杂的多分辨率生成功能，这在 Medium 版本中尤为明显。这种架构改进可实现更稳定的训练过程，同时保持高效的推理时间，从而解决了之前迭代中发现的关键技术限制。

查询键（QK）规范化：技术实现

QK 归一化是该模型 Transformer 架构的一项关键技术进步。这一实现从根本上改变了注意力机制在训练过程中的运作方式，为特征表示提供了更稳定的基础。通过归一化注意力机制中查询和键之间的交互，该架构在不同规模和领域实现了更一致的性能。这项改进尤其有利于从事微调流程的开发人员，因为它降低了调整模型以适应特定任务的复杂性。

基准测试和性能分析

性能分析表明，Stable Diffusion 3.5 在关键指标方面取得了显著成果。大型变体表现出与大型模型相媲美的快速遵守能力，同时保持了合理的计算要求。对各种图像概念的测试显示出一致的质量改进，特别是在挑战以前版本的领域。这些基准测试是在各种硬件配置下进行的，以确保可靠的性能指标。

硬件要求和部署架构

不同变体的部署架构差异很大。大型模型拥有 8 亿个参数，需要大量计算资源才能获得最佳性能，尤其是在生成高分辨率图像时。相比之下，中型变体引入了更灵活的部署模型，可在更广泛的硬件配置中有效运行，同时保持专业级的输出质量。

稳定扩散基准（稳定性 AI）

底线

Stable Diffusion 3.5 是生成式 AI 模型演进的重要里程碑，它在先进的技术能力与实用性之间取得了平衡。此次发布体现了 Stability AI 致力于变革视觉媒体，同时实施全面的安全措施，并在图像质量和伦理考量方面保持高标准。随着生成式 AI 持续影响创意和企业工作流程，Stable Diffusion 3.5 强大的架构、高效的性能和灵活的部署选项使其成为开发者、研究人员和寻求利用 AI 驱动图像生成的组织的宝贵工具。