AI 模型与平台

Stable Diffusion 3.5：文本到图像AI的架构进步

发布于 2024年10月22日

更新于 2026年5月20日

作者

Alex McFarland

Stability AI发布了Stable Diffusion 3.5，这是文本到图像AI模型的又一次重大进步。这个版本代表了一个全面性的改进，得益于社区的宝贵反馈和对生成性AI技术的不断突破。

在Stable Diffusion 3 Medium发布后的六月，Stability AI意识到该模型并没有完全满足他们的标准和社区的期望。与其匆忙地发布一个快速修复方案，该公司采取了一个有意的方法，专注于开发一个能够推进他们的使命——转变视觉媒体，同时在整个开发过程中实施安全措施的版本。

与前版本的关键改进

新版本在几个关键领域带来了重大改进：

增强的提示遵循性: 模型生成的图像对复杂提示的理解有了显著的提高，媲美更大型模型的能力。
架构进步: 在变换器块中实现了查询-键（QK）归一化，帮助提高了训练稳定性和简化了微调过程。
多样化输出生成: 在生成代表不同皮肤色调和特征的图像方面具有先进的能力，无需进行大量的提示工程。
优化性能: 在图像质量和生成速度方面都有了显著的改进，特别是在Turbo变体中。

Stable Diffusion 3.5在生成性AI公司的格局中脱颖而出，其独特的可访问性和强大的结合使其成为一个可行的解决方案，既适用于个人创作者，也适用于企业用户，并且有一个清晰的商业许可框架来支持中型企业和更大的组织。

Stable Diffusion输出（Stability AI）

三个强大的模型适用于每种用例

Stable Diffusion 3.5 Large

发布的旗舰模型，Stable Diffusion 3.5 Large，带来了8亿参数的处理能力，用于专业的图像生成任务。

关键特性包括:

专业级输出，分辨率为1兆像素
优越的提示遵循性，用于精确的创意控制
处理复杂图像概念的先进能力
在多种艺术流程中表现稳健

Large Turbo

Large Turbo变体代表了高效性能的突破，提供：

仅需4步即可生成高质量图像
尽管速度更快，但仍然具有优异的提示遵循性
与非蒸馏模型相比具有竞争力的性能
速度和质量之间的最佳平衡，适用于生产工作流

Medium Model

计划于10月29日发布的Medium模型，具有25亿参数，民主化了专业级图像生成的访问：

在标准消费者硬件上高效运行
从0.25到2兆像素的图像生成能力
优化的架构，提高了性能
与其他中型模型相比具有更好的结果

每个模型都被仔细定位以服务于特定的用例，同时保持Stability AI对图像质量和提示遵循性的高标准。

Stable Diffusion 3.5 Large（Stability AI）

下一代架构改进

Stable Diffusion 3.5的架构代表了图像生成技术的一个重大飞跃。其核心，修改的MMDiT-X架构，引入了复杂的多分辨率生成能力，特别是在Medium变体中体现得尤为明显。这种架构改进使训练过程更加稳定，同时保持了高效的推理时间，解决了之前版本中确定的技术限制。

查询-键（QK）归一化:技术实现

QK归一化作为模型变换器架构中的一个关键技术进步。这种实现从根本上改变了注意力机制在训练过程中的工作方式，提供了一个更稳定的特征表示基础。通过归一化注意力机制中的查询和键的交互作用，架构在不同尺度和领域中实现了更一致的性能。这种改进特别有利于从事微调过程的开发人员，因为它减少了将模型适应专用任务的复杂性。

基准测试和性能分析

性能分析显示，Stable Diffusion 3.5在关键指标上取得了显著的成果。Large变体展示了与更大型模型媲美的提示遵循性，同时保持了合理的计算需求。对多样图像概念的测试显示了在之前版本面临挑战的领域中的一致性改进。这些基准测试是在各种硬件配置中进行的，以确保可靠的性能指标。

硬件需求和部署架构

不同变体之间的部署架构有显著差异。Large模型，拥有8亿参数，需要大量的计算资源来实现最佳性能，特别是在生成高分辨率图像时。相比之下，Medium变体引入了一个更灵活的部署模型，在更广泛的硬件配置中有效运行，同时保持专业级的输出质量。

Stable Diffusion基准测试（Stability AI）

结论

Stable Diffusion 3.5代表了生成性AI模型演进中的一个重要里程碑，平衡了先进的技术能力和实用可访问性。该版本展示了Stability AI致力于转变视觉媒体，同时实施全面的安全措施和保持高标准的图像质量和道德考虑的承诺。随着生成性AI继续塑造创意和企业工作流，Stable Diffusion 3.5的强大架构、高效性能和灵活的部署选项使其成为开发人员、研究人员和组织在图像生成中利用AI的宝贵工具，ethical considerations。作为生成性AI继续塑造创意和企业工作流，Stable Diffusion 3.5的强大架构、效率和灵活的部署选项使其成为开发者、研究人员和组织在图像生成中利用AI的宝贵工具。