Stable Cascade：Stability AI的新型文本-图像生成模型

概述

Stable Cascade是Stability AI最新推出的一款基于Würstchen架构的文本-图像生成模型。作为对Stable Diffusion系列的补充，Stable Cascade以其独特的级联（Cascade）结构和高效的性能，为AI绘画领域带来了新的活力。该模型在2024年2月12日发布，虽然发布时间比Stable Diffusion 3稍早，但它的独特之处在于其由三个独立模型组成的结构，分别是Stage A、Stage B和Stage C。

模型结构

Stable Cascade的模型结构由三个主要部分组成：

Stage A：这是一个VAE（变分自编码器）模型，负责最终图像的放大和转换至像素空间。
Stage B：这是一个扩散模型，负责将Stage C生成的低分辨率图像放大。
Stage C：这也是一个扩散模型，它根据文本提示生成24x24像素的低分辨率潜像（Latents）。

这三个阶段的模型按照顺序工作，每个阶段的输出成为下一个阶段的输入，形成了一个完整的图像生成流程。

功能与应用

Stable Cascade不仅支持文生图（根据文本生成图像），还具备以下功能：

图生图（根据已有图像生成新图像）
图像生成变体
Inkainting/Outpainting（图像修复和扩展）
Controlnet（控制图像生成的特定区域）
Lora（一种图像放大技术）
高清放大

这些功能使得Stable Cascade在图像生成方面具有很高的灵活性和自由度，适合各种不同的创作需求。

性能与优势

Stable Cascade的性能在多个方面表现出色：

推理速度：由于使用较小的潜在空间进行训练和推理，Stable Cascade的推理速度比Stable Diffusion XL快了一倍。
显存占用：Stable Cascade对显存的占用较少，只需6GB显存即可运行，8GB显存下生成一张1024x1024像素的图像大约需要65-90秒。
图像质量：虽然与Midjourney V6相比仍有差距，但Stable Cascade生成的图像质量已大幅提升，尤其在生成带有文字内容的图像（如logo、海报等）时效果显著。

社区与支持

Stable Cascade已经得到了ComfyUI的官方支持，用户可以通过ComfyUI方便地使用Stable Cascade进行创作。此外，Stability AI的官方Github主页提供了模型的相关代码和资源，虽然目前只允许非商业用途，但这为开发者提供了一个自由灵活的创作空间。

结语

Stable Cascade作为Stability AI的新模型，不仅在技术上展现了创新，还为用户提供了一个高效、灵活的AI绘画工具。随着AI绘画生态的不断发展，Stable Cascade有望成为Stable Diffusion和Stable Diffusion XL之后的又一个重要的生态体系。