Stable Cascade:Stability AI的新型文本-图像生成模型

概述

Stable Cascade是Stability AI最新推出的一款基于Würstchen架构的文本-图像生成模型。作为对Stable Diffusion系列的补充,Stable Cascade以其独特的级联(Cascade)结构和高效的性能,为AI绘画领域带来了新的活力。该模型在2024年2月12日发布,虽然发布时间比Stable Diffusion 3稍早,但它的独特之处在于其由三个独立模型组成的结构,分别是Stage A、Stage B和Stage C。

模型结构

Stable Cascade的模型结构由三个主要部分组成:

  • Stage A:这是一个VAE(变分自编码器)模型,负责最终图像的放大和转换至像素空间。

  • Stage B:这是一个扩散模型,负责将Stage C生成的低分辨率图像放大。

  • Stage C:这也是一个扩散模型,它根据文本提示生成24x24像素的低分辨率潜像(Latents)。

这三个阶段的模型按照顺序工作,每个阶段的输出成为下一个阶段的输入,形成了一个完整的图像生成流程。

功能与应用

Stable Cascade不仅支持文生图(根据文本生成图像),还具备以下功能:

  • 图生图(根据已有图像生成新图像)

  • 图像生成变体

  • Inkainting/Outpainting(图像修复和扩展)

  • Controlnet(控制图像生成的特定区域)

  • Lora(一种图像放大技术)

  • 高清放大

这些功能使得Stable Cascade在图像生成方面具有很高的灵活性和自由度,适合各种不同的创作需求。

性能与优势

Stable Cascade的性能在多个方面表现出色:

  • 推理速度:由于使用较小的潜在空间进行训练和推理,Stable Cascade的推理速度比Stable Diffusion XL快了一倍。

  • 显存占用:Stable Cascade对显存的占用较少,只需6GB显存即可运行,8GB显存下生成一张1024x1024像素的图像大约需要65-90秒。

  • 图像质量:虽然与Midjourney V6相比仍有差距,但Stable Cascade生成的图像质量已大幅提升,尤其在生成带有文字内容的图像(如logo、海报等)时效果显著。

社区与支持

Stable Cascade已经得到了ComfyUI的官方支持,用户可以通过ComfyUI方便地使用Stable Cascade进行创作。此外,Stability AI的官方Github主页提供了模型的相关代码和资源,虽然目前只允许非商业用途,但这为开发者提供了一个自由灵活的创作空间。

结语

Stable Cascade作为Stability AI的新模型,不仅在技术上展现了创新,还为用户提供了一个高效、灵活的AI绘画工具。随着AI绘画生态的不断发展,Stable Cascade有望成为Stable Diffusion和Stable Diffusion XL之后的又一个重要的生态体系。