Stable Cascade:Stability AI的新型生成模型
Stable Cascade:Stability AI的新型文本-图像生成模型
概述
Stable Cascade是Stability AI最新推出的一款基于Würstchen架构的文本-图像生成模型。作为对Stable Diffusion系列的补充,Stable Cascade以其独特的级联(Cascade)结构和高效的性能,为AI绘画领域带来了新的活力。该模型在2024年2月12日发布,虽然发布时间比Stable Diffusion 3稍早,但它的独特之处在于其由三个独立模型组成的结构,分别是Stage A、Stage B和Stage C。
模型结构
Stable Cascade的模型结构由三个主要部分组成:
Stage A:这是一个VAE(变分自编码器)模型,负责最终图像的放大和转换至像素空间。
Stage B:这是一个扩散模型,负责将Stage C生成的低分辨率图像放大。
Stage C:这也是一个扩散模型,它根据文本提示生成24x24像素的低分辨率潜像(Latents)。
这三个阶段的模型按照顺序工作,每个阶段的输出成为下一个阶段的输入,形成了一个完整的图像生成流程。
功能与应用
Stable Cascade不仅支持文生图(根据文本生成图像),还具备以下功能:
图生图(根据已有图像生成新图像)
图像生成变体
Inkainting/Outpainting(图像修复和扩展)
Controlnet(控制图像生成的特定区域)
Lora(一种图像放大技术)
高清放大
这些功能使得Stable Cascade在图像生成方面具有很高的灵活性和自由度,适合各种不同的创作需求。
性能与优势
Stable Cascade的性能在多个方面表现出色:
推理速度:由于使用较小的潜在空间进行训练和推理,Stable Cascade的推理速度比Stable Diffusion XL快了一倍。
显存占用:Stable Cascade对显存的占用较少,只需6GB显存即可运行,8GB显存下生成一张1024x1024像素的图像大约需要65-90秒。
图像质量:虽然与Midjourney V6相比仍有差距,但Stable Cascade生成的图像质量已大幅提升,尤其在生成带有文字内容的图像(如logo、海报等)时效果显著。
社区与支持
Stable Cascade已经得到了ComfyUI的官方支持,用户可以通过ComfyUI方便地使用Stable Cascade进行创作。此外,Stability AI的官方Github主页提供了模型的相关代码和资源,虽然目前只允许非商业用途,但这为开发者提供了一个自由灵活的创作空间。
结语
Stable Cascade作为Stability AI的新模型,不仅在技术上展现了创新,还为用户提供了一个高效、灵活的AI绘画工具。随着AI绘画生态的不断发展,Stable Cascade有望成为Stable Diffusion和Stable Diffusion XL之后的又一个重要的生态体系。