Stable Diffusion
免费
Stable Diffusion 是 Stability AI 推出的开源 AI 视觉设计 扩散模型家族,从 SD 1.5 / SDXL 到 SD3 / SD 3.5 与 Stable Image,是开源 AI 图像生态(ComfyUI / Automatic1111 / Diffusers)的事实标准。
核心参数与统计
Stable Diffusion 是开源 AI 图像生态的事实标准模型家族,自 2022 年首次开源以来支撑了 ComfyUI、Automatic1111、Diffusers、LoRA 等社区繁荣。
| 维度 | 关键事实 |
|---|---|
| 当前旗舰 | Stable Diffusion 3.5 Large / Large Turbo / Medium |
| 架构 | MMDiT(Diffusion Transformer)+ Flow Matching |
| 参数规模 | 2.5B(Medium) / 8B(Large) |
| 开源协议 | Stability AI Community License(个人 / 初创公司商用免费) |
| 生态 | ComfyUI、Automatic1111、Diffusers、Fooocus、InvokeAI 等 |
| 商业入口 | Stability API、DreamStudio、Amazon Bedrock、合作伙伴托管 |
| 国家 | 英国伦敦 |
参数解读:与 Midjourney 的闭源旗舰路线和
Adobe Firefly 的版权安全路线不同,Stable Diffusion 的独特价值是"开源 + 本地可跑 + 可定制",构成事实上的开放图像基座。
用户与市场认可
- SD 系列在 Hugging Face 上累计下载数十亿次,是开源 AI 模型族下载量最高的之一。
- ComfyUI、Automatic1111、InvokeAI、Fooocus、SD WebUI Forge 等 UI 框架普遍以 SD 为默认引擎。
- LoRA、ControlNet、IP-Adapter 等几乎所有开源图像扩散工具链都围绕 SD 构建。
- 商业层面被 Amazon Bedrock、Snap、Pika、Lensa 等大量公司直接或间接采用。
成本优势
Stable Diffusion 以开源权重 + 商业 API 双轨发行。
| 入口 | 价格 | 关键能力 | 适配对象 |
|---|---|---|---|
| 开源权重 | 免费(社区/初创公司商用) | 本地或自托管运行,全权可控 | 开发者、研究者 |
| Stability API | 按张计费 / 按额度 | Stable Image Ultra/Core/SD3.5,外加视频、3D | 应用开发者 |
| DreamStudio | 按 credits 计费 | 官方 Web 体验,新用户赠送额度 | 个人创作者 |
| Bedrock / 合作伙伴 | 云厂商计费 | 受管 SD API,企业合规 | 大型企业 |
| 企业自托管 | 按合同 | 私有部署、定制 fine-tune | 监管/重隐私行业 |
成本解读:把图像生成做到"零边际成本"是 Stable Diffusion 最大的颠覆点——一台带显卡的本地工作站即可不计次数地生成。
主要功能
- 文生图:从自然语言生成高质量图像。
- 图生图:在已有图像基础上重绘、扩展、风格转换。
- ControlNet:通过姿态、深度、边缘等条件精细控制构图。
- LoRA 风格微调:训练几十张图就能微调出专属风格。
- IP-Adapter / Reference:将参考图的角色/风格迁移到新作品。
- Inpainting / Outpainting:图像局部修复与画布扩展。
- 升采样:与 ESRGAN / SUPIR 配合实现 4K / 8K 输出。
- 工具链:ComfyUI 节点式流水线、Automatic1111 Web UI、Diffusers SDK。
- 商业 API:Stable Image Ultra/Core,含背景移除、Outpaint 等模块。
模型与版本演进
| 版本 | 时间 | 变化重点 |
|---|---|---|
| SD 3.5 | 2024-10 | 三档权重开源、文本渲染与构图质量提升 |
| SD 3 | 2024-06 | MMDiT + Flow Matching,文本渲染突破 |
| SDXL Turbo | 2023-11 | 单步扩散,实时生成可能 |
| SDXL 1.0 | 2023-07 | 双 Encoder + Refiner,画质跃迁 |
| SD 1.5 | 2022-10 | 社区事实标准基座 |
| SD 1.0 | 2022-08 | 首次开源权重 |
技术优势
- 完全开源权重:可下载、可微调、可商用(在 Community License 约束下)。
- MMDiT + Flow Matching:SD3 引入的 Transformer-based 扩散架构,文本-图像对齐显著提升。
- 多层级权重:从 Medium 到 Large,可在消费级显卡到工作站之间灵活落地。
- 海量生态:LoRA、ControlNet、IP-Adapter、AnimateDiff、ComfyUI 节点等社区资源是 SD 的护城河。
- 多模态扩展:Stable Video Diffusion、Stable Audio、Stable 3D 等同源家族产品。
如何使用
| 入口 | 适配人群 | 关键能力 |
|---|---|---|
| DreamStudio (Web) | 个人创作者 | 官方 Web 体验,无需配置 |
| ComfyUI / Automatic1111 | 重度玩家 / 开发者 | 节点流水线 / 全功能 WebUI |
| Diffusers SDK | 开发者 | 用 Python 集成 SD 到自有产品 |
| Stability API | 应用与企业 | 受管 API,含 Ultra / Core / Edit 等模块 |
| Amazon Bedrock | 企业用户 | 通过云厂商合规调用 SD |
典型流程:在 Hugging Face 或 stability.ai 下载权重 → 在 ComfyUI / WebUI 部署 → 叠加 LoRA / ControlNet → 输出图像 → 用 SUPIR 升采样到生产分辨率。
产品定价
- 开源权重:在 Community License 下,个人 / 年营收低于约 100 万美元的公司可商用免费。
- DreamStudio:按 credits 付费,新用户附赠额度。
- Stability API:按张计费,Stable Image Ultra > Core > SD3.5 Medium 形成阶梯。
- 企业 / Bedrock:按云厂商或私有合同计价。
- 自托管:硬件 + 电力的"一次性 + 边际" 成本结构。
应用场景
- 个人创作:插画、概念艺术、角色设定、二次创作。
- 营销与电商:批量产品图、合成场景图、广告素材。
- 影视与游戏前期:概念美术、分镜、UI 资产。
- 教育与研究:作为开源教学样本与论文复现的默认模型。
- 企业内部:合规可控的图像生成服务,可在内网部署。
适用人群
- 开源开发者与研究者:模型微调、新方法实验的"默认实验场"。
- 个人创作者:用本地工作站做大量风格化创作。
- 营销 / 电商团队:内部部署做大批量素材生产。
- 大型企业:通过 Stability API 或 Bedrock 做合规集成。
- 边界提示:若追求"开箱即用 + 极简体验",更适合
Midjourney;需要版权安全则可结合
Adobe Firefly 评估。
总结与展望
Stable Diffusion 把生成式 AI 图像从"少数云端服务"推到了"任意一台显卡都能跑"的开放基座层面,是过去三年生成式 AI 中最重要的开源叙事之一。与 Midjourney 的封闭精品路线、
Adobe Firefly 的版权安全路线相比,SD 选择了"开源 + 生态"的护城河。后续值得关注:SD 3.5 后续大模型版本、Stable Image API 的商业化进展,以及 Stable Video / Stable 3D 在多模态家族中的演进。
版本信息
- Stable Diffusion 3.5 :SD 3.5 系列开源放出 Large、Large Turbo、Medium 三档权重,参数量覆盖 2.5B 至 8B;文本渲染、人像美感、提示遵循能力显著优于 SDXL,开源协议允许个人/初创公司商业使用。
- Stable Diffusion 3 :SD3 引入 Diffusion Transformer (MMDiT) 架构与 Flow Matching 训练,文本渲染、多主题构图大幅提升,开源 Medium 权重。
- Stable Diffusion XL (SDXL) :SDXL 1.0 发布,引入双 Text Encoder 与 Refiner,画质、风格多样性大幅提升,成为社区 LoRA / Checkpoint 生态主流基座。
- Stable Diffusion 1.5 :SD 1.5 是社区最广泛部署的权重,奠定了 Automatic1111、ControlNet、LoRA 等生态的事实标准。
- Stable Diffusion 1.0 :Stability AI 首次开源 Stable Diffusion 权重,引发开源 AI 图像爆发式生态扩张。
用户评价