Stable Diffusion

Stable Diffusion（简称 SD）是由Stability AI主导开发、基于潜扩散模型（Latent Diffusion Model）的开源多模态 AI 图像生成工具，核心定位为「人人可用的普惠型 AI 创作引擎」，以文生图、图生图为核心，支持本地部署、参数定制与生态扩展，覆盖艺术创作、商业设计、科研教育等全场景，是全球最具影响力、应用最广泛的开源 AI 绘画模型之一，彻底降低了 AI 图像生成的技术门槛与使用成本。

一、基础权威信息

官方全称：Stable Diffusion
开发主体：Stability AI（英国人工智能公司），联合慕尼黑路德维希・马克西米利安大学 CompVis 小组、Runway ML 共同研发，核心技术团队由 AI 领域顶尖研究者组成
上线时间：2022 年 8 月 22 日正式发布首个版本；2023 年 6 月推出 SDXL 0.9 版本，2024 年 2 月发布 Stable Diffusion 3 早期预览版，2024 年 10 月推出 Stable Diffusion 3.5 系列及 Medium 版本
核心定位：开源免费、可本地运行、高度可定制，让普通用户与专业创作者都能快速生成高质量图像，推动 AI 创作平民化
官方入口：开源仓库（GitHub）、Stability AI 官网（stability.ai）；第三方衍生工具（WebUI、ComfyUI、Fooocus 等）；支持本地部署（Windows/macOS/Linux）、云服务调用
核心特性：开源免费（非商用 / 商用均可，遵循 Stability AI 社区许可证）、本地运行、参数可控、生态完善、轻量高效（支持消费级显卡运行）
权威认证：多次入选全球 AI 创新技术榜单，被苹果官方支持（优化 Apple Silicon 芯片运行性能），成为 AI 绘画领域开源标杆工具

二、核心技术架构（开源官方口径）

Stable Diffusion 的核心优势在于创新的潜扩散架构，将图像生成过程压缩到潜在空间完成，大幅降低计算复杂度，实现消费级硬件可运行，其技术架构主要包括 4 大核心模块：

底层基座：基于扩散模型（Diffusion Model），融合 Transformer 架构，通过 “反向去噪” 过程从纯噪声中逐步生成清晰图像，核心是潜空间映射技术，平衡生成质量与计算效率。
核心组件：由文本编码器（CLIP Text Encoder，负责解析提示词）、扩散模型（UNet，核心去噪模块）、图像解码器（VAE，将潜空间特征还原为可视图像）三部分组成，三者协同实现 “文本→潜空间特征→图像” 的完整生成链路。
关键优化技术：支持对抗性扩散蒸馏（如 SDXL Turbo 版本，将生成迭代步骤从 50 步缩减至 1 步）、深度引导（Depth 模型）、文本引导修复等，同时优化多语言提示词理解，适配中文等多语种场景。
扩展性架构：采用模块化设计，支持 LoRA、ControlNet 等插件扩展，允许用户微调模型、定制风格，同时兼容不同前端工具（WebUI、ComfyUI 等），形成灵活的创作工作流。

三、核心功能模块（开源完整版）

1. 核心生成功能（基础能力）

文生图（Text-to-Image）：通过正向提示词（描述想要的内容）和反向提示词（排除不想要的内容）生成图像，支持 20 + 主流风格（写实、二次元、国风、赛博朋克、油画等），可调节采样方法、采样步数、图像尺寸、CFG Scale 等参数，生成分辨率最高支持 4K，单次生成时间根据硬件配置可控制在几秒到几十秒不等，提示词可通过权重调节（括号语法）精准控制元素呈现效果。
图生图（Image-to-Image）：上传参考图，通过调整去噪强度实现风格迁移、画面重构、瑕疵修复、画面拓展等功能；去噪强度 0.1-0.3 可轻微优化图像，0.4-0.6 可实现风格迁移，0.7-1.0 可彻底重构画面（仅保留原图轮廓或色彩），适配草图转稿、照片优化等场景。
高清修复（Upscale）：内置多种放大算法（Latent、ESRGAN 等），可将低分辨率图像放大 4 倍以上，同时补充细节，解决生成图像模糊、细节不足的问题，部分衍生工具支持批量高清修复。
局部重绘（Inpaint）：精准选中图像局部区域，通过提示词修改该区域内容，实现局部优化、杂物去除、元素替换等，适配图像精细化调整场景，是商业设计中常用的核心功能之一。

2. 进阶控制功能（扩展能力）

LoRA 微调（Low-Rank Adaptation）：轻量级模型微调技术，文件体积小（50-300MB），可快速定制特定风格、角色或元素（如宫崎骏风格、特定 IP 形象），无需复杂训练，通过触发词即可激活对应风格，可与主模型叠加使用，兼容性极强。
ControlNet 插件：核心用于精准控制图像构图、姿态、边缘、深度等，解决 AI 生成图像 “构图混乱、姿态畸形” 的痛点，支持骨骼姿态控制、线稿控制、深度控制等，适配专业设计、角色创作等场景，大幅提升生成可控性。
其他扩展功能：支持图生视频（结合 AnimateDiff 插件）、文本嵌入（Embedding）、IPAdapter（参考图风格 / 身份迁移）、批量生成、种子控制（固定种子可复现相同结果）等，满足不同用户的进阶创作需求。

3. 生态与工具支持

开源社区：拥有全球庞大的开源社区，用户可自由分享模型、LoRA、提示词、工作流，核心模型与插件均开源可下载，社区持续迭代优化功能，解决使用中的常见问题（如人物畸形、画面模糊等）。
前端工具：主流衍生工具包括 WebUI（新手友好，操作直观）、ComfyUI（专业级，支持复杂工作流定制）、Fooocus（极简操作，一键出图），适配不同用户群体（新手、专业创作者），无需复杂代码基础即可使用。
模型资源：官方及社区推出大量细分模型（Checkpoint），如 SD 1.5（轻量兼容）、SDXL（高清写实）、Anything V5（二次元）、DreamShaper（通用写实）等，用户可根据创作需求选择对应模型，模型可从 Civitai、HuggingFace、ModelScope 等平台下载。

四、核心权威优势

开源普惠：完全开源免费，非商用、商用均可使用（遵循社区许可证），无使用门槛与版权限制，区别于 Midjourney 等付费工具，让普通用户也能接触 AI 创作，推动 AI 绘画普及化。
本地运行：支持消费级显卡（NVIDIA、AMD）本地部署，无需依赖网络，既保护用户创作隐私，又不受平台服务器限制，可根据自身硬件配置优化生成速度与质量，适配隐私性要求高的场景（如商业设计、科研创作）。
高度可定制：从参数调节、模型微调（LoRA）、插件扩展到工作流定制，全方位支持用户个性化创作，可适配不同风格、不同场景的创作需求，既能满足新手一键出图，也能满足专业创作者的精细化设计需求，灵活性远超同类工具。
生态完善：全球庞大的开源社区与丰富的模型、插件资源，持续迭代优化，用户可快速获取教程、素材与解决方案，同时第三方工具适配完善，形成 “模型 – 工具 – 社区” 的完整生态，降低学习与使用成本，推动功能持续升级。
轻量高效：得益于潜扩散架构，计算复杂度低，可在普通消费级显卡上流畅运行，生成速度快，同时支持批量生成、高清修复等高效功能，大幅提升创作效率，适配商业设计、批量素材生产等场景。

五、核心应用场景

艺术创作：数字绘画、插画创作、概念艺术设计、风格化作品生成、艺术风格迁移，帮助艺术家拓展创意思路，快速生成草图与成品，提升创作效率，适配插画师、设计师、艺术爱好者等群体。
商业设计：电商商品图、海报、宣传册、LOGO 辅助设计、UI 界面草图、广告素材生成，无需专业设计基础，即可快速产出商用级素材，降低中小企业与个人创作者的设计成本，适配电商运营、中小企业、广告从业者等。
科研与教育：AI 图像生成技术研究、计算机视觉相关教学演示、学生作业（数字绘画、设计类）、创意教学辅助，帮助科研人员开展技术研究，助力学生快速掌握 AI 创作技巧。
个人与自媒体：自媒体配图、短视频封面、头像生成、生活照片优化、创意恶搞图像，适配自媒体博主、普通用户的日常创作需求，零门槛即可产出个性化内容。
影视与游戏：影视分镜草图、游戏角色 / 场景概念设计、游戏贴图生成，辅助影视、游戏创作团队快速产出创意方案，缩短创作周期，适配影视从业者、游戏设计师等。

六、权威发展历程（关键节点）

2022.08.22：Stable Diffusion 1.0 正式发布，基于潜扩散架构，支持消费级显卡本地部署，开源免费，迅速引爆 AI 绘画领域，成为开源 AI 绘画标杆。
2022.11：Stable Diffusion 1.5 版本发布，优化图像生成质量、人物细节与提示词遵循度，修复常见 bug，成为最经典、最常用的基础版本，至今仍被广泛使用。
2023.06：Stable Diffusion XL（SDXL）0.9 版本发布，原生支持 1024×1024 高清分辨率，优化写实风格生成，新增文本理解能力，大幅提升生成图像的细节与质感。
2023.11：SDXL 1.0 正式发布，完善高清生成能力，支持 2K + 分辨率，优化多风格适配，成为商业设计、高清创作的首选版本，同时推出 SDXL Turbo（1 步生成，极速出图）。
2024.02：Stable Diffusion 3 早期预览版发布，采用全新架构，优化多模态输入（文本、图像），提升提示词理解精度与生成可控性，支持更复杂的场景与细节生成。
2024.10：Stable Diffusion 3.5 系列及 Medium 版本发布，进一步优化生成速度与质量，完善中文提示词理解，新增更多细分风格模型，适配更多创作场景，同时拓展模型轻量化部署能力。
2025 至今：持续迭代模型轻量化、多模态融合（图生视频、文生 3D）能力，优化开源生态，推出更多行业定制化模型（如医疗、建筑设计专用模型），扩大应用场景。

七、开源许可与合规说明

开源许可：Stable Diffusion 核心模型遵循 Stability AI 社区许可证（OpenRAIL-M），非商用、商用均可免费使用，但禁止用于违法违规、侵权、低俗色情、危害国家安全等场景；衍生模型、插件需遵循对应开源许可，部分社区模型可能有商用限制，使用前需确认许可条款。
版权边界：用户使用 Stable Diffusion 生成的内容，版权归用户所有（前提是不侵犯他人知识产权）；禁止使用模型生成侵犯他人肖像权、著作权、商标权的内容（如生成名人肖像、抄袭他人作品）。
数据安全：本地部署版本不涉及数据上传，可保护用户创作隐私；使用第三方 Web 端衍生工具时，需注意平台的数据收集政策，避免敏感内容泄露。
技术边界：模型生成内容可能存在一定瑕疵（如人物畸形、细节错乱），需用户进行后期优化；不支持生成违法违规、血腥恐怖、低俗色情等内容，开源社区与官方均有相关过滤机制。