【重磅】超完整的Stable Diffusion 学习应用指南
前言
Stable Diffusion 是什么?
Stable Diffusion 目前唯一能实现精准控制生成图像的本地化部署成熟AI绘画工具。在设计工作中可以广泛应用于人像生成、电商营销设计、游戏动漫设计、三维渲染等各种领域。
接下来我们先来看一个视频大概了解一下Stable Diffusion生成图片的过程,有一个直观的感受再来讲后面的细节。
当前时间点有很多同学已经使用过了MJ,但还没有用过SD,所以经常会有这两个软件有什么差别的问题,该用哪个的问题。先说结论是两个软件各有所长,根据需求选择应用或者组合应用才是最优解。接下来介绍一下两者的差别~
第一个差别是SD能精准控制而MJ不能,我认为这是两者最大的差别,目前只有SD能实现通过ControlNet插件通过线稿、人物姿势等方式精确控制生成图像的造型,色彩等方面细节。
MJ生成结果虽然精美,却没有更细致的控制手段。能用MJ满足的需求大可以用MJ,用MJ无法满足的需求再考虑SD也是不错的选择策略。
进一步来说,SD可以通过自主训练模型达到更符合需求的风格定制,IP形象定制等需求,避免同质化输出,而MJ只能选择现有模型,难免相对同质化。
第二个差别是SD免费开源而MJ收费闭源,免费开源的SD本地化软件部署需要高性能显卡支持,MJ收了费用也免去了本地高性能显卡支持。
当然,市面上也有很多收费提供SD云端部署的服务商,可以提供云服务免去硬件需求,同时按时或按量收费,还有一些特定模型在特定方面的表现很不错。这方面想详细了解可以查看本号之前的文章。
云服务还会带来关键词限制,信息安全等相关问题,这方面SD本地化部署有明显优势,不受限制,信息更安全。
第三个差别是操作复杂度上SD明显比MJ复杂一个量级,SD生成更好的成果往往需要更多的参数、更多的插件、Lora搭配对应的大模型进行组合应用,而MJ只要掌握提示词的编写和有限的几个参数和模型的应用就能做出很不错的效果。
下图为使用MJ生成一万张后可以进入的Web版本测试页面。
为什么 要学 Stable Diffusion ?
专业者的神器,外行者的玩具
先不谈AI浪潮如何,如果一个新工具能让我们的某些部分工作有几倍到几十倍的效率提升的话,很明显我们应该学习并且掌握它,而不是固步自封。
当然,AI浪潮是我们无法忽视的存在,今年阿里U设计周和腾讯TDW设计周的主题也都是AI,设计周上分享的专家们用AI更低成本的创造出了大量惊艳的作品,也印证了卡兹克这句“专业者的神器”的总结。
而卡兹克本人这个相对电影届专业人士来说的外行,利用图像生成AI Midjourney+视频生成AI Gen2 玩出了郭导都为之侧目的成果,也充分展现了这个玩具的神奇力量。
综上所述,我认为无论是作为一个专业者,还是一个外行者,都应该学习AI,了解AI,掌握并应用AI。所以,Stable Diffusion 作为AI图像生成领域目前最成熟的两个工具之一,值得我们学习,并且应用它来加速我们以前需要大量时间来完成的许多工作。
AI时代工具日新月异,许多同学会担心刚学完工具不久,这个工具就被时代抛弃了,之前的辛苦白费。经过半年多的了解,我认为短期内Stable Diffusion 在繁荣的开源生态和优秀的新版SDXL模型的支持下不仅不会被时代抛弃,而且会越来越好,就像同样开源的Blender,星辰大海的旅程才刚刚启航。
繁荣的开源生态
Stable Diffusion 社区是目前最繁荣的开源AI绘画社区,在C站和各大公司内部都有了大量基于SD训练的优质模型。
这些优质模型除了依赖SD本身的优质底模以外,还需要准备精品训练集,打标处理,花费大量时间精力算力去训练,测试模型质量并调整,最终才能得到可用的优质模型。SD生态能够繁荣至今,已经消耗了许多不可再生的宝贵资源,是无法被轻易替代的。
全球模型站C站链接:https://civitai.com/
以ControlNet为代表的各种好用的插件也是SD生态最重要的核心竞争力之一,就像Sketch、Figma的插件之于软件本身生态一样,没了插件工作效率要慢上一大半。ControlNet也是SD最重要的精确控制能力的来源,这类插件的开发与适配都是工程量与难度极大的,属于短时间内无法被替代的核心竞争力,不是新出一个模型号称性能比SD更好百分之几十就可以抵消的优势。
游戏要结束了:ControlNet正在补完AIGC工业化的最后一块拼图
值得期待的新版XL模型表现
SDXL1.0 版本现在已经正式开源,生成的图片质量各方面表现远超SD1.5,下图为使用同提示词同参数情况下,SD1.5 与 SDXL 的生成图片质量对比,SDXL 优势十分明显。
然而原生底模往往并不是我们直接用来生成图像的模型,它更多是作为一个基础,然后再经过针对性的微调,大幅度提升某些方面的生成质量后,才作为我们最后真正落地使用的Ckpt大模型。
通过下方面同提示词同参数的生成对比图我们可以感受到,微调之后的ReVAnimate生成质量比起原生底模 SD1.5的生成质量有大幅度的提升。
ControlNet也支持了Canny线稿控制模型,其他模型支持正在路上。各路大神也正在基于SDXL训练模型过程中,未来的SDXL微调后的优秀模型表现能有多精彩?这是很值得期待的一件事,在更多方向的图像生成中比肩甚至超越MJ也将不再是难事。
怎么学 Stable Diffusion ?
视频教程推荐
学Stable Diffusion首推B站Nenly同学的教程,制作之精美已经让其他大部分基础教程失去学习的意义了哈哈哈,入门看他这一套就好了,太卷了,具体制作细节可以看下方这个分享视频,令人赞叹的精工细作,值得学习。
第三个推荐的是独立研究员-星空,教程很多,Dreambooth训练教程简洁易懂,是一个很好的学习大模型训练的开始。下文是我简单学习的一个笔记给大家概览下课程内容。
Dreambooth 炼丹术流程速览-微调 Stable Diffusion大模型训练画风(一)
第五个推荐的是有参与Dreambooth 插件开发的飞鸟白菜,有想扩展学习科普原理的可以看一下他的科普教程。
AICC知识库是目前最完善的SD知识库之一,我也是共建者,图文的方式可以快速查阅与搜索,有视频比拟不了的优势。
WEBUI 与插件的Github有着作者提供的一手资源,可以作为进阶学习使用,新手学习我认为还是上方的B站视频教程更为友好。
再推荐几个优质的AIGC相关的公众号给大家学习~
逗砂在清华美院分享《AI绘画可控性研究与应用》,还有苹果党SD探索经验,都是很棒的文章,值得学习
AIGC专家海辛的公众号更是篇篇精品,每一篇都是中文互联网领域同主题的顶级文章,值得深入学习~
控制名为 AI 的魔法,关于将 AI 绘画融合于工作流的案例和经验。
和 AI 一起做动画 | 将人工智能融入动画工作流的案例和实践经验
学习环境配置:本地电脑或者云端SD
在看完教程之后我们就要动手实践,那就需要配置好学习环境。要用上 Stable Diffusion ,有本地部署和云端部署两种方式使用。
按忠忠目前的经验看本地部署的一键整合包要比云端部署的整合包错误更少,自由度更高,win系统操作也比云端的Liunx系统更方便,能本地部署的尽量本地部署。
但本地部署对于电脑硬件有较高的要求,Mac电脑全系列体验都不佳,Win 电脑也需要 NVIDIA 卡且显存大于等于8G才会有不错的体验,所以云端部署对于没有高配Win的同学来说仍然是一个不错的选择(反正咱也没得选了不是)。
本地电脑部署
本地电脑部署对于配置的要求上文已经提过,对于 SD1.5 版本模型来说,6G 显存起步,8G 体验还行,12G 以上畅玩。对于 SDXL 新版模型来说,8G 显存起步,16G 体验还行,24G 以上畅玩,详细信息和要买新电脑的同学可以看下这篇文章。
Stable Diffusion电脑配置选购指南
显卡以N卡为佳,符合配置需求的同学按教程下载安装整合包就可以,顺利的话不会遇到报错,遇到报错了的话可以进文末的交流群交流解决。
https://www.bilibili.com/video/BV1iM4y1y7oA/?share_source=copy_web&vd_source=9888d56a771b940e4ea27d9a5345ec54
除了有高性能N卡以外的同学,我全部推荐使用青椒云进行SD进行图像生成,我认为这对于新手来说是最佳路径,Mac同学就不要自己去踩坑浪费好几天然后再无奈放弃,选择使用云端部署了,太浪费时间精力感情了。一定要尝试的同学可以参考下方文章,有提到相关信息。
云端SD
云端SD有三种类型,第一种是以AutoDL为代表的,使用Linux系统的云端SD,第二种种是触手AI等二次开发平台为代表的二次开发套壳的精简版SD,第三种是以青椒云为代表的使用Win系统的云端SD。
我建议新手可以使用第二种精简版SD来体验SD生成图像,用第三种Win版SD进行教程学习和实际工作生产。接下来我将介绍一下三种云端SD的优劣势,供给大家参考:
AutoDL云端SD的优点是同性能便宜,有高配置可选,缺点是操作不便。有多不便呢?我的实际体验是基于Linux的服务器系统许多操作都要使用代码,很不方便。然后使用过程中的错误也比本地要多,整个过程比本地艰难很多的感觉,不建议新手使用。
AutoDL链接:https://www.autodl.com/home
触手AI 云端SD的优点是操作简便,门槛低,缺点是功能有所精简,不能满足所有生成需求,作为体验和部分生产力可以,但没办法满足全部生成需求。
青椒云链接:
http://account.qingjiaocloud.com/signin?inviteCode=3OF611IT
【Mac可用】设计师专用云端SD镜像保姆级教程!免下载免部署轻松上手!
学会 Stable Diffusion 后怎么用 ?
BDicon生成三维图标
BDicon是我炼制的用于B端风格三维渲染图生成的大模型,主要使用ControlNet进行精准线稿生成,之前有写过一篇文章详细介绍生成细节操作,这里仅展示生成成果和分析。
如何用Bdicon大模型低门槛生成B端三维图标
图中第一行是文生图生成的,目前仅有部分物品文生图效果比较好,更多的文生图优化还有待后续炼制XL版本模型来实现,XL的文生图能力要好上许多,能清晰认识更多物品和概念。
第二行和第三行都是基于线稿生成的图像,可以根据业务需求自行绘制线稿控制生成结果,真正应用于工作。
下图中是使用简单线稿进行生成的效果,整体已经不错了,但是有些细节造型会有些小扭曲,比如正确勾号,目前的实践解决方案是加大分辨率后出图细节就能得到明显改善。
下图的高分辨率图像的细节造型就有了明显改善,正确勾号造型正确了。但是高分辨率放大也带来了新的问题,比如用户头部多出的造型,和背景元素被重绘的更多更明显了,这些问题可以通过PSbeta的AI功能去解决。
下方是BDicon的用户山卡拉叔叔的实践案例,虽然显卡只是1660s,但也有不错的效果。显卡只决定能不能跑,跑的有多快,生成的图片质量如何还是要看具体参数设置。
下方是小红书用户的实践案例,有了BDicon快速满足需求方有个图的需求,轻松下班哈哈
上方的都是简单线稿生成,接下来我们来看一下复杂线稿的生成效果,复杂线稿的具体参数需要对应调整,具体细节可以关注后续更新。
通过替换提示词,可以低成本快速更换色调,一个颜色耗时十分钟左右,比在三维软件中更改色调再重新渲染节约了数十倍的时间。虽然细节还有瑕疵,但要求不高的需求可以用了,要求高的需求也可以可以作为方向性参考与团队先过一遍,确定了再照着这个方向做,对齐双方预期,避免因为预想结果不同造成的反复修改。
微软风lora叠加风格
下图即是文章开头的视频中提到的微软风LoRA叠加到BDicon 上生成的效果,让成图结果带有了明显的柔彩质感。
多叠加Lora也有机会出现神奇的效果,下方是BDicon的用户山卡拉叔叔叠加了blindbox, microsoft design,御火 V2,CGgame C4D bsw 等4个LoRA生成的效果,多样化了许多,这种LoRA叠加的权重设置没有明显通用的规则,往往需要靠着对各个LoRA的了解来设定和尝试最佳设置。
训练模型满足特定需求
SD之于MJ的一大区别就是自主训练模型满足特定需求,例如我的BDicon和微软风模型就是为了满足B端设计所需的三维模型的特定需求而训练的。市场上的人像模型、游戏模型、IP模型、电商营销模型也都是如此为了满足各自特定的需求而训练的,下方是我写的一些训练模型和应用模型相关经验的文章,有兴趣的可以前往本号文章列表查阅。
Dreambooth 官方炼丹教程万字详解-EpochsBatch size学习率 等超参数调优 (一)
Dreambooth 官方炼丹教程详解-影响显存的高级设置(二)
接下来我以得到AIGC专家海辛转发推荐的微软风LoRA为案例,向大家展示不打标的极简炼丹术的训练思路。本思路可以适用于各种画风迁移到SD的需求,不仅局限于MJ出品的画风,任何训练集的画风都可以的。
这是MJ生成的微软风图标训练集,本次使用了100多张这样的图片作为训练集提供给SD进行学习,并未进行打标处理,分辨率也是1024。
这是训练完模型后进行XY轴测试模型效果的截图,将不同训练成果叠加于不同底模之上,即可直观的感受到不同的表现,然后再根据各方面表现筛选效果最好的那一个,作为最终成品LoRA文件发布。
当然,很难一次训练就得到最佳成果,往往需要从基础参数开始,多次调整训练参数才能得到满意的成果。
下图是我训练的另一个暗橙色风格的大模型SDicon,使用了50张素材左右的训练集进行训练,Ckpt大模型的训练并不一定比LoRA难,但对电脑性能和硬盘空间的需求是确定性的更多,一次训练产生几十G的文件很正常。
利用SD做其他有趣的事
学会SD后,除了应用于正经工作提效以外,我们还可以做些有趣的事情。例如利用SD的AI能力融合现实中无法融合的物体,轻松五分钟产出以前需要用PS辛苦的合成五小时的融合创意图。
我将这种融合创意图应用于我和B站合作的H5小游戏的效果也挺有意思,这次小游戏为了呼应《塞尔达·王国之泪》游戏上线而做的融合玩法收到的反响还不错,游玩次数也突破了10W+,并且加上多次推翻修改的制作成本依旧只有传统PS合成方式的几十分之一,详情可以看我写的这篇总结文章
AI绘画商用案例:Stable Diffusion 生成B站塞尔达H5小游戏梗图
SD的放大能力还能用于放大MJ生成的图片,将不足2k的图放大为5k超清并且合理的增加细节,可以有效提升图片的品质水平。
下图是我生成的银河舰队系列战舰,使用MJ生成图片后再到SD里添加细节和放大,最后在剪映里组合成视频,最终相关视频全网播放量50W+,收获了2W多个赞,也算是很有趣的经历了。
与视频生成AI Gen-2 联动
SD生成图片还可以进一步放入视频生成AI Gen-2里进行图生视频的处理,出来的结果也挺有惊喜的。感觉现在AI视频的发展程度已经到达MJ早期V1的阶段了感觉,技术突破应该就在这几年了,下方是使用Gen-2生成的一些视频,可以感受一下AI视频技术的突破。