AI生成器非常简单:你输入一个提示,然后点击“生成”来获取你的图像。
人们在刚开始时提出的问题不是“我如何生成”,而是“我如何生成更好的图像”。
本指南旨在回答这个问题。它是不断实验的结果,以及从BetterWaifu网站的学习,该网站每天生成数十万张图像。
一切都从Danbooru开始
对于任何想要改善其提示的人,我们的Discord服务器中的第一个建议通常是浏览Danbooru。
但对于第一次使用者来说,Danbooru简直令人困惑。它看起来就像是一堆杂乱的图像和标签。那么它到底如何帮助我们生成更好的waifus?
Danbooru是世界上最大的动漫图像板。毫无例外,所有动漫AI生成器都使用其图像进行训练。有许多“booru”网站使用相同的布局,例如Rule34和Gelbooru,但Danbooru是最大的。
在Danbooru上,志愿者全面标记所有图像的内容。这些标签涵盖从物理特征“large_breasts”、“red_hair”到物体“book”再到动作“fellatio”。
你可以直接在你的提示中使用这些标签。(在提示中下划线和空格没有区别)
关键思想:如果一个标签有很多图像,这意味着有很多内容可以训练AI在该标签上。因此,BetterWaifu和其他AI生成器通常可以生成它。
因此,有效的提示是一个从寻找好的标签并直接在你的提示中使用它们开始的过程。
标签基础
- 标签的图像越多,越强大。AI只能生成它所知道的,而它所知道的由它所训练的图像决定。这意味着图像在Danbooru上的标签数量通常是AI是否能生成它的一个很好的估计。一个非常粗略的经验法则:该标签至少应该有1000张图像,以便AI能够识别它。如果至少有3000张,AI能够准确生成它的可能性非常高。
- 这同样适用于角色标签。使用Danbooru的命名方式非常重要,因此“yor briar”可以生成正确的角色,而“yor forger”则不能。然而,“标签越多越好”的规则对于角色来说是有条件的。如果一个系列不太受欢迎,生成器不太可能生成其中的角色。此外,AI模型的创建者可能出于各种原因选择排除某些系列/角色。
- 做一个精确的极简主义者。许多人喜欢在他们的提示中使用许多填充词。这是2022年左右AI生成的旧时代的技术。我们现在不需要这样做了。太多的标签会造成噪音,导致结果质量下降。保持严格的最小限度,只写下你绝对想看到的内容。例如,当场景显然是露骨的场景时,不要在提示中放“nsfw”。
- 提示你所看到的,而不是你所知道的。不要在你的提示中使用最终图像中不可见的东西的标签。例如,一个角色通常被称为“怪物猎人”,但这与您想生成的图像无关。因此排除这个。
好的,我信服了,但我到底在哪里找到好的标签?
从大的标签组列表开始。在这里,我将介绍一些特别有趣的组。
最佳标签,用于指定胸部大小、可见性、胸部焦点的服装。
各种性行为的长列表。
包括束缚姿势的性姿势。
裸体类型、部分裸体、泳装。
背景颜色。
照明类型,可以极大地影响你的结果。
角度、透视、构图。
面部表情、情感(包括性情感)、面部特征。
将标签组合在一起:让我们提示吧!
不知道如何开始?去看看标签组,想想你梦想中的图像中视觉上最重要的是什么。
我通常喜欢使用5组单词的格式,并在内部使用子类别。
我尝试用换行符分隔这些概念,这有助于我快速进行调整。换行符不会影响生成。
请记住,这只是一个非常粗略的指导方针。混合这个顺序是可以的,特别是在一个类别内部。
- 风格(照片真实感、色彩调色板等)
- 视角
- 光线、时间(白天、夜晚、日落等)
2. 主题
- 主要主题(1boy、1girl、物体、风景等)
(1girl只是Danbooru表示“1女孩”的方式,并将其与2girls和3girls等分开)
3. 动作
- 性行为
- 性姿势
- 姿势
- 主要特征(大小、体重、身体类型、体脂、肤色等)
- 身体元素(胸部大小、乳头、臀部等)
- 面部相关(眼睛颜色、发型等)
- 表情(快乐、惊讶、严肃、坚定等)
- 衣服
5. 背景
- 主要环境(室内、室外等)
- 天气(风、雨、雪等)
- 物体(家具、车辆等)
等等,这不是很长且复杂吗?
是的,确实如此!但你不必有任何你不想要的类别,一个单词就可以满足一个类别。这真的取决于你想要的控制程度。让我们看看一些例子。
我在想一个从下方拍摄的黑色女仆装。背景无所谓,但我想要酷炫的电影效果。为了获得灵感,我会点击我感兴趣的每个类别和子类别中的链接。
构图:from_below,主题:
关于提示的长度
提示通过单词(或单词块)分割,以将其转换为称为令牌的数值表示。根据使用的模型和令牌的规范化,提示的某些部分将获得更多或更少的关注。我的经验法则是:提示越长,你对整个提示的控制就越多。
如果你想了解更多相关内容,这里有一些资源:
使用SDXL和SD15模型的令牌 – Alen Knight
令牌规范化和权重解释 – BlenderNeko(Github)
示例
这是一个遵循结构的示例。我通常会放一些换行符,以便更好地查看提示的主要区域。
侧光,光粒子,
1girl,姜色,单独,微笑
汗水,雀斑,小胸部,
姜色头发,长发,直发,
蓝眼睛,发光的眼睛,眼镜,看着观众,
微笑,微笑,咧嘴笑,皱眉,
白色背心,
室内,图书馆,
日落,阳光明媚,白天,
桌子,椅子,
如你所见,换行符并没有完美地分隔结构的5个字段。根据你想生成的内容,视觉上分隔较小和较长的部分可能更有意义。在这里,主题、动作和身体姿势被组合在一起:将它们分开在视觉上会造成更多的混乱。
用例
这里有一些用例和常用关键词。我尝试按逻辑组进行组织,从最一般到更具体。我建议挑选对你有意义的,而不是复制粘贴整行。
你还会找到我在结构中放置它的位置的参考。我将使用格式为[xx.yy]的ID,使用类别及其子类别的首字母缩写。
请记住,其中一些也可以在出现顺序中更高或更低(例如,倒置可以放在[compos.pov]或[body.posture]中)。
通用
这是我在几乎所有提示中使用的内容,以影响图像的整体质量。如果出现我不喜欢的内容,我通常会添加额外的负面关键词,但不会在之前。再次强调,我喜欢保持简短和简单。
以下列表涵盖了一些经典案例,详细说明了正面和负面提示。
注意:负面+是一个额外的列表,我根据情况进行挑选。根据我的经验,与解剖学相关的负面关键词并不总是改善结果,因此我只是将它们放在一边,以备不时之需。
场景
主题