AIジェネレーターはシンプルです:プロンプトを入力して「生成」をクリックすると、画像が得られます。
始めたばかりの人々が抱く疑問は「どうやって生成するか」ではなく、「どうやってより良い画像を生成するか」です。
このガイドはその答えを提供することを目的としています。これは、BetterWaifuウェブサイトでの常に実験と学びの結果であり、ここでは毎日数十万の画像が生成されています。
すべてはDanbooruから始まる
プロンプトを改善しようとしている人には、私たちのDiscordサーバーでの最初の提案は通常、Danbooruをブラウズすることです。
しかし、初めてのユーザーにとって、Danbooruは非常に混乱します。画像とタグの乱雑な寄せ集めのように見えます。それでは、実際にどのように私たちがより良いワイフを生成するのに役立つのでしょうか?
Danbooruは世界最大のアニメ画像掲示板です。例外なく、すべてのアニメAIジェネレーターはその画像をトレーニングに使用しています。Rule34やGelbooruなど、同じレイアウトを使用している「booru」サイトはたくさんありますが、Danbooruが最大です。
Danbooruでは、ボランティアがすべての画像をその内容に基づいて包括的にタグ付けしています。これらのタグは、物理的な特徴「large_breasts」や「red_hair」、物体「book」、アクション「fellatio」まで多岐にわたります。
これらのタグをプロンプトに直接使用できます。(プロンプト内のアンダースコアとスペースに違いはありません)
重要なアイデア:タグに多くの画像がある場合、それはそのタグに対してAIがトレーニングするための多くのコンテンツがあったことを意味します。したがって、BetterWaifuや他のAIジェネレーターは通常、それを生成できます。
したがって、効果的なプロンプティングは、良いタグを見つけ、それをプロンプトに直接使用するプロセスです。
タグ付けの基本
- タグに画像が多いほど、それは強力です。AIは知っていることしか生成できず、それはトレーニングされた画像によって決まります。つまり、Danbooruにおける画像のタグ数は、AIがそれを生成できるかどうかの良い指標です。非常に大まかな目安:AIが認識するためには、タグには少なくとも1kの画像が必要です。3k以上の画像がある場合、AIが正確に生成できる可能性は非常に高いです。
- これはキャラクタータグにも当てはまります。Danbooruの名前の書き方を使用することが重要です。「yor briar」は正しいキャラクターを生成できますが、「yor forger」ではできません。ただし、「タグが多いほど良い」というルールにはキャラクターに関して注意が必要です。フランチャイズがあまり人気でない場合、そのキャラクターを生成できる可能性は低いです。さらに、AIモデルの作成者がさまざまな理由でフランチャイズやキャラクターを除外することを選択した可能性があります。
- 正確なミニマリストであること。多くの人はプロンプトに多くのフィラーを使用するのが好きです。これは2022年頃の古いAI生成のテクニックです。もうこれをする必要はありません。タグが多すぎるとノイズが発生し、結果の質が低下します。必要なものだけを厳密に記載してください。例えば、明らかに露骨なシーンの場合に「nsfw」をプロンプトに入れないでください。
- 見えるものをプロンプトにする、知っていることではなく。最終的な画像に表示されないもののタグをプロンプトに使用しないでください。例えば、キャラクターは一般的に「モンスター・ハンター」と呼ばれますが、これは生成したい画像とは関係ありません。したがって、これを除外してください。
わかった、でも実際に良いタグはどこで見つけるの?
大きなタググループリストから始めましょう。ここでは特に興味深いグループをいくつか紹介します。
胸のサイズ、可視性、胸に焦点を当てた服装を指定するための最良のタグ。
さまざまな性行為の長いリスト。
ボンデージ体位を含む性の体位。
ヌードの種類、部分的なヌード、水着。
背景の色。
ライティングの種類、結果に大きく影響します。
角度、視点、構成。
表情、感情(性的なものを含む)、顔の特徴。
タグを組み合わせる:プロンプトを作成しよう!
どう始めればいいかわからない?タググループを見て、夢の画像で視覚的に最も重要なものを考えてみてください。
私は通常、5つの単語のグループを使用し、その中にサブカテゴリーを持つ形式に従います。
これらの概念を改行で分けるようにしています。これにより、迅速に調整ができます。改行は生成に影響しません。
これは非常に大まかなガイドラインであることを念頭に置いてください。この順序を混ぜるのも構いません、特にカテゴリー内では。
- スタイル(フォトリアリスティック、カラーパレットなど)
- 視点
- 光、時間帯(昼、夜、夕日など)
2. 主題
- 主要な主題(1boy、1girl、オブジェクト、風景など)
(1girlはDanbooruの「1人の女の子」を表す方法で、2girlsや3girlsと区別しています)
3. アクション
- 性行為
- 性的体位
4. 体
- 姿勢
- 主要な特徴(サイズ、体重、体型、体脂肪、肌の色など)
- 体の要素(胸のサイズ、乳首、お尻など)
- 顔に関連するもの(目の色、髪型など)
- 表情(幸せ、驚き、真剣、決意など)
- 服装
5. 背景
- 主な環境(屋内、屋外など)
- 天候(風、雨、雪など)
- オブジェクト(家具、車両など)
待って、これは長くて複雑ではありませんか?
はい、そうです!しかし、望まないカテゴリーを持つ必要はなく、単語一つでカテゴリーを表すこともできます。本当に重要なのは、どの程度のコントロールを望むかです。いくつかの例を見てみましょう。
私は黒いメイド服を下から撮影したいと思っています。背景は重要ではありませんが、クールなシネマティック効果が欲しいです。インスピレーションのために、興味のある各カテゴリーとサブカテゴリーのリンクをクリックします。
構成:from_below、主題:
プロンプトの長さについて
プロンプトは単語(または単語の塊)によって分割され、トークンと呼ばれる数値表現に変換されます。使用されるモデルやトークンがどのように正規化されるかによって、プロンプトの特定の部分はより多く、または少なく注目されます。私の経験則:プロンプトが長いほど、全体のプロンプトに対するコントロールが増します。
この件についてもっと読みたい場合は、以下のリソースを参照してください:
SDXLおよびSD15モデルのトークン – Alen Knight
トークンの正規化と重みの解釈 – BlenderNeko(Github)
例
こちらは構造に従った例です。プロンプトの主要な領域をよりよく見るために、いくつかの改行を入れることが多いです。
sidelighting, light particles,
1girl, ginger, solo, smirk
sweat, freckles, small breasts,
ginger hair, long hair, straight hair,
blue eyes, glowing eyes, glasses, looking at viewer,
smile, smirk, grin, frown,
white tank top,
indoor, library,
sunset, sunny, daylight,
desk, chair,
ご覧の通り、改行は構造の5つのフィールドを完全に分けるわけではありません。生成したいものによっては、小さな部分と長い部分を視覚的に分ける方が理にかなっている場合があります。ここでは、主題、アクション、および姿勢が一緒にグループ化されています:それらを分けると、視覚的に混乱を招くことになります。
ユースケース
ここではいくつかのユースケースとお気に入りのキーワードを紹介します。最も一般的なものからより具体的なものまで、論理的なグループで整理しようとしています。すべての行をコピー&ペーストするのではなく、自分に合ったものを選ぶことをお勧めします。
構造内での位置を示すリファレンスも見つけられます。私は[xx.yy]という形式のIDを使用し、カテゴリーとそのサブカテゴリーの頭字語を使います。
一部は出現順序で上位または下位に配置される可能性があることに注意してください(例:逆さまは[compos.pov]または[body.posture]として配置される可能性があります)。
一般的な
ここでは、画像の全体的な質に影響を与えるためにほとんどのプロンプトで使用するものを示します。何か気に入らないものが現れた場合は、追加のネガティブキーワードを加えることが多いですが、それ以前には加えません。再度、短くシンプルに保つことが好きです。
以下のリストは、いくつかのクラシックなケースをカバーし、ポジティブとネガティブのプロンプトの両方を詳細に示しています。
注:ネガティブ+は、状況に応じて選択する追加のリストです。私の経験では、解剖に関連するネガティブキーワードは必ずしも結果を改善するわけではないので、必要な場合に備えてそれらを脇に置いておきます。
シーン
主題