
By gerogero
Updated: February 7, 2026
Este documento fornece uma introdução abrangente, completa e atualizada ao modelo NoobAI-XL .
NoobAI-XL é um modelo de difusão de Texto-para-Imagens desenvolvido pelo Laxhar Dream Lab e patrocinado pela Lanyun.
O certificado do modelo é herdado da fair-ai-public-license-1.0-sd e possui algumas restrições (veja certificado do modelo NoobAI-XL). O modelo é baseado na arquitetura do modelo SDXL. Seu modelo base é o Illustrious-xl-early-release-v0 . Ele foi treinado no conjunto de dados completo Danbooru e e621 (cerca de 13 milhões de imagens) por um grande número de rodadas, com amplo conhecimento e excelente desempenho.
NoobAI-XL possui uma enorme quantidade de conhecimento, que pode restaurar os estilos de dezenas de milhares de personagens e artistas 2D, reconhecer um grande número de conceitos especiais em 2D e tem um rico conhecimento furry.
NoobAI-XL oferece versões de previsão de ruído (ou seja, previsão de epsilon) e previsão V. Em resumo, a versão de previsão de ruído gera imagens mais diversas e criativas, enquanto a versão de previsão V segue mais os prompts e gera imagens com uma gama de cores mais ampla e iluminação mais forte.
NoobAI-XL conta com um suporte comunitário de ecossistema cada vez mais rico, incluindo vários LoRA, ControlNet , IP-Adapter e assim por diante.
NoobAI-XL inclui uma série de modelos, principalmente previsão de ruído e previsão V, que serão descritos em detalhes mais adiante .
Antes de ler esta seção, os leitores precisam já entender o uso básico de qualquer tipo de interface de imagem bruta, como WebUI , ComfyUI , forge ou reForge . Caso contrário, os leitores precisam aprender a partir de aqui ou da Internet (como Bilibili, etc.).
| Site | Link |
| CivitAI | Clique aqui |
| LiblibAI | Clique aqui |
| Huggingface | Clique aqui |
Se você não sabe qual modelo baixar, pode navegar aqui .
Os modelos NoobAI-XL são divididos em duas categorias: modelos de previsão de ruído (previsão de epsilon, ou abreviados como eps-pred) e modelos de previsão V (v-prediction, ou abreviados como v-pred). Modelos com as palavras “eps”, “epsilon-pred” ou “eps-pred” em seus nomes são modelos de previsão de ruído, que não são muito diferentes de outros modelos. Se você os usar, pode pular esta seção diretamente. Modelos com as palavras “v” ou “v-pred” em seus nomes são modelos de previsão V, que são diferentes da maioria dos modelos convencionais. Por favor, leia o guia de instalação nesta seção com atenção! O princípio do modelo de previsão V pode ser encontrado neste artigo .
A previsão V é uma técnica de treinamento de modelo relativamente rara. Modelos treinados usando essa técnica são chamados de modelos de previsão V. Comparados aos modelos de previsão de ruído, os modelos de previsão V são conhecidos por sua maior obediência a dicas, gama de cores mais abrangente e luz e sombra mais fortes, representados pelo NovelAI Diffusion V3 e COSXL . Devido à sua aparição tardia e ao menor número de modelos desse tipo, alguns projetos gráficos e UIs convencionais não o suportam diretamente. Portanto, se você planeja usar modelos de previsão V, precisará de algumas operações adicionais. Esta seção irá introduzir seu uso específico. Se você encontrar dificuldades durante o uso, também pode entrar em contato diretamente com qualquer autor de modelo para obter ajuda.
Forge e reForge são duas UIs de geração de imagem AI desenvolvidas por lllyasviel e Panchovix , respectivamente, ambas são versões estendidas do WebUI. Seu ramo principal suporta o modelo de previsão V, e o modo de operação é quase o mesmo que o WebUI, então são recomendados. Se você instalou um deles, basta executar git pull para atualizar no diretório de instalação e reiniciá-lo; se você não o instalou, pode consultar o tutorial online para instalação e uso.
ComfyUI é uma UI de geração de imagem desenvolvida por comfyanonymous , permitindo que os usuários manipulem livremente os nós, nomeada por sua flexibilidade e profissionalismo. Usar o modelo de previsão V requer apenas adicionar nós adicionais.
WebUI é um projeto stable-diffusion-webui desenvolvido por AUTOMATIC1111 . Atualmente, o ramo principal do WebUI, que é o ramo principal, não suporta o modelo de previsão V e precisa ser trocado para dev. Por favor, note que esse método é instável e pode ter bugs. O uso inadequado pode até causar danos irreversíveis ao WebUI. Portanto, faça um backup do seu WebUI com antecedência. O método específico é o seguinte:
git checkout dev e pressione Enter.Diffusers é uma biblioteca dedicada a modelos de difusão em Python. Este uso requer que os usuários tenham uma certa base de código e é recomendado para desenvolvedores e pesquisadores. Exemplo de código:
import torch
from diffusers import StableDiffusionXLPipeline, EulerDiscreteScheduler
ckpt_path = "/path/to/model.safetensors"
pipe = StableDiffusionXLPipeline.from_single_file(
ckpt_path,
use_safetensors=True,
torch_dtype=torch.float16,
)
scheduler_args = {"prediction_type": "v_prediction", "rescale_betas_zero_snr": True}
pipe.scheduler = EulerDiscreteScheduler.from_config(pipe.scheduler.config, **scheduler_args)
pipe.enable_xformers_memory_efficient_attention()
pipe = pipe.to("cuda")
prompt = """masterpiece, best quality, john_kafka, nixeu, quasarcake, chromatic aberration, film grain, horror \(theme\), limited palette, x-shaped pupils, high contrast, color contrast, cold colors, arlecchino \(genshin impact\), black theme, gritty, graphite \(medium\)"""
negative_prompt = "nsfw, worst quality, old, early, low quality, lowres, signature, username, logo, bad hands, mutated hands, mammal, anthro, furry, ambiguous form, feral, semi-anthro"
image = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
width=832,
height=1216,
num_inference_steps=28,
guidance_scale=5,
generator=torch.Generator().manual_seed(42),
).images[0]
image.save("output.png")
NoobAI-XL não possui requisitos rígidos para palavras-chave de prompt, e as ações recomendadas neste artigo são um complemento.
NoobAI-XL recomenda que os usuários usem tags como prompt para adicionar o conteúdo desejado. Cada tag é uma palavra ou frase em inglês separada por uma vírgula em inglês “,”, e tags diretamente do Danbooru e e621 têm efeitos mais fortes. Para melhorias adicionais, veja a especificação de prompt mais adiante.
Sugerimos sempre adicionar a tag estética “very awa” e a tag de qualidade “masterpiece” ao seu prompt.
NoobAI-XL suporta a geração de personagens e estilos de artistas de alta fidelidade, ambos acionados por tags, que chamamos de “palavras-chave de ativação”. Entre elas, as palavras-chave para personagens são seus nomes; as palavras-chave para estilos de artistas são os nomes dos artistas. A tabela completa de palavras-chave pode ser baixada de noob-wiki . Explicações detalhadas sobre palavras-chave podem ser encontradas abaixo .
Semelhante ao NovelAI, NoobAI-XL suporta tags especiais, como qualidade, estética, ano de criação, período de criação e classificação de segurança para fins auxiliares. Leitores interessados podem ver a introdução detalhada no texto a seguir .
A tabela a seguir recomenda três parâmetros de geração: amostrador , passos de amostragem e CFG Scale . Negrito é fortemente recomendado; negrito em vermelho é um requisito rigoroso. Usar valores de parâmetro diferentes desses trará efeitos inesperados.
| Número da versão | Todas as versões de previsão de ruído | Versão de Previsão V 1.0 | Versão de Previsão V 0.9r | Versão de Previsão V 0.75s | Versão de Previsão V 0.65s | Versão de Previsão V 0.6 | Versão de Previsão V 0.5 | Versão Beta de Previsão V |
| Parâmetros recomendados | Amostrador: Euler A CFG: 5~ 7 Passos de amostragem: 28~ 35 | Amostrador: Euler CFG: 3.5 ~ 5.5 Passos de amostragem: 32~ 40Amostrador: Euler A CFG: 3 ~ 5 Passos de amostragem: 28~ 40 | Amostrador: Euler CFG: 3.5 ~ 5.5 Passos de amostragem: 32~ 40Amostrador: Euler A CFG: 3 ~ 5 Passos de amostragem: 28~ 40 | Amostrador: Euler A CFG: 3 ~ 5 Passos de amostragem: 28~ 40 | Amostrador: Euler A ou Euler CFG: 3.5 ~ 5.5 Passos de amostragem: 32~ 40Amostrador: Euler A CFG: 5 ~ 7 Passos de amostragem: 28~ 40 | Amostrador: Euler CFG: 3.5~ 5.5 Passos de amostragem: 28~ 35 | Amostrador: Euler CFG: 3.5~ 5.5 Passos de amostragem: 28~ 40 | Amostrador: Euler A CFG: 5~ 7 Passos de amostragem: 28~ 35 |
Para o modelo de previsão V, os seguintes parâmetros são recomendados para (i) otimizar cor, iluminação e detalhes; (ii) eliminar os efeitos de superexposição e saturação excessiva; e (iii) melhorar a compreensão semântica.
A resolução (largura x altura) da imagem gerada é um parâmetro importante. De maneira geral, por razões arquitetônicas, todos os modelos SDXL, incluindo NoobAI-XL, precisam usar uma resolução específica para alcançar o melhor efeito. Não são permitidos mais ou menos pixels, caso contrário, a qualidade da imagem gerada será enfraquecida. A resolução recomendada do NoobAI-XL é mostrada na tabela abaixo:
| Resolução (L x A) | 768×1344 | 832×1216 | 896×1152 | 1024×1024 | 1152×896 | 1216×832 | 1344×768 |
| Proporção | 9:16 | 2:3 | 3:4 | 1:1 | 4:3 | 3:2 | 16:9 |
Você também pode usar uma resolução de área maior, embora isso não seja estável. (De acordo com a pesquisa SD3, quando a área gerada se torna um $$$$ múltiplo do original, a incerteza do modelo se tornará um múltiplo do original $$k^$$.) Recomendamos que a área da imagem gerada não exceda 1,5 vezes a original. Por exemplo, 1024×1536.
Se você está interessado no modelo e gostaria de aprender mais sobre ele, esta seção fornece um guia detalhado para usar o modelo.
NoobAI-XL inclui várias versões diferentes do modelo base para uma série. A tabela a seguir resume as características de cada versão.
| Número da versão | Tipo de previsão | Link para download | Iteração desde | Características da versão |
| Acesso Antecipado | Previsão de ruído | CivitAIHuggingface | Illustrious-xl-early-release-v0 | A versão mais antiga, mas já possui treinamento suficiente. |
| Epsilon-pred 0.5 | Previsão de ruído | CivitAIHuggingface | Acesso Antecipado | (Recomendado) A versão mais estável, a única desvantagem é a falta de conhecimento de conceitos obscuros. |
| Epsilon-pred 0.6 | Previsão de ruído | Huggingface | Acesso Antecipado 0.5 | (Recomendado) A última versão de treinamento apenas UNet tem excelente efeito de convergência. A equipe de teste é chamada de “178000”, que é apreciada por muitas pessoas. |
| Epsilon-pred 0.75 | Previsão de ruído | CivitAIHuggingface | Epsilon-pred 0.6 | O codificador de texto (TTE) foi treinado para aprender mais conhecimento obscuro, mas o desempenho de qualidade piorou. |
| Epsilon-pred 0.77 | Previsão de ruído | Huggingface | Epsilon-pred 0.75 | Treinado por mais duas épocas com base no Epsilon-pred 0.75, melhorando a degradação do desempenho. |
| Epsilon-pred 1.0 | Previsão de ruído | CivitAIHuggingface | Epsilon-pred 0.77 | (Recomendado) Mais 10 rodadas de treinamento para consolidar o novo conhecimento do tte, equilíbrio de desempenho. |
| Pré-teste | Previsão V | CivitAIHuggingface | Epsilon-pred 0.5 | (Não recomendado) Versão experimental inicial de previsão V. |
| V-pred 0.5 | Previsão V | CivitAIHuggingface | Epsilon-pred 1.0 | (Não recomendado) Há um problema de alta saturação. |
| V-pred 0.6 | Previsão V | CivitAIHuggingface | V-pred 0.5 | (Não recomendado) Com base nos resultados da avaliação preliminar, o V-pred0.6 se destaca na cobertura de conhecimento raro, alcançando o nível mais alto entre os modelos atualmente publicados. Ao mesmo tempo, o modelo melhora significativamente o problema de degradação de qualidade. |
| V-pred 0.65 | Previsão V | Huggingface | V-pred 0.6 | (Não recomendado) Há um problema de saturação. |
| V-pred 0.65s | Previsão V | CivitAIHuggingface | V-pred 0.6 | O problema de saturação está quase resolvido! Mas tem problema de artefatos, que será resolvido na próxima versão. |
| Epsilon-pred 1.1 | Previsão de ruído | CivitAIHuggingface | Epsilon-pred 1.0 | (Recomendado) O problema de brilho médio foi resolvido, e todos os aspectos melhoraram. |
| V-pred 0.75 | Previsão V | Huggingface | V-pred 0.65 | (Não recomendado) Há um problema de saturação. |
| V-pred 0.75s | Previsão V | CivitAIHuggingface | V-pred 0.65 | (Recomendado) Resolver a saturação em situações extremas, problemas de ruído residual e artefatos. |
| V-pred 0.9r | Previsão V | CivitAI | V-pred 0.75 | Treinado com ~10% de dados de realismo. Tem degradação. |
| V-pred 1.0 | Previsão V | CivitAI | V-pred 0.75 | (Recomendado) Melhor qualidade/desempenho/cor equilibrada. |
| Tipo de previsão | Tipo de ControlNet | Link | Tipo de pré-processador | Observações |
| Previsão de ruído | Borda suave HED | CivitAIHuggingface | softedge_hed | |
| Previsão de ruído | Anime lineart | CivitAIHuggingface | lineart_anime | |
| Previsão de ruído | Mapa normal Midas | CivitAIHuggingface | normal_midas | |
| Previsão de ruído | Mapa de profundidade Midas | CivitAIHuggingface | depth_midas | |
| Previsão de ruído | Contorno Canny | CivitAIHuggingface | canny | |
| Previsão de ruído | Esqueleto humano Openpose | CivitAIHuggingface | openpose | |
| Previsão de ruído | Linha de mangá | CivitAIHuggingface | manga_line / lineart_anime / lineart_realistic | |
| Previsão de ruído | Lineart realista | CivitAIHuggingface | lineart_realistic | |
| Previsão de ruído | Mapa de profundidade Midas | CivitAIHuggingface | depth_midas | Nova versão |
| Previsão de ruído | Rabisco HED | CivitAIHuggingface | scribble_hed | |
| Previsão de ruído | Rabisco Pidinet | CivitAIHuggingface | scribble_pidinet | |
| Previsão de ruído | Tile | CivitAIHuggingface | tile |
Note que ao usar o ControlNet, você DEVE combinar o tipo de pré-processador que está usando com o tipo de pré-processador que o ControlNet requer. Além disso, você PODE NÃO PRECISAR combinar o tipo de previsão do modelo base com o tipo de previsão do ControlNet.
Em breve.
A maioria dos LoRAs pode ser usada tanto para versões de previsão de ruído quanto para versões de previsão V, e vice-versa.
Primeiramente, precisamos esclarecer que o papel dos prompts é guiar. Bons prompts podem liberar o potencial do modelo, mas prompts ruins ou até mesmo incorretos podem não necessariamente piorar os resultados. Diferentes modelos têm diferentes usos ótimos de prompt, e o efeito do uso inadequado muitas vezes não é óbvio, e em alguns casos, pode até melhorar. Este guia de prompt registra o melhor engenharia de prompt teórica do modelo, e leitores capacitados também podem usá-lo livremente.
Esta seção fornecerá um guia detalhado para escrever prompts, incluindo padrões de escrita de prompts, uso específico de palavras-chave de papel e estilo, uso de tags especiais, e assim por diante. Leitores interessados em engenharia de prompt podem escolher ler seletivamente.
NoobAI-XL tem a mesma especificação de prompt que outros modelos base semelhantes a anime. Esta seção apresentará sistematicamente as especificações básicas de escrita de prompts e ajudará os leitores a eliminar equívocos comuns na comunidade.
De acordo com os diferentes formatos, os prompts podem ser divididos em duas categorias: tags e linguagem natural. As primeiras são usadas principalmente para modelos de anime, e as últimas são usadas principalmente para modelos da vida real. Independentemente de qual prompt, a menos que o modelo especifique o contrário, deve conter apenas letras, números e símbolos em inglês.
Tags são compostas por palavras ou frases em inglês em minúsculas separadas por vírgulas em inglês “,”, por exemplo, “1girl, solo, blue hair” contém três tags, “1girl”, “solo” e “blue hair”.
Os espaços extras e caracteres de nova linha no prompt não afetarão o efeito real da geração. Em outras palavras, “1girl, solo, blue hair” e “1girl, solo, blue hair” têm exatamente o mesmo efeito.
Prompts não devem conter nenhum sublinhado “_”. Influenciado por sites como Danbooru, o uso de sublinhados “_” em vez de espaços entre palavras como tags se espalhou, o que na verdade é um uso inadequado e fará com que os resultados gerados sejam diferentes de usar espaços. A maioria dos modelos, incluindo NoobAI-XL, não recomenda incluir sublinhados em prompts. Esse uso inadequado pode afetar a qualidade da geração na melhor das hipóteses, e até mesmo tornar as palavras-chave completamente inválidas na pior das hipóteses.
Escape parênteses se necessário. Parênteses, incluindo colchetes (), colchetes [], e chaves {}, são símbolos muito especiais em prompts. Ao contrário de símbolos gerais, na maioria das UIs de geração de imagem, parênteses são interpretados como pesos de conteúdo específico, e os parênteses que participam do peso não terão seu significado original. No entanto, e se o prompt original precisar incluir parênteses, como algumas palavras-chave? A resposta é que a função de peso dos parênteses pode ser eliminada adicionando uma barra invertida “\” antes dos parênteses. Esta operação de mudar o significado original de um caractere é chamada de escape, e barras invertidas também são chamadas de caracteres de escape. Por exemplo, se você não usar uma barra invertida para escapar, o prompt “1girl, ganyu (genshin impact)” será interpretado incorretamente como “1girl, ganyu genshin impact”, onde “genshin impact” é ponderado e os parênteses desaparecem. Ao adicionar um caractere de escape, o prompt se torna “1girl, ganyu \(genshin impact\)”, como esperado.
Em resumo, a padronização de tags é dividida em duas etapas: (i) substituir sublinhados por espaços em cada tag, e (ii) adicionar uma barra invertida “\” antes dos parênteses.
Tags diretamente do Danbooru e e621 têm um efeito expressivo mais forte. Portanto, em vez de criar suas próprias tags, recomendamos que os leitores busquem tags diretamente nesses dois sites. Deve-se notar que as tags obtidas diretamente dessa forma são separadas por um sublinhado “_” e os parênteses não são escapados. Portanto, antes de adicionar dicas a tags delas, você precisa remover os espaços nas tags e escapar os parênteses. Por exemplo, trate tags do Danbooru “ganyu_ (genshin_impact) ” como “ganyu\ (genshin impact\)” antes de usar.
Não use tags meta inválidas. Tags meta (tags meta ) são um tipo especial de tag no Danbooru usadas para indicar as características de arquivos de imagem ou obras em si. Por exemplo, “highres ” indica que a imagem tem alta resolução, “oil_painting_ (medium) ” indica que a imagem está no estilo de pintura a óleo. No entanto, nem todas as tags meta estão relacionadas ao conteúdo ou forma da imagem. Por exemplo, “commentary_request ” indica que a postagem do Danbooru tem um pedido de tradução para a obra, o que não tem relação direta com a obra em si e, portanto, não tem efeito.
Palavras-chave sequenciais são melhores. NoobAI-XL recomenda escrever prompts em ordem lógica, do primário ao secundário. Uma possível ordem de escrita é a seguinte, apenas para referência:
< 1girl/1boy/1other/female/male/… >, < character >, < series >, < artist (s) >, < general tags >, < other tags >, < quality & aesthetic tags >
Entre elas, as < quality & aesthetic tags > podem ser prefixadas.
Prompts de linguagem natural são compostos por frases, cada uma começando com letra maiúscula e terminando com um ponto “.”. A maioria dos modelos de anime, incluindo NoobAI-XL, tem uma melhor compreensão de tags, então linguagem natural é frequentemente usada como um auxiliar em vez de um componente principal nos prompts.
NoobAI-XL suporta a geração direta de um grande número de personagens e estilos de artistas feitos por fãs. Personagens e estilos são acionados por nomes, que também são tags chamadas palavras-chave de ativação. Você pode pesquisar diretamente no Danbooru ou e621 , e padronizar as tags resultantes como prompts.
Existem algumas diferenças na forma como personagens e artistas são acionados.
A tabela a seguir demonstra alguns casos corretos e incorretos de ativação de personagens e estilos:
| Tipo | Palavra-chave do prompt | Certo ou errado | Razão |
| Personagem | Rei Ayanami | Errado | O nome do personagem deve ser “ayanami rei ”. Nenhuma tag de série “neon genesis evangelion ” adicionada. |
| Personagem | personagem:ganyu \(genshin impact\), genshin impact | Errado | Adicionou o prefixo “personagem:” superficialmente. |
| Personagem | ganyu_\(genshin impact\) | Errado | Sem tags totalmente normalizadas: não deve conter sublinhados. Nenhuma tag de série foi adicionada. |
| Personagem | ganyu (genshin impact), genshin impact | Errado | Sem tags totalmente normalizadas: parênteses não são escapados. |
| Personagem | ganyu (genshin impact\), genshin impact | Errado | Sem tags totalmente normalizadas: o parêntese esquerdo não é escapado. |
| Personagem | ganyu \(genshin impact\),genshin impact | Errado | Separou duas tags com uma vírgula chinesa |
| Personagem | ganyu \(genshin impact\), genshin impact | Certo | |
| Estilo de artista | por wlop | Errado | Adicionou o prefixo “por” superficialmente. |
| Estilo de artista | artista:wlop | Errado | Adicionou o prefixo “artista:” superficialmente. |
| Estilo de artista | dino | Errado | O nome do artista está errado, o nome do artista de aidxl/artiwaifu não deve ser usado, mas deve seguir o Danbooru, então é “dino\ (dinoartforame\) ”. |
| Estilo de artista | wlop | Certo |
Para sua conveniência, também fornecemos uma forma completa de palavras-chave na noob-wiki para sua referência:
| Tipo de tabela | Link para download |
| Personagem Danbooru | Clique aqui |
| Estilo de Artista Danbooru | Clique aqui |
| Personagem E621 | Clique aqui |
| Estilo de Artista E621 | Clique aqui |
Cada uma dessas formas contém uma tabela de palavras-chave de um dos bancos de dados Danbooru e e621. Cada linha da tabela representa um personagem ou estilo de artista. Você só precisa encontrar a linha correspondente ao personagem ou estilo de artista desejado, copiar a seção “trigger” e colá-la na palavra-chave do prompt como está. Se você não tiver certeza sobre um personagem ou estilo de artista, também pode clicar no link na coluna “url” para visualizar o diagrama de exemplo no site. A tabela a seguir explica o significado de cada coluna. Nem toda tabela contém todas as colunas.
| Listados | Significado | Observações |
| personagem | O nome da tag do papel no site correspondente. | |
| artista | Estilo de artista no nome da tag do site correspondente. | |
| trigger | Palavras-chave após padronização. | Copie e cole na palavra-chave do prompt como está e use-a. |
| contagem | Número de imagens com essa tag. | Como uma expectativa do grau de restauração desse conceito. Para personagens, uma contagem superior a 200 pode ser melhor restaurada. Para estilo, uma contagem superior a 100 pode ser melhor restaurada. |
| url | Página de tag no site original. | |
| solo_count | O número de imagens no conjunto de dados com essa tag e apenas um personagem na imagem. | Apenas tabela de papéis. Para papéis, solo_count acima de 50 pode ser restaurado melhor. Quando o grau de redução é julgado pela contagem, a variação da coluna de contagem é grande e a precisão é baixa, enquanto solo_count é um indicador mais preciso. |
| core_tags | As tags características principais do personagem incluem aparência, gênero e vestuário. Separadas por vírgulas em inglês, cada tag foi padronizada. | Apenas lista de personagens Danbooru. Quando personagens impopulares são acionados e seu grau de restauração é insuficiente, várias tags de características principais podem ser adicionadas para aumentar o grau de restauração. |
Tags especiais são um tipo de tag com significados e efeitos especiais que servem como uma função auxiliar.
Tags de qualidade são na verdade tags de popularidade obtidas a partir de dados estatísticos com base nas preferências dos usuários do Danbooru e e621. Na ordem de qualidade de alta para baixa:
masterpiece > best quality > high quality / good quality > normal quality > low quality / bad quality > worst quality
Tags estéticas pontuadas de acordo com o modelo de pontuação estética. Até agora, existem apenas duas, “very awa ” e “worst aesthetic ”. A primeira é a pontuação com waifu-scorer-v3 e waifu-scorer-v4-beta que estão nas 5% mais altas, e a última é a pontuação com os 5% mais baixos. É chamada de very awa porque seus padrões estéticos são semelhantes ao modelo Arti Waifu Diffusion . Além disso, uma tag estética que ainda está em treinamento e não tem efeito óbvio é “very as2”, que é a pontuação com “aesthetic-shadow-v2-5 ” nas 5% mais altas.
Comparação dos efeitos das etiquetas estéticas
Existem quatro tags de segurança/classificação: geral , sensível , nsfw e explícito .
Esperamos que os usuários adicionem conscientemente “nsfw” em prompts negativos para filtrar conteúdo inadequado. 😀
A tag de ano é usada para indicar o ano de criação da obra, afetando indiretamente a qualidade, estilo, grau de restauração do personagem , etc. Seu formato é “ano xxxx ”, onde “xxxx” é um ano específico, como “ano 2024”.
Tags de período são tags de ano que também têm um impacto significativo na qualidade da imagem. A correspondência entre tags e anos é mostrada na tabela abaixo.
| Intervalo de anos | 2021~2024 | 2018~2020 | 2014~2017 | 2011~2013 | 2005~2010 |
| Etiqueta de período | mais novo | recente | médio | início | antigo |
Esta seção fornece exemplos de uso recomendados de prompts apenas para referência.
O seguinte ponto de partida recomendado usa tags especiais, que são as que têm a maior correlação com a qualidade da imagem.
very awa, masterpiece, best quality, year 2024, newest, highres, absurdres
A tabela a seguir introduz tags negativas comuns e suas fontes. Nem todas as tags negativas são necessariamente ruins, e usá-las corretamente pode ter efeitos inesperados.