Como instalar e usar o Wan 2.1 (geração de vídeos hentai)

Este é um guia para iniciantes para ajudá-lo a instalar o Wan e implementar todas as otimizações disponíveis para maximizar a velocidade de geração de vídeo.

Agora, alcançar isso envolve trade-offs na qualidade, mas você pode facilmente desativar qualquer uma das otimizações se preferir priorizar a qualidade em vez da velocidade.

O guia e os fluxos de trabalho incluídos são adaptados para GPUs com 24GB ou mais de VRAM, utilizando tipicamente 21-23GB durante a geração. Embora seja possível usar uma GPU com menos de 24GB, você precisará fazer ajustes. Por exemplo, uma GPU de 16GB pode usar modelos FP8/Q8, desde que você aumente as configurações de virtual_vram_gb ou de troca de blocos nos fluxos de trabalho fornecidos. Vamos abordar isso mais tarde.

Se você tiver menos de 16GB, provavelmente desejará usar os modelos quantizados abaixo de Q8, mas tenha em mente que usar um nível de quantização mais baixo reduzirá a qualidade de suas saídas. Em geral, quanto mais baixo você for, menor será a qualidade que você obterá.

/ldg/ Guia de Instalação e Otimização do Wan 2.1

Pré-requisitos – INSTALAR PRIMEIRO

ComfyUI Portable
Gerenciador ComfyUI
CUDA 12.6

Escolher Implementação

O Wan 2.1 pode ser integrado ao ComfyUI através de duas abordagens: suporte nativo ou Wrapper do Kijai. O Wrapper do Kijai possui recursos adicionais que o Nativo não possui (flowedit, vid2vid, etc.), enquanto o Nativo possui várias vantagens que não estão disponíveis na versão do Kijai. Estas são: suporte para modelos gguf, Adaptive Guidance (um método para acelerar gerações à custa da qualidade) e compatibilidade com TorchCompile não apenas nas séries de GPU 40XX e 50XX, mas também na série 30XX, que acelera as gerações em cerca de 30%. Portanto, se você estiver usando menos de 24GB de VRAM e/ou quiser as velocidades de geração mais rápidas, o Nativo é provavelmente a melhor opção.

Uma vez que você tenha decidido um método e seu fluxo de trabalho associado, prossiga para os passos gerais de instalação.

Opção 1 – Wrapper do Kijai

Baixe estas versões modificadas dos fluxos de trabalho padrão do Kijai. Além das otimizações e alguns recursos extras, eles usam as configurações padrão do Alibaba como base. O fluxo de trabalho gera dois vídeos, uma versão bruta de 16 fps e uma versão interpolada de 32 fps. Você pode facilmente adaptar esses para usar o modelo/configuração 720P. Veja Gerando em 720P.

/ldg/ Fluxo de trabalho KJ i2v 480p: ldg_kj_i2v_14b_480p.json
(atualizado em 17 de março de 2025)

/ldg/ Fluxo de trabalho KJ t2v 480p: ldg_kj_t2v_14b_480p.json
(atualizado em 17 de março de 2025)

Certifique-se de que o ComfyUI está atualizado para a versão mais recente. (update_comfyui.bat em ComfyUI_windows_portable\update)
Baixe estes modelos.

Não use arquivos de modelo Comfy com os do KJ! Você DEVE usar estes ou você encontrará problemas!

Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors vai em ComfyUI\models\diffusion_models\WanVideo
Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors vai em ComfyUI\models\diffusion_models\WanVideo
Wan2_1-T2V-14B_fp8_e4m3fn.safetensors vai em ComfyUI\models\diffusion_models\WanVideo
umt5-xxl-enc-bf16.safetensors vai em ComfyUI\models\text_encoders
open-clip-xlm-roberta-large-vit-huge-14_fp16.safetensors vai em ComfyUI\models\text_encoders
Wan2_1_VAE_bf16.safetensors vai em ComfyUI_windows_portable\ComfyUI\models\vae\wanvideo

Vá para os Passos Gerais de Instalação.

Opção 2 – Comfy Nativo

Baixe estas versões modificadas dos fluxos de trabalho do Comfy, baseadas em um anônimo do /ldg/. Além das otimizações e alguns recursos extras, eles usam as configurações padrão do Alibaba como base. O fluxo de trabalho gera dois vídeos, uma versão bruta de 16 fps e uma versão interpolada de 32 fps. Você pode facilmente adaptar esses para usar o modelo/configuração 720P. Veja Gerando em 720P.

/ldg/ Fluxo de trabalho Comfy i2v 480p: ldg_cc_i2v_14b_480p.json
(atualizado em 17 de março de 2025)

/ldg/ Fluxo de trabalho Comfy t2v 480p: ldg_cc_t2v_14b_480p.json
(atualizado em 17 de março de 2025)

Certifique-se de que o ComfyUI está atualizado para a versão mais recente. (update_comfyui.bat em ComfyUI_windows_portable\update)
Baixe estes modelos. Se você tiver menos de 24GB de VRAM, você também pode trocar os modelos Q8 por Q6/Q5/Q4, embora você veja uma queda progressivamente maior na qualidade de saída quanto mais baixo você for.

Não use os arquivos de codificador de texto do Kijai com estes modelos! Você DEVE usar estes codificadores de texto ou ocorrerá um erro antes de gerar com Exception during processing !!! mat1 and mat2 shapes cannot be multiplied (77x768 and 4096x5120)

wan2.1-i2v-14b-480p-Q8_0.gguf vai em ComfyUI\models\diffusion_models\
wan2.1-i2v-14b-720p-Q8_0.gguf vai em ComfyUI\models\diffusion_models\
wan2.1-t2v-14b-Q8_0.gguf vai em ComfyUI\models\diffusion_models\
umt5_xxl_fp16.safetensors vai em ComfyUI\models\text_encoders
clip_vision_h.safetensors vai em ComfyUI\models\clip_vision\
wan_2.1_vae.safetensors vai em ComfyUI_windows_portable\ComfyUI\models\vae\

Vá para os Passos Gerais de Instalação.

Passos Gerais de Instalação

Baixe e execute isto conforme instruído para instalar automaticamente o Triton e o Sage, o que irá acelerar drasticamente suas gerações.
Abra um prompt cmd.exe em ComfyUI_windows_portable\ e execute o seguinte comando. Isso instala uma versão recente do pytorch nightly para CUDA 12.6, que permite usar a acumulação fp16, uma otimização que diminui o tempo de geração..\\python_embeded\\python.exe -s -m pip install torch==2.7.0.dev20250306+cu126 torchvision torchaudio –index-url https://download.pytorch.org/whl/nightly/cu126 –force-reinstall
Edite run_nvidia_gpu.bat em ComfyUI_windows_portable e mude a primeira linha para isto :.\python_embeded\python.exe -s ComfyUI\main.py –windows-standalone-build –use-sage-attention –fast
Execute o ComfyUI. Olhe na janela do console cmd.exe e certifique-se de que pytorch version: 2.7.0.dev20250306+cu126 é exibido durante a inicialização. Você também deve ver Enabled fp16 accumulation e Using sage attention.

Há um possível bug quando você atualiza extensões ou reinicia que relata uma versão incorreta do pytorch. Se isso acontecer, feche o Comfy e reinicie. Isso parece acontecer com mais frequência se você usar o botão "Reiniciar" no comfy após atualizar extensões, então feche-o manualmente e inicie-o manualmente após atualizar extensões. Também pode acontecer após atualizar o Comfy. Se após uma segunda reinicialização ainda não estiver 2.7.0dev, faça o passo 5 novamente.

Abra um dos fluxos de trabalho. Abra o Gerenciador e instale os Nós Personalizados Faltantes. Finalmente, instale a ComfyUI-GGUF extensão.

Se ainda reclamar sobre nós faltantes após instalá-los e reiniciar o Comfy, você pode precisar instalar os nós faltantes manualmente. Se isso acontecer usando o wrapper do KJ, instale o wrapper manualmente do repositório dele, excluindo a versão antiga dos custom_nodes antes. O mesmo vale para KJNodes se reclamar sobre o faltante WanVideoEnhanceAVideoKJ. Certifique-se de seguir as instruções de instalação para a instalação portátil.

Para o modelo de interpolação de vídeo, vá para este repositório e baixe film_net_fp32.pt, colocando-o em ComfyUI\custom_nodes\comfyui-frame-interpolation\ckpts\film
Certifique-se de que toda vez que você iniciar o Comfy, a versão do pytorch leia 2.7.0dev ou fp16_fast / fp16 accumulation não funcionará.
Execute sua primeira geração. Se travar durante o carregamento do modelo com "Pressione qualquer tecla para continuar" na janela cmd.exe, você precisará reiniciar seu computador. Se você receber este erro ao executar o fluxo de trabalho: ImportError: DLL load failed while importing cuda_utils: O módulo especificado não pôde ser encontrado. Vá para \users\username\ e abra o diretório .triton. Exclua o subdiretório cache dentro dele. Não exclua o diretório .triton inteiro.

Notas Importantes Antes de Gerar

O tempo de geração inicial que você obtém é NÃO preciso. O Teacache entra em ação durante a geração, e o Adaptive cerca da metade do caminho se você estiver no Comfy Nativo/Core.

Quando um vídeo termina de gerar, você receberá dois arquivos em seus próprios diretórios i2v ou t2v e subdiretórios. Os arquivos brutos são as saídas de 16 quadros, enquanto os arquivos int são interpolados para 32 quadros, o que proporciona um movimento muito mais suave.

É altamente recomendado que você ative as prévias durante a geração. Se você seguiu o guia, terá a extensão necessária. Vá para Configurações do ComfyUI (o ícone de engrenagem no canto inferior esquerdo) e procure por "Exibir prévias animadas ao amostrar". Ative-a. Em seguida, abra o Gerenciador Comfy e defina o método de Prévia para TAESD (lento). A saída se tornará mais clara por volta do passo 10, e você terá uma noção geral da composição e do movimento. Isso pode e irá economizar muito tempo, pois você pode cancelar gerações precocemente se não gostar de como elas estão.

NUNCA use o modelo i2v 720p em resoluções de 480p e vice-versa. Se você usar o modelo i2v 720p e definir sua resolução para 832×480, por exemplo, a saída que você obtém será muito pior do que simplesmente usar o modelo i2v 480p. Você nunca melhorará a qualidade gerando 480p no modelo 720p, então não faça isso. O único modelo que permite misturar resoluções de 480p e 720p é o t2v 14B.

Resoluções Suportadas

Cada modelo é treinado e ajustado para resoluções específicas. Em teoria, desviar dessas resoluções precisas pode produzir resultados piores em comparação a manter-se nas suportadas, especialmente para i2v.

No entanto, na minha experiência, usei com sucesso resoluções não padrão com i2v sem problemas notáveis, desde que os ajustes permanecessem razoáveis. Por exemplo, você deve evitar fazer mudanças drásticas de 480p ou 720p, e sempre ancorar uma dimensão – seja 480 para modelos 480p ou 720 para modelos 720p – enquanto escala a outra dimensão para baixo (nunca para cima) para ajustar a proporção. Isso significa que uma dimensão deve ser fixada consistentemente em 480 ou 720, dependendo do modelo, com a outra dimensão ajustada para baixo conforme necessário. E você nunca deve exceder o valor máximo definido de 832 para 480p e 1280 para 720p, pois você aumentará drasticamente o tempo de geração e ultrapassará os limites de resolução definidos pelos desenvolvedores do modelo.

Essas são as resoluções 'suportadas' conforme listado no repositório oficial do Wan:

Texto para Vídeo – 1.3B	Texto para Vídeo – 14B	Imagem para Vídeo – 480p	Imagem para Vídeo – 720p
480*832	720*1280	832*480	1280*720
832*480	1280*720	480*832	720*1280
624*624	960*960
704*544	1088*832
544*704	832*1088
	480*832
	832*480
	624*624
	704*544
	544*704

Gerando em 720P

Se você quiser usar o modelo 720p em i2v ou resolução 720p em t2v, você precisará:

No t2v, você precisa aumentar a resolução para 720p (1280×720 / 720×1280). O único modelo t2v 14B suporta tanto 480p quanto 720p.
Ao usar i2v no Wan, comece selecionando o modelo i2v 720P no carregador de modelos. Em seguida, ajuste as configurações de largura e altura da sua imagem de entrada para 1280×720 ou 720×1280. Este modelo é otimizado e tem o melhor desempenho nesta resolução exata, mas você pode ajustá-lo ligeiramente para acomodar diferentes proporções. Para os melhores resultados, mantenha sempre a altura ou a largura em 720, enquanto escala proporcionalmente a outra dimensão para baixo (por exemplo, 1152×720, 1024×720 ou 720×960). O que você não deve fazer é exceder 1280 em qualquer dimensão.
No Comfy Nativo, defina os coeficientes do Teacache para i2v_720. O wrapper do Kijai seleciona automaticamente os coeficientes corretos.
Defina o limite do Teacache para 0.2, que é a configuração média. Aumente para 0.3 para gerações mais rápidas à custa de uma queda na qualidade de saída.
Aumente virtual_vram_gb (Comfy Nativo) ou trocas de blocos (Wrapper do Kijai) dependendo da implementação que você usar.
Em uma GPU de 24GB, você deve aumentá-lo até que esteja usando pouco menos de 23GB no total. Você nunca deve exceder 23.5GB de uso total, ou os tempos de geração aumentarão drasticamente.

As Otimizações

Várias opções neste guia aceleram o tempo de inferência. Elas são fp16_fast (acumulação fp16), TeaCache, Torch Compile, AdaptiveGuidance (exclusivo do Comfy Nativo) e Sage Attention. Se você deseja desativá-las para testes ou aumentar a qualidade à custa do tempo, faça o seguinte:

fp16_fast : remova –fast de run_nvidia_gpu.bat. Se você estiver usando o KJ, também precisa definir a base_precision do Carregador de Modelos WanVideo de fp16_fast para fp16
Sage Attention : remova –use-sage-attention de run_nvidia_gpu.bat
AdaptiveGuidance : defina o nó AdaptiveGuidance para um limite de 1
Torch Compile : clique com o botão direito no nó TorchCompileModelWanVideo e clique em Bypass
TeaCache : clique com o botão direito no nó TeaCache e clique em Bypass