Comment installer et utiliser Wan 2.1 (génération de vidéos hentai)

Ceci est un guide pour débutants afin de vous aider à installer Wan et mettre en œuvre toutes les optimisations disponibles pour maximiser la vitesse de génération vidéo.

Atteindre cet objectif implique des compromis en matière de qualité, mais vous pouvez facilement désactiver l'une des optimisations si vous préférez privilégier la qualité à la vitesse.

Le guide et les flux de travail inclus sont adaptés aux GPU avec 24 Go ou plus de VRAM, utilisant généralement 21 à 23 Go pendant la génération. Bien qu'il soit possible d'utiliser un GPU avec moins de 24 Go, vous devrez apporter des ajustements. Par exemple, un GPU de 16 Go peut utiliser des modèles FP8/Q8, à condition d'augmenter les paramètres virtual_vram_gb ou block swapping dans les flux de travail fournis. Nous y reviendrons plus tard.

Si vous avez moins de 16 Go, vous voudrez probablement utiliser les modèles quantifiés en dessous de Q8, mais gardez à l'esprit que l'utilisation d'un niveau de quantification inférieur réduira la qualité de vos sorties. En général, plus vous descendez, plus la qualité diminue.

/ldg/ Guide d'installation et d'optimisation de Wan 2.1

Prérequis – INSTALLER D'ABORD

ComfyUI Portable
ComfyUI Manager
CUDA 12.6

Choisir l'implémentation

Wan 2.1 peut être intégré dans ComfyUI par deux approches : support natif ou Wrapper de Kijai. Le Wrapper de Kijai a des fonctionnalités supplémentaires que le natif n'a pas (flowedit, vid2vid, etc.), tandis que le natif présente plusieurs avantages indisponibles dans la version de Kijai. Ceux-ci incluent : le support des modèles gguf, la Guidance Adaptative (une méthode pour accélérer les générations au détriment de la qualité) et la compatibilité TorchCompile non seulement avec les séries de GPU 40XX et 50XX, mais aussi avec la série 30XX, ce qui accélère les générations d'environ 30 % supplémentaires. Donc, si vous utilisez moins de 24 Go de VRAM et/ou souhaitez les vitesses de génération les plus rapides, le natif est probablement la meilleure option.

Une fois que vous avez choisi une méthode et son flux de travail associé, passez aux étapes d'installation générales.

Option 1 – Wrapper de Kijai

Téléchargez ces versions modifiées des flux de travail par défaut de Kijai. Au-delà des optimisations et de quelques fonctionnalités supplémentaires, ils utilisent les paramètres par défaut d'Alibaba comme base. Le flux de travail produit deux vidéos, une brute à 16 fps et une version interpolée à 32 fps. Vous pouvez facilement les adapter pour utiliser le modèle/réglage 720P. Voir Générer en 720P.

/ldg/ Flux de travail KJ i2v 480p : ldg_kj_i2v_14b_480p.json
(mis à jour le 17 mars 2025)

/ldg/ Flux de travail KJ t2v 480p : ldg_kj_t2v_14b_480p.json
(mis à jour le 17 mars 2025)

Assurez-vous que ComfyUI est mis à jour vers la toute dernière version. (update_comfyui.bat dans ComfyUI_windows_portable\update)
Téléchargez ces modèles.

Ne pas utiliser les fichiers de modèle Comfy avec ceux de KJ ! Vous DEVEZ utiliser ceux-ci ou vous rencontrerez des problèmes !

Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors va dans ComfyUI\models\diffusion_models\WanVideo
Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors va dans ComfyUI\models\diffusion_models\WanVideo
Wan2_1-T2V-14B_fp8_e4m3fn.safetensors va dans ComfyUI\models\diffusion_models\WanVideo
umt5-xxl-enc-bf16.safetensors va dans ComfyUI\models\text_encoders
open-clip-xlm-roberta-large-vit-huge-14_fp16.safetensors va dans ComfyUI\models\text_encoders
Wan2_1_VAE_bf16.safetensors va dans ComfyUI_windows_portable\ComfyUI\models\vae\wanvideo

Passez aux étapes d'installation générales.

Option 2 – Comfy Native

Téléchargez ces versions modifiées des flux de travail de Comfy, basées sur celles d'un anonyme de /ldg/. Au-delà des optimisations et de quelques fonctionnalités supplémentaires, elles utilisent les paramètres par défaut d'Alibaba comme base. Le flux de travail produit deux vidéos, une brute à 16 fps et une version interpolée à 32 fps. Vous pouvez facilement les adapter pour utiliser le modèle/réglage 720P. Voir Générer en 720P.

/ldg/ Flux de travail Comfy i2v 480p : ldg_cc_i2v_14b_480p.json
(mis à jour le 17 mars 2025)

/ldg/ Flux de travail Comfy t2v 480p : ldg_cc_t2v_14b_480p.json
(mis à jour le 17 mars 2025)

Assurez-vous que ComfyUI est mis à jour vers la toute dernière version. (update_comfyui.bat dans ComfyUI_windows_portable\update)
Téléchargez ces modèles. Si vous avez moins de 24 Go de VRAM, vous pouvez également échanger les modèles Q8 contre Q6/Q5/Q4, bien que vous constaterez une diminution progressive de la qualité de sortie à mesure que vous descendez.

Ne pas utiliser les fichiers d'encodeur de texte de Kijai avec ces modèles ! Vous DEVEZ utiliser ces encodeurs de texte ou cela générera une erreur avant de générer avec Exception during processing !!! mat1 and mat2 shapes cannot be multiplied (77x768 and 4096x5120)

wan2.1-i2v-14b-480p-Q8_0.gguf va dans ComfyUI\models\diffusion_models\
wan2.1-i2v-14b-720p-Q8_0.gguf va dans ComfyUI\models\diffusion_models\
wan2.1-t2v-14b-Q8_0.gguf va dans ComfyUI\models\diffusion_models\
umt5_xxl_fp16.safetensors va dans ComfyUI\models\text_encoders
clip_vision_h.safetensors va dans ComfyUI\models\clip_vision\
wan_2.1_vae.safetensors va dans ComfyUI_windows_portable\ComfyUI\models\vae\

Passez aux étapes d'installation générales.

Étapes d'installation générales

Téléchargez et exécutez ceci comme indiqué pour installer automatiquement Triton et Sage, ce qui accélérera considérablement vos générations.
Ouvrez une invite cmd.exe dans ComfyUI_windows_portable\ et exécutez la commande suivante. Cela installe une version nocturne récente de pytorch pour CUDA 12.6, ce qui vous permet d'utiliser l'accumulation fp16, une optimisation qui réduit le temps de génération..\\python_embeded\\python.exe -s -m pip install torch==2.7.0.dev20250306+cu126 torchvision torchaudio –index-url https://download.pytorch.org/whl/nightly/cu126 –force-reinstall
Éditez run_nvidia_gpu.bat dans ComfyUI_windows_portable et changez la première ligne en ceci :.\python_embeded\python.exe -s ComfyUI\main.py –windows-standalone-build –use-sage-attention –fast
Exécutez ComfyUI. Regardez dans la fenêtre de la console cmd.exe et assurez-vous que pytorch version: 2.7.0.dev20250306+cu126 s'affiche au démarrage. Vous devriez également voir Enabled fp16 accumulation et Using sage attention.

Il y a un bug possible lorsque vous mettez à jour des extensions ou redémarrez qui signale une version incorrecte de pytorch. Si cela se produit, fermez Comfy et redémarrez. Cela semble se produire le plus souvent si vous utilisez le bouton « Redémarrer » dans Comfy après avoir mis à jour les extensions, donc fermez-le manuellement et démarrez-le manuellement après avoir mis à jour les extensions. Cela peut également se produire après la mise à jour de Comfy. Si après un second redémarrage, cela n'est toujours pas 2.7.0dev, refaites l'étape 5.

Ouvrez l'un des flux de travail. Ouvrez le Gestionnaire et installez les nœuds personnalisés manquants. Enfin, installez l'extension ComfyUI-GGUF.

Si cela se plaint toujours de nœuds manquants après les avoir installés et redémarré Comfy, vous devrez peut-être installer les nœuds manquants manuellement. Si cela se produit en utilisant le wrapper de KJ, installez le wrapper manuellement depuis son dépôt, en supprimant la version ancienne des nœuds personnalisés au préalable. Il en va de même pour KJNodes s'il se plaint de manquer WanVideoEnhanceAVideoKJ. Assurez-vous de suivre les instructions d'installation pour l'installation portable.

Pour le modèle d'interpolation vidéo, allez sur ce dépôt et téléchargez film_net_fp32.pt, en le plaçant dans ComfyUI\custom_nodes\comfyui-frame-interpolation\ckpts\film
Assurez-vous qu'à chaque fois que vous démarrez Comfy, la version de pytorch indique 2.7.0dev ou fp16_fast / fp16 accumulation ne fonctionnera pas.
Exécutez votre première génération. Si cela se fige pendant le chargement du modèle avec « Appuyez sur une touche pour continuer » dans la fenêtre cmd.exe, vous devez redémarrer votre ordinateur. Si vous obtenez cette erreur lors de l'exécution du flux de travail :ImportError: DLL load failed while importing cuda_utils: Le module spécifié est introuvable. Allez dans \users\username\ et ouvrez le répertoire .triton. Supprimez le sous-répertoire cache à l'intérieur. Ne supprimez pas l'intégralité du répertoire .triton.

Notes importantes avant de générer

Le temps de génération initial que vous obtenez est NON précis. Teacache entre en jeu pendant la génération, et Adaptive à peu près à mi-chemin si vous êtes sur Comfy Native/Core.

Lorsque la vidéo a fini de générer, vous obtiendrez deux fichiers dans leurs propres répertoires i2v ou t2v et sous-répertoires. Les fichiers bruts sont les sorties à 16 images tandis que les fichiers int sont interpolés à 32 images, ce qui vous donne un mouvement beaucoup plus fluide.

Il est fortement recommandé d'activer les aperçus pendant la génération. Si vous avez suivi le guide, vous aurez l'extension requise. Allez dans les paramètres de ComfyUI (l'icône d'engrenage en bas à gauche) et recherchez « Afficher les aperçus animés lors de l'échantillonnage ». Activez-le. Ensuite, ouvrez le Gestionnaire Comfy et définissez la méthode d'aperçu sur TAESD (lent). La sortie deviendra plus claire vers l'étape 10, et vous aurez une idée générale de la composition et du mouvement. Cela peut et va vous faire gagner beaucoup de temps, car vous pouvez annuler des générations tôt si vous n'aimez pas leur apparence.

NE JAMAIS utiliser le modèle i2v 720p à des résolutions 480p et vice versa. Si vous utilisez le modèle i2v 720p et définissez votre résolution à 832×480 par exemple, la sortie que vous obtiendrez sera bien pire que simplement utiliser le modèle i2v 480p. Vous n'améliorerez jamais la qualité en générant du 480p sur le modèle 720p, donc ne le faites pas. Le seul modèle qui vous permet de mélanger les résolutions 480p et 720p est t2v 14B.

Résolutions prises en charge

Chaque modèle est entraîné et affiné pour des résolutions spécifiques. En théorie, s'écarter de ces résolutions précises peut produire des résultats moins bons par rapport à rester avec celles prises en charge, surtout pour i2v.

Cependant, d'après mon expérience, j'ai utilisé avec succès des résolutions non standard avec i2v sans problèmes notables, tant que les ajustements restaient raisonnables. Par exemple, vous devriez éviter de faire des écarts drastiques par rapport à 480p ou 720p, et toujours ancrer une dimension – soit 480 pour les modèles 480p ou 720 pour les modèles 720p – tout en réduisant l'autre dimension (jamais en l'augmentant) pour ajuster le rapport d'aspect. Cela signifie qu'une dimension doit être fixée soit à 480 soit à 720, selon le modèle, avec l'autre dimension ajustée vers le bas si nécessaire. Et vous ne devez jamais dépasser la valeur maximale fixée de 832 pour 480p et 1280 pour 720p, car vous augmenterez considérablement le temps de génération et sortirez des limites de résolution fixées par les développeurs du modèle.

Voici les résolutions « prises en charge » telles que listées dans le dépôt officiel de Wan :

Texte à Vidéo – 1.3B	Texte à Vidéo – 14B	Image à Vidéo – 480p	Image à Vidéo – 720p
480*832	720*1280	832*480	1280*720
832*480	1280*720	480*832	720*1280
624*624	960*960
704*544	1088*832
544*704	832*1088
	480*832
	832*480
	624*624
	704*544
	544*704

Générer en 720P

Si vous souhaitez utiliser le modèle 720p en i2v ou la résolution 720p sur t2v, vous devrez :

Sur t2v, vous devez augmenter la résolution à 720p (1280×720 / 720×1280). Le modèle t2v unique 14B prend en charge à la fois 480p et 720p.
Lorsque vous utilisez i2v sur Wan, commencez par sélectionner le modèle i2v 720P dans le chargeur de modèles. Ensuite, ajustez les paramètres de largeur et de hauteur de votre image d'entrée à 1280×720 ou 720×1280. Ce modèle est optimisé et fonctionne le mieux à cette résolution exacte, mais vous pouvez l'ajuster légèrement pour accommoder différents rapports d'aspect. Pour de meilleurs résultats, maintenez toujours soit la hauteur soit la largeur à 720, tout en réduisant proportionnellement l'autre dimension (par exemple, 1152×720, 1024×720, ou 720×960). Ce que vous ne voulez pas faire, c'est dépasser 1280 sur l'une ou l'autre dimension.
Sur Comfy Native, définissez les coefficients Teacache sur i2v_720. Le wrapper de Kijai sélectionne automatiquement les bons coefficients.
Définissez le seuil Teacache à 0.2, qui est le réglage moyen. Augmentez-le à 0.3 pour des générations plus rapides au détriment d'une baisse de qualité de sortie.
Augmentez virtual_vram_gb (Comfy Native) ou block swaps (wrapper de Kijai) selon l'implémentation que vous utilisez.
Sur un GPU de 24 Go, vous voudrez l'augmenter jusqu'à ce que vous utilisiez juste en dessous de 23 Go au total. Vous ne devez jamais dépasser 23,5 Go d'utilisation totale, sinon les temps de génération augmenteront considérablement.

Les optimisations

Plusieurs options dans ce guide accélèrent le temps d'inférence. Elles sont fp16_fast (accumulation fp16), TeaCache, Torch Compile, AdaptiveGuidance (exclusif à Comfy Native) et Sage Attention. Si vous souhaitez les désactiver pour des tests ou pour augmenter la qualité au détriment du temps, faites ce qui suit :

fp16_fast : supprimez –fast de run_nvidia_gpu.bat. Si vous utilisez KJ’s, vous devez également définir la base_precision du chargeur de modèle WanVideo de fp16_fast à fp16
Sage Attention : supprimez –use-sage-attention de run_nvidia_gpu.bat
AdaptiveGuidance : définissez le nœud AdaptiveGuidance à un seuil de 1
Torch Compile : clic droit sur le nœud TorchCompileModelWanVideo et cliquez sur Bypass
TeaCache : clic droit sur le nœud TeaCache et cliquez sur Bypass