Cómo instalar y usar Wan 2.1 (generación de vídeos hentai)

Esta es una guía para principiantes que te ayudará a instalar Wan y implementar cada optimización disponible para maximizar la velocidad de generación de video.

Ahora, lograr esto implica compromisos en calidad, pero puedes desactivar fácilmente cualquiera de las optimizaciones si prefieres priorizar la calidad sobre la velocidad.

La guía y los flujos de trabajo incluidos están diseñados para GPUs con 24GB o más de VRAM, utilizando típicamente entre 21-23GB durante la generación. Si bien es posible usar una GPU con menos de 24GB, necesitarás hacer ajustes. Por ejemplo, una GPU de 16GB puede usar modelos FP8/Q8, siempre que aumentes la configuración de virtual_vram_gb o de intercambio de bloques en los flujos de trabajo proporcionados. A esto llegaremos más adelante.

Si tienes menos de 16GB, probablemente querrás usar los modelos cuantizados por debajo de Q8, pero ten en cuenta que usar un nivel de cuantización más bajo reducirá la calidad de tus salidas. En general, cuanto más bajo vayas, menor será la calidad que obtendrás.

/ldg/ Guía de Instalación y Optimización de Wan 2.1

Requisitos Previos - INSTALAR PRIMERO

ComfyUI Portable
ComfyUI Manager
CUDA 12.6

Elegir Implementación

Wan 2.1 se puede integrar en ComfyUI a través de dos enfoques: Soporte nativo o Wrapper de Kijai. El Wrapper de Kijai tiene características adicionales que el nativo no tiene (flowedit, vid2vid, etc.), mientras que el nativo cuenta con varias ventajas que no están disponibles en la versión de Kijai. Estas son: soporte para modelos gguf, Guía Adaptativa (un método para acelerar las generaciones a costa de calidad) y compatibilidad con TorchCompile no solo en las series de GPU 40XX y 50XX, sino también en la serie 30XX, lo que acelera las generaciones en un 30% adicional aproximadamente. Así que si estás usando menos de 24GB de VRAM y/o quieres las velocidades de generación más rápidas, el nativo es probablemente la mejor opción.

Una vez que hayas decidido un método y su flujo de trabajo asociado, procede a los pasos generales de instalación.

Opción 1 - Wrapper de Kijai

Descarga estas versiones modificadas de los flujos de trabajo predeterminados de Kijai. Más allá de las optimizaciones y algunas características adicionales, utilizan la configuración predeterminada de Alibaba como base. El flujo de trabajo genera dos videos, uno en bruto a 16 fps y una versión interpolada a 32 fps. Puedes adaptarlos fácilmente para usar el modelo/configuración de 720P. Consulta Generando a 720P.

/ldg/ Flujo de trabajo KJ i2v 480p: ldg_kj_i2v_14b_480p.json
(actualizado 17 de marzo de 2025)

/ldg/ Flujo de trabajo KJ t2v 480p: ldg_kj_t2v_14b_480p.json
(actualizado 17 de marzo de 2025)

Asegúrate de que ComfyUI esté actualizado a la versión más reciente. (update_comfyui.bat en ComfyUI_windows_portable\update)
Descarga estos modelos.

¡NO uses archivos de modelo Comfy con los de KJ! ¡Tienes que usar estos o encontrarás problemas!

Wan2_1-I2V-14B-480P_fp8_e4m3fn.safetensors va en ComfyUI\models\diffusion_models\WanVideo
Wan2_1-I2V-14B-720P_fp8_e4m3fn.safetensors va en ComfyUI\models\diffusion_models\WanVideo
Wan2_1-T2V-14B_fp8_e4m3fn.safetensors va en ComfyUI\models\diffusion_models\WanVideo
umt5-xxl-enc-bf16.safetensors va en ComfyUI\models\text_encoders
open-clip-xlm-roberta-large-vit-huge-14_fp16.safetensors va en ComfyUI\models\text_encoders
Wan2_1_VAE_bf16.safetensors va en ComfyUI_windows_portable\ComfyUI\models\vae\wanvideo

Pasa a los Pasos Generales de Instalación.

Opción 2 - Comfy Nativo

Descarga estas versiones modificadas de los flujos de trabajo de Comfy, basadas en uno de un anónimo de /ldg/. Más allá de las optimizaciones y algunas características adicionales, utilizan la configuración predeterminada de Alibaba como base. El flujo de trabajo genera dos videos, uno en bruto a 16 fps y una versión interpolada a 32 fps. Puedes adaptarlos fácilmente para usar el modelo/configuración de 720P. Consulta Generando a 720P.

/ldg/ Flujo de trabajo Comfy i2v 480p: ldg_cc_i2v_14b_480p.json
(actualizado 17 de marzo de 2025)

/ldg/ Flujo de trabajo Comfy t2v 480p: ldg_cc_t2v_14b_480p.json
(actualizado 17 de marzo de 2025)

Asegúrate de que ComfyUI esté actualizado a la versión más reciente. (update_comfyui.bat en ComfyUI_windows_portable\update)
Descarga estos modelos. Si tienes menos de 24GB de VRAM, también podrías cambiar los modelos Q8 por Q6/Q5/Q4, aunque verás una disminución progresivamente mayor en la calidad de salida cuanto más bajo vayas.

¡NO uses los archivos del codificador de texto de Kijai con estos modelos! ¡Tienes que usar estos codificadores de texto o dará error antes de generar con Exception during processing !!! mat1 and mat2 shapes cannot be multiplied (77x768 and 4096x5120)

wan2.1-i2v-14b-480p-Q8_0.gguf va en ComfyUI\models\diffusion_models\
wan2.1-i2v-14b-720p-Q8_0.gguf va en ComfyUI\models\diffusion_models\
wan2.1-t2v-14b-Q8_0.gguf va en ComfyUI\models\diffusion_models\
umt5_xxl_fp16.safetensors va en ComfyUI\models\text_encoders
clip_vision_h.safetensors va en ComfyUI\models\clip_vision\
wan_2.1_vae.safetensors va en ComfyUI_windows_portable\ComfyUI\models\vae\

Pasa a los Pasos Generales de Instalación.

Pasos Generales de Instalación

Descarga y ejecuta esto como se indica para instalar automáticamente Triton y Sage, lo que acelerará drásticamente tus generaciones.
Abre un símbolo del sistema cmd.exe en ComfyUI_windows_portable\ y ejecuta el siguiente comando. Esto instala una versión reciente de pytorch nightly para CUDA 12.6, que te permite usar acumulación fp16, una optimización que disminuye el tiempo de generación..\\python_embeded\\python.exe -s -m pip install torch==2.7.0.dev20250306+cu126 torchvision torchaudio –index-url https://download.pytorch.org/whl/nightly/cu126 –force-reinstall
Edita run_nvidia_gpu.bat en ComfyUI_windows_portable y cambia la primera línea a esto :.\python_embeded\python.exe -s ComfyUI\main.py –windows-standalone-build –use-sage-attention –fast
Ejecuta ComfyUI. Mira en la ventana de consola cmd.exe y asegúrate de que pytorch version: 2.7.0.dev20250306+cu126 se muestre durante el inicio. También deberías ver Enabled fp16 accumulation y Using sage attention.

Hay un posible error cuando actualizas extensiones o reinicias que informa una versión incorrecta de pytorch. Si eso sucede, cierra Comfy y reinicia. Esto parece suceder con más frecuencia si usas el botón de "Reiniciar" en comfy después de actualizar extensiones, así que ciérralo manualmente y ábrelo manualmente después de actualizar extensiones. También puede suceder después de actualizar Comfy. Si tras un segundo reinicio aún no es 2.7.0dev, repite el paso 5.

Abre uno de los flujos de trabajo. Abre el Administrador e instala los Nodos Personalizados Faltantes. Finalmente, instala la ComfyUI-GGUF extensión.

Si aún se queja de nodos faltantes después de instalarlos y reiniciar Comfy, es posible que necesites instalar los nodos faltantes manualmente. Si esto sucede usando el wrapper de KJ, instala el wrapper manualmente desde su repositorio, eliminando la versión anterior de custom_nodes de antemano. Lo mismo ocurre con KJNodes si se queja de que falta WanVideoEnhanceAVideoKJ. Asegúrate de seguir las instrucciones de instalación para la instalación portátil.

Para el modelo de interpolación de video, ve a este repositorio y descarga film_net_fp32.pt, colocándolo en ComfyUI\custom_nodes\comfyui-frame-interpolation\ckpts\film
Asegúrate de que cada vez que inicies Comfy, la versión de pytorch lea 2.7.0dev o fp16_fast / fp16 accumulation no funcionará.
Ejecuta tu primera generación. Si se congela durante la carga del modelo con "Presiona cualquier tecla para continuar" en la ventana cmd.exe, necesitas reiniciar tu computadora. Si obtienes este error al ejecutar el flujo de trabajo: ImportError: DLL load failed while importing cuda_utils: The specified module could not be found. Ve a \users\nombredeusuario\ y abre el directorio .triton. Elimina el subdirectorio cache dentro de él. No elimines todo el directorio .triton.

Notas Importantes Antes de Generar

El tiempo de generación inicial que obtienes es NO exacto. Teacache se activa durante la generación, y Adaptive alrededor de la mitad si estás en Comfy Nativo/Core.

Cuando un video termina de generarse, obtendrás dos archivos en sus propios directorios i2v o t2v y subdirectorios. Los archivos en bruto son las salidas de 16 fotogramas, mientras que los archivos int son interpolados a 32 fotogramas, lo que te brinda un movimiento mucho más suave.

Se recomienda encarecidamente que habilites las vistas previas durante la generación. Si seguiste la guía, tendrás la extensión requerida. Ve a Configuraciones de ComfyUI (el ícono de engranaje en la esquina inferior izquierda) y busca "Mostrar vistas previas animadas al muestrear". Actívala. Luego abre el Administrador de Comfy y establece el método de vista previa en TAESD (lento). La salida se volverá más clara alrededor del paso 10, y tendrás una idea general de la composición y el movimiento. Esto puede y te ahorrará mucho tiempo, ya que puedes cancelar las generaciones temprano si no te gusta cómo se ven.

NUNCA uses el modelo i2v de 720p a resoluciones de 480p y viceversa. Si usas el modelo i2v de 720p y configuras tu resolución a 832×480, por ejemplo, la salida que obtendrás será mucho peor que simplemente usar el modelo i2v de 480p. Nunca mejorarás la calidad generando 480p en el modelo de 720p, así que no lo hagas. El único modelo que te permite mezclar resoluciones de 480p y 720p es t2v 14B.

Resoluciones Soportadas

Cada modelo está entrenado y ajustado para resoluciones específicas. En teoría, desviarse de estas resoluciones precisas puede producir resultados peores en comparación con ceñirse a las soportadas, especialmente para i2v.

Sin embargo, en mi experiencia, he utilizado con éxito resoluciones no estándar con i2v sin problemas notables, siempre que los ajustes se mantengan razonables. Por ejemplo, deberías evitar hacer desviaciones drásticas de 480p o 720p, y siempre anclar una dimensión - ya sea 480 para modelos de 480p o 720 para modelos de 720p - mientras escalas la otra dimensión hacia abajo (nunca hacia arriba) para ajustar la relación de aspecto. Esto significa que una dimensión debe estar consistentemente fijada en 480 o 720, dependiendo del modelo, con la otra dimensión ajustada hacia abajo según sea necesario. Y nunca querrás exceder el valor máximo establecido de 832 para 480p y 1280 para 720p, ya que aumentarás drásticamente el tiempo de generación y saldrás de los límites de resolución establecidos por los desarrolladores del modelo.

Estas son las resoluciones 'soportadas' según se indica en el repositorio oficial de Wan:

Texto a Video - 1.3B	Texto a Video - 14B	Imagen a Video - 480p	Imagen a Video - 720p
480*832	720*1280	832*480	1280*720
832*480	1280*720	480*832	720*1280
624*624	960*960
704*544	1088*832
544*704	832*1088
	480*832
	832*480
	624*624
	704*544
	544*704

Generando a 720P

Si deseas usar el modelo de 720p en i2v o resolución de 720p en t2v, necesitarás:

En t2v, necesitas aumentar la resolución a 720p (1280×720 / 720×1280). El único modelo t2v de 14B admite tanto 480p como 720p.
Al usar i2v en Wan, comienza seleccionando el modelo i2v 720P en el cargador de modelos. Luego, ajusta la configuración de ancho y alto de tu imagen de entrada a 1280×720 o 720×1280. Este modelo está optimizado y funciona mejor en esta resolución exacta, pero puedes ajustarlo ligeramente para acomodar diferentes relaciones de aspecto. Para obtener los mejores resultados, siempre mantén ya sea la altura o el ancho en 720, mientras escalas proporcionalmente la otra dimensión hacia abajo (por ejemplo, 1152×720, 1024×720 o 720×960). Lo que no quieres hacer es exceder 1280 en ninguna dimensión.
En Comfy Nativo, establece los coeficientes de Teacache en i2v_720. El wrapper de Kijai selecciona automáticamente los coeficientes correctos.
Establece el umbral de Teacache en 0.2, que es la configuración media. Aumenta a 0.3 para generaciones más rápidas a costa de una disminución en la calidad de salida.
Aumenta virtual_vram_gb (Comfy Nativo) o intercambios de bloques (wrapper de Kijai) dependiendo de qué implementación uses.
En una GPU de 24GB, quieres aumentarlo hasta que estés usando justo menos de 23GB en total. Nunca querrás exceder 23.5GB de uso total, o los tiempos de generación aumentarán drásticamente.

Las Optimizaciones

Varias opciones en esta guía aceleran el tiempo de inferencia. Son fp16_fast (acumulación fp16), TeaCache, Torch Compile, Guía Adaptativa (exclusiva de Comfy Nativo) y Atención Sage. Si deseas desactivarlas para pruebas o aumentar la calidad a costa de tiempo, haz lo siguiente:

fp16_fast : elimina –fast de run_nvidia_gpu.bat. Si estás usando KJ, también necesitas establecer la base_precision del Cargador de Modelos WanVideo de fp16_fast a fp16
Atención Sage : elimina –use-sage-attention de run_nvidia_gpu.bat
Guía Adaptativa : establece el nodo de Guía Adaptativa a un umbral de 1
Torch Compile : haz clic derecho en el nodo TorchCompileModelWanVideo y selecciona Bypass
TeaCache : haz clic derecho en el nodo TeaCache y selecciona Bypass