这是一个初学者指南,帮助您安装 Wan 并 实施所有可用的优化,以最大化视频生成的速度。
现在,实现这一点涉及到质量的权衡,但如果您更倾向于优先考虑质量而非速度,您可以轻松禁用任何优化。
包含的指南和工作流程是针对具有 24GB 或更多 VRAM 的 GPU 量身定制的,通常在生成过程中使用 21-23GB。虽然可以使用少于 24GB 的 GPU,但您需要进行调整。例如,16GB 的 GPU 可以使用 FP8/Q8 模型,前提是您在提供的工作流程中增加 virtual_vram_gb 或块交换设置。我们稍后会讨论这些。
如果您低于 16GB,您可能想使用量化低于 Q8 的模型,但请记住,使用较低的量化级别会降低输出的质量。一般来说,您去得越低,获得的质量就越低。
/ldg/ Wan 2.1 安装和优化指南
前提条件 - 首先安装
选择实现方式
选项 1 - Kijai 的 Wrapper
选项 2 - Comfy Native
一般安装步骤
生成前的重要注意事项
支持的分辨率
在 720P 下生成
优化
前提条件 - 首先安装
ComfyUI 便携版 ComfyUI 管理器 CUDA 12.6
选择实现方式
Wan 2.1 可以通过两种方式集成到 ComfyUI 中:原生支持或 Kijai 的 Wrapper。Kijai 的 Wrapper 具有原生不具备的额外功能(flowedit、vid2vid 等),而原生则拥有 Kijai 版本所没有的几个优势。这些优势包括:对 gguf 模型的支持、自适应引导(以牺牲质量为代价加速生成的方法)以及对 40XX 和 50XX GPU 系列的 TorchCompile 兼容性,甚至包括 30XX 系列,这使得生成速度额外提高约 30%。因此,如果您使用的 VRAM 少于 24GB 和/或希望获得最快的生成速度,原生可能是更好的选择。
一旦您确定了方法及其相关工作流程,请继续进行一般安装步骤。
选项 1 - Kijai 的 Wrapper
下载这些修改过的 Kijai 默认工作流程版本。除了优化和一些额外功能外,它们使用阿里巴巴的默认设置作为基线。该工作流程输出两个视频,原始 16 fps 和插值 32 fps 版本。您可以轻松调整这些以使用 720P 模型/设置。请参见 在 720P 下生成。
/ldg/ KJ i2v 480p 工作流程: ldg_kj_i2v_14b_480p.json (更新于 2025 年 3 月 17 日)
/ldg/ KJ t2v 480p 工作流程: ldg_kj_t2v_14b_480p.json (更新于 2025 年 3 月 17 日)
确保 ComfyUI 更新到最新版本。(在 ComfyUI_windows_portable\update 中的 update_comfyui.bat)
下载这些模型。
请勿将 Comfy 模型文件与 KJ 的模型文件一起使用!您 必须 使用这些模型文件,否则会遇到问题!
转到一般安装步骤。
选项 2 - Comfy Native
下载这些修改过的 Comfy 工作流程版本,基于来自 /ldg/ 的匿名者的版本。除了优化和一些额外功能外,它们使用阿里巴巴的默认设置作为基线。该工作流程输出两个视频,原始 16 fps 和插值 32 fps 版本。您可以轻松调整这些以使用 720P 模型/设置。请参见 在 720P 下生成。
/ldg/ Comfy i2v 480p 工作流程: ldg_cc_i2v_14b_480p.json (更新于 2025 年 3 月 17 日)
/ldg/ Comfy t2v 480p 工作流程: ldg_cc_t2v_14b_480p.json (更新于 2025 年 3 月 17 日)
确保 ComfyUI 更新到最新版本。(在 ComfyUI_windows_portable\update 中的 update_comfyui.bat)
下载这些模型。如果您有少于 24GB 的 VRAM,您还可以将 Q8 模型替换为 Q6/Q5/Q4,尽管您会看到输出质量随着量化级别的降低而逐渐下降。
请勿将 Kijai 的文本编码器文件与这些模型一起使用!您 必须 使用这些文本编码器,否则在生成时会出现错误,提示 Exception during processing !!! mat1 and mat2 shapes cannot be multiplied (77x768 and 4096x5120)
转到一般安装步骤。
一般安装步骤
下载并运行 此文件 按照说明自动安装 Triton 和 Sage,这将大大加快您的生成速度。
在 ComfyUI_windows_portable\ 中打开 cmd.exe 提示符并运行以下命令。这将安装适用于 CUDA 12.6 的最新 pytorch nightly,允许您使用 fp16 累加,这是一个减少生成时间的优化。..\python_embeded\python.exe -s -m pip install torch==2.7.0.dev20250306+cu126 torchvision torchaudio –index-url https://download.pytorch.org/whl/nightly/cu126 –force-reinstall
编辑 ComfyUI_windows_portable 中的 run_nvidia_gpu.bat,将第一行更改为:.\python_embeded\python.exe -s ComfyUI\main.py –windows-standalone-build –use-sage-attention –fast
运行 ComfyUI。在 cmd.exe 控制台窗口中查看,确保在启动时显示 pytorch version: 2.7.0.dev20250306+cu126。您还应该看到 Enabled fp16 accumulation 和 Using sage attention。
在更新扩展或重启时,可能会出现一个错误,报告不正确的 pytorch 版本。如果发生这种情况,请关闭 Comfy 并重新启动。如果您在更新扩展后使用 Comfy 中的“重启”按钮,这种情况似乎最常发生,因此请手动关闭并在更新扩展后手动启动。如果在更新 Comfy 后再次重启仍然不是 2.7.0dev,请再次执行步骤 5。
打开其中一个工作流程。打开管理器并安装缺失的自定义节点。最后,安装 ComfyUI-GGUF 扩展。
如果在安装并重启 Comfy 后仍然抱怨缺少节点,您可能需要手动安装缺失的节点。如果在使用 KJ 的 Wrapper 时发生这种情况,请手动安装 Wrapper 从他的仓库 ,并在此之前删除自定义节点中的旧版本。如果在抱怨缺少 WanVideoEnhanceAVideoKJ 时同样适用 KJNodes ,请确保遵循 便携版 的安装说明。
对于视频插值模型,请访问 此仓库 并下载 film_net_fp32.pt ,将其放置在 ComfyUI\custom_nodes\comfyui-frame-interpolation\ckpts\film
确保每次启动 Comfy 时,pytorch 版本显示为 2.7.0dev,否则 fp16_fast / fp16 accumulation 将无法工作。
运行您的第一次生成。如果在模型加载期间出现“按任意键继续”的提示,您需要重启计算机。如果在运行工作流程时出现此错误:ImportError: DLL load failed while importing cuda_utils: The specified module could not be found。请转到 \users\username\ 并打开 .triton 目录。删除其中的缓存子目录。请勿 删除整个 .triton 目录。
生成前的重要注意事项
您获得的初始生成时间 不 准确。Teacache 在生成过程中启动,自适应在中途启动,如果您使用的是 Comfy Native/Core。
当视频生成完成后,您将在各自的 i2v 或 t2v 目录及子目录中获得两个文件。原始文件是 16 帧输出,而 int 文件则插值为 32 帧,提供更平滑的运动。
强烈建议您在生成过程中启用预览。如果您遵循了指南,您将拥有所需的扩展。转到 ComfyUI 设置(左下角的齿轮图标),搜索“在采样时显示动画预览”。启用它。然后打开 Comfy 管理器,将预览方法设置为 TAESD(慢)。输出将在第 10 步左右变得更清晰,您将对构图和运动有一个大致的了解。这可以为您节省大量时间,因为如果您不喜欢它们的外观,可以提前取消生成。
绝对不要 在 480p 分辨率下使用 720p i2v 模型,反之亦然。如果您使用 720p i2v 模型并将分辨率设置为 832×480,例如,您获得的输出将比简单使用 480p i2v 模型要差得多。通过在 720p 模型上生成 480p,您永远不会提高质量,所以请不要这样做。唯一允许您混合 480p 和 720p 分辨率的模型是 t2v 14B。
支持的分辨率
每个模型都是针对特定分辨率进行训练和微调的。理论上,偏离这些精确分辨率可能会导致结果较差,尤其是对于 i2v。
然而,根据我的经验,只要调整保持合理,我成功地使用了非标准分辨率的 i2v,而没有明显的问题。例如,您应该避免大幅偏离 480p 或 720p,并始终锚定一个维度 - 要么 480 用于 480p 模型,要么 720 用于 720p 模型 - 同时将另一个维度向下缩放(绝不要向上缩放)以调整纵横比。这意味着一个维度应该始终固定在 480 或 720,具体取决于模型,另一个维度根据需要向下调整。而且您永远不想超过 480p 的最大设置值 832 和 720p 的 1280,因为这将大幅增加生成时间,并超出模型开发者设定的分辨率限制。
以下是 Wan 官方仓库中列出的“支持”分辨率:
文本到视频 - 1.3B 文本到视频 - 14B 图像到视频 - 480p 图像到视频 - 720p 480*832 720*1280 832*480 1280*720 832*480 1280*720 480*832 720*1280 624*624 960*960 704*544 1088*832 544*704 832*1088 480*832 832*480 624*624 704*544 544*704
在 720P 下生成
如果您想在 i2v 中使用 720p 模型或在 t2v 中使用 720p 分辨率,您需要:
在 t2v 中,您需要将分辨率提高到 720p (1280×720 / 720×1280)。单个 14B t2v 模型支持 480p 和 720p。
在 Wan 上使用 i2v 时,首先在模型加载器中选择 i2v 720P 模型。接下来,将输入图像的宽度和高度设置为 1280×720 或 720×1280。该模型经过优化,并在此精确分辨率下表现最佳,但您可以稍微调整以适应不同的纵横比。为了获得最佳结果,请始终保持高度或宽度为 720,同时按比例缩小另一个维度(例如,1152×720、1024×720 或 720×960)。您不希望在任何维度上超过 1280。
在 Comfy Native 中,将 Teacache 系数设置为 i2v_720。Kijai 的 Wrapper 会自动选择正确的系数。
将 Teacache 阈值设置为 0.2,这是中等设置。将其提高到 0.3 以更快生成,但会影响输出质量。
根据您使用的实现,增加 virtual_vram_gb (Comfy Native)或块交换 (Kijai 的 Wrapper)。 在 24GB 的 GPU 上,您希望增加到总共使用不到 23GB。您永远不希望超过 23.5GB 的总使用量,否则生成时间将大幅增加。
优化
本指南中的几个选项可以加快推理时间。它们是 fp16_fast(fp16 累加)、TeaCache、Torch Compile、自适应引导(仅限 Comfy Native)和 Sage Attention。如果您希望禁用它们以进行测试或在牺牲时间的情况下提高质量,请执行以下操作:
fp16_fast : 从 run_nvidia_gpu.bat 中移除 –fast。如果您使用 KJ 的,您还需要将 WanVideo 模型加载器的 base_precision 从 fp16_fast 设置为 fp16
Sage Attention : 从 run_nvidia_gpu.bat 中移除 –use-sage-attention
自适应引导 : 将自适应引导节点的阈值设置为 1
Torch Compile : 右键单击 TorchCompileModelWanVideo 节点并单击旁路
TeaCache : 右键单击 TeaCache 节点并单击旁路