このチュートリアルでは、TencentのHunyuan VideoモデルをComfyUIで使用してテキストから動画を生成するための包括的なガイドを提供します。プロセス全体をステップバイステップで説明します。
1. ComfyUIを最新バージョンにインストールおよび更新する
まだComfyUIをインストールしていない場合は、以下のセクションを参照してください:
ComfyUIインストールガイド ComfyUI更新ガイド
‘EmptyHunyuanLatentVideo’ノードにアクセスするには、ComfyUIを最新バージョンにインストールおよび更新する必要があります。
2. モデルのダウンロードとインストール
HunyuanVideoには以下のモデルファイルが必要です:
2.1 メインモデルファイル
以下のファイルを HunyuanVideoメインモデルダウンロードページからダウンロードしてください:
| ファイル名 | サイズ | ディレクトリ |
|---|
| hunyuan_video_t2v_720p_bf16.safetensors | 約25.6GB | ComfyUI/models/diffusion_models |
2.2 テキストエンコーダーファイル
以下のファイルを HunyuanVideoテキストエンコーダーダウンロードページからダウンロードしてください:
| ファイル名 | サイズ | ディレクトリ |
|---|
| clip_l.safetensors | 約246MB | ComfyUI/models/text_encoders |
| llava_llama3_fp8_scaled.safetensors | 約9.09GB | ComfyUI/models/text_encoders |
2.3 VAEモデルファイル
以下のファイルを HunyuanVideo VAEダウンロードページからダウンロードしてください:
| ファイル名 | サイズ | ディレクトリ |
|---|
| hunyuan_video_vae_bf16.safetensors | 約493MB | ComfyUI/models/vae |
モデルディレクトリ構造の参照
ComfyUI/├── models/│ ├── diffusion_models/│ │ └── hunyuan_video_t2v_720p_bf16.safetensors # メインモデルファイル│ ├── text_encoders/│ │ ├── clip_l.safetensors # CLIPテキストエンコーダー│ │ └── llava_llama3_fp8_scaled.safetensors # LLaVAテキストエンコーダー│ └── vae/│ └── hunyuan_video_vae_bf16.safetensors # VAEモデルファイル
3. ワークフローファイルのダウンロード
HunyuanVideoテキストから動画へのワークフローをダウンロードします。
生のJson形式
ワークフローファイルのソース: HunyuanVideoワークフロードローダウンロード
基本的な動画生成ワークフロー
HunyuanVideoは以下の解像度設定をサポートしています:
| 解像度 | 9:16比 | 16:9比 | 4:3比 | 3:4比 | 1:1比 |
|---|
| 540p | 544×960×129f | 960×544×129f | 624×832×129f | 832×624×129f | 720×720×129f |
| 720p (推奨) | 720×1280×129f | 1280×720×129f | 1104×832×129f | 832×1104×129f | 960×960×129f |
4. ワークフローノードの説明
4.1 モデル読み込みノード
- UNETLoader
- 目的: メインモデルファイルを読み込む
- パラメータ:
- モデル:
hunyuan_video_t2v_720p_bf16.safetensors
- ウェイトタイプ:
default (メモリが不足している場合はfp8タイプを選択可能)
- DualCLIPLoader
- 目的: テキストエンコーダーモデルを読み込む
- パラメータ:
- CLIP 1:
clip_l.safetensors
- CLIP 2:
llava_llama3_fp8_scaled.safetensors
- テキストエンコーダー:
hunyuan_video
- VAELoader
- 目的: VAEモデルを読み込む
- パラメータ:
- VAEモデル:
hunyuan_video_vae_bf16.safetensors
4.2 主要な動画生成ノード
- EmptyHunyuanLatentVideo
- 目的: 動画の潜在空間を作成する
- パラメータ:
- 幅: 動画の幅(例: 848)
- 高さ: 動画の高さ(例: 480)
- フレーム数: フレームの数(例: 73)
- バッチサイズ: バッチサイズ(デフォルト1)
- CLIPTextEncode
- 目的: テキストプロンプトのエンコーディング
- パラメータ:
- テキスト: ポジティブプロンプト(生成したい内容を説明)
- 詳細な英語の説明を使用することを推奨
- FluxGuidance
- 目的: 生成ガイダンスの強さを制御する
- パラメータ:
- ガイダンススケール: ガイダンスの強さ(デフォルト6.0)
- 値が高いほど、結果がプロンプトに近くなりますが、動画の品質に影響を与える可能性があります
- KSamplerSelect
- 目的: サンプラーを選択する
- パラメータ:
- サンプラー: サンプリング方法(デフォルト
euler)
- 他のオプション:
euler_ancestral、 dpm++_2mなど
- BasicScheduler
- 目的: サンプリングスケジューラーを設定する
- パラメータ:
- スケジューラー: スケジューリング方法(デフォルト
simple)
- ステップ: サンプリングステップ(推奨20-30)
- デノイズ: デノイジングの強さ(デフォルト1.0)
4.3 動画デコーディングと保存ノード
- VAEDecodeTiled
- 目的: 潜在空間の動画を実際の動画にデコードする
- パラメータ:
- タイルサイズ: 256(メモリが不足している場合は減らすことができます)
- オーバーラップ: 64(メモリが不足している場合は減らすことができます)
注意: VAEDecodeよりもVAEDecodeTiledを優先してください。メモリ効率が良いためです。
- SaveAnimatedWEBP
- 目的: 生成した動画を保存する
- パラメータ:
- ファイル名プレフィックス: ファイル名のプレフィックス
- FPS: フレームレート(デフォルト24)
- ロスレス: ロスレスかどうか(デフォルトfalse)
- 品質: 品質(0-100、デフォルト80)
- フィルタータイプ: フィルタータイプ(デフォルト
default)
5. パラメータ最適化のヒント
5.1 メモリ最適化
メモリの問題が発生した場合:
- UNETLoaderでfp8ウェイトタイプを選択する
- VAEDecodeTiledのtile_sizeおよびoverlapパラメータを減らす
- 解像度とフレーム数を低くする
5.2 生成品質の最適化
- プロンプト最適化
[主題の説明], [アクションの説明], [シーンの説明], [スタイルの説明], [品質要件]例:アニメスタイルのアニメ少女、大きなフェネックの耳とふわふわの尾を持ち、金髪の長い髪、青い目、ピンクのセーターと長い青いスカートを着て、美しい屋外の風景で雪山を背景に歩いている
- パラメータ調整
- 品質向上のためにサンプリングステップを増やす
- テキストの遵守を向上させるためにガイダンススケールを適切に増やす
- 必要に応じてFPSと動画品質のパラメータを調整する
6. よくある問題
- メモリ不足
- メモリ最適化セクションの提案を参照してください
- 他のメモリを消費するプログラムを閉じる
- 解像度設定を低くする
- 生成速度が遅い
- これは正常です。動画生成には時間がかかります
- サンプリングステップとフレーム数を減らすことができます
- 速度を上げるために解像度を低くする
- 品質の問題
- プロンプトの説明を最適化する
- サンプリングステップを増やす
- ガイダンススケールを調整する
- 異なるサンプラーを試す