このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集WanInfiniteTalkToVideo ノードは、音声入力からビデオシーケンスを生成します。このノードは、1人または2人の話者から抽出された音声特徴量を条件として、ビデオ拡散モデルを使用し、トーキングヘッドビデオの潜在表現を生成します。新しいシーケンスを生成することも、モーションコンテキストとして以前のフレームを使用して既存のシーケンスを拡張することもできます。
入力
| パラメータ | データ型 | 必須 | 範囲 | 説明 |
|---|---|---|---|---|
モード | COMBO | はい | "single_speaker""two_speakers" | 音声入力モード。"single_speaker" は1つの音声入力を使用します。"two_speakers" は2人目の話者と対応するマスクの入力を有効にします。 |
モデル | MODEL | はい | - | ベースとなるビデオ拡散モデル。 |
モデルパッチ | MODELPATCH | はい | - | 音声投影レイヤーを含むモデルパッチ。 |
ポジティブ | CONDITIONING | はい | - | 生成をガイドするポジティブ条件付け。 |
ネガティブ | CONDITIONING | はい | - | 生成をガイドするネガティブ条件付け。 |
vae | VAE | はい | - | 画像を潜在空間にエンコードし、潜在空間からデコードするために使用されるVAE。 |
幅 | INT | いいえ | 16 - MAX_RESOLUTION | 出力ビデオの幅(ピクセル単位)。16で割り切れる必要があります。(デフォルト: 832) |
高さ | INT | いいえ | 16 - MAX_RESOLUTION | 出力ビデオの高さ(ピクセル単位)。16で割り切れる必要があります。(デフォルト: 480) |
長さ | INT | いいえ | 1 - MAX_RESOLUTION | 生成するフレーム数。(デフォルト: 81) |
clipビジョン出力 | CLIPVISIONOUTPUT | いいえ | - | 追加の条件付けのためのオプションのCLIPビジョン出力。 |
開始画像 | IMAGE | いいえ | - | ビデオシーケンスを初期化するためのオプションの開始画像。 |
オーディオエンコーダ出力1 | AUDIOENCODEROUTPUT | はい | - | 最初の話者の特徴量を含むプライマリ音声エンコーダ出力。 |
モーションフレーム数 | INT | いいえ | 1 - 33 | シーケンスを拡張する際にモーションコンテキストとして使用する過去のフレーム数。(デフォルト: 9) |
オーディオスケール | FLOAT | いいえ | -10.0 - 10.0 | 音声条件付けに適用されるスケーリング係数。(デフォルト: 1.0) |
前のフレーム | IMAGE | いいえ | - | 拡張元となるオプションの以前のビデオフレーム。 |
audio_encoder_output_2 | AUDIOENCODEROUTPUT | いいえ | - | 2番目の音声エンコーダ出力。モード が "two_speakers" に設定されている場合に必須です。 |
mask_1 | MASK | いいえ | - | 最初の話者のマスク。2つの音声入力を使用する場合に必須です。 |
mask_2 | MASK | いいえ | - | 2番目の話者のマスク。2つの音声入力を使用する場合に必須です。 |
modeが"two_speakers"に設定されている場合、パラメータaudio_encoder_output_2、mask_1、mask_2が必須になります。audio_encoder_output_2が指定された場合、mask_1とmask_2の両方も指定する必要があります。mask_1とmask_2が指定された場合、audio_encoder_output_2も指定する必要があります。previous_framesが指定された場合、motion_frame_countで指定された数以上のフレームが含まれている必要があります。
出力
| 出力名 | データ型 | 説明 |
|---|---|---|
ポジティブ | MODEL | 音声条件付けが適用されたパッチ済みモデル。 |
ネガティブ | CONDITIONING | 追加コンテキスト(開始画像、CLIPビジョンなど)で変更される可能性のあるポジティブ条件付け。 |
潜在 | CONDITIONING | 追加コンテキストで変更される可能性のあるネガティブ条件付け。 |
トリム画像 | LATENT | 潜在空間で生成されたビデオシーケンス。 |
trim_image | INT | シーケンスを拡張する際に、モーションコンテキストの先頭からトリミングする必要があるフレーム数。 |
Source fingerprint (SHA-256):
6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888