メインコンテンツへスキップ
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集
WanInfiniteTalkToVideo ノードは、音声入力からビデオシーケンスを生成します。このノードは、1人または2人の話者から抽出された音声特徴量を条件として、ビデオ拡散モデルを使用し、トーキングヘッドビデオの潜在表現を生成します。新しいシーケンスを生成することも、モーションコンテキストとして以前のフレームを使用して既存のシーケンスを拡張することもできます。

入力

パラメータデータ型必須範囲説明
モードCOMBOはい"single_speaker"
"two_speakers"
音声入力モード。"single_speaker" は1つの音声入力を使用します。"two_speakers" は2人目の話者と対応するマスクの入力を有効にします。
モデルMODELはい-ベースとなるビデオ拡散モデル。
モデルパッチMODELPATCHはい-音声投影レイヤーを含むモデルパッチ。
ポジティブCONDITIONINGはい-生成をガイドするポジティブ条件付け。
ネガティブCONDITIONINGはい-生成をガイドするネガティブ条件付け。
vaeVAEはい-画像を潜在空間にエンコードし、潜在空間からデコードするために使用されるVAE。
INTいいえ16 - MAX_RESOLUTION出力ビデオの幅(ピクセル単位)。16で割り切れる必要があります。(デフォルト: 832)
高さINTいいえ16 - MAX_RESOLUTION出力ビデオの高さ(ピクセル単位)。16で割り切れる必要があります。(デフォルト: 480)
長さINTいいえ1 - MAX_RESOLUTION生成するフレーム数。(デフォルト: 81)
clipビジョン出力CLIPVISIONOUTPUTいいえ-追加の条件付けのためのオプションのCLIPビジョン出力。
開始画像IMAGEいいえ-ビデオシーケンスを初期化するためのオプションの開始画像。
オーディオエンコーダ出力1AUDIOENCODEROUTPUTはい-最初の話者の特徴量を含むプライマリ音声エンコーダ出力。
モーションフレーム数INTいいえ1 - 33シーケンスを拡張する際にモーションコンテキストとして使用する過去のフレーム数。(デフォルト: 9)
オーディオスケールFLOATいいえ-10.0 - 10.0音声条件付けに適用されるスケーリング係数。(デフォルト: 1.0)
前のフレームIMAGEいいえ-拡張元となるオプションの以前のビデオフレーム。
audio_encoder_output_2AUDIOENCODEROUTPUTいいえ-2番目の音声エンコーダ出力。モード"two_speakers" に設定されている場合に必須です。
mask_1MASKいいえ-最初の話者のマスク。2つの音声入力を使用する場合に必須です。
mask_2MASKいいえ-2番目の話者のマスク。2つの音声入力を使用する場合に必須です。
パラメータ制約:
  • mode"two_speakers" に設定されている場合、パラメータ audio_encoder_output_2mask_1mask_2 が必須になります。
  • audio_encoder_output_2 が指定された場合、mask_1mask_2 の両方も指定する必要があります。
  • mask_1mask_2 が指定された場合、audio_encoder_output_2 も指定する必要があります。
  • previous_frames が指定された場合、motion_frame_count で指定された数以上のフレームが含まれている必要があります。

出力

出力名データ型説明
ポジティブMODEL音声条件付けが適用されたパッチ済みモデル。
ネガティブCONDITIONING追加コンテキスト(開始画像、CLIPビジョンなど)で変更される可能性のあるポジティブ条件付け。
潜在CONDITIONING追加コンテキストで変更される可能性のあるネガティブ条件付け。
トリム画像LATENT潜在空間で生成されたビデオシーケンス。
trim_imageINTシーケンスを拡張する際に、モーションコンテキストの先頭からトリミングする必要があるフレーム数。

Source fingerprint (SHA-256): 6bb976da5cac0b61edb7d4c9d206c7c7ea9ffc0e982034c23c7f2e891e972888