メインコンテンツへスキップ
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集
以下が翻訳結果です。 LTXVConcatAVLatentノードは、ビデオ潜在表現とオーディオ潜在表現を結合し、単一の連結された潜在出力を生成します。両方の入力からのsamplesテンソルをマージし、存在する場合はそれらのnoise_maskテンソルも同様にマージして、ビデオ生成パイプラインでのさらなる処理に備えます。

入力

パラメータデータ型必須範囲説明
video_latentLATENTはいビデオデータの潜在表現です。
audio_latentLATENTはいオーディオデータの潜在表現です。
注記: video_latentaudio_latentの入力からのsamplesテンソルは連結されます。いずれかの入力にnoise_maskが含まれている場合はそれが使用され、一方が欠けている場合は、対応するsamplesと同じ形状の1のマスクが作成されます。結果として得られるマスクも同様に連結されます。

出力

出力名データ型説明
latentLATENTビデオとオーディオの入力から連結されたsamplesと、該当する場合は連結されたnoise_maskを含む単一の潜在辞書です。

Source fingerprint (SHA-256): 322d6870f110fb1ef8b472cb49649cc9fff7865f4c7a83fbfd536f1fdfd694f8