メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.comfy.org/llms.txt

Use this file to discover all available pages before exploring further.

このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集
このドキュメントはAI生成です。誤りや改善のご提案がございましたら、ぜひご協力ください。GitHubで編集する TextEncodeHunyuanVideo_ImageToVideo ノードは、テキストプロンプトと画像埋め込みを組み合わせることで、動画生成用の条件付けデータを作成します。CLIPモデルを使用してテキスト入力とCLIPビジョン出力からの視覚情報の両方を処理し、指定された画像インターリーブ設定に従ってこれら2つの情報源を融合したトークンを生成します。

入力

パラメータデータ型必須範囲説明
clipCLIPはい-トークン化とエンコードに使用するCLIPモデル
clip_vision_outputCLIP_VISION_OUTPUTはい-画像コンテキストを提供するCLIPビジョンモデルからの視覚埋め込み
プロンプトSTRINGはい-動画生成をガイドするテキスト説明。複数行入力と動的プロンプトに対応
画像インターリーブINTはい1-512テキストプロンプトと比較して画像が結果に与える影響の度合い。数値が大きいほどテキストプロンプトの影響が強くなります。(デフォルト:2)

出力

出力名データ型説明
CONDITIONINGCONDITIONING動画生成のためにテキストと画像情報を組み合わせた条件付けデータ

Source fingerprint (SHA-256): ee748bd1fb1733593eb4cb1187c5cc279171163cfbc389f039378d0e366fc231