メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.comfy.org/llms.txt

Use this file to discover all available pages before exploring further.

このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集
CLIP Vision Encode ノードは、ComfyUI における画像エンコードノードであり、CLIP Vision モデルを通じて入力画像を視覚特徴ベクトルに変換します。このノードは、画像とテキストの理解を結びつける重要なブリッジであり、様々なAI画像生成・処理ワークフローで広く使用されています。 ノード機能
  • 画像特徴抽出:入力画像を高次元の特徴ベクトルに変換します
  • マルチモーダルブリッジ:画像とテキストの統合処理の基盤を提供します
  • 条件付き生成:画像ベースの条件付き生成に視覚的条件を提供します

入力

パラメータ名データ型説明
クリップビジョンCLIP_VISIONCLIP Visionモデル。通常はCLIPVisionLoaderノードを介して読み込まれます
画像IMAGEエンコードする入力画像
クロップドロップダウン画像のクロップ方法。オプション:center(中央クロップ)、none(クロップなし)

出力

出力名データ型説明
CLIP_VISION_OUTPUTCLIP_VISION_OUTPUTエンコードされた視覚特徴
この出力オブジェクトには以下が含まれます:
  • last_hidden_state:最後の隠れ状態
  • image_embeds:画像埋め込みベクトル
  • penultimate_hidden_states:最後から2番目の隠れ状態
  • mm_projected:マルチモーダル投影結果(利用可能な場合)