ElevenLabsTextToSpeech - ComfyUI Built-in Node Documentation

このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください！ GitHub で編集

以下が翻訳結果です。 ElevenLabs Text to Speech ノードは、ElevenLabs API を使用して、書き込まれたテキストを音声に変換します。特定の音声を選択し、安定性、速度、スタイルなどのさまざまな音声特性を微調整して、カスタマイズされた音声出力を生成できます。

入力

パラメータ	データ型	必須	範囲	説明
`voice`	CUSTOM	はい	なし	音声合成に使用する音声です。Voice Selector または Instant Voice Clone から接続します。
`text`	STRING	はい	なし	音声に変換するテキストです。
`stability`	FLOAT	いいえ	0.0 - 1.0	音声の安定性です。値が低いと感情表現の幅が広がり、値が高いとより一貫性のある、ただし単調になりがちな音声になります（デフォルト: 0.5）。
`apply_text_normalization`	COMBO	いいえ	`"auto"` `"on"` `"off"`	テキスト正規化モードです。“auto” はシステムが判断し、“on” は常に正規化を適用し、“off” はスキップします。
`model`	DYNAMICCOMBO	いいえ	`"eleven_multilingual_v2"` `"eleven_v3"`	テキスト読み上げに使用するモデルです。モデルを選択すると、そのモデル固有のパラメータが表示されます。
`language_code`	STRING	いいえ	なし	ISO-639-1 または ISO-639-3 言語コードです（例: ‘en’, ‘es’, ‘fra’）。自動検出の場合は空のままにします（デフォルト: ""）。
`seed`	INT	いいえ	0 - 2147483647	再現性のためのシード値です（決定性は保証されません）（デフォルト: 1）。
`output_format`	COMBO	いいえ	`"mp3_44100_192"` `"opus_48000_192"`	音声出力フォーマットです。

モデル固有のパラメータ: model パラメータが "eleven_multilingual_v2" に設定されている場合、以下の追加パラメータが使用可能になります。

speed: 音声の速度です。1.0 が標準で、<1.0 で遅く、>1.0 で速くなります（デフォルト: 1.0、範囲: 0.7 - 1.3）。
similarity_boost: 類似性の強調です。値が高いほど、元の音声に近くなります（デフォルト: 0.75、範囲: 0.0 - 1.0）。
use_speaker_boost: 元の話者の音声への類似性を強調します（デフォルト: False）。
style: スタイルの誇張です。値が高いとスタイル表現が強まりますが、安定性が低下する可能性があります（デフォルト: 0.0、範囲: 0.0 - 0.2）。

model パラメータが "eleven_v3" に設定されている場合、以下の追加パラメータが使用可能になります。

出力名	データ型	説明
`audio`	AUDIO	テキスト読み上げ変換によって生成された音声です。

Source fingerprint (SHA-256): d11d4ffa2d1f11dfd5ce378d9496cd9788d2197bf7f4135092ecefb287f3c2f7