メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.comfy.org/llms.txt

Use this file to discover all available pages before exploring further.

このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集
以下が翻訳結果です。 ElevenLabs Speech to Text ノードは、オーディオファイルをテキストに文字起こしします。ElevenLabs の API を使用して、音声を書き起こしテキストに変換します。自動言語検出、話者の識別、音楽や笑い声などの非音声サウンドのタグ付けなどの機能をサポートしています。

入力

パラメータデータ型必須範囲説明
音声AUDIOはい-文字起こしするオーディオ。
モデルCOMBOはい"scribe_v2"文字起こしに使用するモデル。このモデルを選択すると、追加のパラメータが表示されます。
tag_audio_eventsBOOLEANいいえ-文字起こし内で (笑い声)、(音楽) などの音を注釈します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: False)
diarizeBOOLEANいいえ-どの話者が話しているかを注釈します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: False)
diarization_thresholdFLOATいいえ0.1 - 0.4話者分離の感度。値が小さいほど、話者の変更に敏感になります。このパラメータは、"scribe_v2" モデルが選択され、diarize が有効な場合に表示されます。(デフォルト: 0.22)
temperatureFLOATいいえ0.0 - 2.0ランダム性の制御。0.0 はモデルのデフォルトを使用します。値が大きいほどランダム性が増します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: 0.0)
timestamps_granularityCOMBOいいえ"word"
"character"
"none"
文字起こしの単語に対するタイミングの精度。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: “word”)
言語コードSTRINGいいえ-ISO-639-1 または ISO-639-3 言語コード (例: ‘en’、‘es’、‘fra’)。自動検出の場合は空のままにします。(デフォルト: "")
話者数INTいいえ0 - 32予測する話者の最大数。自動検出の場合は 0 に設定します。(デフォルト: 0)
シード値INTいいえ0 - 2147483647再現性のためのシード (決定性は保証されません)。(デフォルト: 1)
注: diarize オプションが有効な場合、num_speakers パラメータを 0 より大きい値に設定することはできません。diarize を無効にするか、num_speakers を 0 に設定する必要があります。

出力

出力名データ型説明
言語コードSTRINGオーディオから文字起こしされたテキスト。
単語JSONSTRING検出されたオーディオの言語コード。
words_jsonSTRINGタイムスタンプや、有効な場合は話者ラベルを含む、詳細な単語レベルの情報を含む JSON 形式の文字列。

Source fingerprint (SHA-256): aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1