Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集以下が翻訳結果です。 ElevenLabs Speech to Text ノードは、オーディオファイルをテキストに文字起こしします。ElevenLabs の API を使用して、音声を書き起こしテキストに変換します。自動言語検出、話者の識別、音楽や笑い声などの非音声サウンドのタグ付けなどの機能をサポートしています。
入力
| パラメータ | データ型 | 必須 | 範囲 | 説明 |
|---|---|---|---|---|
音声 | AUDIO | はい | - | 文字起こしするオーディオ。 |
モデル | COMBO | はい | "scribe_v2" | 文字起こしに使用するモデル。このモデルを選択すると、追加のパラメータが表示されます。 |
tag_audio_events | BOOLEAN | いいえ | - | 文字起こし内で (笑い声)、(音楽) などの音を注釈します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: False) |
diarize | BOOLEAN | いいえ | - | どの話者が話しているかを注釈します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: False) |
diarization_threshold | FLOAT | いいえ | 0.1 - 0.4 | 話者分離の感度。値が小さいほど、話者の変更に敏感になります。このパラメータは、"scribe_v2" モデルが選択され、diarize が有効な場合に表示されます。(デフォルト: 0.22) |
temperature | FLOAT | いいえ | 0.0 - 2.0 | ランダム性の制御。0.0 はモデルのデフォルトを使用します。値が大きいほどランダム性が増します。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: 0.0) |
timestamps_granularity | COMBO | いいえ | "word""character""none" | 文字起こしの単語に対するタイミングの精度。このパラメータは、"scribe_v2" モデルが選択されたときに表示されます。(デフォルト: “word”) |
言語コード | STRING | いいえ | - | ISO-639-1 または ISO-639-3 言語コード (例: ‘en’、‘es’、‘fra’)。自動検出の場合は空のままにします。(デフォルト: "") |
話者数 | INT | いいえ | 0 - 32 | 予測する話者の最大数。自動検出の場合は 0 に設定します。(デフォルト: 0) |
シード値 | INT | いいえ | 0 - 2147483647 | 再現性のためのシード (決定性は保証されません)。(デフォルト: 1) |
diarize オプションが有効な場合、num_speakers パラメータを 0 より大きい値に設定することはできません。diarize を無効にするか、num_speakers を 0 に設定する必要があります。
出力
| 出力名 | データ型 | 説明 |
|---|---|---|
言語コード | STRING | オーディオから文字起こしされたテキスト。 |
単語JSON | STRING | 検出されたオーディオの言語コード。 |
words_json | STRING | タイムスタンプや、有効な場合は話者ラベルを含む、詳細な単語レベルの情報を含む JSON 形式の文字列。 |
Source fingerprint (SHA-256):
aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1