ElevenLabsSpeechToText - ComfyUI Built-in Node Documentation

このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください！ GitHub で編集

以下が翻訳結果です。 ElevenLabs Speech to Text ノードは、オーディオファイルをテキストに文字起こしします。ElevenLabs の API を使用して、音声を書き起こしテキストに変換します。自動言語検出、話者の識別、音楽や笑い声などの非音声サウンドのタグ付けなどの機能をサポートしています。

入力

パラメータ	データ型	必須	範囲	説明
`音声`	AUDIO	はい	-	文字起こしするオーディオ。
`モデル`	COMBO	はい	`"scribe_v2"`	文字起こしに使用するモデル。このモデルを選択すると、追加のパラメータが表示されます。
`tag_audio_events`	BOOLEAN	いいえ	-	文字起こし内で (笑い声)、(音楽) などの音を注釈します。このパラメータは、`"scribe_v2"` モデルが選択されたときに表示されます。(デフォルト: False)
`diarize`	BOOLEAN	いいえ	-	どの話者が話しているかを注釈します。このパラメータは、`"scribe_v2"` モデルが選択されたときに表示されます。(デフォルト: False)
`diarization_threshold`	FLOAT	いいえ	0.1 - 0.4	話者分離の感度。値が小さいほど、話者の変更に敏感になります。このパラメータは、`"scribe_v2"` モデルが選択され、`diarize` が有効な場合に表示されます。(デフォルト: 0.22)
`temperature`	FLOAT	いいえ	0.0 - 2.0	ランダム性の制御。0.0 はモデルのデフォルトを使用します。値が大きいほどランダム性が増します。このパラメータは、`"scribe_v2"` モデルが選択されたときに表示されます。(デフォルト: 0.0)
`timestamps_granularity`	COMBO	いいえ	`"word"` `"character"` `"none"`	文字起こしの単語に対するタイミングの精度。このパラメータは、`"scribe_v2"` モデルが選択されたときに表示されます。(デフォルト: “word”)
`言語コード`	STRING	いいえ	-	ISO-639-1 または ISO-639-3 言語コード (例: ‘en’、‘es’、‘fra’)。自動検出の場合は空のままにします。(デフォルト: "")
`話者数`	INT	いいえ	0 - 32	予測する話者の最大数。自動検出の場合は 0 に設定します。(デフォルト: 0)
`シード値`	INT	いいえ	0 - 2147483647	再現性のためのシード (決定性は保証されません)。(デフォルト: 1)

注: diarize オプションが有効な場合、num_speakers パラメータを 0 より大きい値に設定することはできません。diarize を無効にするか、num_speakers を 0 に設定する必要があります。

出力

出力名	データ型	説明
`言語コード`	STRING	オーディオから文字起こしされたテキスト。
`単語JSON`	STRING	検出されたオーディオの言語コード。
`words_json`	STRING	タイムスタンプや、有効な場合は話者ラベルを含む、詳細な単語レベルの情報を含む JSON 形式の文字列。

Source fingerprint (SHA-256): aca2ac04d7280ef2b604f7c8d29ad7fea1e7abcfc38beabb64ba6b268a8cade1

Documentation Index

​入力

​出力

入力

出力