1.8 KiB
1.8 KiB
TranscribeAudio
音声ファイルを文字起こしする。話者分離(ダイアライゼーション)対応。外部の音声認識サーバーに送信して結果を受け取る。
基本
TranscribeAudio({
file_path: "input/meeting.mp3",
language: "ja", // 省略時 config の speech_language または "ja"
diarize: true, // 話者分離(デフォルト true)
prompt: "固有名詞: 山田太郎、Project Apollo" // 文字起こしヒント
})
サーバー設定(必須)
Settings UI の "Tools" セクションで:
- Speech Server URL: 例
http://localhost:8000/v1 - Speech Timeout: 秒(デフォルト 300)
- Speech Language: デフォルト言語コード(
ja,en等)
サーバー URL が未設定なら "Speech server not configured" で失敗する。
入力ファイル
- 対応形式:
mp3,wav - workspace 内のローカルファイルパス(input/ 配下推奨)
- 大きいファイルはタイムアウトに注意(Speech Timeout を増やす)
出力フォーマット
diarize: false (またはセグメント情報なし)
プレーンテキスト全文:
こんにちは。今日の会議を始めます。最初の議題は...
diarize: true
話者ごとに区切られたテキスト:
[Speaker_A] こんにちは。今日の会議を始めます。
[Speaker_B] よろしくお願いします。最初の議題なんですが...
[Speaker_A] そうですね、まずは...
話者ラベルは Speaker_A, Speaker_B, ... のような自動採番(実名は出ない)。
prompt の使い方
固有名詞・専門用語・略語を伝えると認識精度が上がる:
prompt: "Project Apollo, MLflow, Kubernetes, 田中部長"
短く、対象と関連の深い語だけを列挙。長すぎるとノイズになる。