TranscribeAudio

音声ファイルを文字起こしする。話者分離（ダイアライゼーション）対応。外部の音声認識サーバーに送信して結果を受け取る。

基本

TranscribeAudio({
  file_path: "input/meeting.mp3",
  language: "ja",      // 省略時 config の speech_language または "ja"
  diarize: true,       // 話者分離（デフォルト true）
  prompt: "固有名詞: 山田太郎、Project Apollo"   // 文字起こしヒント
})

サーバー設定（必須）

Settings UI の "Tools" セクションで:

Speech Server URL: 例 http://localhost:8000/v1
Speech Timeout: 秒（デフォルト 300）
Speech Language: デフォルト言語コード（ja, en 等）

サーバー URL が未設定なら "Speech server not configured" で失敗する。

入力ファイル

対応形式: mp3, wav
workspace 内のローカルファイルパス（input/ 配下推奨）
大きいファイルはタイムアウトに注意（Speech Timeout を増やす）

出力フォーマット

diarize: false (またはセグメント情報なし)

プレーンテキスト全文:

こんにちは。今日の会議を始めます。最初の議題は...

diarize: true

話者ごとに区切られたテキスト:

[Speaker_A] こんにちは。今日の会議を始めます。
[Speaker_B] よろしくお願いします。最初の議題なんですが...
[Speaker_A] そうですね、まずは...

話者ラベルは Speaker_A, Speaker_B, ... のような自動採番（実名は出ない）。

prompt の使い方

固有名詞・専門用語・略語を伝えると認識精度が上がる:

prompt: "Project Apollo, MLflow, Kubernetes, 田中部長"

短く、対象と関連の深い語だけを列挙。長すぎるとノイズになる。

1.8 KiB Raw Permalink Blame History Unescape Escape