maestro/docs/tools/transcribeaudio.md
2026-06-03 05:08:00 +00:00

1.8 KiB
Raw Permalink Blame History

TranscribeAudio

音声ファイルを文字起こしする。話者分離(ダイアライゼーション)対応。外部の音声認識サーバーに送信して結果を受け取る。

基本

TranscribeAudio({
  file_path: "input/meeting.mp3",
  language: "ja",      // 省略時 config の speech_language または "ja"
  diarize: true,       // 話者分離(デフォルト true
  prompt: "固有名詞: 山田太郎、Project Apollo"   // 文字起こしヒント
})

サーバー設定(必須)

Settings UI の "Tools" セクションで:

  • Speech Server URL: 例 http://localhost:8000/v1
  • Speech Timeout: 秒(デフォルト 300
  • Speech Language: デフォルト言語コード(ja, en 等)

サーバー URL が未設定なら "Speech server not configured" で失敗する。

入力ファイル

  • 対応形式: mp3, wav
  • workspace 内のローカルファイルパスinput/ 配下推奨)
  • 大きいファイルはタイムアウトに注意Speech Timeout を増やす)

出力フォーマット

diarize: false (またはセグメント情報なし)

プレーンテキスト全文:

こんにちは。今日の会議を始めます。最初の議題は...

diarize: true

話者ごとに区切られたテキスト:

[Speaker_A] こんにちは。今日の会議を始めます。
[Speaker_B] よろしくお願いします。最初の議題なんですが...
[Speaker_A] そうですね、まずは...

話者ラベルは Speaker_A, Speaker_B, ... のような自動採番(実名は出ない)。

prompt の使い方

固有名詞・専門用語・略語を伝えると認識精度が上がる:

prompt: "Project Apollo, MLflow, Kubernetes, 田中部長"

短く、対象と関連の深い語だけを列挙。長すぎるとノイズになる。