maestro/docs/tools/transcribeaudio.md
2026-06-03 05:08:00 +00:00

58 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# TranscribeAudio
音声ファイルを文字起こしする。話者分離(ダイアライゼーション)対応。外部の音声認識サーバーに送信して結果を受け取る。
## 基本
```js
TranscribeAudio({
file_path: "input/meeting.mp3",
language: "ja", // 省略時 config の speech_language または "ja"
diarize: true, // 話者分離(デフォルト true
prompt: "固有名詞: 山田太郎、Project Apollo" // 文字起こしヒント
})
```
## サーバー設定(必須)
Settings UI の "Tools" セクションで:
- **Speech Server URL**: 例 `http://localhost:8000/v1`
- **Speech Timeout**: 秒(デフォルト 300
- **Speech Language**: デフォルト言語コード(`ja`, `en` 等)
サーバー URL が未設定なら "Speech server not configured" で失敗する。
## 入力ファイル
- 対応形式: `mp3`, `wav`
- workspace 内のローカルファイルパスinput/ 配下推奨)
- 大きいファイルはタイムアウトに注意Speech Timeout を増やす)
## 出力フォーマット
### diarize: false (またはセグメント情報なし)
プレーンテキスト全文:
```
こんにちは。今日の会議を始めます。最初の議題は...
```
### diarize: true
話者ごとに区切られたテキスト:
```
[Speaker_A] こんにちは。今日の会議を始めます。
[Speaker_B] よろしくお願いします。最初の議題なんですが...
[Speaker_A] そうですね、まずは...
```
話者ラベルは `Speaker_A`, `Speaker_B`, ... のような自動採番(実名は出ない)。
## prompt の使い方
固有名詞・専門用語・略語を伝えると認識精度が上がる:
```
prompt: "Project Apollo, MLflow, Kubernetes, 田中部長"
```
短く、対象と関連の深い語だけを列挙。長すぎるとノイズになる。