Open-source release of MAESTRO, an agent orchestration platform that runs LLM-driven tasks through sandboxed tools, with a web UI. Apache-2.0. See README.md and docs/ (getting-started, configuration, architecture).
58 lines
1.8 KiB
Markdown
58 lines
1.8 KiB
Markdown
# TranscribeAudio
|
||
|
||
音声ファイルを文字起こしする。話者分離(ダイアライゼーション)対応。外部の音声認識サーバーに送信して結果を受け取る。
|
||
|
||
## 基本
|
||
|
||
```js
|
||
TranscribeAudio({
|
||
file_path: "input/meeting.mp3",
|
||
language: "ja", // 省略時 config の speech_language または "ja"
|
||
diarize: true, // 話者分離(デフォルト true)
|
||
prompt: "固有名詞: 山田太郎、Project Apollo" // 文字起こしヒント
|
||
})
|
||
```
|
||
|
||
## サーバー設定(必須)
|
||
|
||
Settings UI の "Tools" セクションで:
|
||
- **Speech Server URL**: 例 `http://localhost:8000/v1`
|
||
- **Speech Timeout**: 秒(デフォルト 300)
|
||
- **Speech Language**: デフォルト言語コード(`ja`, `en` 等)
|
||
|
||
サーバー URL が未設定なら "Speech server not configured" で失敗する。
|
||
|
||
## 入力ファイル
|
||
|
||
- 対応形式: `mp3`, `wav`
|
||
- workspace 内のローカルファイルパス(input/ 配下推奨)
|
||
- 大きいファイルはタイムアウトに注意(Speech Timeout を増やす)
|
||
|
||
## 出力フォーマット
|
||
|
||
### diarize: false (またはセグメント情報なし)
|
||
プレーンテキスト全文:
|
||
```
|
||
こんにちは。今日の会議を始めます。最初の議題は...
|
||
```
|
||
|
||
### diarize: true
|
||
話者ごとに区切られたテキスト:
|
||
```
|
||
[Speaker_A] こんにちは。今日の会議を始めます。
|
||
[Speaker_B] よろしくお願いします。最初の議題なんですが...
|
||
[Speaker_A] そうですね、まずは...
|
||
```
|
||
|
||
話者ラベルは `Speaker_A`, `Speaker_B`, ... のような自動採番(実名は出ない)。
|
||
|
||
## prompt の使い方
|
||
|
||
固有名詞・専門用語・略語を伝えると認識精度が上がる:
|
||
|
||
```
|
||
prompt: "Project Apollo, MLflow, Kubernetes, 田中部長"
|
||
```
|
||
|
||
短く、対象と関連の深い語だけを列挙。長すぎるとノイズになる。
|