maestro/docs/tools/readimage.md

# ReadImage

画像ファイルを LLM に直接渡して内容を認識・説明させる。VLM（Vision Language Model）対応 worker でのみ使用可能。

## 基本

```js
ReadImage({ file_path: "input/screenshot.png" })
// → 画像内の文字・図表・物体について自然言語の説明が返る
```

## 動作要件

- 呼び出し時の worker が `vlm: true` で設定されている必要がある
- 設定がない場合、このツールは `allowed_tools` に書いてあっても利用不可（function definition から自動除外される）

## 用途

- スクリーンショットの内容説明
- 図・グラフ・チャートの読み取り
- ページレイアウトの確認
- 写真の被写体・状況把握

## 文字読み取りについて

- ある程度の OCR は可能だが、**精度が要求される文字情報**には別途 OCR ツールの使用を検討
- 数字・記号・固有名詞を厳密に扱う場合は VLM のハルシネーションに注意
- パラメータシート、表、コード等は誤読リスクが高い

## 入力ファイル

- `input/` または `output/` 配下のローカル画像ファイル
- URL 指定は不可（DownloadFile で先にローカル保存する）
- 対応形式: png, jpg, jpeg, gif, webp, bmp

## SearchKnowledge との連携

SearchKnowledge が返したページ画像（`input/knowledge/{ns}/page_xxx.png`）も ReadImage で内容確認できる。