maestro/docs/tools/readimage.md
2026-06-03 05:08:00 +00:00

1.4 KiB
Raw Blame History

ReadImage

画像ファイルを LLM に直接渡して内容を認識・説明させる。VLMVision Language Model対応 worker でのみ使用可能。

基本

ReadImage({ file_path: "input/screenshot.png" })
// → 画像内の文字・図表・物体について自然言語の説明が返る

動作要件

  • 呼び出し時の worker が vlm: true で設定されている必要がある
  • 設定がない場合、このツールは allowed_tools に書いてあっても利用不可function definition から自動除外される)

用途

  • スクリーンショットの内容説明
  • 図・グラフ・チャートの読み取り
  • ページレイアウトの確認
  • 写真の被写体・状況把握

文字読み取りについて

  • ある程度の OCR は可能だが、精度が要求される文字情報には別途 OCR ツールの使用を検討
  • 数字・記号・固有名詞を厳密に扱う場合は VLM のハルシネーションに注意
  • パラメータシート、表、コード等は誤読リスクが高い

入力ファイル

  • input/ または output/ 配下のローカル画像ファイル
  • URL 指定は不可DownloadFile で先にローカル保存する)
  • 対応形式: png, jpg, jpeg, gif, webp, bmp

SearchKnowledge との連携

SearchKnowledge が返したページ画像(input/knowledge/{ns}/page_xxx.png)も ReadImage で内容確認できる。