swallow/maestro

oss-sync f5c7666f6b feat: initial public release (MAESTRO)

2026-06-03 05:08:00 +00:00

1.4 KiB

Raw Blame History

ReadImage

画像ファイルを LLM に直接渡して内容を認識・説明させる。VLM（Vision Language Model）対応 worker でのみ使用可能。

基本

ReadImage({ file_path: "input/screenshot.png" })
// → 画像内の文字・図表・物体について自然言語の説明が返る

動作要件

呼び出し時の worker が vlm: true で設定されている必要がある
設定がない場合、このツールは allowed_tools に書いてあっても利用不可（function definition から自動除外される）

用途

スクリーンショットの内容説明
図・グラフ・チャートの読み取り
ページレイアウトの確認
写真の被写体・状況把握

文字読み取りについて

ある程度の OCR は可能だが、精度が要求される文字情報には別途 OCR ツールの使用を検討
数字・記号・固有名詞を厳密に扱う場合は VLM のハルシネーションに注意
パラメータシート、表、コード等は誤読リスクが高い

入力ファイル

input/ または output/ 配下のローカル画像ファイル
URL 指定は不可（DownloadFile で先にローカル保存する）
対応形式: png, jpg, jpeg, gif, webp, bmp

SearchKnowledge との連携

SearchKnowledge が返したページ画像（input/knowledge/{ns}/page_xxx.png）も ReadImage で内容確認できる。