Open-source release of MAESTRO, an agent orchestration platform that runs LLM-driven tasks through sandboxed tools, with a web UI. Apache-2.0. See README.md and docs/ (getting-started, configuration, architecture).
1.4 KiB
1.4 KiB
ReadImage
画像ファイルを LLM に直接渡して内容を認識・説明させる。VLM(Vision Language Model)対応 worker でのみ使用可能。
基本
ReadImage({ file_path: "input/screenshot.png" })
// → 画像内の文字・図表・物体について自然言語の説明が返る
動作要件
- 呼び出し時の worker が
vlm: trueで設定されている必要がある - 設定がない場合、このツールは
allowed_toolsに書いてあっても利用不可(function definition から自動除外される)
用途
- スクリーンショットの内容説明
- 図・グラフ・チャートの読み取り
- ページレイアウトの確認
- 写真の被写体・状況把握
文字読み取りについて
- ある程度の OCR は可能だが、精度が要求される文字情報には別途 OCR ツールの使用を検討
- 数字・記号・固有名詞を厳密に扱う場合は VLM のハルシネーションに注意
- パラメータシート、表、コード等は誤読リスクが高い
入力ファイル
input/またはoutput/配下のローカル画像ファイル- URL 指定は不可(DownloadFile で先にローカル保存する)
- 対応形式: png, jpg, jpeg, gif, webp, bmp
SearchKnowledge との連携
SearchKnowledge が返したページ画像(input/knowledge/{ns}/page_xxx.png)も ReadImage で内容確認できる。