39 lines
1.4 KiB
Markdown
39 lines
1.4 KiB
Markdown
# ReadImage
|
||
|
||
画像ファイルを LLM に直接渡して内容を認識・説明させる。VLM(Vision Language Model)対応 worker でのみ使用可能。
|
||
|
||
## 基本
|
||
|
||
```js
|
||
ReadImage({ file_path: "input/screenshot.png" })
|
||
// → 画像内の文字・図表・物体について自然言語の説明が返る
|
||
```
|
||
|
||
## 動作要件
|
||
|
||
- 呼び出し時の worker が `vlm: true` で設定されている必要がある
|
||
- 設定がない場合、このツールは `allowed_tools` に書いてあっても利用不可(function definition から自動除外される)
|
||
|
||
## 用途
|
||
|
||
- スクリーンショットの内容説明
|
||
- 図・グラフ・チャートの読み取り
|
||
- ページレイアウトの確認
|
||
- 写真の被写体・状況把握
|
||
|
||
## 文字読み取りについて
|
||
|
||
- ある程度の OCR は可能だが、**精度が要求される文字情報**には別途 OCR ツールの使用を検討
|
||
- 数字・記号・固有名詞を厳密に扱う場合は VLM のハルシネーションに注意
|
||
- パラメータシート、表、コード等は誤読リスクが高い
|
||
|
||
## 入力ファイル
|
||
|
||
- `input/` または `output/` 配下のローカル画像ファイル
|
||
- URL 指定は不可(DownloadFile で先にローカル保存する)
|
||
- 対応形式: png, jpg, jpeg, gif, webp, bmp
|
||
|
||
## SearchKnowledge との連携
|
||
|
||
SearchKnowledge が返したページ画像(`input/knowledge/{ns}/page_xxx.png`)も ReadImage で内容確認できる。
|