首页 > 业界 > 关键词  > Tarsier最新资讯  > 正文

Tarsier:构建基于视觉交互的多模式网络代理工具库

2023-11-15 11:03 · 稿源:站长之家

站长之家(ChinaZ.com)11月15日 消息:Tarsier是一个开源的简单实用的多模式网络代理工具库,它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能,为网页交互代理提供了更深层次的视觉和文本处理能力。

该工具库通过在页面上使用方括号+id的方式对可交互元素进行视觉标记,提供了元素和id之间的映射,使得GPT-4(V)可以对这些元素进行操作。

image.png

项目地址:https://github.com/reworkd/tarsier

Tarsier还提供了OCR工具,可以将页面截图转换为LLM可理解的字符串,为没有视觉能力的LLM提供了更深层次的交互能力。

此外,Tarsier还提供了一些示例代理,如自主LangChain网络代理和自主LlamaIndex网络代理,可以演示Tarsier的使用方式。

总之,Tarsier通过提供视觉标记、OCR识别等功能,为网页交互代理提供了更丰富的交互能力,为现有的视觉语言模型的性能问题提供了解决方案。

举报

  • 相关推荐
  • 大家在看

今日大家都在搜的词: