Tarsier:构建基于视觉交互的多模式网络代理工具库
站长网2023-11-15 18:22:590阅
Tarsier是一个开源的简单实用的多模式网络代理工具库,它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能,为网页交互代理提供了更深层次的视觉和文本处理能力。
该工具库通过在页面上使用方括号 id的方式对可交互元素进行视觉标记,提供了元素和id之间的映射,使得GPT-4(V)可以对这些元素进行操作。

项目地址:https://github.com/reworkd/tarsier
Tarsier还提供了OCR工具,可以将页面截图转换为LLM可理解的字符串,为没有视觉能力的LLM提供了更深层次的交互能力。
此外,Tarsier还提供了一些示例代理,如自主LangChain网络代理和自主LlamaIndex网络代理,可以演示Tarsier的使用方式。
总之,Tarsier通过提供视觉标记、OCR识别等功能,为网页交互代理提供了更丰富的交互能力,为现有的视觉语言模型的性能问题提供了解决方案。
0000
评论列表
共(0)条相关推荐
网易回应被曝大规模裁员:消息不实 正常业务调整
快科技1月19日消息,据国内媒体报道,针对网传网易1月开启大规模裁员”等消息,网易内部人士回应:消息不实。该人士称,系公司正常业务调整和人员流动,公司层面仍在持续招聘优质人才。据透露,为促进业务良性发展,网易传媒部分业务线在近期进行了内部资源整合,未来传媒将持续加码内容赛道,探索AIGC、元宇宙等新技术赋能内容。0000微软 Bing AI 聊天开始支持谷歌 Chrome 和苹果 Safari 等第三方浏览器:正针对「特定用户」进行测试
微软的人工智能聊天机器人BingChat今天确认将支持非微软浏览器,此前有各种报道称该人工智能聊天机器人出现在谷歌Chrome和苹果Safari等其他浏览器中。这一扩展将使微软类似于ChatGPT的AI聊天机器人可供更广泛的用户使用,此前它仅在微软产品内对消费者开放,例如Bing移动应用程序和MicrosoftEdge浏览器。站长网2023-07-25 16:18:420002努比亚Z50S Pro外观公布:配备定制Sensor和专业光学镜头
努比亚Z50SPro的发布引起了广泛的关注。这款新机的外观设计非常吸引人,采用了复刻相机设计,并配备了全新的定制Sensor和专业的光学镜头。首先,努比亚Z50SPro采用了类似于相机镜头的圆形设计,并且配备了专业的光学镜头。此外,该机还采用了罕见的横向设计,并在背部采用了拼接方案,使得整个设备看起来非常精致。直角中框和直屏设计也使得这款手机的视觉效果非常出色。站长网2023-07-17 23:38:100000小冰首批网红明星AI克隆人提前上线 能视频电话还能替你工作
你还记得之前小冰公司发布的克隆人计划吗?现在,小冰的第一批网红明星AI克隆人已经正式上线。从半藏森林的克隆人来看,目前的克隆人已经可以做到容貌和声音与真人无异,而且还可以秒回消息、打视频电话聊天。此外,你还可以切换到更聪明的“超级模式”,让她替你工作。据小冰公司介绍,打造这样一个克隆人只需要3分钟。需要注意的是,虽然克隆人的声音可以和真人无异,但说话的语速会稍慢一些,仍然可以辨别出真假。站长网2023-06-02 16:05:450000Kindle真的要拿来盖泡面了!电子书店停止运营:今天启动退款
快科技7月1日消息,按照Kindle中国官方发布的公告,今天Kindle中国电子书店将正式停止运营。原本大家更多知识调侃的盖泡面”成了真,如果超过时限没有在本地保存书籍,Kindle真的成了摆设。根据官方介绍,截止目前如果用户还存在尚未到期的会员费用,将安排退款。退款通道将于2023年7月1日9点开启,届时用户将收到短信或邮件通知,请注意查收。站长网2023-07-02 10:12:370002