Tarsier:构建基于视觉交互的多模式网络代理工具库
站长网2023-11-15 18:22:590阅
Tarsier是一个开源的简单实用的多模式网络代理工具库,它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能,为网页交互代理提供了更深层次的视觉和文本处理能力。
该工具库通过在页面上使用方括号 id的方式对可交互元素进行视觉标记,提供了元素和id之间的映射,使得GPT-4(V)可以对这些元素进行操作。
项目地址:https://github.com/reworkd/tarsier
Tarsier还提供了OCR工具,可以将页面截图转换为LLM可理解的字符串,为没有视觉能力的LLM提供了更深层次的交互能力。
此外,Tarsier还提供了一些示例代理,如自主LangChain网络代理和自主LlamaIndex网络代理,可以演示Tarsier的使用方式。
总之,Tarsier通过提供视觉标记、OCR识别等功能,为网页交互代理提供了更丰富的交互能力,为现有的视觉语言模型的性能问题提供了解决方案。
0000
评论列表
共(0)条相关推荐
你有没深入想过,什么造成了GPT-4的输出很随机?
GoogleDeepmind可能早就意识到了这个问题。今年,大型语言模型(LLM)成为AI领域最受关注的焦点,OpenAI的ChatGPT和GPT-4更是爆火出圈。GPT-4在自然语言理解与生成、逻辑推理、代码生成等方面性能出色,令人惊艳。然而,人们逐渐发现GPT-4的生成结果具有较大的不确定性。对于用户输入的问题,GPT-4给出的回答往往是随机的。站长网2023-08-07 16:41:370004阿里云新增AI软件开发业务
天眼查资料显示,近日,阿里云计算有限公司发生工商变更,经营范围新增人工智能应用软件开发、照相机及器材销售、云计算设备销售、气象信息服务、互联网域名注册服务、测绘服务等。资料显示,该公司成立于2008年4月,法定代表人为郑俊芳,注册资本10亿人民币,由杭州臻希投资管理有限公司全资持股。站长网2023-11-07 22:01:300000华纳音乐正在制作伊迪丝·琵雅芙人工智能生成的传记片:让她为自己配音
在爱迪丝·皮雅芙逝世六十年后,人工智能将重现她的声音,为她的传记片进行旁白解说。据《综艺》杂志报道,华纳音乐集团(WMG)与皮雅芙遗产管理方合作,制作了长篇电影《爱迪丝》。人工智能通过接收数百个声音片段来训练,模仿皮雅芙的声音,WMG承诺这种重现将「进一步增强她故事的真实性和情感影响」。站长网2023-11-15 18:06:380000当一个央美毕业生开始“画”缘
“我能用画换点吃的吗?”如果你是一个摊主,有人拿着相机和你说这句话,你会怎么回答?是爽快答应,还是暗暗吐槽怎么又有拍短视频的作秀,并果断拒绝。这是博主@老王日记油画每期必问的内容,截至目前,他已经用画换得了30多次食物。据其本人简介,@老王日记油画毕业于中央美术学院,擅长油画创作,并以这个优势与不同商家店主进行“美食化缘”,以写实的画风和超高成功率出圈。站长网2023-11-27 11:28:300000报告:我国网民规模10.79亿人 半年增长1109万人
今日,中国互联网络信息中心(CNNIC)发布第52次《中国互联网络发展状况统计报告》,《报告》显示,截至2023年6月,我国网民规模达10.79亿人,较2022年12月增长1109万人,互联网普及率达76.4%。在网络基础资源方面,截至2023年6月,我国域名总数为3024万个;IPv6地址数量为68055块/32,IPv6活跃用户数达7.67亿;互联网宽带接入端口数量达11.1亿个;站长网2023-08-28 14:58:010000