Tarsier:构建基于视觉交互的多模式网络代理工具库
站长网2023-11-15 18:22:590阅
Tarsier是一个开源的简单实用的多模式网络代理工具库,它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能,为网页交互代理提供了更深层次的视觉和文本处理能力。
该工具库通过在页面上使用方括号 id的方式对可交互元素进行视觉标记,提供了元素和id之间的映射,使得GPT-4(V)可以对这些元素进行操作。
项目地址:https://github.com/reworkd/tarsier
Tarsier还提供了OCR工具,可以将页面截图转换为LLM可理解的字符串,为没有视觉能力的LLM提供了更深层次的交互能力。
此外,Tarsier还提供了一些示例代理,如自主LangChain网络代理和自主LlamaIndex网络代理,可以演示Tarsier的使用方式。
总之,Tarsier通过提供视觉标记、OCR识别等功能,为网页交互代理提供了更丰富的交互能力,为现有的视觉语言模型的性能问题提供了解决方案。
0000
评论列表
共(0)条相关推荐
AMD第三季度业绩强势增长353% 第四季度营收展望未达预期
北京时间11月1日消息,美国芯片制造商高级微设备公司(AMD)今天公布了2023财年第三季度财报。报告显示,AMD第三季度净利润同比大增353%,达到2.99亿美元,但给出的第四季度营收展望低于华尔街分析师的预期。0000新型3D生成方法DMV3D:使用基于Transformer的3D大型重建模型进行去噪
**划重点:**1.💡DMV3D是一种单阶段的、类别不可知的扩散模型,能够通过直接模型推理从文本或单一图像输入条件生成3D神经辐射场(NeRFs),显著缩短了创建3D对象所需的时间。2.💡DMV3D集成了3DNeRF重建和渲染到其去噪器中,创建了一个在没有直接3D监督的情况下训练的2D多视图图像扩散模型,消除了为潜在空间扩散单独训练3DNeRF编码器的需要。站长网2023-12-07 18:13:110003微软推出用于生物医学的多模态 AI 助手
微软的研究人员展示了LLaVA-Med,这是一种用于生物医学的多模式AI助手,可以处理图像和文本。使用生物医学图像文本对应大型数据集来训练多模态AI模型。该数据集包括胸部X光、MRI、组织学、病理学和CT图像等。首先,该模型学习描述此类图像的内容以及重要的生物医学概念。然后,使用GPT-4生成的指令数据集对LLaVA-Med(生物医学的大型语言和视觉助手)进行训练。站长网2023-06-15 09:55:320001投资 Anthropic、You.com 的 Salesforce 将其生成式 AI 基金规模扩大到 5 亿美元
Salesforce宣布将其支持「负责任生成AI」的初创公司的生成式人工智能基金基金(GenerativeAIFund)规模从2.5亿美元扩大到5亿美元,显示出在生成式AI竞赛中的决心。SalesforceVentures的管理合伙人保罗·德鲁斯在一份声明中表示,扩大基金规模将使Salesforce能够「与更多创业者合作……加速开发企业变革性的AI解决方案」。站长网2023-06-13 14:58:490000谷歌推王炸级图像生成功能Generative Powers of Ten 生成图像可无限放大
Google最近发布了一项名为“GenerativePowersofTen”的图像生成功能,这项功能支持对生成的图像进行无限放大。这意味着用户可以将一张人像照片放大到可以看到细胞结构,或者将地球大气层缩放到地面上的物体。站长网2023-12-08 11:53:370002