登陆注册

Tarsier

  • Tarsier:构建基于视觉交互的多模式网络代理工具库

    Tarsier是一个开源的简单实用的多模式网络代理工具库,它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能,为网页交互代理提供了更深层次的视觉和文本处理能力。该工具库通过在页面上使用方括号id的方式对可交互元素进行视觉标记,提供了元素和id之间的映射,使得GPT-4(V)可以对这些元素进行操作。项目地址:https://github.com/reworkd/tarsier
    站长网2023-11-15 18:22:59
    0000