Tarsier：构建基于视觉交互的多模式网络代理工具库

站长网2023-11-15 18:22:590阅

Tarsier是一个开源的简单实用的多模式网络代理工具库，它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能，为网页交互代理提供了更深层次的视觉和文本处理能力。

该工具库通过在页面上使用方括号 id的方式对可交互元素进行视觉标记，提供了元素和id之间的映射，使得GPT-4（V）可以对这些元素进行操作。

项目地址:https://github.com/reworkd/tarsier

Tarsier还提供了OCR工具，可以将页面截图转换为LLM可理解的字符串，为没有视觉能力的LLM提供了更深层次的交互能力。

此外，Tarsier还提供了一些示例代理，如自主LangChain网络代理和自主LlamaIndex网络代理，可以演示Tarsier的使用方式。

总之，Tarsier通过提供视觉标记、OCR识别等功能，为网页交互代理提供了更丰富的交互能力，为现有的视觉语言模型的性能问题提供了解决方案。

Tarsier构建基于视觉交互的多模式网络代理工具库

0000

评论列表

共(0)条

相关推荐

站长资讯
元气森林不能输的一战
对产品很熟悉的元气森林创始人唐彬森，在5杯外观一模一样的气泡水中，并没有准备识别出有没有自家产品，以及哪家是自家产品。这样的场景发生在2021年央视《对话》节目上，那年是元气森林高速增长的最后一年，仅无糖气泡水就卖出了1亿箱。投资人们为了拿到一点儿份额，一度让元气森林北京亮马桥办公室的前台“人满为患”。所有人都对未来充满信心。
站长网2023-05-15 08:49:33
0000
AI专家称应在公司董事会中包括公众成员以保护社会
🔍**划重点:**1.AI公司发展强大的人工智能系统时，应在董事会中纳入独立成员，代表“社会利益”。2.专家YoshuaBengio表示，随着技术的迅速进步，AI公司需要公众成员监督，实现“民主治理”。3.Bengio对OpenAI的管理层动荡表示关切，呼吁实现“适当的防护措施”，并关注人工智能安全和发展速度。
站长网站长资讯2023-12-06 18:16:13
0000
调查显示：生成式AI工具撰写的新闻准确性较低，但更及时
划重点:⭐️调查显示，人们对由生成AI撰写的新闻的信任度较低，但这些新闻可能会更及时，成本更低。⭐️研究发现，ChatGPT是最广为人知的GenAI工具，但仅有少数人频繁使用。⭐️调查表明，人们普遍认为GenAI在科研、医疗、教育等领域有益，但对于就业安全、新闻报道等方面存在担忧。
站长网站长资讯2024-05-30 21:23:40
0000
特斯拉2024年全年销量179万辆：近10年来首次下滑
快科技1月3日消息，日前，特斯拉发布2024第四季度及全年交付数据。数据显示，特斯拉2024年全年销量为179万辆，较2023年的181万辆下降1.1%，这是特斯拉自2015年以来首次出现年度销量同比下滑。受此消息影响，特斯拉股价在周四的盘前交易中直线跳水，一度下跌近5%，美股开盘后，特斯拉股价持续下挫，截稿前，特斯拉股价跌超4%，盘中跌幅一度近7%。
站长网站长资讯2025-01-03 08:27:29
0000
站长资讯
5299元起！小米15 Pro正式发布：小米史上最高端、最强Pro
快科技10月29日消息，小米15Pro今晚正式发布，这是小米数字系列有史以来最强质感、最强配置、最强通信等，各方面都达到了数字系列的巅峰水准，代表着小米高端旗舰的巅峰水平。外观方面整体继承了前两代的方案，但是在很多细节方面进行了调优，比如中框过渡更加圆润，四曲屏的过渡也更自然了。后摄重回小米13Pro上备受好评的弧边方案，还用上了陶瓷材质，火山口设计与背板浑然一体。
站长网2024-10-29 22:06:27
0000