CMU 研究人员推出 WebArena:为实用代理提供真实可复现的网络环境
站长网2023-07-28 09:48:371阅
CMU 研究人员推出 WebArena:一个真实可复现的网络环境,用于评估实用代理的性能。他们提供了四个真实的网络应用程序,用于训练自主代理执行特定任务。为了模拟人类问题解决,WebArena 还嵌入了工具和知识资源作为独立的网站。WebArena 引入了一个基准测试,将高级逼真自然语言命令解释为具体的基于 Web 的交互。
项目地址:https://github.com/web-arena-x/webarena
研究人员使用自然语言命令评估了多个代理的性能,并发现目前的大型语言模型在处理复杂任务时存在问题。因此,他们认为这些模型缺乏主动探索和错误恢复的关键能力。整个研究工作已在 Paper, Project Page 和 Github 上公开。
产品特点:
- 提供逼真的 Web 环境,模拟真实世界网站的功能和数据
- 嵌入工具和知识资源,使智能体能够模拟人类问题解决能力
- 提供基准测试,测试高级逼真自然语言命令的解释和交互能力
- 提供已注释程序,验证任务功能的正确性
0001
评论列表
共(0)条相关推荐
跟风买平替,我踩坑了
“买平替”,正在成为一些年轻人的生活方式。看到某件非常喜欢的东西,很多人的第一反应不是下单拿下,而是掏出手机拍图,然后打开拼多多、1688等平台找同厂同款,或者直接搜“XX平替”。原价好几百甚至上千的商品,价格瞬间降至不到百元。0000俞敏洪任命董宇辉为新东方董事长文化助理 兼任新东方文旅集团副总裁
12月18日,新东方教育科技(集团)有限公司发布通知,任命董宇辉为新东方教育科技集团董事长文化助理,兼任新东方文旅集团副总裁。对此,俞敏洪发文称,“祝贺宇辉,风雨同行!”此前,东方甄选在直播预告透露了一个重要信息,董宇辉的身份已经升级为东方甄选高级合伙人。同时,12月18日晚8点,俞敏洪和董宇辉将在东方甄选直播间见面。站长网2023-12-18 16:22:160000GPT-4V新玩法登顶GitHub热榜,随手一画就能生成网页,web开发者:感受到了威胁
随手一画就能生成网页!GPT-4V新玩法登顶GitHub热榜,狂揽3000🌟:现在只要简单画一画,框一框,点击执行:“啪”地一下,一个带有各种“按钮”的网页就做好了:对应代码也一览无余:整个操作过程十分快捷简单。新玩法不只在GitHub上火,开发者SawyerHood把demo展示po到𝕏上,也迅速走红,点赞转发收藏2700:站长网2023-11-18 13:48:020000谷歌若没有垄断搜索市场 ChatGPT等创新技术可能在几年前就已发布
据彭博社消息,美国司法部周四对一家联邦法院表示,如果谷歌没有垄断搜索市场,ChatGPT和其他技术创新可能在几年前就已经发布。在微软公司宣布将OpenAI的人工智能聊天技术纳入其必应搜索引擎的几天后,司法部针对搜索巨头的反垄断案件的首席律师KennethDintzer说,Alphabet的谷歌公司表示将发布自己的对话式人工智能产品。站长网2023-04-14 18:00:130000Mistral正式发布Mistral Large 超越GPT-4外的其他所有模型
Mistral于最近正式发布了MistralLarge,在基准测试中仅次于GPT-4,超过了其他所有模型。这款新的模型具有许多新功能和优势。MistralLarge具有着母语般流利的能力,涵盖了英语、法语、西班牙语、德语和意大利语,并对语法和文化背景有着细致的理解。其32K令牌的上下文窗口让用户能够精确地从大型文档中找到所需的信息。站长网2024-02-27 10:33:190000