CMU 研究人员推出 WebArena:为实用代理提供真实可复现的网络环境
站长网2023-07-28 09:48:371阅
CMU 研究人员推出 WebArena:一个真实可复现的网络环境,用于评估实用代理的性能。他们提供了四个真实的网络应用程序,用于训练自主代理执行特定任务。为了模拟人类问题解决,WebArena 还嵌入了工具和知识资源作为独立的网站。WebArena 引入了一个基准测试,将高级逼真自然语言命令解释为具体的基于 Web 的交互。

项目地址:https://github.com/web-arena-x/webarena
研究人员使用自然语言命令评估了多个代理的性能,并发现目前的大型语言模型在处理复杂任务时存在问题。因此,他们认为这些模型缺乏主动探索和错误恢复的关键能力。整个研究工作已在 Paper, Project Page 和 Github 上公开。
产品特点:
- 提供逼真的 Web 环境,模拟真实世界网站的功能和数据
- 嵌入工具和知识资源,使智能体能够模拟人类问题解决能力
- 提供基准测试,测试高级逼真自然语言命令的解释和交互能力
- 提供已注释程序,验证任务功能的正确性
0001
评论列表
共(0)条相关推荐
中国市场潜力巨大!曝网易暴雪复合已在日程中
据21财经消息,近日,有多位知情人士透露,暴雪和网易的“复合”事宜已经提上日程。虽然双方官方尚未对此做出明确回应,但一些迹象表明,这一消息并非空穴来风。据观察,网易旗下游戏玩家论坛APP“网易大神”中的魔兽世界社区近期已经恢复更新,并增加了包括地心之战、魔兽探索服在内的新内容。这一举动引发了业内人士的广泛关注,纷纷猜测这是否意味着暴雪和网易即将再度携手。0000Mujoco3开源:物理仿真器速度更快 稳定性大大提高
DeepMind宣布最新版本的MuJoCo3,该版本引入了加速硬件支持,对CPU进行了性能和内存占用的改进,以及更多灵活的碰撞原语。MuJoCo3支持通过新的MuJoCoXLA(MJX)模块进行加速模拟,可以在GoogleCloudTPU或自有加速硬件上以每秒数百万步的速度运行MuJoCo模拟。MJX通过运行在专门的硬件上,提供独特的性能特点,但可能需要一些模型调整。站长网2023-10-20 10:07:250001ChatGPT或能预测股价走势 金融人士:我们的时间都是AI借给我们的
最新消息称,ChatGPT在金融领域的应用又有了新的突破。来自佛罗里达大学的金融学教授AlejandroLopez-Lira表示,他们利用ChatGPT来预测股市涨跌,并通过实验验证了ChatGPT对于新闻影响及股市回报的预测能力比随机预测要好得多。站长网2023-04-13 10:19:340000这个五一档,韩寒赢麻了
如果不是这个五一档,大概很多人已经想不起韩寒了。他在大众脑海中的形象,被定格在2022年春节档《四海》的见面会“四海歌会”上。那时,他穿着毛衣,把头发剪成圆寸,戴着黑框眼镜,站在舞台最左侧,卖力地和曾经合作过的演员们合唱,为即将在春节档上映的《四海》宣传。站长网2023-05-07 09:25:440002Canalys预测:2024年全球云服务支出将增长20% 加大对的AI投资
**划重点:**1.📈2023年第四季度全球云基础设施服务支出同比增长19%,达到781亿美元,较上年增加123亿美元。2.🌐云服务市场竞争激烈,前三名厂商为AWS、微软Azure和谷歌云,共占总支出的66%。3.🤖头部云厂商加大对生成式AI的投资,预计2024年全球云基础设施服务支出将增长20%。站长网2024-02-27 09:38:310001