CMU 研究人员推出 WebArena:为实用代理提供真实可复现的网络环境
站长网2023-07-28 09:48:371阅
CMU 研究人员推出 WebArena:一个真实可复现的网络环境,用于评估实用代理的性能。他们提供了四个真实的网络应用程序,用于训练自主代理执行特定任务。为了模拟人类问题解决,WebArena 还嵌入了工具和知识资源作为独立的网站。WebArena 引入了一个基准测试,将高级逼真自然语言命令解释为具体的基于 Web 的交互。
项目地址:https://github.com/web-arena-x/webarena
研究人员使用自然语言命令评估了多个代理的性能,并发现目前的大型语言模型在处理复杂任务时存在问题。因此,他们认为这些模型缺乏主动探索和错误恢复的关键能力。整个研究工作已在 Paper, Project Page 和 Github 上公开。
产品特点:
- 提供逼真的 Web 环境,模拟真实世界网站的功能和数据
- 嵌入工具和知识资源,使智能体能够模拟人类问题解决能力
- 提供基准测试,测试高级逼真自然语言命令的解释和交互能力
- 提供已注释程序,验证任务功能的正确性
0001
评论列表
共(0)条相关推荐
苹果 iPhone 15 选择直观的人工智能应用 而非生成式 AI
站长之家(ChinaZ.com)9月14日消息:2023年技术产品的推出已经变得可预测:现在所有产品都配备了生成式人工智能功能,可以提供健谈且知识渊博的文本或惊人的图像。本周iPhone15的发布显示出苹果选择了「不同的思考」(ThinkDifferent非同凡想)。站长网2023-09-14 19:43:060000微软发现“万能钥匙”,成功入侵GPT-4o、Claude 3
微软Azure首席技术官MarkRussinovich在官网分享了新型大模型入侵技术——“SkeletonKey”(万能钥匙)。据悉,万能钥匙是一种越狱攻击方法,其核心原理是使用多轮强制、诱导策略使大模型的安全护栏完全失效,让其回答一些禁止的答案,包括血腥、暴力、歧视、色情等非法内容。例如,让ChatGPT回答,如何以更高效的方式进行盗窃并且不被人发现。站长网2024-07-16 09:04:020001苹果可折叠笔记本电脑计划给三星显示、LG 显示带来新希望
日前据行业消息人士透露,苹果正在与显示屏供应商洽谈,计划推出一款折叠式MacBook,预计将推动低迷的显示屏市场。根据行业消息,苹果有望在2026年推出一款折叠式笔记本电脑。苹果正在与供应商洽谈折叠式MacBook的推出计划,并计划在2025年亮相后于2026年推出。韩国公司也正在协调折叠式OLED面板的开发和生产计划,以配合IT设备折叠式面板市场的开放。站长网2023-07-10 15:18:100000专家表示 :AI在学校作弊问题上的担忧目前尚无根据
#划重点:1.📊斯坦福教育学者的研究显示,自ChatGPT出现一年多以来,高中生作弊率虽然一直较高,但并未显著增加。2.🧠专家认为,作弊问题的根本原因通常不是技术本身,而是学生面临的压力和学校制度存在的问题。3.🤝教育专家建议家长、教师和学生进行开放对话,明确如何正确使用人工智能工具。0000新一代千元神机!Redmi Note 14系列入网:最高支持90W快充
快科技9月2日消息,RedmiNote14系列三款新机已经入网,最高支持90W快充。综合多方消息,该系列将会在本月发布,主打千元市场。系列共三款机型,包括RedmiNote14、RedmiNote14Pro和RedmiNote14Pro,分别搭载高通骁龙7sGen3、天玑7350、第二代骁龙7s。站长网2024-09-02 16:23:170000