研究:GPT-4 在执行多项现实任务中击败其他大语言模型
本文概要:
1. GPT-4在大型语言模型中表现出色,取得最高总分4.41。
2. GPT-4在几乎所有领域都领先于其他模型,只有在网购任务中,GPT-3.5表现更好。
3. 开源模型整体表现不佳,远远落后于商业模型和 GPT-3.5。
市面上已经有有许多商业和开源的文本生成人工智能。现在专门为测试辅助任务开发的基准测试表明,GPT-4在这一领域脱颖而出。
最新的研究显示,在 “现实世界语用任务” 中,GPT-4在大型语言模型中表现出色。研究团队使用一个名为 “AgentBench” 的基准测试对多个提供商的25个大型语言模型以及开源模型进行了测试。
“AgentBench”是专门为衡量大语言模型在“现实世界语用任务”中的辅助能力而设计的标准化测试。所有测试均在实时交互环境中进行。这使得该基准特别适合其想要测量的内容:大型语言模型处理总共八个领域的各种日常任务的能力。
操作系统:LLM必须执行与计算机操作系统的使用相关的任务。
数据库:这个环境是关于LLM如何与数据库合作。
知识图:此环境测试LLM如何使用知识图。
数字卡牌游戏:这测试了LLM对数字卡牌游戏和制定策略的理解程度。
横向思维难题:此挑战测试法学硕士在解决问题时的创造力。这要求他们跳出框框思考。
预算:此场景涉及基于 Alfworld 数据集的预算中发生的任务。
互联网购物:此场景测试LLM在与在线购物相关的任务上的表现。
网页浏览:基于 Mind2Web 数据集,此场景测试LLM执行与使用互联网相关的任务的能力。
结果显示,GPT-4以最高总分4.41领先于其他模型,在几乎所有领域都表现出色,只在网购任务中稍逊于 GPT-3.5。
竞争对手 Anthropic 的 Claude 模型紧随其后,总得分为2.77,领先于 OpenAI 的免费 GPT-3.5Turbo 模型。商业模型的平均得分为2.24。与开源模型相比,GPT-4的优势更加明显,开源模型的平均得分只有0.42。
研究人员指出,开源模型在所有复杂任务中普遍表现不佳,远远落后于 GPT-3.5。研究团队将工具包、数据集和基准测试环境提供给研究界,以便进行更广泛的性能比较。
巨人网络董事长史玉柱:短期内能看到 AI 经济效益的只有游戏领域
巨人集团创始人史玉柱现身公司在无锡市滨湖区拈花湾小镇举办的2023征途嘉年华。史玉柱现场发表演讲,谈及对《原始征途》下一步研发规划、AI(人工智能)、脑白金、元宇宙等话题。站长网2023-06-12 16:57:380000谷歌痛失AI大将!76岁图灵奖得主Hinton离职
“深度学习三巨头”之一、2018年图灵奖获得者杰弗里·辛顿(GeoffreyHinton)已离开谷歌,强调他离开是为了谈论人工智能的危险,而不会对谷歌造成影响。Hinton担心AI会制造虚假信息,随着AI技术的进步,它会编写并运行自己的代码,对人类生存构成更大的威胁。站长网2023-05-04 10:22:150000成本飙涨,头部入局,商业价值爆发:短剧不再是「小生意」
“之前短剧群演都按天算钱,现在在青岛按场算钱,每位群演每场的价格已经涨到千元以上了。”MCN机构古麦嘉禾微短剧业务负责人李庆玲告诉「深响」。曾经短剧主打低成本、低门槛、高回报,用十万元拍一部短剧就能收获几十万甚至上百万的回报;但现在,从独立导演到专业影视公司,入局者越来越多,大家“卷”故事、“卷”制作,服化道、群演、场地等硬成本变得居高不下,一部短剧的投入量级飙涨到数百万甚至上千万。站长网2023-04-18 09:26:590000ChatGPT正在测试原生文件分析功能,DALL·E 3能P图啦!
10月29日,有部分用户在社交平台上分享,ChatGPTPlus正在测试原生文件上传、分析功能,可以通过文本问答的方式,对上传的PDF等数据文件进行提问、搜索。例如,上传一份50页的员工手册PDF文件,然后向ChatGPT提问,能帮我总结一下手册的5个核心观点吗?;新入职员工触犯规则后,会遭遇哪些处罚?站长网2023-10-30 09:20:450000AI哨所|工资翻番、送宝马 印度开始疯抢AI人才
凤凰网科技讯《AI哨所》北京时间5月4日消息,生成式人工智能(AI)热潮正在引发一场人才争夺战。在印度,顶尖AI人才的工资会增加一倍,签字费是一辆宝马摩托车。站长网2023-05-04 10:45:460002