研究:GPT-4 在执行多项现实任务中击败其他大语言模型
本文概要:
1. GPT-4在大型语言模型中表现出色,取得最高总分4.41。
2. GPT-4在几乎所有领域都领先于其他模型,只有在网购任务中,GPT-3.5表现更好。
3. 开源模型整体表现不佳,远远落后于商业模型和 GPT-3.5。
市面上已经有有许多商业和开源的文本生成人工智能。现在专门为测试辅助任务开发的基准测试表明,GPT-4在这一领域脱颖而出。
最新的研究显示,在 “现实世界语用任务” 中,GPT-4在大型语言模型中表现出色。研究团队使用一个名为 “AgentBench” 的基准测试对多个提供商的25个大型语言模型以及开源模型进行了测试。
“AgentBench”是专门为衡量大语言模型在“现实世界语用任务”中的辅助能力而设计的标准化测试。所有测试均在实时交互环境中进行。这使得该基准特别适合其想要测量的内容:大型语言模型处理总共八个领域的各种日常任务的能力。
操作系统:LLM必须执行与计算机操作系统的使用相关的任务。
数据库:这个环境是关于LLM如何与数据库合作。
知识图:此环境测试LLM如何使用知识图。
数字卡牌游戏:这测试了LLM对数字卡牌游戏和制定策略的理解程度。
横向思维难题:此挑战测试法学硕士在解决问题时的创造力。这要求他们跳出框框思考。
预算:此场景涉及基于 Alfworld 数据集的预算中发生的任务。
互联网购物:此场景测试LLM在与在线购物相关的任务上的表现。
网页浏览:基于 Mind2Web 数据集,此场景测试LLM执行与使用互联网相关的任务的能力。
结果显示,GPT-4以最高总分4.41领先于其他模型,在几乎所有领域都表现出色,只在网购任务中稍逊于 GPT-3.5。
竞争对手 Anthropic 的 Claude 模型紧随其后,总得分为2.77,领先于 OpenAI 的免费 GPT-3.5Turbo 模型。商业模型的平均得分为2.24。与开源模型相比,GPT-4的优势更加明显,开源模型的平均得分只有0.42。
研究人员指出,开源模型在所有复杂任务中普遍表现不佳,远远落后于 GPT-3.5。研究团队将工具包、数据集和基准测试环境提供给研究界,以便进行更广泛的性能比较。
量子初创公司 MultiverseComputing 进军人工智能领域 估值翻三倍
西班牙量子软件初创公司MultiverseComputing已经筹集2500万欧元的新资金,将业务重心转移至开发面向人工智能的新产品和服务。这笔资金让该公司的估值增加一倍,达到约1亿欧元,是欧盟量子软件初创公司中单笔融资规模最大的。0000Discord 宣布将于 12 月 1 日起关闭其人工智能聊天机器人 Clyde
Discord正在关闭其实验性人工智能聊天机器人Clyde。根据公司的支持说明,Clyde将于本月底被「停用」,并且从12月1日起,「用户将无法在私聊、群聊或服务器聊天中调用Clyde」。站长网2023-11-21 11:24:180000美国众议院众多党派领导人携手成立跨党派人工智能特别工作组
**划重点:**1.🏛️美国众议院两党领导人宣布成立人工智能特别工作组,致力于应对人工智能的迅猛崛起。2.🤝特别工作组由约翰逊(共和党)和杰弗里斯(民主党)领导,将制定关于人工智能的潜在监管框架和国会可采取的政策步骤的全面报告。3.💼特别工作组的主席是奥伯诺尔特(共和党)和刘特(民主党),成员包括来自两党的国会议员,旨在推动人工智能领域的合作和立法进展。站长网2024-02-21 10:24:250000AMD CEO 苏姿丰:AI 的成功也需要软件 AMD 在这方面也有相关投资
AMDCEO苏姿丰日前参加AMDInnovationDay活动,并发表演讲。据悉,这AMDInnovationDay上,苏姿丰强调的一大重点,正是AI人工智能,她介绍了旗下首款,整合X86处理器的AI引擎,「RYZENAI」,也说道ChatGPT的出现,推动高效能及AI计算的发展,未来每个地方将都能看见AI。站长网2023-07-20 17:17:210000三星面临人工智能服务器芯片领域困境,第三季度营业利润预计不及预期
据路透社消息,三星电子周二公布了其第三季度营业利润预计,达到9.1万亿韩元(约合67.8亿美元),同比增长274%。然而,这一数字仍低于分析师的预期,主要因为该科技巨头在人工智能服务器芯片领域面临困境。据LSEGSmartEstimate预测,三星本季度的营业利润应为10.3万亿韩元,而实际数字未能达到这一预期。与去年同期相比,当时的营业利润为2.43万亿韩元,上一季度则为10.44万亿韩元。0000