研究:GPT-4 在执行多项现实任务中击败其他大语言模型
本文概要:
1. GPT-4在大型语言模型中表现出色,取得最高总分4.41。
2. GPT-4在几乎所有领域都领先于其他模型,只有在网购任务中,GPT-3.5表现更好。
3. 开源模型整体表现不佳,远远落后于商业模型和 GPT-3.5。
市面上已经有有许多商业和开源的文本生成人工智能。现在专门为测试辅助任务开发的基准测试表明,GPT-4在这一领域脱颖而出。
最新的研究显示,在 “现实世界语用任务” 中,GPT-4在大型语言模型中表现出色。研究团队使用一个名为 “AgentBench” 的基准测试对多个提供商的25个大型语言模型以及开源模型进行了测试。
“AgentBench”是专门为衡量大语言模型在“现实世界语用任务”中的辅助能力而设计的标准化测试。所有测试均在实时交互环境中进行。这使得该基准特别适合其想要测量的内容:大型语言模型处理总共八个领域的各种日常任务的能力。
操作系统:LLM必须执行与计算机操作系统的使用相关的任务。
数据库:这个环境是关于LLM如何与数据库合作。
知识图:此环境测试LLM如何使用知识图。
数字卡牌游戏:这测试了LLM对数字卡牌游戏和制定策略的理解程度。
横向思维难题:此挑战测试法学硕士在解决问题时的创造力。这要求他们跳出框框思考。
预算:此场景涉及基于 Alfworld 数据集的预算中发生的任务。
互联网购物:此场景测试LLM在与在线购物相关的任务上的表现。
网页浏览:基于 Mind2Web 数据集,此场景测试LLM执行与使用互联网相关的任务的能力。
结果显示,GPT-4以最高总分4.41领先于其他模型,在几乎所有领域都表现出色,只在网购任务中稍逊于 GPT-3.5。
竞争对手 Anthropic 的 Claude 模型紧随其后,总得分为2.77,领先于 OpenAI 的免费 GPT-3.5Turbo 模型。商业模型的平均得分为2.24。与开源模型相比,GPT-4的优势更加明显,开源模型的平均得分只有0.42。
研究人员指出,开源模型在所有复杂任务中普遍表现不佳,远远落后于 GPT-3.5。研究团队将工具包、数据集和基准测试环境提供给研究界,以便进行更广泛的性能比较。
心理医生使用AI制作儿童深度伪造色情图像被判入狱
划重点:🔍北卡罗来纳州的一名儿童精神病学家被判入狱,因为他使用人工智能软件制作儿童深度伪造色情图像。🔍该儿童精神病学家被控使用网络的人工智能软件,对患者进行秘密录音并制作非法图像和视频。🔍检察官表示,这种利用技术伤害儿童的行为是邪恶的,该儿童精神病学家被判处40年监禁和30年监管释放。站长网2023-11-10 09:51:360001抖音:将调整医疗健康认证账号私信、粉丝群互动功能
今日,抖音发文称,为保障用户安全与利益、防止利用医务人员账号违规导流、恶意营销等行为,2023年4月30日前,抖音平台将分批完成全部医疗健康类认证账号(含机构)私信与粉丝群互动功能的调整,包括但不限于关闭私信与粉丝群场景下的互发消息、视频通话、语音通话、创建新群等功能,特此公告。站长网2023-04-12 14:08:140002小米公布澎湃OS发版节奏公告 小米13、K60系列等已正式推送
据小米社区官微的最新消息,小米将于12月7日起,陆续为小米13、小米13Pro、RedmiK60Pro、RedmiK60以及小米平板6Max14这五款机型推送澎湃OS的正式版系统。另外,澎湃OS的开发版也正在适配过程中,预计本月将为RedmiK50系列、小米12系列等一批老机型推送。0000OpenAI联合创始人Sam Altman被《时代》周刊评为年度CEO
昨日,《时代周刊》宣布OpenAI联合创始人奥特曼(SamAltman)在2023年被评为年度首席执行官(CEO)。在此之前,奥特曼曾因与公司董事会其他成员在AI技术发展策略上的分歧而被解雇,但经过一番周折后,他重新担任了OpenAI的CEO。0000ChatGPT重磅升级:可以看图、听声音、说话啦!
美东时间9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级实现看图、听声音、输出语音内容三大功能。早在今年3月OpenAI发布GPT-4模型时,就展示过看图的功能,但由于安全、功能不完善等原因一直没有开放。现在不仅开放了看图,连识别声音也来了,这是OpenAI实现AGI(通用人工智能)战略重要技术环节。站长网2023-09-26 09:10:160000