GPT-4在图灵测试中成功率超过41%,人类保持在63%
站长网2023-11-27 11:45:130阅
**划重点:**
1. 🧪 图灵测试研究中,GPT-4成功率达到41%,人类有63%。
2. 🤯 对比GPT-3.5和GPT-4,显示付费版本在测试中表现更出色。
3. 🧠 图灵预测的计算能力要求未实现,人工智能仍有进步空间。
近期,Jones和Bergen进行了一项关于GPT-4在图灵测试中的研究,结果显示其成功率超过41%。
这一数字相比于传统的人工智能模型,如ELIZA的27%和GPT-3.5的14%,表现出明显的优势。研究设计了25个不同的语言模型,涵盖了各种GPT的版本,其中包括GPT-4。这些模型使用类似于手机消息应用的界面,并在拼写错误、大小写、延迟等方面引入了小的随机变化。
图灵测试是通过与人类进行对话,然后判断对方是人类还是人工智能的测试。与原始的图灵测试不同,这项研究的测试设计更简化,要求参与者在最多5分钟的时间内进行对话,每条消息不超过300字符。共有652名人类参与者完成了1810次测试。
1950年,艾伦·图灵曾预测,到了他认为的未来50年,计算机将具备足够的存储能力,以70%的概率“欺骗”人类。然而,研究表明,即使到了现在,GPT-4等模型也未达到这一水平,最高成功率仅为41%。
图源备注:图片由AI生成,图片授权服务商Midjourney
有趣的是,研究指出GPT-4是付费版本,而GPT-3.5则是免费版本。这表明,付费版本在测试中表现更好,凸显了技术进步对结果质量的影响。
人工智能在图灵测试中取得的进展令人印象深刻,但与人类63%的成功率相比,仍有改进的空间。这一研究进一步探讨了人工智能的发展趋势,揭示了技术的潜在局限性。
0000
评论列表
共(0)条相关推荐
SDK工具包Observe:可持续监控WebAssembly代码
Observe是一个用于WebAssembly的可观测性SDK工具包,它可以持续监控WebAssembly代码在运行时的执行情况。该库包含所需的运行时SDK和适配器,以实现对WebAssembly的实时性能分析和追踪,未来它将成为一个完整的WebAssembly可观测性栈。项目地址:https://github.com/dylibso/observe-sdk主要特性:站长网2023-08-31 11:00:110000AI成为了米哈游们的“必选项”
今年以来,游戏公司纷纷投资AI公司、成立AIlab、自建AI模型。无论是AIGC对游戏制作的降本增效,还是其冲破当前游戏工业化极限的可能性,都让游戏企业成为了新一轮AI浪潮最为积极的“拥护者”。在《原神》火爆全球两年半之后,米哈游再次发布重磅新作——《崩坏:星穹铁道》(下简称《星铁》)。上线首周,《星铁》全球移动市场的下载量、收入已达到了同期《原神》的1.6倍、1.3倍。站长网2023-05-09 09:10:030000全球首款3nm芯片塞进电脑,苹果M3炸翻全场!128GB巨量内存,大模型单机可跑,性能最高飙升80%
【新智元导读】史上最短苹果发布会上,M3芯片家族震撼亮相了!在它们的加持下,MacBookPro、iMac纷纷升级成性能猛兽。史上最短苹果发布会「ScaryFast」,刚刚结束。30分钟的时长虽短,效果却依然炸裂。在这个「暗黑万圣节」风格发布会上,三款突破性的芯片——M3、M3Pro、M3Max同时亮相!站长网2023-10-31 17:39:340000微软 Azure AI 文本转语音功能添加男声和更多语言支持
站长之家(ChinaZ.com)8月9日消息:在当今互联互通的世界中,语言障碍对于有效沟通来说是一个重要挑战。然而,随着人工智能和自然语言处理的快速发展,我们正在见证一系列开创性解决方案,彻底改变了我们与技术互动的方式。站长网2023-08-09 15:14:210000微软Edge集成AI设计工具Designer 从侧边栏即可访问
本文概要:1.微软的人工智能设计工具MicrosoftDesigner现已在Edge浏览器中广泛上线,用户可以通过浏览器侧边栏访问。2.通过该集成,用户可以便捷地在Edge中创建各类设计作品,如社交媒体帖子、传单等,无需打开其他页面。3.BingChat推出了一些更新,用户可以让聊天机器人执行更多操作。站长网2023-08-23 16:26:560003