GPT-4被证实有人类心智!网友:连AI都可以看出他在嘲讽你了
站长网2024-05-27 14:56:150阅
Nature杂志上发表的最新研究显示,GPT-4在心智理论(Theory of Mind, ToM)方面的表现与人类相当,甚至在某些方面超过了人类。这项研究由James W. A. Strachan等人进行,他们通过一系列测试来评估GPT-4、GPT-3.5、Llama2以及人类参与者的表现,并进行了比较。
以下是研究的主要发现:
心智理论的表现:心智理论是理解他人心理状态的能力,对于社会互动至关重要。GPT-4在心智理论方面的表现与人类无异,甚至在检测讽刺和暗示方面优于人类。
测试项目:研究包括了5个测试项目,分别是错误信念、反讽、失言、暗示和奇怪故事。GPT-4在反讽、暗示和奇怪故事这3项测试中的表现明显优于人类,在错误信念测试中与人类持平,仅在失言测试中表现不如人类。
保守性:GPT-4在失言测试中的低分并非因为它缺乏理解能力,而是因为它采取了保守策略,不轻易给出确定性意见。
失言可能性测试:在失言可能性测试中,GPT-4展现了完美的性能,表明它能够成功推断说话者的心理状态,并确定无意冒犯的可能性大于故意侮辱。
能力和表现的分离:研究表明,GPT模型可能具备计算类似心智推理的技术复杂性,但在不确定情况下的表现与人类不同。人类倾向于消除不确定性,而GPT则不会自发地计算推论以减少不确定性。
谨慎行为:GPT-4在失言测试中的保守性可能源于其底层架构中的缓解措施,这些措施旨在提高事实性并避免用户过度依赖模型。
这项研究的结果表明,GPT-4在理解人类心理状态方面的能力可能被低估了。研究者呼吁建立“机器心理学”,使用实验心理学的工具和范式来系统地研究大型语言模型的能力和局限性。
论文地址:https://www.nature.com/articles/s41562-024-01882-z
0000
评论列表
共(0)条相关推荐
华为华南首家服务旗舰店开业:智能机器人代替工程师寻找备件
快科技12月3日消息,据华为终端公司”官微消息,日前,华为客户服务中心(广州高志大厦)正式开业,位于广州市天河区黄埔大道120号高志大厦3楼。据介绍,这是华为华南首家服务旗舰店,提供面对面维修、智能备件柜、咖啡吧等全面智能服务体验,最大特色之一是采用全新维修模式。推出了面对面”服务坐席和全透明备件区,消费者可直接与工程师沟通设备情况、面对面观看维修过程。0000李开复、张亚勤对谈:大模型产业化,To B、To C哪个赛道更有机会?
6月15日消息,在第六届“北京智源大会”上,零一万物CEO、创新工场董事长李开复博士,中国工程院院士、清华大学智能产业研究院(AIR)院长张亚勤院士、智源研究院理事长黄铁军教授,三位行业领袖就大模型的成功因素、面临的挑战、产业化场景等多个热点话题展开了深入的讨论。以下为讨论内容部分摘录:一、什么原因使得大模型如此成功?0000马斯克卸任推特CEO 将转任执行董事长和CTO
当地时间周四,,马斯克在社交平台上宣布将卸任推特CEO,成为执行董事长和首席技术官,主要负责产品、软件和系统开发的监督工作。他同时透露,新的推特CEO是一位女性,将于六周后履新。据了解,去年10月,马斯克完成了价值440亿美元的收购,成为推特CEO。去年11月,马斯克举行了投票,询问自己是否应该继续担任推特CEO,结果有57.5%的人希望他下台。站长网2023-05-12 08:24:260000性能秒杀SD3、DALL·E-3,开源文生图模型杀出大黑马
昨天Midjourney刚进行大更新,今天文生图片开源领域就杀出了一匹大黑马—FLUX.1。根据其测试数据显示,性能大幅度超过了DALL·E-3、MidjourneyV6闭源模型,开源SD3系列的Ultra、Medium、Turbo和SDXL被全线秒杀。并且FLUX.1表示,文生图只是一个开始,未来还会推出文生视频模型想和Sora、Gen-3、Luma等一线产品过过招。站长网2024-08-02 09:01:310000