GPT-4被证实有人类心智!网友:连AI都可以看出他在嘲讽你了
站长网2024-05-27 14:56:150阅
Nature杂志上发表的最新研究显示,GPT-4在心智理论(Theory of Mind, ToM)方面的表现与人类相当,甚至在某些方面超过了人类。这项研究由James W. A. Strachan等人进行,他们通过一系列测试来评估GPT-4、GPT-3.5、Llama2以及人类参与者的表现,并进行了比较。
以下是研究的主要发现:
心智理论的表现:心智理论是理解他人心理状态的能力,对于社会互动至关重要。GPT-4在心智理论方面的表现与人类无异,甚至在检测讽刺和暗示方面优于人类。
测试项目:研究包括了5个测试项目,分别是错误信念、反讽、失言、暗示和奇怪故事。GPT-4在反讽、暗示和奇怪故事这3项测试中的表现明显优于人类,在错误信念测试中与人类持平,仅在失言测试中表现不如人类。
保守性:GPT-4在失言测试中的低分并非因为它缺乏理解能力,而是因为它采取了保守策略,不轻易给出确定性意见。
失言可能性测试:在失言可能性测试中,GPT-4展现了完美的性能,表明它能够成功推断说话者的心理状态,并确定无意冒犯的可能性大于故意侮辱。
能力和表现的分离:研究表明,GPT模型可能具备计算类似心智推理的技术复杂性,但在不确定情况下的表现与人类不同。人类倾向于消除不确定性,而GPT则不会自发地计算推论以减少不确定性。
谨慎行为:GPT-4在失言测试中的保守性可能源于其底层架构中的缓解措施,这些措施旨在提高事实性并避免用户过度依赖模型。
这项研究的结果表明,GPT-4在理解人类心理状态方面的能力可能被低估了。研究者呼吁建立“机器心理学”,使用实验心理学的工具和范式来系统地研究大型语言模型的能力和局限性。
论文地址:https://www.nature.com/articles/s41562-024-01882-z
0000
评论列表
共(0)条相关推荐
OpenAI与第三方机构合作,构建新的AI训练数据集
**划重点:**-🤖OpenAI启动DataPartnerships计划,与第三方机构合作,创建用于AI模型训练的公共和私有数据集。-📚OpenAI寻求多领域、多语言、多格式的数据,以提高AI模型的广泛理解。-💼尽管有商业动机,OpenAI的DataPartnerships计划也引发了关于数据拥有者权益和透明度的讨论。站长网2023-11-10 11:43:320000雷军:智驾+智舱+生态 将成为小米汽车技术制高点
小米即将在3月28日19:00揭开其全新车型SU7的神秘面纱,同时,该车的售价也将正式公布,并宣布上市即交付的好消息。在今日官方预热中,小米再次展现了其在智能技术领域的深厚底蕴。小米深知,智能,是汽车的灵魂,也是小米擅长的领域。站长网2024-03-26 11:28:230000微软 CEO 纳德拉:人工智能应用的前沿部署将为云服务注入大量新投资
微软首席执行官萨提亚·纳德拉(SatyaNadella)表示,企业领导者正在逐步减少削减成本的云优化工作,并准备向云迁移以及数据应用和人工智能(AI)应用程序的前沿部署注入大量新投资。在微软强劲的财季Q4业绩出炉后,云收入增长了21%,达到303亿美元,纳德拉表示,在企业为下一波技术驱动的创新以及其近亲——颠覆——做准备时,由云驱动的前瞻性业务计划的支出将会增加。站长网2023-08-15 18:10:020000中科院提出全新多视图世界模型和自动驾驶世界模型Drive-WM
要点:由中科院自动化所研究团队提出的Drive-WM模型结合多视图世界模型,利用Diffusion模型生成逼真视频场景,为自动驾驶系统提供多视图预测和规划,极大提高安全性。Drive-WM模型首次将世界模型与端到端规划相结合,利用世界模型在每个时间步上预测未来情景,通过图像奖励函数全面评估,实现更安全、有效的规划。站长网2023-12-04 09:49:2700004090狂涨3倍:一张显卡背后的博弈与狂潮
美国“卡脖子”,中国玩家还能买到4090显卡吗?一夜之间,4090显卡的价格狂飙到了令人咋舌的地步。10月18日,有网友发现在多个购物渠道中,英伟达RTX4090系列显卡已下架,多家旗舰店在售的4090相关产品均呈缺货状态,“4090显卡全面下架”迅速登上了社交平台的热搜。站长网2023-10-20 09:16:140003