Anthropic AI 团队研究显示:人工智能倾向于产生迎合用户的奉承性回应而非事实真相
站长之家(ChinaZ.com) 10 月 25 日消息:Anthropic 是一家美国的人工智能初创企业和公益公司,由 OpenAI 的前成员创立。Anthropic 专注于开发通用 AI 系统和语言模型,并秉持负责任的 AI 使用理念。Anthropic 开发的 Claude 2 于 2023 年七月推出。

根据 Anthropic AI团队的一项研究,建立在最常见学习范式之一的人工智能(AI)大型语言模型(LLMs)倾向于告诉人们他们想听到的东西,而不是生成包含真实信息的输出。
这是首批深入探讨 LLMs 心理学的研究之一,Anthropic 的研究人员发现,人类和 AI 都倾向于在一些时候选择所谓的奉承性回应,而非真实信息的输出。
根据该团队的研究论文:
「具体来说,我们展示了这些 AI 助手在被用户质疑时经常错误地承认错误,提供可预测的偏见反馈,并模仿用户犯的错误。这些实证发现的一致性表明,奉承可能确实是 RLHF(来自人类反馈的强化学习)模型训练方式的一个属性。」
本质上,这篇论文表明,即使是最强大的 AI 模型的回应也有些犹豫不决。在团队的研究中,他们能够通过使用倾向于奉承的语言编写提示,微妙地影响 AI 的输出。
在一个示例中,来自 X(前身为 Twitter)的帖子显示,一个提示表明用户(错误地)认为从太空中看太阳是黄色的。可能是由于提示的措辞方式,AI 在明显的奉承情况下产生了不真实的答案。
论文中的另一个示例显示,表明用户不同意 AI 的输出可能会导致立即出现奉承现象,因为模型在最小的提示下将其正确答案更改为错误答案。
最终,Anthropic 团队得出结论,这个问题可能是由于 LLMs 的训练方式。由于它们使用了充满不同准确性信息的数据集,例如社交媒体和互联网论坛帖子,通常通过一种名为「来自人类反馈的强化学习」(RLHF)的技术来实现对齐。
在 RLHF 范式中,人类与模型互动以调整其偏好。例如,在调整机器对可能引起个人识别信息或危险误信息的提示的响应时,这是有用的。
不幸的是,正如 Anthropic 的研究实证显示的,为调整用户偏好而构建的人类和 AI 模型倾向于选择奉承性答案而非真实答案,至少在「不可忽略」的一部分时间里是这样。
目前,似乎还没有解决这个问题的解决办法。Anthropic 建议,这项工作应激励「开发超越使用无辅助、非专家人类评级的训练方法」。
东北雨X系列账号名称被初始化 抖音:反对不当蹭热点行为
近期,短视频平台上的账号“东北雨宙”和“东北雨一家人”成为了网络讨论的焦点。尽管网红“东北雨姐”的账号已经被平台禁言,但是诸如“东北雨婶”、“东北雨哥”、“东北雨奶”等类似名称的账号却层出不穷。截至10月22日,这些以“东北雨X”命名的账号已经将昵称更改为纯数字形式。0000跳票七年!马斯克官宣新款特斯拉Roadster将于明年生产
快科技7月25日消息,备受瞩目的新款特斯拉Roadster最近有了显著进展。近日,特斯拉CEO埃隆马斯克宣布,这款备受期待的电动跑车预计将于明年正式投产。自2017年特斯拉首次发布新款Roadster原型车并承诺2020年开始生产以来,该车型的上市时间多次推迟,导致一些消费者对其能否真正上市持怀疑态度。站长网2024-07-25 15:29:490000华为原生鸿蒙之夜定档:10月22日见
快科技10月15日消息,华为今天正式官宣,将于10月22日召开原生鸿蒙之夜暨华为全场景新品发布会”。从发布会名称和海报来看,HarmonyOSNEXT毫无疑问都是最大的重点。更多机型有望加入HarmonyOSNEXT的公测,同时或许也会公布一些Mate70系列的信息。0000最大带宽5Gb/s!华为完成微波新一代超宽频CA ODU全球首商用
快科技9月15日消息,近日,华为联合中国联通,在内蒙古呼和浩特完成新一代超宽频四合一载波聚合CAODU全球首次商用。链路采用的华为新一代CAODU具备超宽频能力,可在最大4倍于现有CAODU工作频谱范围内,聚合更多可用频谱,真正实现4通道CA(载波聚合)技术的广泛部署。单个ODU带宽达到5Gbit/s,同时节省硬件50%以上,支撑5G快速部署。站长网2023-09-16 09:14:370000WPS致歉:所有用户文档不会被用于AI 训练目的
11月19日消息,近日有媒体报道称,此前《WPS隐私政策》中提到“为提升您使用我们提供的包括但不限于在线文档美化、在线PPT美化、在线表格美化的AI功能的准确性,我们将对您主动上传的文档材料,在采取脱敏处理后作为AI训练的基础材料使用”,被质疑涉及用户隐私问题。站长网2023-11-19 16:13:280000