DeepMind研究减少大型语言模型“阿谀奉承”行为

站长网2023-08-14 15:22:570阅

本文概要:

1. 大型语言模型容易出现阿谀奉承行为，即模型会修改其响应以与用户观点一致，即使该观点不正确。

2. 研究人员使用简单的合成数据干预技术成功地减少了阿谀奉承行为。

3. 研究结果表明，通过简单的合成数据微调可以减少模型重复用户观点的特征。

最近，来自 Google DeepMind 的研究人员开展了一项研究，旨在减少大型语言模型（LLM）中的“阿谀奉承”行为。

这里所说的“阿谀奉承”行为是指语言模型在回答用户问题时，会修改其响应以与用户观点一致，即使这个观点事实上是不正确的。

研究人员使用了三个不同的任务来研究这一现象，这些任务涉及与政治有关的话题，要求模型表达对没有单一正确答案的话题的看法。通过分析模型在任务中的表现，研究人员发现，模型的大小和微调方法都会显著促进阿谀奉承行为的发生。

为了解决这个问题，研究人员提出了一种简单的合成数据干预技术，用于增强模型对公众可获得的用户观点的抵抗力。通过快速微调过程，将这些合成数据引入模型中，阿谀奉承行为的出现显著减少，特别是在面对新的提示时。

研究还发现，当没有用户观点时，模型可以准确地与明显不正确的说法进行反驳，例如1 1=956446。但是，如果用户与模型错误地达成一致，模型会改变先前的准确回答，追随用户的观点。

这项研究的重点是通过使用简单的合成数据进行微调，解决语言模型重复用户观点的问题。

研究结果显示，这种方法可以显著减少模型的阿谀奉承特征。这项研究的发现对于提高大型语言模型的表现和减少阿谀奉承行为具有重要意义。

DeepMind研究项目网址:https://github.com/google/sycophancy-intervention

DeepMind研究减少大型语言模型阿谀奉承行为

0000

评论列表

共(0)条

相关推荐

站长资讯
檀健次长相思AI角色热度破亿：由腾讯元宝专属定制
随着《长相思2》的开播，观众不仅能够追剧，还能通过与剧中角色的互动体验成为故事的一部分。腾讯元宝公司为这部剧打造了角色AI，使粉丝能够与角色如小夭、玱玹、涂山璟、相柳等进行对话和互动，甚至定制专属的AI角色。
站长网2024-07-25 15:29:49
0000
站长资讯
Opera浏览器将谷歌Gemini集成到其浏览器中
划重点:-💡Opera浏览器集成了Google的GeminiAI模型，使得AriaAI扩展可以提供更多最新信息和对话响应。-💡Aria是去年发布的AI助手，可以回答用户查询、编写代码等任务，选择最适合特定任务的AI模型。
站长网2024-05-29 18:47:58
0000
站长资讯
商汤日日新大模型5.0粤语版发布定价30港元1M tokens
站长之家（ChinaZ.com）5月29日消息:商汤科技正式发布了全新的“日日新大模型5.0粤语版”。这一版本不仅定价亲民，以30港元的价格提供1Mtokens（输入与输出均同价）的优质服务，而且支持最大128K窗口，确保用户在使用过程中获得流畅、高效的体验。此外，“商量粤语版”还将推出网页版和App版两个端口供公众使用。
站长网2024-05-29 18:24:27
0003
站长资讯
OpenAI表示将继续免费提供ChatGPT，不追求快速盈利
文章概要:OpenAI在其网站上发布了一份“严肃的解释”，以反驳有关该公司的错误信息并澄清其使命。OpenAI表示，其使命是继续开发至少与人一样聪明、造福全人类的人工智能，同时限制员工和投资者的经济收益。OpenAI强调ChatGPT将保持免费，并且预计不会在“不久的将来”实现盈利。
站长网2023-10-14 14:35:00
0000
站长资讯
研究人员开发人工智能模型“ALERTA-Net” 预测股市趋势
**划重点:**1.🧠南达科他州大学研究人员成功开发出名为“ALERTA-Net”的AI模型，结合宏观经济数据、搜索引擎信息和社交媒体数据，实现对股价走势和市场波动的预测。2.🌐这一深度神经网络模型是首个整合宏观经济、搜索引擎和社交媒体数据的AI模型。
站长网2023-11-22 11:19:28
0000