DeepMind研究减少大型语言模型“阿谀奉承”行为
站长网2023-08-14 15:22:570阅
本文概要:
1. 大型语言模型容易出现阿谀奉承行为,即模型会修改其响应以与用户观点一致,即使该观点不正确。
2. 研究人员使用简单的合成数据干预技术成功地减少了阿谀奉承行为。
3. 研究结果表明,通过简单的合成数据微调可以减少模型重复用户观点的特征。
最近,来自 Google DeepMind 的研究人员开展了一项研究,旨在减少大型语言模型(LLM)中的“阿谀奉承”行为。
这里所说的“阿谀奉承”行为是指语言模型在回答用户问题时,会修改其响应以与用户观点一致,即使这个观点事实上是不正确的。
研究人员使用了三个不同的任务来研究这一现象,这些任务涉及与政治有关的话题,要求模型表达对没有单一正确答案的话题的看法。通过分析模型在任务中的表现,研究人员发现,模型的大小和微调方法都会显著促进阿谀奉承行为的发生。
为了解决这个问题,研究人员提出了一种简单的合成数据干预技术,用于增强模型对公众可获得的用户观点的抵抗力。通过快速微调过程,将这些合成数据引入模型中,阿谀奉承行为的出现显著减少,特别是在面对新的提示时。
研究还发现,当没有用户观点时,模型可以准确地与明显不正确的说法进行反驳,例如1 1=956446。但是,如果用户与模型错误地达成一致,模型会改变先前的准确回答,追随用户的观点。
这项研究的重点是通过使用简单的合成数据进行微调,解决语言模型重复用户观点的问题。
研究结果显示,这种方法可以显著减少模型的阿谀奉承特征。这项研究的发现对于提高大型语言模型的表现和减少阿谀奉承行为具有重要意义。
DeepMind研究项目网址:https://github.com/google/sycophancy-intervention
0000
评论列表
共(0)条相关推荐
腾讯宣布打造一站式行业大模型精选商店
据新浪科技报道,今日下午,在腾讯云行业大模型及智能应用技术峰会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布,腾讯云MasS将创建一站式行业大模型精选商店。据介绍,该商店将覆盖金融、文旅、政务、传媒、教育等十大行业,并提供超过50个解决方案。客户可以在这些能力模型的基础上,加入自己独有的场景数据,快速生成专属模型。站长网2023-06-20 11:54:240000微软云服务已恢复 微软称将以最高优先级处理故障
今日,微软宣布其云服务在经历了一场全球性的服务中断之后,已经成功恢复。此前一天晚上,微软曾报告称,美国中部地区的用户可能面临Azure服务和微软365应用套件的使用困难,这些问题可能涉及服务管理、连接性或服务的可用性。站长网2024-07-20 03:30:390000iPhone16或垂直排列摄像头 将应用于iPhone16标准版
近日,有关iPhone16的摄像头设计引发了广泛关注。国外用户率先曝光了iPhone16的首个摄像头组件,证实了其后摄像头模组将重回垂直排列的消息。从曝光的图片来看,这款摄像头组件与现款iPhone15的对角线排列设计截然不同,而是采用了类似iPhone11时代的垂直排列方式。据MR证实,该组件将应用于iPhone16标准版。站长网2024-02-17 12:36:510000微软必应或取代谷歌成为 Firefox 浏览器的默认搜索引擎
大约两年前,也就是在2021年9月,Mozilla宣布正在测试将微软的Bing作为其Firefox浏览器的默认搜索引擎。这是当月的SUMO(SUpportMOzilla)研究公告的一部分。现在,一份新报告显示,微软也正在考虑与Mozilla签订合同,以取代Google作为默认Firefox搜索引擎,改为其自己的Bing。站长网2023-05-11 16:39:500000