斯坦福大学研究:通过自动偏好排名和NLP进展,降低大语言模型错误率
**划重点:**
1. 🚀 斯坦福大学和UNC Chapel Hill的研究人员通过自动偏好排序和NLP进展解决了大语言模型(LLMs)产生的虚构性错误的问题。
2. 🔄 采用新颖的方法,研究人员通过对LLMs进行微调,在无人工标记的情况下提高在开放式生成环境中的事实准确性。
3. 📈 他们利用NLP的最新创新,通过与外部知识库的一致性评估事实性,并使用直接偏好优化算法进行微调,显著提高了Llama-2的事实性。
研究人员从斯坦福大学和UNC Chapel Hill共同努力解决了大语言模型(LLMs)产生的事实性错误的问题,这些错误被称为“幻觉”。在没有人工标记的情况下,研究人员通过微调LLMs,采用新颖的方法,以在开放式生成环境中提高事实准确性。利用自然语言处理(NLP)领域的最新创新,他们通过评估与外部知识库的一致性来判断事实性,并采用直接偏好优化算法进行微调。这一方法显著提高了Llama-2的事实性,在7B规模下大幅降低了传记和医学问题响应的事实错误率。
图源备注:图片由AI生成,图片授权服务商Midjourney
为减少语言模型的事实错误,研究人员采用了各种策略,包括提示,内部表示扰动和基于检索的方法。随着模型规模的增加,解决冲突和事实性维护方面存在挑战。FactScore变体在训练期间采用检索来解决推理时间复杂性。通过微调的偏好学习有效地减少了不正确的事实。该研究引入了一种无参考方法,利用语言模型的不确定性来估计真实性。从自动生成的偏好对中学习事实性成为一种经济有效的方法,展示了在无人工干预的情况下潜在的改进。
着眼于开放式生成环境,该研究提出在不进行人工标记的情况下微调语言模型以提高事实性。他们利用最新的NLP创新,包括通过外部知识库判断事实性和使用直接偏好优化算法。该方法涉及从自动生成的事实性偏好排序中学习,相比其他策略在基准数据集上生成传记和回答医学问题时显著降低了事实错误率。
该研究通过一致性评估外部知识库或模型置信度来判断事实性。采用直接偏好优化算法进行微调,关注超越监督模仿的目标。该研究建议通过现有检索系统或新颖的无检索方法学习从自动生成的事实性偏好排序中学到的方法。评估包括FactScore等自动化指标,人工评估者,以及与推理时间干预和对比层解码等方法的比较。
该方法展示了从自动生成的事实性偏好排序中学习在提高语言模型事实性方面的有效性。微调的Llama-2模型在传记的事实错误率上降低了58%,在医学问题上降低了40%,相比RLHF或解码策略。人工评估者评价FactTune-FS模型显著高于SFT模型。GPT-4的评估和FactScore评级显示高度相关,表明FactTune-FS在减少事实错误方面取得成功。
该研究提出了增强语言模型事实性的有效策略,强调了长篇生成。探讨了两种方法:使用外部知识的基于参考的真实性估计和使用模型不确定性的无参考估计。通过任一方法微调语言模型都能一致减少不正确的事实。无参考方法为事实性改进提供了一种可扩展的自我监督策略,无需黄金参考语料库。实验结果指出了未来研究的有望方向,建议探索联合事实性调谐方法,并将该方法扩展到更大的模型,如GPT-4。
未来的研究建议探索将事实性调谐与现有方法结合,例如事实性调谐DOLA实验。建议进一步研究将事实性增强的解码技术与事实性调谐过程相结合,以增强事实性。评估结合不同方法,如事实性调谐和推理时间干预,可以提供有关互补机制的见解。对提取原子事实的简化方法进行调查,并将事实性调谐方法扩展到更大的模型,如GPT-4,提出了进一步探讨的建议。
论文网址:https://arxiv.org/abs/2311.08401
3D AIGC领域的Midjourney?Meshy可一句话生成3D游戏资产
要点:Meshy是一款由胡渊鸣创立的在线生成AI工具,能够通过简单的提示在一分钟内生成3D内容,包括模型和纹理。Meshy的创始人胡渊鸣是计算机图形学知名学者,团队成员来自MIT、哈佛大学、英伟达、谷歌等知名机构,旨在通过提供直观、轻松的内容创建方式改变3D内容制作生态系统。站长网2023-11-28 15:55:570000AI公司用“AI合成数据”来训练AI大语言模型成趋势
站长之家(ChinaZ.com)导语:AI公司正试图通过“创造信息”来获得用于训练AI系统的大量数据,这被称为"合成数据"。现在,AI模型的发展已经达到了人类创造的数据的极限,因此需要新的方法来训练模型。站长网2023-07-19 19:53:520000小扎老黄亲密换衣炉边对谈!小扎竟破防爆粗,老黄自曝第一批Blackwell已出炉
【新智元导读】就在刚刚,老黄在SIGGRAPH大会上透露:Blackwell的工程样片,已在本周正式向全世界发送!随后,老黄和小扎展开了炉边对话,并且亲密换衣,说到激动处,小扎气得一度爆粗。惊爆消息来了!刚刚,老黄在SIGGRAPH计算机图形会议上透露:就在本周,英伟达已经开始向全世界发送Blackwell的工程样片了!站长网2024-07-30 14:39:090000蔚来第2200座换电站正式上线 用户累计换电超过3300万次
今日,蔚来宣布,第2200座换电站于G30连霍高速武威服务区正式上线。蔚来表示,截至12月6日,今年已新增布局换电站895座,接下来25天,向千站计划最后的105座换电站,发起冲刺。目前,蔚来用户累计换电超过3300万次,日均换电次数6万次,平均每1.44秒就有一台车从换电站满电出发。站长网2023-12-06 16:35:260000人工智能初创公司 Cohere 首席执行官批评有效利他主义运动「自以为是」
据彭博社周三报道,人工智能(AI)初创公司Cohere的首席执行官AidanGomez在一封致员工的信中对有效利他主义运动提出批评。Gomez反对他所认为的该运动的「自以为是」,并警告说这种思维可能导致极端行为。彭博社报道称,一位Cohere发言人确认了信件的真实性,但拒绝进一步置评。站长网2023-11-23 08:54:490000