谷歌推出ASPIRE框架 让大模型具备自我判断意识
站长网2024-02-07 09:40:450阅
谷歌最近推出了一项名为ASPIRE的自适应评估框架,旨在帮助大型语言模型在面对置信度较低的样本时做出正确的判断。这个框架的核心技术思路是基于自我评估的选择性预测,通过任务定向微调、答案采样和自我评估学习三大模块来实现。
论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf?ref=maginative.com
具体来说,任务定向微调能够通过使用目标任务的训练数据对模型进行微调,提高其在特定任务上的性能。答案采样则可以生成多个候选答案,并评估其概率分布,以帮助模型判断答案的可靠性。自我评估学习则通过学习自我评估能力,让模型能够更好地区分正确和错误答案,从而提高选择性预测性能。
实验数据显示,ASPIRE在不同数据集上均表现出了良好的性能。例如,在CoQA数据集上,ASPIRE框架将答案的准确性提升了,并且能够减少错误答案的生成;在TriviaQA数据集上,通过设置选择性分数阈值,ASPIRE能够更准确地判断出哪些问题的答案不可靠,从而避免生成错误答案;在Natural Questions数据集上,ASPIRE成功降低了错误答案的比例,提高了答案的质量。这些实验证明了ASPIRE框架的高效性和可行性,为大型语言模型的应用提供了重要的支持和保障。
ASPIRE框架的推出填补了大型语言模型在置信度校准方面的空白,为其在实际应用中的稳定性和准确性提供了有力保障。随着这一框架的不断完善和应用,相信大型语言模型在各个领域的表现将会更加出色,为人们带来更好的体验和服务。
0000
评论列表
共(0)条相关推荐
除了OpenAI和Midjourney,你应该知道的美国10大AI独角兽
人工智能(AI)正在迅速成为驱动社会发展的核心技术,美国也一直走在前列。近期,OpenAI和Midjourney这两个新秀频频登上头条,代表着AI蓬勃发展、突飞猛进。此外,许多人工智能领域的优秀企业和领导者正以惊人的速度推进技术进步,为世界带来深刻变化。站长网2023-05-06 15:29:190002B站:读书视频日均观看量超过800万次
B站发布数据称,在过去的一年里,B站读书视频的日均观看量超过800万次,同比增长率高达32%,显示出强劲的增长势头。其中,小说类读书视频尤为受欢迎,日均观看量达到150万次以上,成为最受欢迎的读书视频品类之一。站长网2024-04-23 16:32:430000Murf AI :一款AI本转语音软件 声音克隆变得简单
本文概要:1.MurfAI是一款将真实声音与免版税音乐和视频相结合的文本转语音软件。2.MurfAI拥有超过120种多语言的人工智能语音,包括四种不同的英语口音。3.MurfAI简化了个性化广告和歌曲制作流程,同时也可以克隆用户自己的声音。站长网2023-08-07 10:02:280000英伟达推新AI图像生成器Perfusion :大小仅100KB、训练只需4分钟
在人工智能艺术创作工具快速发展的背景下,Nvidia研究人员推出了一种创新的文本到图像个性化方法,称为Perfusion。与大AI图片生成模型不同的是,Perfusion只有100KB大小,训练时间短,只需要4分钟。站长网2023-08-02 15:27:140000研究发现人们难以区分人工智能和人类艺术,但更喜欢人类创作
**划重点:**1.🧠人工智能创作的艺术和人类创作难以区分,参与者仅有约一半的准确率,但却更偏好人类创作。2.🤔尽管参与者对作品来源不够自信,但他们在情感上更倾向于人类创作,尤其在自我反思、吸引力、怀旧和娱乐等方面。3.🌐研究揭示了生成式人工智能的潜力,尽管参与者难以确定艺术来源,但这为AI在创意领域的应用带来了新的可能性。0000