谷歌推出ASPIRE框架 让大模型具备自我判断意识
站长网2024-02-07 09:40:450阅
谷歌最近推出了一项名为ASPIRE的自适应评估框架,旨在帮助大型语言模型在面对置信度较低的样本时做出正确的判断。这个框架的核心技术思路是基于自我评估的选择性预测,通过任务定向微调、答案采样和自我评估学习三大模块来实现。

论文地址:https://aclanthology.org/2023.findings-emnlp.345.pdf?ref=maginative.com
具体来说,任务定向微调能够通过使用目标任务的训练数据对模型进行微调,提高其在特定任务上的性能。答案采样则可以生成多个候选答案,并评估其概率分布,以帮助模型判断答案的可靠性。自我评估学习则通过学习自我评估能力,让模型能够更好地区分正确和错误答案,从而提高选择性预测性能。
实验数据显示,ASPIRE在不同数据集上均表现出了良好的性能。例如,在CoQA数据集上,ASPIRE框架将答案的准确性提升了,并且能够减少错误答案的生成;在TriviaQA数据集上,通过设置选择性分数阈值,ASPIRE能够更准确地判断出哪些问题的答案不可靠,从而避免生成错误答案;在Natural Questions数据集上,ASPIRE成功降低了错误答案的比例,提高了答案的质量。这些实验证明了ASPIRE框架的高效性和可行性,为大型语言模型的应用提供了重要的支持和保障。
ASPIRE框架的推出填补了大型语言模型在置信度校准方面的空白,为其在实际应用中的稳定性和准确性提供了有力保障。随着这一框架的不断完善和应用,相信大型语言模型在各个领域的表现将会更加出色,为人们带来更好的体验和服务。
0000
评论列表
共(0)条相关推荐
中国手机市场连续5个季度暴跌 越来越多手机卖不动!为啥年轻人不换新手机了?
快科技5月27日消息,近日,多家市调机构的报告显示,2023年一季度,全球手机市场出货量大幅下滑,一些知名品牌的手机出货量都同比两位数下降。值得注意的是,被寄予厚望的年轻消费者,也不再频繁更换新手机了。#为啥年轻人不换新手机了##手机销量差是因为卖的贵吗#等热搜话题引发热议。从媒体投票来看,现在手机够用、新手机价格贵/性价比低,成为当下阻碍年轻人换机的两个核心因素。站长网2023-05-27 10:22:190000对话千万粉博主王花花:美食赛道处于疲惫期,观众的嗨点完全不一样了
最近热播剧《偷偷藏不住》里女主角爱吃的芋泥香酥鸭,被美食博主王花花复刻出来了。在这之前,她曾花费两个月时间做一碗从米粉到小料完全自制的螺蛳粉、用十余只乳猪还原“麻皮烤乳猪”,在抖音账号“王花花的厨房历险记”(下文简称“厨房历险记”)中创作了多个点赞超百万的爆款视频。截至发稿前,“厨房历险记”的复刻地方美食系列抖音播放量超过8.9亿,仅麻皮烤乳猪系列的8个视频,抖音播放量便超过1.3亿。站长网2023-07-10 09:51:280000千万门槛费,海底捞谨慎“加盟”
“我的目标肯定是要开遍全球。”2018年,海底捞登陆港交所的时候,创始人张勇在媒体面前就毫不避讳地展露出自己的野心。如今海底捞全球版图已扩张至新加坡、越南、韩国、英国等十多个国家,国内开店的步伐也同样在加速。站长网2024-03-12 16:14:220000女子优酷追剧惊现3000秒广告 重进后恢复正常
浙江一位女士在看电视时遇到了一则50多分钟的广告,比一集电视剧还长。她将这一特殊经历发到了短视频平台上,并配文:“优酷,你别太过分了”。根据她所说,当时她正在优酷平台观看电视剧《长月烬明》。在该短视频的评论区,女士今天中午回应称并不是每一集都会有3000多秒的广告,前几集都是正常的100多秒,只是这一集出现了问题,但返回重进就好了。站长网2023-04-12 13:19:100000Soul上线自研语言大模型SoulX 赋能社交关系和内容链路
新型社交平台Soul近日宣布上线自研语言大模型SoulX。该模型基于海量数据训练,具备prompt驱动、条件可控生成、上下文理解、多模态理解等能力,能够在保证对话流畅、自然、具备情感温度的同时,覆盖百种细粒度风险类别,保证了大模型的内容生产质量和安全性。0002