腾讯 AI Lab联合多家学术机构发布大模型幻觉问题评估
要点:
1、大模型幻觉主要分为与输入、上下文及事实冲突的三类,研究热点在第三类。
2、相比传统模型,大模型幻觉评估面临数据规模大、通用性强、不易察觉等新难题。
3、缓解幻觉可从预训练、微调、强化学习、推理等方面入手,但仍有可靠评估等挑战。
近年来,大规模语言模型在许多下游任务上表现强劲,但也面临着一定的挑战。其中,大模型生成的与事实冲突的“幻觉”内容已成为研究热点。近期,腾讯 AI Lab 联合国内外多家学术机构发布了面向大模型幻觉工作的综述,对幻觉的评估、溯源、缓解等进行了全面的探讨。

论文链接:https://arxiv.org/abs/2309.01219
Github 链接:https://github.com/HillZhang1999/llm-hallucination-survey
研究者根据大模型幻觉与用户输入、模型生成内容及事实知识的冲突,将其分为三大类。目前研究主要集中在与事实知识冲突的幻觉上,因为这最易对用户产生误导。与传统语言生成任务中幻觉问题不同,大模型幻觉面临数据规模巨大、模型通用性强以及幻觉不易被察觉等新难题。
针对大模型幻觉的评估,已提出多种生成式和判别式的基准,以问答、对话等不同任务形式检验模型的幻觉倾向。这些基准各自设计了判定幻觉的指标,但可靠的自动评估仍有待探索。分析认为,海量低质训练数据以及模型对自身能力的高估是导致幻觉的重要原因。
为减少幻觉,可从预训练、微调、强化学习等多个阶段进行干预。预训练可关注语料质量;微调可人工检查数据;强化学习可惩罚过度自信的回复。此外推理阶段,也可通过解码策略优化、知识检索、不确定度测量等方式缓解幻觉。尽管取得一定进展,可靠评估、多语言场景、模型安全性等方面仍存在诸多挑战。总体来说,大模型幻觉的评估与缓解仍有待深入研究,以促进大模型的实际应用。
小米提交8个折叠屏相关商标申请:小米大折、小米小折都来了
快科技6月11日消息,来自中国商标网的信息显示,小米已提交小米小折叠”、小米大折叠”等8个折叠屏相关商标的申请。相关页面显示,上述商标申请日期均为2024年5月21日,申请人为小米科技有限责任公司,包括小米大折”小米小折”小米小折叠”小米大折叠”等。据此前消息,小米全新一代折叠屏旗舰MIXFold4已经入网,认证显示该机将支持天通卫星通信。站长网2024-06-12 00:07:190000vivo千询AI助手开放下载 基于蓝心大模型打造
在最近一次的vivo开发者大会上,vivo发布了一款名为“蓝心千询”的自然语言对话机器人,这款机器人是基于蓝心大模型的。vivo表示,这款机器人将向所有手机品牌开放使用。目前,“蓝心千询”应用已经正式在vivo官方应用商店上架,所有品牌的手机都可以通过下载APK文件来安装使用。站长网2023-11-20 18:02:450002小米14 Ultra首发金沙江电池:续航提升17%达5300mAh
明天(2月22日)小米14Ultra将正式亮相,而今天,官方提前放出了一则令人振奋的消息:这款新品将首发小米金沙江电池,标志着小米在电池技术上的又一重大突破。据悉,这款全新金沙江电池以其高达779Wh/L的能量密度,荣登小米史上能量密度最高的电池宝座。在如此强大的技术支持下,小米14Ultra的续航能力预计将提升高达17%,为用户带来更加持久的使用体验。站长网2024-02-21 14:20:290000软银计划在人工智能项目上投入 90 亿美元
划重点:1.📈软银计划在人工智能领域投资近90亿美元,是过去12个月投资金额的两倍多。2.🍏苹果公司将在即将举行的开发者大会上推出人工智能技术,希望通过其庞大的用户基础成为最大的人工智能参与者。3.🤖苹果公司的人工智能项目仍在不断发展中,可能将AI功能推出作为预览版。站长网2024-05-27 16:34:350000京东自营推出“免费上门退换”服务 将覆盖超九成第三方商家
随着春节假期的结束,京东服务再次迎来了全新的升级。这一次,京东自营率先推出了“免费上门退换”服务,为消费者带来了前所未有的便利。凡是打标有“免费上门退换”标签的商品,无论大小、轻重,还是数量多少,都可以享受到免费上门退换的待遇。这意味着用户不再需要为退换货支付任何运费,既省钱又省心,还省去了自行处理的繁琐过程。站长网2024-02-22 14:04:210000