腾讯 AI Lab联合多家学术机构发布大模型幻觉问题评估
要点:
1、大模型幻觉主要分为与输入、上下文及事实冲突的三类,研究热点在第三类。
2、相比传统模型,大模型幻觉评估面临数据规模大、通用性强、不易察觉等新难题。
3、缓解幻觉可从预训练、微调、强化学习、推理等方面入手,但仍有可靠评估等挑战。
近年来,大规模语言模型在许多下游任务上表现强劲,但也面临着一定的挑战。其中,大模型生成的与事实冲突的“幻觉”内容已成为研究热点。近期,腾讯 AI Lab 联合国内外多家学术机构发布了面向大模型幻觉工作的综述,对幻觉的评估、溯源、缓解等进行了全面的探讨。
论文链接:https://arxiv.org/abs/2309.01219
Github 链接:https://github.com/HillZhang1999/llm-hallucination-survey
研究者根据大模型幻觉与用户输入、模型生成内容及事实知识的冲突,将其分为三大类。目前研究主要集中在与事实知识冲突的幻觉上,因为这最易对用户产生误导。与传统语言生成任务中幻觉问题不同,大模型幻觉面临数据规模巨大、模型通用性强以及幻觉不易被察觉等新难题。
针对大模型幻觉的评估,已提出多种生成式和判别式的基准,以问答、对话等不同任务形式检验模型的幻觉倾向。这些基准各自设计了判定幻觉的指标,但可靠的自动评估仍有待探索。分析认为,海量低质训练数据以及模型对自身能力的高估是导致幻觉的重要原因。
为减少幻觉,可从预训练、微调、强化学习等多个阶段进行干预。预训练可关注语料质量;微调可人工检查数据;强化学习可惩罚过度自信的回复。此外推理阶段,也可通过解码策略优化、知识检索、不确定度测量等方式缓解幻觉。尽管取得一定进展,可靠评估、多语言场景、模型安全性等方面仍存在诸多挑战。总体来说,大模型幻觉的评估与缓解仍有待深入研究,以促进大模型的实际应用。
“偏科”的国产大模型:长于文本、弱于数理、作画凑合
国产大模型集体交答卷了。8月31日,首批11家国产大模型获批上线,包括百度的“文心一言”、商汤科技的“商量SenseChat”、智谱AI的“智谱清言”、MiniMax的“ABAB”、上海人工智能实验室的书生通用大模型、抖音的“云雀”、百川智能的“百川”以及中科院旗下的“紫东太初”、科大讯飞的“讯飞星火认知大模型”、阿里“通义千问”、360智脑。站长网2023-09-04 15:40:360000字节跳动旗下火山引擎发布大模型训练云平台:支持万卡级大模型训练
字节跳动旗下的云计算厂商火山引擎今日在其举办的「原动力大会」上发布自研DPU等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络,弹性计算可节省70%算力成本。基于自研DPU的GPU实例,相比上一代集群性能最高提升三倍以上。站长网2023-04-18 14:15:210000ChatGPT Plus会员可以在最新测试版中上传和分析文件
🔍划重点:1.ChatGPTPlus会员可以在最新测试版上传和分析文件,不再需要手动切换模式。2.新功能将ChatGPTEnterprise计划的办公功能引入了独立的个人聊天机器人订阅。3.ChatGPT不仅限于文本文件,还可以处理多媒体内容,如图片生成。站长网2023-10-30 09:57:260000ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%
【新智元导读】6月,IEEE刊登了一篇对ChatGPT代码生成任务进行系统评估的论文,数据集就是程序员们最爱的LeetCode题库。研究揭示了LLM在代码任务中出现的潜在问题和能力局限,让我们能够对模型做出进一步改进,并逐渐了解使用ChatGPT写代码的最佳姿势。有了ChatGPT,还需要人类程序猿编码吗?站长网2024-07-09 11:51:420000哔哩哔哩第二季度营收49亿元 平均日活跃用户达8350万
哔哩哔哩今天发布第二季度财报。财报显示,哔哩哔哩第二季度营收49亿元同比增长9%。其中游戏收入为10.46亿元,上年同期收入12.33亿元;增值服务收入21亿元,同比增长29%;广告收入11.58亿元,同比增长10%;电子商务及其他收入6.01亿元,同比增长4%。B站预计第三季度营收为56亿元至58亿元。站长网2023-04-12 15:48:250000