谷歌最新技术:通过搜索引擎,极大增强ChatGPT等模型的准确率
由于Transformer的出现,使得ChatGPT等大语言模型在处理自然语言任务上的能力得到了大幅度提升。但生成的内容却包含大量错误或过时的信息,同时缺乏事实性评估体系,来验证内容的真伪。
为了全面评估大语言模型对世界变化的适应能力和内容的真实性,谷歌AI研究团队发布了一篇名为《通过搜索引擎知识增强大语言模型的准确性》的论文。提出了一种FRESHPROMPT的方法,可通过从搜索引擎获取实时信息,来提升ChatGPT、Bard等大型语言模型的准确性。
研究人员构建了一个新的问答基准测试集FRESHQA,其中包含600个各类真实问题,答案变化频率分为“永不改变”“变化缓慢”“变化频繁”和“错误前提”四大类别。
同时,还设计了严格模式和宽松模式两种评估方法,前者要求回答中的所有信息必须准确最新,后者仅评估主要回答的正确性。
实验结果显示,FRESHPROMPT明显提升了大语言模型在FRESHQA上的准确率。例如,GPT-4在FRESHPROMPT的严格模式帮助下,比原始GPT-4提升了47%准确率。
此外,相比于直接扩大模型的参数,这种融合搜索引擎的方法更加灵活,可以为已有模型提供动态的外部知识源。实验结果也证明FRESHPROMPT可以明显提升大语言模型在需要实时知识的问题上的准确率。
论文地址:https://arxiv.org/abs/2310.03214
开源地址:https://github.com/fresh大语言模型s/freshqa (正在筹备中,将很快开源)
从谷歌论文内容来看,FRESHPROMPT的方法主要由5大模块组成。
构建FRESHQA基准测试集
为了全面评估大语言模型对变化世界的适应能力,研究人员首先构建了FRESHQA基准测试集,其包含600个真实的开放域问题,根据答案变化的频率可以分为“永不改变”“变化缓慢”“变化频繁”和“错误前提”四大类别。
1)永不改变:答案基本不会改变的问题。
2)变化缓慢:答案每几年改变一次的问题。
3)变化频繁:答案每年或更短时间内就可能改变的问题。
4)错误前提:包含不正确前提的问题。
这些问题涵盖各种话题,具有不同的难度级别。FRESHQA的关键特点是答案可能会随时间变化,所以模型需要具备对世界变化的敏感认知能力。
严格模式与宽松模式评估
研究人员提出了两个评估模式:严格模式要求回答中所有信息必须准确最新,宽松模式仅评估主要答案的正确性。
这提供了更全面和细致的方式来测量语言模型的事实性。
基于FRESHQA评估不同大语言模型
在FRESHQA上,研究人员比较了涵盖不同参数的大语言模型,包括GPT-3、GPT-4、ChatGPT等。评估采用严格模式(要求无错误)和宽松模式(仅评估主要答案)。
结果发现,所有模型在需要实时知识的问题上表现较差,尤其是频繁变化和错误前提的问题。这说明当前大语言模型对变化世界的适应力存在局限。
从搜索引擎中检索相关信息
为提高大语言模型的事实性,FRESHPROMPT的核心思路是从搜索引擎中检索问题相关的实时信息。
具体而言,给定一个问题,FRESHPROMPT会将其作为关键词查询谷歌搜索引擎,获取包含答案框、网页结果、“其他用户也问”等多种类型的搜索结果。
通过稀疏训练整合检索信息
FRESHPROMPT使用稀疏训练(few-shot learning)的方式,将检索到的各个证据以统一格式整合到大语言模型的输入提示中,同时提供几个示范,说明如何综合这些证据得出正确回答。
这样可以教会大语言模型去理解这个任务,并整合不同来源的信息来推理出最新准确的答案。
谷歌表示,FRESHPROMPT对提升大语言模型的动态适应能力具有重要意义,这也是大语言模型未来技术研究的一个重要方向。
本文素材来源谷歌论文
分享10个好用的手机必装APP,娱乐工作缺一不可!
分享10个手机里必装的APP,包括5个工具类APP和5个娱乐类APP,每一个都非常实用且人性化,能给你的工作生活提供方便。阿里旗下的一款在线文档和知识管理工具。用它来建立知识库和大纲条理非常清晰,而且可以添加标签,方便分类检索,相当于给自己的零碎记录编上了档。里面提供非常多的免费模板,可以一键套用,用来做每日复盘、读书笔记、工作计划等都非常好用。站长网2023-05-24 00:43:340000当知乎开始认真编故事
记得几年前,大家对于知乎最多的调侃,莫过于“分享你刚编”的故事,但现在,在知乎编故事正在成为官方盖章的新板块。自2019年在盐选专栏上线“故事”一栏后,今年5月,知乎正式将社区内的盐选故事独立分拆,推出“盐言故事”App,用户可以使用知乎账户授权登录,保留盐选会员的全部权益。0000横店,到底相不相信AI?
横店,一个被竖屏短剧占领的地方,正在被AI分成两半。一半是对AI兴趣缺缺的短剧制造者们。在横店的各种拍摄招募信息中,周期为3~7天的项目占去了大部分的版面,数不清的演员、导演、摄影师、化妆师组成了稳定的生产流水线,把扇巴掌、下跪、撒钞票这些程序化的情节组合在一起,源源不断地制造出霸屏抖快的土味短剧。“99%的短剧都是实拍。”在7月的一场活动中,快手文娱业务负责人陈弋弋说道。站长网2024-07-25 15:46:1500010门槛!用ChatGPT只花1天批量生成300个爆火TikTok视频
不露脸,不怕视频也能从TikTok赚到钱?在过去30天,有人通过这个方式预计至少获得了超过1万美金的广告分成收益。这些成功账号的共同特点是,所有内容都是利用自动化流程批量生产出来的,而且不需要自己拍摄视频或者露脸,却能够获得巨大的收益。利用当下最火的AI人工智能工具,如ChatGPT,仅需花费一天的时间,就能批量生产300条以上热门的视频内容。寻找另类变现方式站长网2023-11-16 16:50:300001Windows、Mac只是装了个夸克,整个电脑都AI了!
家人们,阿里的AI产品夸克,这两天悄咪咪搞了个大事儿——夸克PC端上线,可以在Windows和Mac中尽情体验啦。然后“啪的一下”,PC们就秒变成AI电脑了!而且在本就不多的“PC端生产力工具”中,夸克还玩出了独树一帜的特色。例如打开夸克PC端,首先映入眼帘的便是其看家本领——搜索,还是带AI“味道”的。我们不妨以最近的顶流话题《黑神话:悟空》为例,向它提出一个稍有难度的总结性问题:站长网2024-08-30 01:19:550001