DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%
当前,大型语言模型(LLM)在推理任务上表现出令人惊艳的能力,特别是在给出一些样例和中间步骤时。然而,prompt 方法往往依赖于 LLM 中的隐性知识,当隐性知识存在错误或者与任务不一致时,LLM 就会给出错误的回答。
现在,来自谷歌、Mila 研究所等研究机构的研究者联合探索了一种新方法 —— 让 LLM 学习推理规则,并提出一种名为假设到理论(Hypotheses-to-Theories,HtT)的新框架。这种新方法不仅改进了多步推理,还具有可解释、可迁移等优势。
论文地址:https://arxiv.org/abs/2310.07064
对数值推理和关系推理问题的实验表明,HtT 改进了现有的 prompt 方法,准确率提升了11-27%。学到的规则也可以迁移到不同的模型或同一问题的不同形式。
方法简介
总的来说,HtT 框架包含两个阶段 —— 归纳阶段和演绎阶段,类似于传统机器学习中的训练和测试。
在归纳阶段,LLM 首先被要求生成并验证一组训练样例的规则。该研究使用 CoT 来声明规则并推导答案,判断规则的出现频率和准确性,收集经常出现并导致正确答案的规则来形成规则库。
有了良好的规则库,下一步该研究如何应用这些规则来解决问题。为此,在演绎阶段,该研究在 prompt 中添加规则库,并要求 LLM 从规则库中检索规则来进行演绎,将隐式推理转换为显式推理。
然而,该研究发现,即使是非常强大的 LLM(例如 GPT-4)也很难在每一步都检索到正确的规则。为此,该研究开发了 XML tagging trick,来增强 LLM 的上下文检索能力。
实验结果
为了评估 HtT,该研究针对两个多步骤推理问题进行了基准测试。实验结果表明,HtT 改进了少样本 prompt 方法。作者还进行了广泛的消融研究,以提供对 HtT 更全面的了解。
他们在数值推理和关系推理问题上评估新方法。在数值推理中,他们观察到 GPT-4的准确率提高了21.0%。在关系推理中,GPT-4的准确性提高了13.7%,GPT-3.5则获益更多,性能提高了一倍。性能增益主要来自于规则幻觉的减少。
具体来说,下表1显示了在算术的 base-16、base-11和 base-9数据集上的结果。在所有 base 系统中,0-shot CoT 在两个 LLM 中的性能都最差。
表2呈现了在 CLUTRR 上比较不同方法的结果。可以观察到,在 GPT3.5和 GPT4中,0-shot CoT 的性能最差。对于 few-shot 提示方法,CoT 和 LtM 的性能相似。在平均准确率方面,HtT 始终比两种模型的提示方法高出11.1-27.2%。值得注意的是,GPT3.5在检索 CLUTRR 规则方面并不差,而且比 GPT4从 HtT 中获益更多,这可能是因为 CLUTRR 中的规则比算术中的规则少。
值得一提的是,使用 GPT4的规则,GPT3.5上的 CoT 性能提高了27.2%,是 CoT 性能的两倍多,接近 GPT4上的 CoT 性能。因此,作者认为 HtT 可以作为从强 LLM 到弱 LLM 的一种新的知识蒸馏形式。
表3显示,HtT 显著提高了 GPT-4(文本版)的性能。对于 GPT3.5来说,这种改进并不显著,因为在处理文本输入时,它经常产生除规则幻觉以外的错误。
谷歌即将面向企业和开发者提供Gemini Pro API服务
划重点:-💡谷歌通过API向企业和开发者提供了其最强大的大型语言模型Gemini的初步功能。-💡Gemini分为Ultra、Pro和Nano三个规格,并已经通过谷歌云的VertexAI平台提供给企业使用。-💡GeminiPro的API目前免费使用,但每分钟最多只能查询60次,后续将推出按需付费版本。站长网2023-12-14 10:27:490000Intel频频错失良机!放弃收购NVIDIA、拒绝入股OpenAI
快科技10月28日消息,Intel在过去多年里,错过了多次可能改写公司乃至整个科技行业历史的机会。据报道,2005年,时任CEO的PaulOtellini提出了以20亿美元收购当时规模尚小的GPU公司NVIDIA,但遭到了董事会的反对。如今,NVIDIA凭借在AI和GPU技术上的领先地位,市值已高达3.3万亿美元,而Intel却面临着财务困境,甚至传出可能被高通收购的消息。0000Evernote 已裁掉大部分美国员工 并将把大部分业务转移到欧洲
笔记应用公司Evernote昨天宣布解雇了大部分位于美国和智利的员工。现在,意大利母公司BendingSpoons将大部分Evernote的业务转移到欧洲。图片来自Evernote该公司表示,此举旨在「提高运营效率,并充分利用BendingSpoons在欧洲非常强大的雇主品牌」。站长网2023-07-10 15:59:470000这个搞钱的生意太绝了!
各位村民好,我是村长。普通人绝对想不到或看不上这个生意!就算脑海里有这样的念头,也是一闪而过,最终没有落地。今天就和大家简短的聊一聊,文章不长。核心目的还是启发大家,做些思路延展,不要思维定式,多思考别人为什么能行。01大量真实的小需求今天要分享的这个生意是提供各种合同模板工具的,比如收入证明、工作证明、租房合同、离职证明、承诺保证书、授权委托等等。1、收入模式站长网2024-06-01 21:38:300001AIGC消灭不了内容创作者
ChatGPT带动的AIGC越来越火,以至于很多行业的人都担心要失业了。最新的ChatGPT-4.0会绘画、编程、写论文、创作音乐,简直“无所不能”。更广泛意义上的AIGC能够取代的岗位包括原画师(人物、场景、动作等的设计师)、插画师、UI设计师、美宣设计师、文案、主播、真人模特等。站长网2023-05-23 09:15:060000