微软Orca 2完胜!推理能力与5-10倍大小的模型相当
站长网2023-11-23 14:44:453阅
要点:
1、Orca2是一个13亿参数的语言模型,通过增强的训练信号提高了小型语言模型的推理能力,与5-10倍于其大小的模型相比具有相当甚至更好的性能。
2、Orca2旨在教导小型语言模型利用一系列推理技巧,并帮助其确定适合特定任务的最有效推理策略。
3、Orca2通过采用谨慎推理技术,即 Prompt Erasure,不仅可以执行具体的推理步骤,还可以在更高层面上制定任务处理策略。
微软研究团队推出的13亿参数模型 Orca2在近期发布的一篇论文中探索了如何提升小型语言模型的推理能力。通过增强的训练信号,Orca2能够在与其大小相似的模型中取得与5-10倍更大的模型相媲美甚至更好的性能。

Orca2的目标是教导小型语言模型采用一系列推理技巧,并帮助其确定对于特定任务最有效的推理策略。与其前身 Orca1类似,研究团队借鉴了更强大的大型语言模型的推理策略,并根据小型模型的能力进行了细致调整。
Orca2采用了一种谨慎推理技术,即 Prompt Erasure,使其成为一种谨慎的推理者。这种技术使模型不仅能够执行具体的推理步骤,还能够在更高层面上制定任务处理策略。与盲目模仿强大的大型语言模型不同,研究团队将其视为行为库,从中精心选择适合当前任务的行为。

在实证研究中,研究人员对 Orca2在15个基准测试中进行了全面评估,涵盖了约100个任务和超过36,000个独特提示。结果显示,Orca2在与其大小相似的模型上明显优于它们,甚至在需要高级推理的任务上与5-10倍更大的模型相媲美甚至超过。
这项工作标志着推动小型语言模型推理能力的重要一步。研究团队相信,提升小型模型的能力将为不同的应用部署场景开辟新的可能,并在效率和功能之间找到平衡。
0003
评论列表
共(0)条相关推荐
抖音祭出“九一开分成”,小游戏价格战即将打响?
2024年,小游戏市场的竞争正日渐白热化。喧腾的潮流中,全行业对小游戏业务的重视程度可谓前所未有,入局掘金的大小厂商不断涌现。与此同时,关乎小游戏的竞争绝不仅仅发生在开发者之间。作为中文互联网上最引人注目的两大平台阵地,微信与抖音显然都不愿意错过小游戏这座百亿量级的超级富矿。于是,在奔向同一增长机遇的旅途中,它们注定狭路相逢。站长网2024-04-22 09:08:070000字节跳动开源基于SD1.5的 MagicAnimate 一张照片秒变真人舞蹈视频
从今天起,在社交平台上看到的小姐姐舞蹈短视频很可能就是AI生成的。字节跳动新开源基于SD1.5的MagicAnimate,它只需要一张照片和一组动作,就能生成近似真人的舞蹈视频。项目地址:https://github.com/magic-research/magic-animate站长网2023-12-05 10:51:220000小米最强游戏神器来了:8.8英寸天玑9400+平板
快科技1月3日消息,小尺寸平板是目前公认手游体验最好的设备,甚至被直接称为游戏机”,因为其机身和电池比手机更大,散热续航都明显更强,屏幕又更大。博主数码闲聊站最新曝光了小米小尺寸平板的信息,该机将在Q3和天玑9400手机一起发布,也就是REDMIK80至尊版同期。配备8.8英寸左右的定制高刷LCD屏,采用无孔圆角设计。0000京东集团CEO徐雷退休 CFO许冉将出任京东CEO
2023年5月11日,京东集团宣布,京东集团CFO许冉升任CEO,负责集团各业务的日常运营和协同发展,向京东集团董事会及主席刘强东先生汇报。京东集团原CEO徐雷先生因个人原因提出退休申请,经集团董事会批准,尊重并同意徐雷先生退休申请。京东物流集团CFO单甦先生升任京东集团CFO。站长网2023-05-11 18:06:440000星火语音大模型发布:在首批37个主流语种上超越OpenAI
快科技1月30日消息,星火语音大模型首次发布。据了解,星火语音大模型由多语种语音合成,在首批37个主流语种上已整体超越OpenAI公司推出的Whisper-large-v3,保持科大讯飞智能语音技术的国际领先水平。不仅如此,星火语音大模型在首批40个语种平均MOS分绝对提升0.25;MOS达到了4.5,拟人度达到了83%以上。站长网2024-01-30 16:44:080000