Meta新语言模型Humpback 遵循指令能力超越LLaMa模型
站长网2023-08-17 13:49:450阅
本文概要:
1. Meta 开发了一种方法,使大型语言模型能够在不依赖人工注释或更强大的模型的情况下,迭代地提高其遵循指令的能力。
2. 该方法使用了一种名为 "指令回译(instruction backtranslation)" 的技术,通过自我增强和自我管理的两步过程来优化语言模型的表现。
3. 使用该方法,Meta 的研究人员开发的 Humpback65B 模型在 Alpaca 指令跟踪基准测试中取得了最先进的结果。
Meta 的研究人员开发了一种名为 "指令回译(instruction backtranslation)" 的新技术,用于提高大语言模型的指令跟踪能力。该技术可对 LLaMa 等大型语言模型进行微调以遵循指令,而无需依赖昂贵的人工注释或从 GPT-4等更强大的模型进行提炼。
这一方法包括自我增强和自我管理两个步骤。在自我增强阶段,模型从未标记的文本语料库中生成候选指令 - 响应对,并预测哪些指令会引发相应的响应。
然后,在自我管理阶段,模型对候选对进行评分和筛选,只保留得分最高的子集。通过这种迭代的自我训练过程,模型学习生成更好的指令,并能够更好地区分高质量的示例。
Metas 研究人员表明,这种方法可以带来强大的指令跟踪性能,优于之前使用相同规模的 LLaMa 模型的工作。Meta 的研究人员通过这一方法开发的 Humpback65B 模型在 Alpaca 指令跟踪基准测试中取得了最先进的结果,超过了其他竞争模型如 Anthropics Claude、Guanaco、LIMA 和 Falcon-Instruct 的性能。
研究人员表示,他们计划通过考虑更大的未标记语料库来进一步扩展这一方法,从而获得更好的效果。
0000
评论列表
共(0)条相关推荐
视频号双11激励政策来了
近日,视频号发布了双11直播4大激励政策。这些激励政策包括流量券的激励,以及技术服务费费率的下调等。活动期间,只要满足视频号开播条件,并通过视频号直播选择“购物”类目开播开通橱窗功能的品牌、商家和达人,即可获得流量等激励。站长网2023-10-10 11:23:040000LLaMA微调显存需求减半,清华提出4比特优化器
大模型的训练和微调对显存要求很高,优化器状态是显存主要开销之一。近日,清华大学朱军、陈键飞团队提出了用于神经网络训练的4比特优化器,节省了模型训练的内存开销,同时能达到与全精度优化器相当的准确率。4比特优化器在众多预训练和微调任务上进行了实验,在保持准确率无损的情况下可将微调LLaMA-7B的显存开销降低多达57%。论文:https://arxiv.org/abs/2309.01507站长网2023-09-08 18:15:500000OpenAI推出声音克隆新技术:复刻你的声音仅需15秒
快科技3月31日消息,据媒体报道,OpenAI公司最近推出了一项革命性的声音克隆技术VoiceEngine”。据悉,VoiceEngine通过文本输入和15秒的音频样本,便能生成与原始说话者声音极为相似、情感丰富且自然逼真的语音。这一技术的研发始于2022年,并已应用于公司现有的文本转语音API和ReadAloud功能中的预设语音。0001Firefox引入AI检测工具Fakespot 可识别虚假评论
划重点:-在在线购物的广阔领域中,辨别真实的产品评论和虚假评论变得越来越困难。-Mozilla的Firefox将整合评论检查工具,以解决这一问题。-Mozilla收购了Fakespot这款工具,用于检测欺诈性在线评论,并将被无缝集成到Firefox中。站长网2023-10-18 21:24:300000DuckDuckGo将搜索引擎中引入AI生成的回答内容
最近,DuckDuckGo宣布了一款名为DuckAssist的新工具,该工具“自动从维基百科提取和总结信息以回答某些问题”。据了解,该工具目前处于测试阶段,仅适用于DuckDuckGo的移动应用程序和浏览器扩展,但该公司计划在试用顺利的情况下将其添加到基于网络的搜索引擎中。站长网2023-04-18 10:47:250000