羊驼进化成鲸鱼,Meta把对齐「自动化」,Humpback击败现有全部LLaMa模型
数据质量很重要。
这一年来,以 ChatGPT 和 GPT-4为代表的大语言模型(LLM)发展迅速,紧随其后,Meta 开源的 LLaMa、Llama2系列模型在 AI 界也引起的了不小的轰动。但随之而来的是争议不断,有人认为 LLM 存在一些不可控的风险,给人类生存构成一些潜在威胁。
为了应对这些挑战,对 LLM 对齐的研究变得越来越重要,有研究者提出指令跟随(instruction following),但这种方法需要大量的人工注释。然而,注释如此高质量的指令跟随数据集耗费巨大。
本文来自Meta AI 的研究者提出了一种可扩展的方法即指令回译(instruction backtranslation),该方法通过自动注释相应的指令来构建高质量的指令跟随语言模型。
论文地址:https://arxiv.org/pdf/2308.06259.pdf
具体而言,该研究从一个语言模型开始,并作为种子模型,该模型在少量的种子数据以及 web 语料库上进行了微调。种子模型的作用是用来构建训练样本,然后这些样本中的一些高质量样本将会被筛选出来,接着,这些数据被用来微调一个更强大的模型。
经过两轮迭代的数据集对 LLaMa 进行微调,所产生的模型 Humpback 在 Alpaca 排行榜上优于其他现有的非蒸馏模型,如 LIMA、Claude、Guanaco 等。
Humpback 原意为座头鲸,又名驼背鲸,Meta 将模型命名为 Humpback,也别有深意吧。
之所以称为指令回译,研究者表示这借鉴了机器翻译中经典的反向翻译方法,其中人类编写的目标句子会自动用模型生成的另一种语言的源句子进行注释。
图灵奖得主 Yann LeCun 高度概括了这项研究的方法,并称赞 Meta 这项工作为对齐研究做出重要贡献:
还有网友对这项研究进行了很好的概括:数据质量对大模型来说确实很重要,研究过程中,他们使用不同级别的过滤数据,微调了一个模型,结果表明,只有最好的样本才能得出比其他样本表现更好的模型。
该论文提出了一种需要两个步骤完成的新的数据增强范式。首先,必须拥有一组种子(指令、输出)对和语料库才能生成更多好的指令数据。
下图比较了 Humpback 与一些开源模型和专有模型。
下表4表明,本文方法在65B 和33B 模型尺度上都是非蒸馏模型中表现最好的模型。
下面我们看看具体方法。
方法简介
该研究提出了一种自训练方法(self-training),该方法通常假定可以访问基本语言模型、少量种子数据和未标记的样本集(例如网络语料库)。未标记数据往往是一大堆形态各异的文档,由人类编写,其中包括人类感兴趣的各种话题内容,但最重要的是没有与指令进行配对。
这里还有两个关键的假设,第一个假设是这个非常大的文本集(未标记样本集)存在一些子集,适合作为某些用户指令的生成样本。第二个假设是可以预测这些候选答案的指令,这些指令可以用于形成高质量样本对,以训练指令遵循模型。
如下图1所示,该研究提出指令回译过程包含两个核心步骤:
自增强:为未标记的数据(即网络语料库)生成指令,以为指令调优产生训练数据对(指令 - 输出)。
自管理:自主选择高质量样本数据作为训练数据,以微调基础模型来遵循指令,这种方法是迭代完成的。
其中,自管理步骤采用的 prompt 如下表1所示:
实验及结果
本文的数据集主要包括种子数据和增强数据,具体信息如表2和图2所示:
图3表示尽管扩大了数据规模,但没有自我管理(self-curation)的增强数据用来训练模型并不能提高指令跟随性能。
下图比较了不同指令调优数据集的数据效率。
数据和模型的联合扩展:该研究发现在7B 模型中观察到的数据扩展趋势同样也适用于更大的模型。例如对65B 的种子模型增加高质量的增强数据会带来进一步的改进。
常识推理:该研究在五个常识推理基准上进行了测试,SIQA 、PIQA、Arc-Easy、Arc-Challenge 和 Openbook QA (OBQA) , 结果总结于表5中。结果表明,与基础模型相比,本文模型在社会推理等多个方面的表现有所提高。
MMLU:表6总结了不同模型在 MMLU(massive multitask language understanding)的结果。与基础模型相比,本文微调模型提高了零样本准确率,但在5个样本上下文示例中表现不佳。
李开复称其创立的AI公司零一万物估值已超10亿美元 发布大模型Yi-34B
划重点:-中国知名AI科学家李开复成立了一家名为零一万物(01.AI)的初创公司,致力于为中国市场开发本土大型语言模型(LLM)。-该公司在成立仅七个月后发布了首个开源模型Yi-34B,该模型是双语(英语和中文)基础模型,训练参数达到340亿个,在HuggingFace的排名中位居前列。站长网2023-11-06 10:10:020000华为发布ULTIMATE DESIGN非凡大师产品 华为WATCH黄金版
在今天的秋季全场景新品发布会上,华为常务董事、终端BGCEO、智能汽车解决方案BU董事长余承东发表了演讲。余承东宣布,华为发布全新超高端品牌ULTIMATEDESIGN非凡大师。他表示,历经多年沉淀,华为推出极致美学、极致工艺、极致创新的集大成者,从PORSCHEDESIGN到ULTIMATEDESIGN,品牌实现全面升级。站长网2023-09-25 15:38:240000三大征兆已经出现,要过苦日子了?你有没有察觉
劳动力调查显示,目前职工总数4亿人左右,而快递员、网约配送员、网约车司机、货车司机等新就业形态劳动者8400万人,占据将近21%,另农民工2.9亿人;职工平均年龄38岁、平均受教育年限近14年(介于高中和大学之间)。电子商务、餐饮外卖和生鲜电商的兴起,推动了快递员、网约配送员这一职业的发展。网约车行业的兴起则是因为消费者对出行方式的需求变化,以及网约车平台的兴起和普及。站长网2023-04-17 18:04:320000挣钱不应是大家梦想!董明珠:我真不差钱 培养更多年轻人才最重要
快科技3月5日消息,对于外界传闻的董明珠不差钱的说法,其本人也是公开回应。董明珠表示,自己真的不差钱,但要解决的是培养更多的年轻人,让他们能够施展才华。在这之前,董明珠曾表示,现在的年轻人太过于浮躁,总觉得拿到大学文凭就是人才,这是不对的。在董明珠看来,赚钱是因为你做出了成绩以后所得到的收获,不是说去要就能有的,不是拿了一个大学文凭就是人才。0000调查:企业高管不介意员工用ChatGPT等AI工具搞副业,只要能完成任务
文章概要:1.超过70%的高管表示,拥有AI技能的员工应该比没有这些技能的员工获得更高的薪水。2.研究表明,大多数高管愿意允许员工使用AI技术来完成多项工作,只要这有助于更快地完成任务。3.对于懂得使用人工智能的员工,高管们也倾向于提供晋升机会,认为他们能够创造更高质量的工作或在更短时间内完成任务。站长网2023-09-22 11:24:480000