数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品
用AI生成的指令微调羊驼大模型,数学能力超ChatGPT——
微软最新开源大模型WizardMath来了。

如下图所示,经过GSM8k数据集测试,WizardMath数学能力直接击败了ChatGPT、Claude Instant1、PaLM2-540B等一众大模型——
并且是在参数只有700亿,远不及后三者的情况之下。

HuggingFace已上线3个在线可玩版本(分别为7B、13B和70B参数),各种数学题可以直接丢进去试一试。
比如解决下面这道四次多项式方程:

或者是一道简单的微积分:

亦或者是稍微修改过的拉格朗日方程推导:

它都全部正确(过程也不需要等太久)。
有网友向作者表示:
效果真的很惊人,感谢你们对开源LLM的贡献。

目前,相关代码、复现方式以及论文也都开源或上线,GitHub短短几天已揽获4.8k标星。

那么,WizardMath究竟是如何做到的?
用AI生成的指令增强大模型能力
OpenAI的大模型(InstructGPT、GPT-4等)能够取得巨大成功、去执行各种复杂和多样化的任务,一部分原因是使用了真实人类用户生成的开放域指令数据进行了微调。
然而,不是谁都能像这家公司一样获得这样的指令数据集。
一是因为整个注释过程极其昂贵且耗时,二是人工难以创建出足够比例的高难度指令。
因此,开发出一种成本相对较低的、大规模开放域指令自动生产方法,成为当下指令调优语言模型的关键。
在此,作者将他们的方法命名为Evol Instruction。
它是一种利用AI来代替人类自动生成涵盖各种难度级别开放域指令的新方法。
具体而言,Evol Instruction分为指令进化器和指令消除器。
其中指令进化器可通过深度进化(蓝线)或广度进化(红线)两种路径,将简单指令升级为更复杂的指令或创建一条全新指令。
具体执行哪一条?随机选择就好。

其中,深度进化的具体“进化法”,则是通过五种类型的操作来完成,包括:
添加约束(add constraints)、深化(deepening)、具体化(concretizing)、增加推理步骤(increase reasoning steps)和使输入复杂化(complicate input)。
由于所有指令均由AI完成,有时难免会出现错误。因此,指令消除器就是用于过滤失败指令的。
以下是一个具体示例,该方法从“1 1=?”开始,最终通过以上步骤自动生成了相当多的新指令。

通过重复这一生成过程,最终我们就能得到足够多的指令,然后将它们合并并随机打乱,组成一个难度级别均匀分布的指令集,就可以对基础大模型进行微调了。
在此,作者选择Alpaca的训练数据(仅由175条人工创建的种子指令生成)作为初始数据集,然后使用ChatGPT的API执行了四个进化周期,最终获得25万条指令。
为了与Vicuna的70k真实用户数据(ShareGPT)进行公平比较,作者从这25万条数据中抽取了等量的样本,训练LLaMA7B模型,最终得到WizardLM,结果WizardLM的性能明显优于Vicuna。
(Alpaca:斯坦福在LLaMa-7B基础上微调出来的模型;Vicuna,UC伯克利在LLaMa-13B的基础上微调得来)
此外,在更为复杂的测试指令下,人类更喜欢WizardLM的输出,而非ChatGPT,这表明该方法可以显着提高LLM处理复杂指令的能力。
基于此,作者又利用Evol Instruction生成了很多数学领域相关的指令,然后微调羊驼大模型,得到了WizardMath。
其效果如开头所示,在GSM8k数据集上测得其数学能力超越包括ChatGPT、Claude Instant1、PaLM2-540B等一众大模型,位列第5名,仅次于GPT-4、Claud1.3和2.0,以及5400亿参数的Flan-PaLM2之后。
以此类推,作者还在羊驼之上得到了专攻代码能力的WizardCoder,效果超越Claude和Bard(详情可戳文末地址)。

团队介绍
本文共9位作者,全华人。
一作有3位:
Can Xu,微软亚洲互联网工程院S D NLP组高级应用科学家,之前曾在微软小冰研究组和微软亚研院从事聊天机器人系统工作;
Qingfeng Sun, Microsoft Research科学家,研究方向为自然语言处理和信息检索,精通构建高效搜索系统,为Microsoft Bing和Office365贡献了核心深度模型;
Kai Zheng,Microsoft Research科学家,研究方向为自然语言处理、搜索和推荐排名,同样为Microsoft Bing和Office365贡献了核心深度模型。

通讯作者为姜大昕,微软全球合伙人、副总裁、前微软亚洲研究院首席科学家,在微软工作16年有余、曾作为微软必应搜索引擎和Cortana智能助手自然语言理解负责人,日前已被曝离职投身大模型创业。
另还有一位作者Jiazhan Feng,是北大学生,这篇合著论文是TA在微软实习时产出的。
项目主页:https://github.com/nlpxucan/WizardLM/tree/main/WizardMath
论文地址:
https://arxiv.org/abs/2304.12244(WizardLM)
https://arxiv.org/abs/2306.08568(WizardCoder)
—完—
陪伴10亿人的AI!西湖心辰再获汤姆猫战略投资,打造超高情商通用大模型
【新智元导读】未来的大模型,拼的就是情商。而这位CMU博士带领的顶尖团队,要打造的就是高智商高情商、更懂人心的通用大模型。自去年12月ChatGPT率先出圈以来,国内各家互联网巨头纷纷宣布入局AI大模型。在百度、阿里、腾讯、美团等大厂群雄逐鹿之时,一家位于西湖边的低调企业异军突起,凭借顶流的技术团队和差异化的大模型路线,获得了众多资本青睐。站长网2023-07-10 16:49:200000马斯克将砍掉X(推特)“拉黑”功能:负面反馈是一件好事
科技巨头马斯克最近在推特上发表了一条推文,宣布未来将取消屏蔽某人的功能,并认为这一功能毫无意义。据了解,推特目前提供了隐藏和屏蔽两个选项。隐藏功能包括隐藏特定账号的推文以及隐藏整个对话,这意味着用户将不再看到该账号的相关内容。而屏蔽功能则能阻止其他人查看用户的推文、关注用户以及与用户互动。这一功能与国内社交应用的“拉黑”功能相似,它能防止被拉黑的人查看自己的内容,让用户更加掌握主动权。站长网2023-08-21 09:23:150000抢「.AI」域名,成了 3000 万美元的大生意
1848年,一个木匠在加利福尼亚州科罗马地区的一条河中偶然发现了金箔。尽管他曾试图保守这个秘密,但是金子不会说谎,一场席卷全美的淘金热就此开始,许多人怀揣着一夜暴富的梦想涌入加利福尼亚。1847到1870年间,圣弗朗西斯科的人口从500暴涨至了15万,这个城市也被冠以了「金山」的称号。站长网2023-09-11 09:22:490000微软和首席执行官 Satya Nadella 正在赢得大型科技公司人工智能的认知战
站长之家(ChinaZ.com)8月22日消息:近期,微软公司及其首席执行官SatyaNadella最近发布了一系列公告,似乎在人工智能和基于生成式预训练转换的大型语言模型的融合方面走在了前列。站长网2023-08-22 12:00:580000我喝速溶咖啡,成了鄙视链最底层
最近,咖啡爱好者Jessica又囤了一批咖啡,区别于囤咖啡豆、囤咖啡粉的消费者,Jessica囤的都是速溶咖啡。“现在虽然都复工啦,但是谁的办公桌上还没几袋速溶咖啡呢?快点扔掉你们的雀巢吧。”在Jessica的这条有7000点赞的小红书分享后面,她还附上了自己喜欢的几个咖啡品牌,并细心做了口味比较。站长网2023-04-15 09:26:570000