首页站长资讯一次通过率73％，开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型

一次通过率73％，开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型

站长网2023-08-28 14:01:414阅

这几天，代码大模型领域又热闹了起来!

先是 Meta 开源代码专用大模型Code Llama，且免费商用。效果也非常好，Code Llama 在 HumanEval 和 MBPP 代码数据集上的一次生成通过率（pass@1）轻松超越 GPT-3.5，其中「Unnatural」版本的 pass@1逼近了原始 GPT-4(OpenAI 在今年3月 GPT-4技术报告中的数据)。

Code Llama 发布仅一天，来自Phind组织的研究人员用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4。他们的两个模型 Phind-CodeLlama-34B-v1以及 Phind-CodeLlama-34B-Python-v1在 HumanEval 分别实现67.6% 和69.5% 的 pass@1，显然都超越了原始 GPT-4的67%。

不过，仅仅又过了一天，Phind 微调版 Code Llama 又迎来了一个强劲的对手。这次是 WizardLM 团队的编程专用大模型 WizardCoder。

该团队推出了基于 Code Llama 的最新版本模型 WizardCoder34B，它利用 Evol-Instruct 进行微调而成。

结果显示，它在 HumanEval 上的 pass@1达到了惊人的73.2%，超越了原始 GPT-4、ChatGPT-3.5以及 Claude2、Bard。此外，WizardCoder13B 和7B 版本也将很快到来。

GitHub 地址:https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder

Huggingface:https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0

此次具体版本是 WizardCoder-Python-34B-V1.0，下图是与主流闭源和开源模型的 HumanEval pass@1比较。除了最新 API 的 GPT-4（该团队测试后得到的结果是82.0%），该模型超越了所有闭源和开源模型，包括最新 API 的 ChatGPT(72.5%)和原始 GPT-4(67%)。

因此，WizardCoder-Python-34B-V1.0成为了最新的 SOTA 开源代码大模型。

WizardLM 团队还表示，WizardCoder-Python-34B-V1.0的性能百分之百是可以复现的。

想要体验 WizardCoder-Python-34B-V1.0的小伙伴可以尝试以下 demo。

demo 地址:https://47.103.63.15:50085/

有人表示，在试了 demo 后发现，提供准确代码之前似乎有 COT（思维链）在起作用，这非常棒。

还有人表示，WizardCoder-Python-34B-V1.0要比 GPT-4犯的错更少。

不过运行 WizardCoder-Python-34B-V1.0需要32GB 以上的 mac。

WizardLM 团队会带来更多惊喜

WizardCoder 在成为代码家族一员已经不是新鲜事，但是 WizardLM 团队每次都会给大家带来不一样的惊喜。

斯坦福发布的大语言模型排行榜 AlpacaEval 是一种基于 LLM 的全自动评估基准，且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。在这其中，WizardLM13B V1.2依旧在第六位。

WizardLM 是由 Can Xu 等人在2023年4月提出的一个能够根据复杂指令生成文本的大型语言模型。它使用了一个名为 Evol-Instruct 的算法来生成和改写指令数据，从而提高了指令的复杂度和多样性。 WizardLM 共有三个版本:7B、13B 和30B。

WizardLM 推出的指令微调代码大模型 ——WizardCoder，更是打破了闭源模型的垄断地位，在 HumanEval 和 HumanEval 上优于 Anthropic 的 Claude 和 Google 的 Bard。

更值得一提的是，WizardCoder 还大幅度地提升了开源模型的 SOTA 水平，创造了惊人的进步，提高了22.3% 的性能，成为了开源领域的新晋「领头羊」。

以下为 WizardLM 团队在 GitHub 上发布的诸多模型，这些模型是该团队不断创新、改进的足迹。

WizardLM 团队在 WizardLM 与 WizardCoder 之后，还在今年八月中旬公布了 WizardMath。该团队还发推文表示，自己一直在致力于解决各个学科复杂的问题。

那么未来 WizardLM 团队还会带给我们怎样的惊喜，让我们拭目以待。

一次通过率73开源代码大模型WizardCoder超越最新GPT4以外所有闭开源模型

0004

评论列表

共(0)条

相关推荐

站长资讯
高通腾讯音乐推出 “骁龙臻品音质” 利用AI丰富音乐细节
高通技术公司和腾讯音乐娱乐集团合作推出了业界首创的“骁龙臻品音质”。通过利用骁龙移动平台的强大AI计算性能，在终端侧高效运行QQ音乐臻品音质AI模型算法，为用户带来更丰富的音乐细节、更有层次的听感以及更持久的音乐享受时长。该技术将作为QQ音乐超级会员的音频聆听选项上线，并限时专享于使用搭载骁龙移动平台智能手机的用户。
站长网2023-09-27 10:51:06
0002
站长资讯
“中古品”火爆出圈，二奢商家批量打造爆款直播间
“GUGGI千万不要去专柜买，卖二手折一半都不止。”“这款包现在公价已经超3万，今天在直播间只要几千就能拿下。”“不是专柜买不起，而是二手更有性价比!”随着各平台直播业务日益繁荣，各行各业的商家纷纷投身其中，作为时尚“弄潮儿”的奢侈品玩家们更是不遑多让，早早在直播间内“摆起舞台”。
站长网2024-03-07 08:38:41
0004
站长资讯
百度网盘在苹果App Store下架官方回应：紧急沟通中
针对“百度网盘在苹果AppStore应用商店下架”的情况，百度网盘官方回应称，已经在紧急沟通中，请耐心等待，可以先在百度APP小程序端使用网盘。此前，苹果AppStore页面显示，目前百度网盘App已无法从AppStore搜索到，输入“百度网盘”仅能搜索到百度网盘青春版。
站长网2023-06-02 00:11:23
0002
站长资讯
YY直播诉丫丫直播商标侵权胜诉获赔 300 万元
广州知识产权法院近日就YY直播与“丫丫直播”“吖吖直播”商标侵权一案作出终审判决，驳回广州市九浚信息技术有限公司等五家公司的上诉，维持一审原判。判决认定“丫丫直播”和“吖吖直播”侵害了YY直播的商标权，并要求这五家公司共同承担高达300万元的惩罚性赔偿，并全额支付二审案件受理费用。
站长网2024-05-09 23:07:16
0000
站长资讯
Factory旨在利用人工智能自动化软件开发生命周期
要点1.Factory是一家旨在利用AI自动化软件开发生命周期的公司，其Droids系统用于执行软件工程中的重复、枯燥但通常耗时的任务。2.Factory的Droids系统包括代码审查、代码重构、生成新代码等任务，旨在提高开发效率和减轻工程师的负担。3.Factory计划长期培训自己的AI模型，以构建完全自动化的工程AI系统，以满足客户需求并提高软件工程的可访问性。
站长网2023-11-03 18:19:18
0001