一次通过率73%,开源代码大模型WizardCoder超越最新GPT-4以外所有闭/开源模型
这几天,代码大模型领域又热闹了起来!
先是 Meta 开源代码专用大模型Code Llama,且免费商用。效果也非常好,Code Llama 在 HumanEval 和 MBPP 代码数据集上的一次生成通过率(pass@1)轻松超越 GPT-3.5,其中「Unnatural」版本的 pass@1逼近了原始 GPT-4(OpenAI 在今年3月 GPT-4技术报告中的数据)。
Code Llama 发布仅一天,来自Phind组织的研究人员用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4。他们的两个模型 Phind-CodeLlama-34B-v1以及 Phind-CodeLlama-34B-Python-v1在 HumanEval 分别实现67.6% 和69.5% 的 pass@1,显然都超越了原始 GPT-4的67%。
不过,仅仅又过了一天,Phind 微调版 Code Llama 又迎来了一个强劲的对手。这次是 WizardLM 团队的编程专用大模型 WizardCoder。
该团队推出了基于 Code Llama 的最新版本模型 WizardCoder34B,它利用 Evol-Instruct 进行微调而成。
结果显示,它在 HumanEval 上的 pass@1达到了惊人的73.2%,超越了原始 GPT-4、ChatGPT-3.5以及 Claude2、Bard。此外,WizardCoder13B 和7B 版本也将很快到来。
GitHub 地址:https://github.com/nlpxucan/WizardLM/tree/main/WizardCoder
Huggingface:https://huggingface.co/WizardLM/WizardCoder-Python-34B-V1.0
此次具体版本是 WizardCoder-Python-34B-V1.0,下图是与主流闭源和开源模型的 HumanEval pass@1比较。除了最新 API 的 GPT-4(该团队测试后得到的结果是82.0%),该模型超越了所有闭源和开源模型,包括最新 API 的 ChatGPT(72.5%)和原始 GPT-4(67%)。
因此,WizardCoder-Python-34B-V1.0成为了最新的 SOTA 开源代码大模型。
WizardLM 团队还表示,WizardCoder-Python-34B-V1.0的性能百分之百是可以复现的。
想要体验 WizardCoder-Python-34B-V1.0的小伙伴可以尝试以下 demo。
demo 地址:https://47.103.63.15:50085/
有人表示,在试了 demo 后发现,提供准确代码之前似乎有 COT(思维链)在起作用,这非常棒。
还有人表示,WizardCoder-Python-34B-V1.0要比 GPT-4犯的错更少。
不过运行 WizardCoder-Python-34B-V1.0需要32GB 以上的 mac。
WizardLM 团队会带来更多惊喜
WizardCoder 在成为代码家族一员已经不是新鲜事,但是 WizardLM 团队每次都会给大家带来不一样的惊喜。
斯坦福发布的大语言模型排行榜 AlpacaEval 是一种基于 LLM 的全自动评估基准,且更加快速和可靠。很多著名的模型如 GPT-4、ChatGPT 等都在其上刷榜单。在这其中,WizardLM13B V1.2依旧在第六位。
WizardLM 是由 Can Xu 等人在2023年4月提出的一个能够根据复杂指令生成文本的大型语言模型。它使用了一个名为 Evol-Instruct 的算法来生成和改写指令数据,从而提高了指令的复杂度和多样性。 WizardLM 共有三个版本:7B、13B 和30B。
WizardLM 推出的指令微调代码大模型 ——WizardCoder,更是打破了闭源模型的垄断地位,在 HumanEval 和 HumanEval 上优于 Anthropic 的 Claude 和 Google 的 Bard。
更值得一提的是,WizardCoder 还大幅度地提升了开源模型的 SOTA 水平,创造了惊人的进步,提高了22.3% 的性能,成为了开源领域的新晋「领头羊」。
以下为 WizardLM 团队在 GitHub 上发布的诸多模型,这些模型是该团队不断创新、改进的足迹。
WizardLM 团队在 WizardLM 与 WizardCoder 之后,还在今年八月中旬公布了 WizardMath。该团队还发推文表示,自己一直在致力于解决各个学科复杂的问题。
那么未来 WizardLM 团队还会带给我们怎样的惊喜,让我们拭目以待。
腾讯宣布打造一站式行业大模型精选商店
据新浪科技报道,今日下午,在腾讯云行业大模型及智能应用技术峰会上,腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生宣布,腾讯云MasS将创建一站式行业大模型精选商店。据介绍,该商店将覆盖金融、文旅、政务、传媒、教育等十大行业,并提供超过50个解决方案。客户可以在这些能力模型的基础上,加入自己独有的场景数据,快速生成专属模型。站长网2023-06-20 11:54:240000Dashtoon 融资 500 万美元,为数字漫画创作部署生成式人工智能
站长之家(ChinaZ.com)11月3日消息:随着文本至图像的人工智能Diffusion模型的出现,为数字漫画领域揭示了一个充满希望的机遇。加利福尼亚州的Dashtoon公司抓住这个机会,致力于将这项尖端技术推广到全世界的故事讲述者者中。站长网2023-11-03 16:37:070000Mistral AI推首个代码生成模型Codestral 支持多种编程语言
MistralAI推出了其首个代码生成模型Codestral,这是一个功能强大的工具,旨在帮助开发者提高编码效率和质量。以下是Codestral的一些关键特性和优势:支持多种编程语言:Codestral能够支持超过80种编程语言,包括当前流行的语言如Python、Java、C、C、JavaScript和Bash,以及一些较少使用的如Swift和Fortran。站长网2024-05-30 10:37:500000奥克斯诉格力侵权获赔5849万 涉及“压缩机”发明专利
近日,天眼查App公布了两起侵害发明专利权纠纷案件的一审判决书。这两起案件涉及奥克斯空调股份有限公司与珠海格力电器股份有限公司。在案件中,原告奥克斯公司以“压缩机”发明专利权被侵害为由提起诉讼,要求被告格力公司分别赔偿经济损失及合理维权开支共计3996.17万元和3332万元。该专利申请于2000年8月11日,并于2004年9月29日获得授权公告,后被转让至奥克斯公司名下。0000OpenAI 正在与 Helion Energy 洽谈“购买大量”聚变能源
据《华尔街日报》报道,西雅图地区的核聚变公司HelionEnergy正在与OpenAI洽谈一项重大交易,计划为后者的数据中心提供大量电力。OpenAI首席执行官兼联合创始人SamAltman已向Helion投资3.75亿美元,并担任该公司董事会主席。据报道,Altman在此次交易谈判中回避了直接参与。站长网2024-06-04 14:56:290000