首页站长资讯UIUC发布StarCoder2-15B-Instruct代码大模型无需OpenAI数据登上性能榜单

UIUC发布StarCoder2-15B-Instruct代码大模型无需OpenAI数据登上性能榜单

站长网2024-05-16 10:16:310阅

UIUC与BigCode组织的研究者们最近发布了StarCoder2-15B-Instruct代码大模型，这一创新成果在代码生成任务方面取得了显著突破。这款模型成功超越了CodeLlama-70B-Instruct，登上了代码生成性能榜单之巅。

StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略，整个训练流程公开透明，且完全自主可控。通过自我生成数千个指令-响应对，直接对StarCoder-15B基座模型进行微调，无需依赖昂贵的人工标注数据，也无需从商业大模型中获取数据，避免了潜在的版权问题。

在HumanEval测试中，StarCoder2-15B-Instruct以72.6%的Pass@1成绩脱颖而出，较CodeLlama-70B-Instruct的72.0%有所提升。在LiveCodeBench数据集的评估中，这一自对齐模型的表现甚至超越了基于GPT-4生成数据训练的同类模型，证明了通过自身数据训练的大模型同样能够有效地学习如何与人类偏好对齐。

StarCoder2-15B-Instruct的数据生成流程主要包括种子代码片段的采集、多样化指令的生成和高质量响应的生成三个核心步骤。种子代码片段的采集是通过从开源代码片段中选取高质量、多样化的种子函数开始的。然后，基于这些种子函数的不同编程概念，StarCoder2-15B-Instruct能够创建出多样化且真实的代码指令。最后，通过自我验证的方式确保生成的响应是准确且高质量的。

StarCoder2-15B-Instruct在备受瞩目的EvalPlus基准测试中表现出色，超越了规模更大的Grok-1Command-R 和DBRX，并与Snowflake Arctic480B和Mixtral-8x22B-Instruct等业界翘楚性能相当。此外，在LiveCodeBench和DS-1000等评估平台上也展现出了强大的实力。

该项目的成功实施得到了美国东北大学Arjun Guha课题组、加州大学伯克利分校、ServiceNow和Hugging Face等机构的鼎力支持。

StarCoder2-15B-Instruct-v0.1的发布标志着研究者们在代码模型自我调优领域迈出了重要一步。这款模型的成功实践展示了通过自我调优同样能够构建出性能卓越的代码模型。同时，该模型的开源数据集和训练流程为未来该领域的研究和发展奠定了坚实的基础。

模型地址:https://huggingface.co/bigcode/starcoder2-15b-instruct-v0.1

UIUC发布StarCoder215BInstruct代码大模型无需OpenAI数据登上性能榜单

0000

评论列表

共(0)条

相关推荐

站长资讯
格力回应奥克斯诉侵权获赔5849万：不实信息已被驳回
今日凌晨，格力电器发布声明，针对近期关于“奥克斯诉格力侵权获赔”的不实信息进行澄清。格力表示，经查证，最高人民法院知识产权法庭已于2023年12月7日和8日就相关系列案件作出二审终审裁判。判决认定奥克斯所购买的专利不符合授权条件，应予以无效。同时，裁定撤销宁波中院和杭州中院的相关判决，驳回奥克斯的起诉。
站长网2023-12-27 08:26:09
0000
站长资讯
特斯拉宣布涨价！雷军：只有特斯拉敢涨价足见其市场地位
近日，特斯拉中国传出消息，其旗下ModelY车型将在4月1日迎来价格调整，预计售价将上涨5000元人民币。这一消息引发了汽车行业内的广泛关注，特别是同为行业领军人物的雷军对此发表了看法。
站长网2024-03-21 23:19:58
0000
站长资讯
何小鹏建议加速飞行汽车应用落地推动飞行汽车产业发展
2024年全国两会盛大召开，小鹏汽车董事长兼CEO何小鹏作为全国人大代表，带来了关于无人驾驶、车网融合及飞行汽车应用等前沿科技领域的建议。何小鹏建议，针对充电市场的结构性矛盾，可以探索限定场景的夜间低速无人驾驶。他提出，在具备条件的地方和城市，选取主干道附近的公共充电站，试点开放夜间低速无人驾驶，并允许具备技术条件的车企开展相关试点活动。这一举措旨在激活夜间充电场景，提升充电基础设施的利用率。
站长网2024-03-04 17:23:42
0000
站长资讯
苏宁易购618将于5月26日晚8点开启预售
今日，苏宁易购发布“618家电新底价计划”，全面开启2023年618大促。据了解，苏宁易购618将于5月26日晚8点开启预售，覆盖开门红、超级秒杀日、超级会员日、超级新品日、抢冰洗、家电省钱风暴、最终爆发期等多个双线促销节点。
站长网2023-05-24 16:46:34
0000
站长资讯
魔法AI:专注为跨境电商提供AI服务适应不同营销场景
魔法AI是一家专注于生成式AI领域的科技公司，旨在通过前沿的AI技术来创造内容。该公司成立于2021年，由一批人工智能，算法方面的技术人员组成，主要为跨境电商提供文案及图片，提高点击率和销售转化率，同时为外贸工作者，媒体工作者，办公文员提供办公助手，让工作变得轻松高效。体验地址:https://www.mofaai.com.cn/
站长网2023-09-12 18:04:04
0000