智源研究院开源代码生成训练数据集与评测基准TACO
站长网2023-12-25 18:52:261阅
TACO 是一个专注于算法的代码生成数据集,旨在为代码生成模型提供更具挑战性的训练数据集和评测基准。
与当前主流代码评测基准相比,TACO 在数据规模、数据质量和细粒度评测方案上具有明显优势。它包括更大规模的训练集和测试集,每个题目都具备多样化的解题答案,并提供了细粒度的标签,如任务主题、算法、编程技能和难度等级。
实验结果表明,当前流行的代码生成模型在 TACO 评测中与 GPT-4存在显著差异,说明这一领域仍有巨大的提升空间。
TACO 数据集不仅提供了一个挑战性的测试方法,还能作为研究和改进模型性能的训练数据。通过社区的共同努力,可以激发更多创新的解决方案,进一步推动代码生成领域的发展。

具体特性如下:
规模更大:TACO 包括训练集(25443道题目)和测试集(1000道题目),是当前规模最大的代码生成数据集。
质量更高:TACO 数据集中的每个题目都尽可能匹配多样化的解题答案,答案规模高达155万条,确保训练时模型不易过拟合以及评测结果的有效性。
提供细粒度标签:TACO数据集中每个题目均包含任务主题、算法、技能及难度等细粒度标签,为代码生成模型的训练与评测更精确的参考。
TACO 开源地址:
论文:https://arxiv.org/abs/2312.14852
智源开放数据仓库:https://data.baai.ac.cn/details/BAAI-TACO
GitHub:https://github.com/FlagOpen/TACO
Hugging Face:https://huggingface.co/datasets/BAAI/TACO
新鲜AI产品点击了解:https://top.aibase.com/
0001
评论列表
共(0)条相关推荐
萌宠经济爆发!谁在靠“毛孩子”闷声发财?
2025年,春节假期“红红火火”,消费市场“热气腾腾”,一片繁荣景象。这期间,一股新的消费潮流也逐渐蔓延开来,即“毛孩子经济”。据悉,春节期间,宠物年夜饭市场火爆程度令人咋舌。0000联想发布AI算力两款服务器WA7780G3、WA5480G3
在中国算力大会上,联想推出了两款新的AI服务器——WA7780G3和WA5480G3。这两款服务器旨在帮助构建更绿色、更高效的人工智能数据中心,满足客户在算法训练、推理和超大规模训练等多样化的算力需求。据悉,AI大模型训练服务器WA7780G3和AI训推一体服务器WA5480G3已准备交付应用。站长网2023-08-19 15:30:560000618淘宝好价节正式上线 近百万商家报名
日前,为期10天的618淘宝好价节正式上线。据了解,这是淘宝首次在618大促期间推出面向中小商家的专属营销通道,也是电商行业首次大力度定向补贴中小商家。除确定性的流量支持外,年成交百万以下的商家及新开店的商家将获得流量推广补贴。目前,已有近百万商家报名参与,其中近半是新商家。站长网2023-06-05 21:29:300000抖音本地生活的流量富矿,才挖了一尺
2023年的主题毫无疑问是消费。出行管控的放开,线下海量客流的回归,正在催生一轮轮消费浪潮涌向实体门店。而那些最强劲的风潮,往往从抖音发端。这两天,瑞幸联名茅台的新品酱香拿铁席卷了全网,抖音则是酱香拿铁热度传播的核心阵地。根据瑞幸官方数据,酱香拿铁在抖音的首发专场直播,用4个小时卖出了超1000万销售额。从9月1日到9月4日,瑞幸咖啡在抖音平台新增了100万用户。站长网2023-09-09 11:35:460001笑疯了,AI换装大法让奥特曼都性感起来了。
最近两天,我的X被一个AI虚拟换衣项目给刷屏了。然后,冒出来了各种奇奇怪怪的图片。比如皮衣老黄直接爆改成可爱硬汉。还有整活必备人物特朗普。你别说,特朗普和这衣服的适配度还挺高。我居然觉得生成的图片毫无违和感。接下来出场的,是性感版奥特曼。最好玩还是一个有着一千多万浏览量的帖子,它是这么说的。然后机智的网友就出手了。站长网2024-09-03 15:10:010000