智源联合共建单位开源可信中文互联网语料库CCI
站长网2023-11-29 14:10:581阅
智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI),旨在为大数据和人工智能行业提供安全、可靠的语料资源。
该语料库经过严格的筛选和清洗,包括基于规则和模型的过滤,以及针对评测数据集的严格过滤。首期开放的数据规模为104GB,时间跨度为2001年至2023年。

图源备注:图片由AI生成,图片授权服务商Midjourney
智源研究院表示,将继续扩充数据来源、完善数据处理流程,提供更多高质量、可信的数据资源。
同时,智源研究院还开放了其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP。
下载地址:
智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-CCI
HuggingFace:https://huggingface.co/datasets/BAAI/CCI-Data
0001
评论列表
共(0)条相关推荐
没想到,以后刷朋友圈也得看直播带货了
微信不再克制。视频号直播可以投放朋友圈了没人能躲得了直播带货。近日,微信广告上线了一个重磅新功能:视频号直播广告通投能力。通俗来讲,以后商家在视频号发布短视频或直播时,可以将内容直接同步投放到“公域”朋友圈。站长网2024-01-12 14:14:550000苹果 15 英寸 MacBook Air 面板生产中 或于 WWDC23 正式发布
受人尊敬的显示器分析师RossYoung今天在与用户分享的一条推文中说,大屏幕的15英寸MacBookAir的面板生产在2月开始,3月增加产量,4月计划再次增加。随着生产的进行,Young表示他不知道其「精确的推出时间」,但它有可能在「4月底/5月初」推出。站长网2023-04-12 12:59:590000谷歌员工集体打脸劈柴,25%新代码AI生成夸大事实!Linux之父怒斥90%都是营销
【新智元导读】谷歌超25%新代码由AI生成,却遭到了自家员工的反对。劈柴的一句话,又让谷歌成为了众矢之的。「谷歌内部超1/4新代码,全是由AI生成的」!上周,CEO劈柴在Q3财报会议上的一句话,瞬间点燃了全网的激烈讨论。AI生成的代码再由工程师进行审核,能够帮助工程师完成更多的工作,加快开发效率然而,也正是这句话,劈柴却遭到了自家员工「打脸」。站长网2024-11-05 17:08:210000141家上市大厂被AI耍了,谷歌意外成帮凶
141家上市大厂在AI生成内容的垃圾网站上投广告……自己却可能毫不知情???一份最新分析报告显示,今年5-6月,在55个AI生成内容的网站上,一共出现了多达393个广告投放。涉及到的厂家包括6家大银行和金融服务公司、4家奢侈品百货、3家知名运动品牌等等。一个实例而这些“抢”广告的网站很可能是无人监管的。站长网2023-06-29 04:07:160000国光电器涨停 称搭载ChatGPT的智能音箱将于本月推出
今日,国光电器在互动平台表示,公司积极布局ChatGPT相关产品,目前已与多个客户在该领域展开合作。公司与某国内客户合作研发的一款能搭载ChatGPT的智能音箱将于本月推出。公司与海外客户在类似的产品上也有开展合作,公司后续将适时对外披露。今日收盘,国光电器A股涨停,报16.92元。站长网2023-05-08 18:03:380000