智源联合共建单位开源可信中文互联网语料库CCI
站长网2023-11-29 14:10:581阅
智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(CCI),旨在为大数据和人工智能行业提供安全、可靠的语料资源。
该语料库经过严格的筛选和清洗,包括基于规则和模型的过滤,以及针对评测数据集的严格过滤。首期开放的数据规模为104GB,时间跨度为2001年至2023年。
图源备注:图片由AI生成,图片授权服务商Midjourney
智源研究院表示,将继续扩充数据来源、完善数据处理流程,提供更多高质量、可信的数据资源。
同时,智源研究院还开放了其他高质量中文数据集,如 WUDAO copora、COIG 和 MTP。
下载地址:
智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-CCI
HuggingFace:https://huggingface.co/datasets/BAAI/CCI-Data
0001
评论列表
共(0)条相关推荐
小米汽车最早二季度交付 卢伟冰:海外销售时间尚不确定
站长之家(ChinaZ.com)2月27日消息:近日,小米公司高管卢伟冰在接受外媒采访时透露了关于小米汽车的最新动态。这款备受期待的小米汽车耗资巨大,高达100亿美元(约721亿元人民币),旨在覆盖从入门级到豪华级的广泛市场。小米团队为这款车型精心考虑了多个价位点,以满足不同消费者的需求。对于广大消费者关心的售价问题,卢伟冰表示小米将很快揭晓其定价策略,并透露国内交付最快将于今年第二季度开始。站长网2024-02-27 10:02:490000日本政府计划利用人工智能系统检测以应对熊袭击事件
根据政府消息人士透露,日本政府正计划测试人工智能系统,以更好地检测野熊。上一财年,19个县发生了创纪录的198起熊袭击人类事件,造成219人受伤、6人死亡。该系统旨在利用监控摄像头图像立即发现熊并向当局发出警报。试点测试计划于今年夏天在富山县开始。如果成功的话,该系统可以在全国范围内使用。站长网2024-05-01 15:06:500000微软应用商店在美国推出 “AI 摘要” 功能 可根据评价生成总结
微软应用商店推出了一项名为"AI摘要"的功能,该功能可以根据用户对应用的评价生成总结。这项功能旨在为用户提供一种快速、简便的方式来了解用户对应用的评价和观点,并为想要下载该应用的用户提供参考。该功能可以在几秒钟内将数千条在线评论总结成一段简洁的文字,并突出显示最重要的观点。该功能目前仅适用于美国Windows11用户,但预计将来会推广到更多国家和地区。站长网2023-08-17 10:03:190001小鹏P7+正式发布:智能驾驶系统全系标配 高阶智驾终身免费
小鹏汽车在今日的发布会上揭开了其P7系列新成员P7的神秘面纱。公司创始人何小鹏亲自上台,对这款新车进行了详细的介绍。他强调,P7是一款融合了SUV设计理念的轿跑车型,拥有C级车型的尺寸和D级车型的空间,被形容为"三合一的新物种"和"空间怪物"。站长网2024-10-15 11:44:520000