智源开源中英文语义向量模型训练数据集MTP
站长网2023-09-18 09:26:030阅
近日,智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。
这是全球最大的中、英文文本对训练数据集, 数据规模达3亿对,希望推动解决中文模型训练数据集缺乏问题。

据介绍,MTP(massive text pairs)中文记录达1亿条,英文数据达2亿条。MTP 是目前为止开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供了重要的基础。
该数据集包含了各种不同的数据源,包括 wudao、cmrc2018、dureader、simclue、csl、amazon_reviews_multi、wiki_atomic_edits、mlqa、xlsum 以及其他一些来自互联网的数据,如社区问答、新闻和文献等。
智源研究院表示,数据对大模型训练起着至关重要的基础作用,开源亦是人工智能发展的关键推动力量。作为中国大模型开源生态圈的代表机构,智源持续进行包括数据在内的大模型全栈技术开源,推动人工智能协同创新。
MTP数据集链接:
https://data.baai.ac.cn/details/BAAI-MTP
BGE 模型链接:
https://huggingface.co/BAAI
BGE 代码仓库:
https://github.com/FlagOpen/FlagEmbedding
0000
评论列表
共(0)条相关推荐
自动驾驶汽车运输安全服务指南发布 自动驾驶失效时至少要存90秒信息
近日,交通运输部办公厅印发了《自动驾驶汽车运输安全服务指南(试行)》。这份指南旨在确保自动驾驶汽车在运输过程中的安全性。其中明确指出,自动驾驶运输经营者应确保车辆技术状况良好,严格按照车辆使用说明书来运行。此外,自动驾驶汽车还应具备车辆运行状态信息记录、存储和传输的功能,以便向自动驾驶运输经营者和运营地有关主管部门实时传输关键运行状态信息。0000独立开发变现周刊(第132期):一个年收入1200万美元的在线Logo制作器
目录1、douyin-vue:开源的仿抖音|TikTok的移动端短视频项目2、【读者自荐产品】BrickCenter:免费生成乐高设计图3、Puter:一个开源的Web的桌面操作系统4、一个年收入1200万美元的在线Logo制作器1、douyin-vue:开源的仿抖音|TikTok的移动端短视频项目站长网2024-05-10 16:33:220000摆烂、扮丑、cosplay…人货不行,2023年搞直播,可以尝试玩玩“场”!
“来,321上链接!!!”早就审美疲劳,没意思了。老匡意思是,直播3要素人、货、场,如果你主播不行,供应链一坨屎,那干脆破罐子破摔,试试“场景创新”吧?也许能杀出一条血路也说不定。所谓“场创新”,即:直播间输出反串、cosplay、扮丑、油腻、辣眼睛等直播内容,最早的“睡觉打赏直播”,就是典型的“场景创新”案例,“睡觉直播间”的场景并非卖场,而是卧室与床。站长网2023-05-09 13:56:030001腾讯,游戏行业的「体验服」?
对腾讯游戏的质疑,总是时不时被捡起:错过二次元、错过开放世界……腾讯游戏是不是在几个新机会点上都慢人一步?他们到底把重点放在了哪里?其实对腾讯这种体量的厂商来说,想要回答这个问题,不能只看已经明牌的产品。站长网2023-11-14 18:13:500001大模型混战这一年: 进化之赛、效率之争、落地之战
日行千里,烈火烹油的两年过去,飞速发展的大模型行业怎么样了?与两年前“百模大战”为技术争夺的景象不同,玩家们有两个速度之争:一是技术迭代和产品更新的速度,二是商业化赚钱和应用落地的速度。技术和产品的迭代很直观,直接推动大模型行业的百舸争流。从语言大模型,到文生视频大模型,再到3D生成大模型,几乎每隔几个月就会有让人眼前一亮的大模型出现。0000