智源开源中英文语义向量模型训练数据集MTP
站长网2023-09-18 09:26:030阅
近日,智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。
这是全球最大的中、英文文本对训练数据集, 数据规模达3亿对,希望推动解决中文模型训练数据集缺乏问题。
据介绍,MTP(massive text pairs)中文记录达1亿条,英文数据达2亿条。MTP 是目前为止开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供了重要的基础。
该数据集包含了各种不同的数据源,包括 wudao、cmrc2018、dureader、simclue、csl、amazon_reviews_multi、wiki_atomic_edits、mlqa、xlsum 以及其他一些来自互联网的数据,如社区问答、新闻和文献等。
智源研究院表示,数据对大模型训练起着至关重要的基础作用,开源亦是人工智能发展的关键推动力量。作为中国大模型开源生态圈的代表机构,智源持续进行包括数据在内的大模型全栈技术开源,推动人工智能协同创新。
MTP数据集链接:
https://data.baai.ac.cn/details/BAAI-MTP
BGE 模型链接:
https://huggingface.co/BAAI
BGE 代码仓库:
https://github.com/FlagOpen/FlagEmbedding
0000
评论列表
共(0)条相关推荐
游戏大厂都在做的乙女手游,除了成人向还能怎么走?
根据中研研究院《2023-2028年中国移动游戏产业发展现状与市场运营研究报告》,在2022年中国移动游戏用户女性玩家的比例占到48.6%,与男性玩家的比例基本相当,产业规模达到850亿,在未来移动游戏行业中需要重视针对女性游戏的研发。而简乐尚博调研报告显示,2021年国内女性手游玩家占比达到47%,而2020年女性向游戏市场收入,仅占国内移动游戏市场销售收入的25%左右,市场份额提升空间巨大。站长网2023-07-29 09:54:040001国产AI机器人好超前…弹琴泡茶打咏春,还能撸猫??
什么水平,让海外最火AI机器人Figure的CEO都第一时间关注?国产人形机器人大秀肌肉,最新技能居然是弹琴泡功夫茶……和颠勺?!手握琴竹,精准轻巧敲击每根琴弦,演奏动听音乐。熟练泡一壶功夫茶,十几道工序、数个杯壶轻松拿捏。搞定一份香喷喷的华夫饼,最后还附送一个祖传颠勺。“闲情逸致”时还能带你练练咏春,这不就是机器人版叶师傅?注意哦,以上操作都是机器人独立自主完成,原倍速展示。站长网2024-08-19 17:00:040000《英雄联盟》回应主播霸哥涉嫌开挂:后台检测暂未发现异常
快科技3月3日消息,近日,知名游戏主播霸哥”身陷《英雄联盟》排位疑似开挂风波。事件起因是在一场排位中,霸哥”使用内瑟斯对线诺克萨斯之手,一波超职业选手的顶级预判遭到了诺克萨斯之手质疑,巧的是对方也是一名主播,于是就发视频分析霸哥”操作。随后,多位游戏主播也发视频称,霸哥”疑似开挂。日前,英雄联盟”B站官方账号在回复网友评论时对此事进行了回应。站长网2024-03-03 19:13:550000AI日报:iOS 18.1开发者测试版上线;Vidu视频生成模型上线;Gen-3 Alpha上线图生视频
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、苹果iOS18.1开发者测试版上线站长网2024-07-30 15:05:510000打工人年货节,在直播间学“分猪肉”
距离春节还不到两周,打工人还没放假,年味最先在网上蔓延开了。各大电商平台换上了大红大紫、龙腾遨游的“活动皮肤”,大主播(年货版)卖力地吆喝起来......打工人们分身乏术,一边准备着年会、述职,一边着急抢票,一边又操心起了家里的年货。站长网2024-01-29 16:03:360000