智源开源中英文语义向量模型训练数据集MTP
站长网2023-09-18 09:26:030阅
近日,智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。
这是全球最大的中、英文文本对训练数据集, 数据规模达3亿对,希望推动解决中文模型训练数据集缺乏问题。
据介绍,MTP(massive text pairs)中文记录达1亿条,英文数据达2亿条。MTP 是目前为止开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供了重要的基础。
该数据集包含了各种不同的数据源,包括 wudao、cmrc2018、dureader、simclue、csl、amazon_reviews_multi、wiki_atomic_edits、mlqa、xlsum 以及其他一些来自互联网的数据,如社区问答、新闻和文献等。
智源研究院表示,数据对大模型训练起着至关重要的基础作用,开源亦是人工智能发展的关键推动力量。作为中国大模型开源生态圈的代表机构,智源持续进行包括数据在内的大模型全栈技术开源,推动人工智能协同创新。
MTP数据集链接:
https://data.baai.ac.cn/details/BAAI-MTP
BGE 模型链接:
https://huggingface.co/BAAI
BGE 代码仓库:
https://github.com/FlagOpen/FlagEmbedding
0000
评论列表
共(0)条相关推荐
大模型时代的OCR,“CPU” 的味道更重了
经典技术OCR(光学字符识别),在大模型时代下要“变味”了。怎么说?我们都知道OCR这个技术在日常生活中已经普及开了,像各类文件、身份证、路标等识别,可以说统统都离不开它。而随着近几年大模型的不断发展,OCR也迎来了它的“新生机”——凭借自身可以将文本从图片、扫描文档或其他图像形式提取出来的看家本领,成为大语言模型的一个重要入口。在这个过程中,一个关键问题便是“好用才是硬道理”。站长网2023-06-30 19:48:560009SK 海力士发布全球首款 321 层 NAND 样品 助力生成式人工智能发展
站长之家(ChinaZ.com)8月9日消息:SK海力士今天发布了行业中层数最高的NAND技术,采用321层设计,可达到1TbTLC封装。图片来自skhynix该公司在8月8日至10日于圣克拉拉举办的FlashMemorySummit(FMS)2023上介绍了其321层1TbTLC4DNANDFlash的开发进展。站长网2023-08-09 16:46:510000弘玑Cyclone完成约4000万美元C+轮融资 加速AIGA研发落地
RPA软件和解决方案供应商弘玑Cyclone于7月完成约4000万美元的C轮融资。结合弘玑在2021年完成的1.5亿美金C轮融资,累计近两亿美金融资,创下同行业最高融资规模纪录。C轮由华兴资本担任独家财务顾问。本轮融资将主要用于AIGA(AIGeneratedAutomation即生成式自动化)企业级产品的研发落地、行业资源整合与市场拓展。站长网2023-08-04 11:06:510000抖音推出“云客服”服务:远程接单、计件结费的新模式上线
抖音日前推出了一个名为"抖音云客服"的小程序,旨在招募有空闲时间的人兼职为抖音提供线上客服服务,以丰富其客服体系。据报道,抖音云客服在7月初开始招募,申请条件包括年满18周岁、专科及以上学历、普通话标准以及有充裕的灵活时间。有三个月以上客服经验的申请者更容易通过。一旦上岗,可以自由选择班次,服务范围涵盖抖音电商和生活服务等业务。站长网2023-07-10 14:56:190000日本最大二手平台Mercari正式入驻闲鱼
日本最大的个人闲置交易平台Mercari(俗称:煤炉)已正式入驻中国的闲鱼平台。该平台名为Mercari市集,是Mercari的官方合作海外直邮店。他们计划陆续上线近10万款动漫潮玩商品,其中包括一些稀有的宝可梦卡牌和招财猫镀金版本等热门商品。0000