上海AI实验室开源“书生·万卷”1.0多模态预训练语料
站长网2023-08-15 09:34:210阅
上海 AI 实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料 “书生・万卷”1.0。
据悉,这个语料库包含了文本数据集、图文数据集和视频数据集,总量超过2TB。其中包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。

这些数据经过细粒度清洗、去重和价值对齐等处理,具备多元融合、精细处理、价值对齐和易用高效的特点。
上海 AI 实验室表示,开源发布 “书生・万卷” 有助于降低大模型技术的门槛,推动大模型的应用和创新。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据,探索形成可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
地址:https://opendatalab.org.cn/WanJuan1.0
开源地址:https://github.com/opendatalab/WanJuan1.0
0000
评论列表
共(0)条相关推荐
滴滴客服回应7分钟路程收1414元:司机误操作 已修改并致歉
站长之家(ChinaZ.com)5月13日消息:近日,一名上海网友在滴滴出行小程序中意外发现了一笔来自2017年的未支付订单,金额高达1414元,而对应的行程仅为2公里左右,耗时7分钟。这一发现迅速引发了网友的广泛关注与讨论。站长网2024-05-13 09:35:300000老黄:元宇宙是个江湖
互联网江湖已经沉寂了很多年。2021年,耐不住寂寞的扎克伯格,突然宣称打通了任督二脉,在门派中特设元宇宙堂口,名“Meta”,一副拳打南山猛虎、脚踢北海蛟龙的气概,誓要在江湖卷起滔天巨浪。扎大佬“嗷”的一嗓子往前冲,其他大佬面面相觑后,只好撒丫子跟着跑。后世史载,2021年为元宇宙元年。站长网2023-04-14 14:58:320000高君雨事件MCN公司致歉:时间表述出现严重错误
3月12日,知名MCN机构@豁然开朗mcn就近期引起热议的“高君雨患病”视频事件发布了一则诚挚的致歉声明。该声明表示,公司原意是希望借助该视频展示高君雨勇敢面对疾病的态度,为更多人带去正能量和鼓舞。站长网2024-03-12 17:55:130000苹果Vision Pro竟然是乔布斯的遗作?
大家都知道VisionPro历经多年研发,但很少有人知道,乔布斯在世时就对这样的设备有过构思。甚至VisionPro相关专利,最早可以追溯到2007年与初代iPhone同年。跨越17年,VisionPro承载了苹果对未来产品的愿景,也让人对乔布斯和苹果的远思惊叹。19年的乔布斯预言19年前的2005年,乔布斯曾在D3的采访中设想过一种新产品。站长网2024-02-06 14:03:240000联发科天玑 9300+ 处理器发布 支持Llama27B端侧大模型运行
在今日上午的MediaTek天玑开发者大会MDDC2024上,备受瞩目的天玑9300旗舰处理器终于揭开了神秘的面纱。这款处理器的CPU架构精心布局,融合了1个高达3.40GHz的Cortex-X4核心,3个2.85GHz的核心,以及4个2.00GHz的核心,确保了在处理各种复杂任务时都能游刃有余。站长网2024-05-07 11:52:530000