上海AI实验室开源“书生·万卷”1.0多模态预训练语料
站长网2023-08-15 09:34:210阅
上海 AI 实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料 “书生・万卷”1.0。
据悉,这个语料库包含了文本数据集、图文数据集和视频数据集,总量超过2TB。其中包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。

这些数据经过细粒度清洗、去重和价值对齐等处理,具备多元融合、精细处理、价值对齐和易用高效的特点。
上海 AI 实验室表示,开源发布 “书生・万卷” 有助于降低大模型技术的门槛,推动大模型的应用和创新。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据,探索形成可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
地址:https://opendatalab.org.cn/WanJuan1.0
开源地址:https://github.com/opendatalab/WanJuan1.0
0000
评论列表
共(0)条相关推荐
Llama2等30+模型接入千帆大模型平台,推理成本降50%!还有超全Prompt模板开放体验
最强开源大模型Llama2,性能更进一步~7B、13B、70B三个版本全都有,均可以直接调用部署。你可能想不到的是,这波操作还是百度搞出来的。最新消息,百度智能云千帆大模型平台又双叒升级了,这回还悄然变身国内拥有最多大模型的平台:站长网2023-08-07 13:57:460000AI女友突然断崖式分手,独留对象在贴吧发心碎小作文
如果AI女友与你断崖式分手,你会难过吗?据BusinessInsider报道,日活几千人的AI陪伴服务的应用Soulmate因为应用的所有权公司被出售,出于业务原因决定停止运营。这也意味着,大家朝夕相处的「AI伴侣」即将消失。这一切让许多深陷热恋的用户直呼「破防」,HilaryCoyote就是其中之一。站长网2023-11-08 09:16:090000小红书的“买手电商”之路走得通吗?
小红书所有的动作,都在让用户下单的难度变得“更低”,但阿里、京东等老牌电商,求变的速度或许远快于小红书。在商业化路线摇摆多年之后,毛文超似乎终于下定决心,将小红书的盈利能力进一步增强。站长网2024-05-21 11:32:060000一天200元,难找春节宠物喂养人
今年春节,过节的不只是人,还有宠物。对不少人来说,宠物是家庭的重要组成部分,一些养宠者甚至把宠物当成了自己的子女。“让宠物过个好年”,支撑起了春节期间宠物消费的火爆。不仅主人过年要吃年夜饭、贴春联,猫猫狗狗也同样被安排了过年的“仪式感”。在电商平台上,不少“宠物年夜饭”销量不菲。各种用面粉、肉类、水产制成的饺子、点心和菜肴,配上精美的礼盒包装,让许多网友惊呼“宠物吃得比人都好”。站长网2024-02-07 13:58:100000Worldcoin表示将允许公司和政府使用其身份验证系统
本文概要:1.Worldcoin计划扩大其业务,吸引更多用户,并允许其他组织使用其虹膜扫描和身份验证技术。2.公司表示已有220万人注册,大部分是在过去两年的试用期内注册的。3.数据监管机构正在调查该项目,对于数据收集和隐私保护存在担忧。站长网2023-08-03 16:04:180000