上海AI实验室开源“书生·万卷”1.0多模态预训练语料
站长网2023-08-15 09:34:210阅
上海 AI 实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料 “书生・万卷”1.0。
据悉,这个语料库包含了文本数据集、图文数据集和视频数据集,总量超过2TB。其中包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。
这些数据经过细粒度清洗、去重和价值对齐等处理,具备多元融合、精细处理、价值对齐和易用高效的特点。
上海 AI 实验室表示,开源发布 “书生・万卷” 有助于降低大模型技术的门槛,推动大模型的应用和创新。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据,探索形成可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
地址:https://opendatalab.org.cn/WanJuan1.0
开源地址:https://github.com/opendatalab/WanJuan1.0
0000
评论列表
共(0)条相关推荐
幻方DeepSeek-V2系列模型已在魔搭社区开源
魔搭ModelScope社区宣布,DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。站长网2024-05-08 19:52:5300002022年创业公司CEO薪酬报告:不如打工人
“你以为CEO的薪资多吗?是你想多了。”作者|王王编辑|蔓蔓周首图来源:tnwcdn创业公司的CEO能拿多少薪水?这个问题不光员工关心、VC关心,广大正在创业和想要创业的人也关心。美国一家咨询机构KruzeConsulting对超过250家多个行业的创业公司进行了调研,发布《2022创业公司CEO薪酬报告》,发现了许多有趣的趋势。站长网2023-04-17 18:34:260002DIALGEN:人类与语言模型协作生成对话 可显著提升模型性能
自动理解人际对话的应用通常涉及与真实世界数据中的私人信息相关的挑战,例如呼叫中心或临床对话。处理受保护的数据还会增加注释的成本,限制技术的发展。为了应对这些挑战,微软近日联合华盛顿大学研发团队发布论文,公布了一款名为DIALGEN的产品,这是一种循环半自动对话生成框架。站长网2023-07-18 00:04:350000私域要赚钱,就多发朋友圈!
各位村民好,我是村长要赚钱,还得发朋友圈。尽管很多人吐槽,现在朋友圈好看的内容少了,广告多了,自己都不想看了。但站在商家、博主、群主等角度,千万不能这么想。01用户多、限制小根据微信朋友圈广告的数据显示,朋友圈月活量12亿,日活量7.5亿,这是目前国内已知日活最高的内容平台了。而相比于抖音、小红书、知乎等内容平台动辄就说你涉嫌广告营销封号、禁言,你在自己朋友圈打广告的限制是最少的。0000李大海拟全职担任面壁智能CEO 将辞任知乎首席技术官
2024年6月6日,知乎在港交所的公告中宣布了一项重要的人事变动。李大海,因计划全职担任北京面壁智能科技有限责任公司(简称“面壁智能”)的首席执行官,将辞去知乎首席技术官一职,并从执行董事调任为非执行董事。与此同时,知乎宣布委任孙斌为新的首席技术官,该任命自2024年6月5日起生效。站长网2024-06-06 16:15:060000