上海AI实验室开源“书生·万卷”1.0多模态预训练语料
站长网2023-08-15 09:34:210阅
上海 AI 实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料 “书生・万卷”1.0。
据悉,这个语料库包含了文本数据集、图文数据集和视频数据集,总量超过2TB。其中包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。
这些数据经过细粒度清洗、去重和价值对齐等处理,具备多元融合、精细处理、价值对齐和易用高效的特点。
上海 AI 实验室表示,开源发布 “书生・万卷” 有助于降低大模型技术的门槛,推动大模型的应用和创新。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据,探索形成可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
地址:https://opendatalab.org.cn/WanJuan1.0
开源地址:https://github.com/opendatalab/WanJuan1.0
0000
评论列表
共(0)条相关推荐
Epic Games Store将接受AI生成游戏内容 冲击Steam立场
日前,EpicGamesCEO蒂姆·斯威尼(TimSweeney)在推特上表示,Epic游戏商店将接受使用生成式AI创造的游戏。这一立场与其最大竞争对手Steam形成强烈对比,后者最近拒绝在平台上发布含有AI内容的游戏。站长网2023-09-05 09:51:350000淘宝直播产业带618战报:交易额环比增长超300%
淘宝直播日前发布产业带618战报。今年618大促期间,淘宝直播开启了为期21天的产业带源头好货专场直播,覆盖11个城市,参与商家超过1000个直播间。据淘宝直播官方统计,此次产业带直播间的交易额环比超300%,其中直播间下单用户超50万,成交件数超400万,产业带直播店成交超10万的商家超600个;产业带直播间总曝光超过28亿,开播时长超855万小时,开播场次环比500%。站长网2023-06-29 19:26:290000ChatGPT 能拯救程序员吗?
在我二十多岁时,笑容常挂在我的脸上。最初我并未察觉,但和我熟悉的人都会注意到这一点,大多数情况下,这被视为一种正面的特质。然而,有次一位软件工程师用困惑和担忧的眼神问我:“你为什么总是这么快乐?”站长网2023-10-25 00:47:070000GPT-4驱动的视频制作平台AiVideoSuite:可快速生成高质量视频
要点:1.AiVideoSuite是一个GPT-4驱动的视频制作平台,可以快速生成高质量的营销视频内容。2.它可以自动编写剧本,生成逼真的语音配音,创造各种样式的视频,适用于不同的营销渠道。3.AiVideoSuite帮助企业和创作者以具有成本效益和高效的方式大规模制作视频内容,从而提高参与度并打开新的机会。站长网2023-09-11 11:21:320000为爱嫁入深山的小英,每天有干不完的活,为啥她靠恋爱脑就能吸粉百万?
看过小英一家的视频么?我一看就陷进去了,特别是她做家务活的片段,边看边笑,根本停不下来。小英就靠着分享自己在农村的生活日常吸粉251.1万,活成了当代年轻人的“电子榨菜”。其实,小英的标签很简单,“来自云南大山里,96年两个孩子,没有公婆,没有文化,在家种地养牛”。所以她拍的视频就是一个农村宝妈带孩子和干活的细节。那这个流水账记录自己在农村日常生活的宝妈,为什么能火?站长网2024-05-13 09:58:100000