上海AI实验室开源“书生·万卷”1.0多模态预训练语料
站长网2023-08-15 09:34:210阅
上海 AI 实验室联合语料数据联盟成员共同开源发布了高质量多模态预训练语料 “书生・万卷”1.0。
据悉,这个语料库包含了文本数据集、图文数据集和视频数据集,总量超过2TB。其中包括超过5亿个文本、2200万个图文交错文档和1000个节目影像视频。
这些数据经过细粒度清洗、去重和价值对齐等处理,具备多元融合、精细处理、价值对齐和易用高效的特点。
上海 AI 实验室表示,开源发布 “书生・万卷” 有助于降低大模型技术的门槛,推动大模型的应用和创新。该语料数据联盟旨在通过联合多方机构打造高质量的语料数据,探索形成可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
地址:https://opendatalab.org.cn/WanJuan1.0
开源地址:https://github.com/opendatalab/WanJuan1.0
0000
评论列表
共(0)条相关推荐
Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远
【新智元导读】Devin到底是一个漂亮的Demo,还是一个已经能替代程序员的智能体,使用体验怎么,拿到测试资格的网友第一时间分享了自己的体验。由10枚IOI金牌在手的创业团队CognitionAI开发的全球首个AI程序员智能体Devin,一发布就让科技圈坐立不安。在演示中,Devin几乎已经可以独立完成很多人类程序员需要大量时间才能完成的工作,效果一点不比普通程序员差。站长网2024-03-16 20:13:040001Voicemod 推出新功能,允许用户创建和分享自定义 AI 语音
站长之家(ChinaZ.com)12月2日消息:Voicemod是一款实时AI语音变换应用,现在允许任何人根据一系列预设的基础声音来创造他们想要的任何类型的声音。站长网2023-12-02 10:15:590000利用3D打印技术建立一种收集并分析汗液的可穿戴微流体系统
【来源:温州市科技局_科技前沿】我们流出的汗液中含有与生理健康状况相关的重要信息,可以为脱水、疲劳、血糖水平,甚至是囊性纤维化、糖尿病和心力衰竭等严重疾病提供线索。0000苹果 WWDC 2023 时间表公布:iOS 17、macOS 14、AR/VR 头显等即将亮相
苹果今天宣布了其年度开发者大会WWDC的时间表,活动将于6月5日至6月9日举行。时间表确认,苹果的主题演讲将于太平洋时间6月5日上午10点开始,苹果公司有望宣布iOS17.macOS14.watchOS10.备受期待的AR/VR头显、15英寸MacBookAir等产品。站长网2023-05-24 09:31:100003特斯拉降价是为打“价格战”?马斯克否认并透露原因
日前,有市场分析人士在推特发文称,特斯拉在电动汽车和燃油汽车间开启了价格战,而这才刚刚开始。埃隆马斯克否认特斯拉开启价格战”。马斯克称,特斯拉降价,只是为了覆盖更多消费者,并非为打价格战”。马斯克此前也表示,降价的原因不是大家对特斯拉没有需求,而是大家没钱负担不起,只有把车价降下来,才是真正的满足需求。站长网2023-04-16 15:01:460000