3万亿的开放数据集AI2 Dolma发布
即使有许多公开的数据集,也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的 Dolma 数据集旨在实现这一目标,以便研究人员能够在大规模上研究数据效应。该数据集的发布不仅为研究人员提供了更高质量和更大规模的数据,还为人工智能的发展开辟了新的可能性。
AI2Dolma 是一个开放的预训练数据集,包含3万亿个标记。它由 Allen AI 研究所创建,用于语言模型的预训练。该数据集的目标是推动大规模自然语言处理系统的研究,并提供一个透明和开放的平台。
项目地址:https://huggingface.co/datasets/allenai/dolma
Dolma 数据集包含了来自各种来源的文本,如网络内容、学术出版物、代码、书籍和百科全书资料。该数据集的设计原则包括开放性、代表性、规模和可重现性。
Dolma 的创建过程包括数据处理步骤,如语言识别、质量过滤、去重复、风险缓解等。与闭源数据集相比,Dolma 采取了更多的透明度,提供了更多的信息和工具以便其他研究者进行研究和评估。Dolma 数据集已经发布,并在 AI2ImpACT 许可下可在 HuggingFace Hub 上下载使用。
特点:
1. 数据规模庞大:AI2Dolma 是迄今为止最大的开放数据集,包含了来自多个来源的3万亿个标记。这使得它成为训练大规模语言模型的理想选择。
2. 开放性:AI2Dolma 的目标是以透明和开放的方式构建语言模型。它的数据集和模型遵循 AI2ImpACT 许可证,可以供其他研究人员使用和研究,促进了整个研究社区的合作和发展。
3. 代表性:AI2Dolma 的数据集与其他语言模型数据集(无论是闭源还是开源)具有相似的来源和处理方式,确保了模型在广泛领域的能力和行为与其他语言模型一致。
4. 可复现性:AI2Dolma 的数据处理工具和方法都是开放可用的,其他研究人员可以复现和使用这些工具来创建自己的数据集。这种可复现性有助于推动研究的进展和结果的验证。
5. 风险控制:AI2Dolma 在数据处理过程中采取了一系列风险控制措施,包括个人信息的删除、有害内容的过滤等,以最大程度地降低数据使用可能带来的风险。
6. 其他语言支持:虽然 AI2Dolma 的第一个版本仅包含英文数据,但它的设计目标是支持多种语言。未来的版本可能会扩展到其他语言,从而满足不同语言背景下的研究需求。
平台扎推办弹幕互动交流会,娱乐直播新风口来了?
弹幕互动直播的风,从年初刮到了现在,而且越吹越猛。近日,新播场发现,不少平台开始举办弹幕互动玩法的专场交流会,邀请公会、厂商参加,对外释放平台布局该赛道的利好信号。其中,除了早已布局的抖音之外,还有腾讯音娱团队、QQ小世界等新玩家。有资深业内人士感慨道:“娱乐直播行业好久没有这么热闹了,这真的是近两年增长最快的直播小赛道。”如今,平台加大力度布局,会给公会、厂商们带来什么新机会?站长网2023-08-07 13:53:070000DiffusionLight:用AI绘制铬球精准评估照片光照环境
划重点:1.🌐**DiffusionLight方法简单而高效**:利用生成的铬球进行单张图像的照明评估,具有多种应用,包括虚拟物体逼真插入图像、增强AR和VR、建筑和室内设计中的逼真可视化、计算机游戏中更逼真的场景,以及摄影和电影中更准确的规划。站长网2024-01-05 18:31:390000AWS 首席执行官谈论生成式 AI、亚马逊对 Anthropic 的投资以及云计算成本削减
AdamSelipsky,亚马逊云计算部门AWS的首席执行官,近期在一个关键时刻引领着公司的云业务。Selipsky一直主导着过去几个月亚马逊推出的各种生成式AI产品,旨在与微软等公司在日益增长的AI竞赛中竞争。AWS作为云市场的领导者,是亚马逊深具盈利性的业务。然而,过去几个季度,由于客户削减开支以应对更广泛的经济挑战,部分增长有所放缓。0000美团王兴:正研究和开发基础模型以及应用 对外部机会持开放态度
美团发布2023年第一季度财报。财报显示,一季度营收586.2亿元,同比增长26.7%,市场预期574.76亿元。一季度,研发支出同比增长至50亿元。站长网2023-05-26 08:57:490000网易智企发布客服领域行业大模型“商河”
今日,网易智企发布客服领域行业大模型“商河”。商河大模型聚焦于智能客服专业场景,除了使用通用数据进行基座模型训练,还基于网易云商长期积累的海量客服领域语料库进行了模型的监督式微调(SFT)和基于人类反馈强化学习(RLHF)。目前,商河大模型能在坐席辅助、知识库构建、工单创建、会话洞察等场景提供意图理解、文本生成、多轮会话、文本摘要、信息提取、双语问答等能力。站长网2023-09-15 16:28:480000