3万亿的开放数据集AI2 Dolma发布
即使有许多公开的数据集,也缺乏足够的规模来训练最先进的模型。艾伦人工智能研究所的 Dolma 数据集旨在实现这一目标,以便研究人员能够在大规模上研究数据效应。该数据集的发布不仅为研究人员提供了更高质量和更大规模的数据,还为人工智能的发展开辟了新的可能性。
AI2Dolma 是一个开放的预训练数据集,包含3万亿个标记。它由 Allen AI 研究所创建,用于语言模型的预训练。该数据集的目标是推动大规模自然语言处理系统的研究,并提供一个透明和开放的平台。
项目地址:https://huggingface.co/datasets/allenai/dolma
Dolma 数据集包含了来自各种来源的文本,如网络内容、学术出版物、代码、书籍和百科全书资料。该数据集的设计原则包括开放性、代表性、规模和可重现性。
Dolma 的创建过程包括数据处理步骤,如语言识别、质量过滤、去重复、风险缓解等。与闭源数据集相比,Dolma 采取了更多的透明度,提供了更多的信息和工具以便其他研究者进行研究和评估。Dolma 数据集已经发布,并在 AI2ImpACT 许可下可在 HuggingFace Hub 上下载使用。
特点:
1. 数据规模庞大:AI2Dolma 是迄今为止最大的开放数据集,包含了来自多个来源的3万亿个标记。这使得它成为训练大规模语言模型的理想选择。
2. 开放性:AI2Dolma 的目标是以透明和开放的方式构建语言模型。它的数据集和模型遵循 AI2ImpACT 许可证,可以供其他研究人员使用和研究,促进了整个研究社区的合作和发展。
3. 代表性:AI2Dolma 的数据集与其他语言模型数据集(无论是闭源还是开源)具有相似的来源和处理方式,确保了模型在广泛领域的能力和行为与其他语言模型一致。
4. 可复现性:AI2Dolma 的数据处理工具和方法都是开放可用的,其他研究人员可以复现和使用这些工具来创建自己的数据集。这种可复现性有助于推动研究的进展和结果的验证。
5. 风险控制:AI2Dolma 在数据处理过程中采取了一系列风险控制措施,包括个人信息的删除、有害内容的过滤等,以最大程度地降低数据使用可能带来的风险。
6. 其他语言支持:虽然 AI2Dolma 的第一个版本仅包含英文数据,但它的设计目标是支持多种语言。未来的版本可能会扩展到其他语言,从而满足不同语言背景下的研究需求。
谷歌 DeepMind 高管表示人工智能将有助于应对气候变化
谷歌DeepMind高管ColinMurdoch表示,人工智能有潜力加速改变世界的创新,例如「无限」的清洁能源和更好的气象模型,帮助人们应对气候变化的影响。他在BNNBloomberg电视台上说:「我们正在使用人工智能预测天气,以提供更准确的天气预报,帮助世界各地的社区和公司适应日益极端的天气。」站长网2023-06-29 23:46:1900014天涨粉近百万,高途佳品就差一个董宇辉了
“董宇辉不是用来挖的,是用来爱的。”一句话,让“丈母娘”们(董宇辉粉丝群体的自称)粉上了高途佳品CEO陈向东。这几天,因为东方甄选的“小作文”风波,竞品高途佳品迎来了一场泼天富贵。据新榜旗下抖音数据工具新抖,高途佳品抖音官号“高途佳品”4天涨粉超99万,一场直播带货500万-750万,相比一周前带货成绩暴涨500倍。站长网2023-12-15 16:41:400000周鸿祎回应拍卖迈巴赫600:起拍价600元 将全额捐赠
周鸿祎于4月28日发文,就即将举行的迈巴赫600拍卖活动进行回应,并宣布起拍价为600元。他在文中提到,他计划通过直播拍卖这辆二手迈巴赫,旨在倡导更多企业家转向使用国产新能源车与智联车,并坚信这些车辆将重新定义“豪车”概念,成为消费者的首选。站长网2024-04-28 20:40:430000报告显示:92%的企业使用人工智能提升个性化客户体验
数据平台TwilioSegment最近的一份报告显示,全球企业正在采用人工智能来提供个性化的客户体验,92%的公司使用人工智能驱动的个性化来推动增长。站长网2023-05-05 11:16:420001贝恩咨询与OpenAI合作,基于ChatGPT打造生成式AI助手Sage
本文概要:全球三大咨询公司之一贝恩宣布,将基于OpenAI的GPT-4大语言模型以及自身海量专业咨询数据,打造的生成式AI助手Sage,为18,500名员工提供服务。贝恩还将微软的MicrosoftCopilot集成业务中,用于执行各种日常任务。贝恩全球管理合伙人MannyMaceda表示,生成式AI对全球的技术创新、生产力和业务增长起到了关键推动作用。站长网2023-10-03 10:05:410000