AI2发布开放数据集Dolma:打破AI语言模型的数据壁垒

站长网2023-08-21 15:04:200阅

站长之家(ChinaZ.com) 8月21日消息:艾伦人工智能研究所（AI2）发布了名为Dolma的开放式文本数据集，旨在促进AI语言模型的透明度和创新。Dolma作为AI2开放式语言模型(OLMo)计划的核心，将为研究人员和开发者提供免费的数据资源，以支持更广泛的AI研究。

在GPT-4和Claude等语言模型的崛起中，人们对这些模型的强大能力感到惊叹，但模型背后的数据集却笼罩在神秘的面纱之下，引发了对透明度的担忧。为了改变这种现状，AI2决定采取一项突破性举措，向全球发布了Dolma数据集，以推动AI语言模型领域的透明度和协作。

Dolma作为AI2开放式语言模型（OLMo）计划的基石，其名称缩写代表“Data to feed OLMo's Appetite”(供养OLMo食欲的数据)。AI2旨在通过向研究社区提供免费、开放的数据资源，鼓励更多的创新和研究。该数据集的发布不仅是AI2首次共享关于OLMo的“数据成果”，还是AI2在透明度方面迈出的重要一步。

根据AI2的Luca Soldaini在详细的博文中所述，Dolma数据集的来源和处理过程得到了透明记录。AI2团队详细解释了将文本还原为原始英语内容等决策的方法。AI2强调，他们计划发布更全面的论文，以深入探讨数据集的细节。

与此同时，Dolma不仅仅是一个规模庞大的开放数据集，拥有惊人的30亿标记（AI中内容量的本地度量），而且使用和许可方面也非常简便。AI2采用了“中风险成果的ImpACT许可证”，并鼓励用户:

- 提供联系信息和使用情况

- 披露基于Dolma的衍生创作

- 在相同许可下分发这些衍生创作

- 同意不将Dolma应用于禁止领域，如监视或虚假信息

AI2还为担心个人数据隐私的用户提供了专门的数据删除请求表单，以确保个人数据的保护。

Dolma的发布标志着AI2在透明度和协作方面迈出的重要一步，为AI语言模型的开放和共享知识设立了有力的先例。该数据集的开放为研究人员和开发者提供了更多的资源，将推动AI领域走向更加透明和合作的未来。用户可通过Hugging Face平台访问Dolma，这是一个对AI领域的积极而重要的发展。

AI2发布开放数据集Dolma打破AI语言模型的数据壁垒

0000

评论列表

共(0)条

相关推荐

折射OpenAI新一年技术路线图，透视Sam Altman的12个愿望清单
当地时间12月24日，SamAltman在X平台上罕见地发起了一个「许愿池」，「希望OpenAI在2024年构建/修复什么?」，这条推文迅速吸引AI领域众多大佬和网友的参与。两个小时后，SamAltman挑选了12个期望值最高的愿望清单，并誓言「我们将尽我们所能去提供（以及许多其他我们感到兴奋但此处未提及的内容）」——从这里可以折射出OpenAI2024年的路线图。
站长网站长资讯2023-12-26 14:43:45
0000
站长资讯
预计 2024 年全球 AI PC 整机出货量将达到约 1300 万台
站长之家(ChinaZ.com)10月13日消息:据群智咨询（Sigmaintell）预测，2024年伴随着AICPU与Windows12的发布，将成为AIPC规模性出货的元年。
站长网2023-10-13 17:36:10
0000
站长资讯
小米SU7限时24小时改配正式开启可重新提交配置
站长之家(ChinaZ.com)4月19日消息:今日上午9点，小米SU7的改配服务正式开放。此次改配服务将持续至明日（4月20日）上午9点，为那些希望调整订单配置的用户提供了难得的机会。但请注意，此次改配服务仅面向在2024年4月20日上午9点前锁单的用户，创始版用户则暂时无法参与此次改配。
站长网2024-04-19 10:06:51
0000
站长资讯
支付宝集福正式启动，超详细玩法指引来了
1月20日，“数字新年俗”支付宝集福正式上线，此前披露的全新玩法获得广泛关注，记者体验发现，今年集福的福卡确实“颜值”更高，玩法更具游戏感、用户能获得的权益也更丰富，跟过去9年比，这确实是一次全面的升级。
站长网2025-01-20 10:50:05
0000
站长资讯
AppleIntelligence发布！苹果发布大模型Siri
站长之家（ChinaZ.com）6月11日消息:今日凌晨，全球开发者大会（WWDC）上，苹果Siri智能助手不仅以全新的Logo图标亮相，更带来了前所未有的升级体验。新版Siri新增了连续对话功能，它更自然地理解用户的上下文内容，让交流更加流畅自然。同时，Siri还支持跨软件操作，无论用户正在使用哪个应用，Siri都能随时提供帮助。
站长网2024-06-11 23:13:23
0000