AI2发布开放数据集Dolma:打破AI语言模型的数据壁垒
站长之家(ChinaZ.com) 8月21日 消息:艾伦人工智能研究所(AI2)发布了名为Dolma的开放式文本数据集,旨在促进AI语言模型的透明度和创新。Dolma作为AI2开放式语言模型(OLMo)计划的核心,将为研究人员和开发者提供免费的数据资源,以支持更广泛的AI研究。
在GPT-4和Claude等语言模型的崛起中,人们对这些模型的强大能力感到惊叹,但模型背后的数据集却笼罩在神秘的面纱之下,引发了对透明度的担忧。为了改变这种现状,AI2决定采取一项突破性举措,向全球发布了Dolma数据集,以推动AI语言模型领域的透明度和协作。
Dolma作为AI2开放式语言模型(OLMo)计划的基石,其名称缩写代表“Data to feed OLMo's Appetite”(供养OLMo食欲的数据)。AI2旨在通过向研究社区提供免费、开放的数据资源,鼓励更多的创新和研究。该数据集的发布不仅是AI2首次共享关于OLMo的“数据成果”,还是AI2在透明度方面迈出的重要一步。
根据AI2的Luca Soldaini在详细的博文中所述,Dolma数据集的来源和处理过程得到了透明记录。AI2团队详细解释了将文本还原为原始英语内容等决策的方法。AI2强调,他们计划发布更全面的论文,以深入探讨数据集的细节。
与此同时,Dolma不仅仅是一个规模庞大的开放数据集,拥有惊人的30亿标记(AI中内容量的本地度量),而且使用和许可方面也非常简便。AI2采用了“中风险成果的ImpACT许可证”,并鼓励用户:
- 提供联系信息和使用情况
- 披露基于Dolma的衍生创作
- 在相同许可下分发这些衍生创作
- 同意不将Dolma应用于禁止领域,如监视或虚假信息
AI2还为担心个人数据隐私的用户提供了专门的数据删除请求表单,以确保个人数据的保护。
Dolma的发布标志着AI2在透明度和协作方面迈出的重要一步,为AI语言模型的开放和共享知识设立了有力的先例。该数据集的开放为研究人员和开发者提供了更多的资源,将推动AI领域走向更加透明和合作的未来。用户可通过Hugging Face平台访问Dolma,这是一个对AI领域的积极而重要的发展。
Adobe顶级律师提议对AI生成的艺术进行知识产权保护
继此前Adobe宣布平台AI生成的图片遇纠纷可获全额补偿的举措之后,Adobe的顶级律师也公开主张对人工智能创作进行新的知识产权保护,并提出艺术家归属以及人工智能与人类标签的建议。Adobe的总法律顾问兼首席信托官达纳·拉奥(DanaRao)认为,创作者应该有权保护由人工智能生成的作品的知识产权。站长网2023-07-14 17:24:470000百度全面收回快速收录和sitemap提交权限 仅面向VIP站点开放
站长之家(ChinaZ.com)12月6日消息:此前百度站长平台宣布2023年11月30日将回收站点的“快速收录”和“Sitemap提交”权限,此举是为了全面升级搜索资源平台的权益体系。根据百度在12月1日发布的公告《热点问题追踪之消失的权益》,这一决定与使用《站长推送工具》无关。站长网2023-12-06 09:30:430000AI换脸神器roop:提供一张脸部图片实现视频一键换脸
划重点:1.roop支持使用一张脸部图像替换视频中的面孔。2.不需要数据集或训练,只需选择所需的脸部图像。3.安装和使用需要一定的技术技能。站长网2023-08-16 16:45:520009比亚迪官方科普四个用车坏习惯:经常低电量/快充等都伤电池
快科技1月19日消息,如今新能源汽车普及,日常电池保护成了大家关心的重点,和油车还是有一些区别的。今天,比亚迪官方账号科普了四个用车坏习惯会影响电池性能的健康度,来看看你中招了没。1、经常快充目前许多新能源汽车皆支持快充模式,所以不少车主会选择快充,在短时间内给车充进一定电量,以保证车辆正常行驶。快充是个好功能,但是经常使用快充会降低电池的还原能力,对电池造成一定伤害。2、低温长时间停放0000雷军:小米 SU7 全系标配高速领航、一键代客泊车
今日,小米官方正式对外公布,SU7系列汽车将于3月28日晚7点揭开神秘面纱。这款新车的一大亮点在于全系标配了智能辅助驾驶系统,包括XiaomiPilotPro和XiaomiPilotMax两个版本,展现了小米在智能驾驶领域的强大实力。站长网2024-03-26 16:56:150000