AI2发布开放数据集Dolma:打破AI语言模型的数据壁垒
站长之家(ChinaZ.com) 8月21日 消息:艾伦人工智能研究所(AI2)发布了名为Dolma的开放式文本数据集,旨在促进AI语言模型的透明度和创新。Dolma作为AI2开放式语言模型(OLMo)计划的核心,将为研究人员和开发者提供免费的数据资源,以支持更广泛的AI研究。
在GPT-4和Claude等语言模型的崛起中,人们对这些模型的强大能力感到惊叹,但模型背后的数据集却笼罩在神秘的面纱之下,引发了对透明度的担忧。为了改变这种现状,AI2决定采取一项突破性举措,向全球发布了Dolma数据集,以推动AI语言模型领域的透明度和协作。
Dolma作为AI2开放式语言模型(OLMo)计划的基石,其名称缩写代表“Data to feed OLMo's Appetite”(供养OLMo食欲的数据)。AI2旨在通过向研究社区提供免费、开放的数据资源,鼓励更多的创新和研究。该数据集的发布不仅是AI2首次共享关于OLMo的“数据成果”,还是AI2在透明度方面迈出的重要一步。
根据AI2的Luca Soldaini在详细的博文中所述,Dolma数据集的来源和处理过程得到了透明记录。AI2团队详细解释了将文本还原为原始英语内容等决策的方法。AI2强调,他们计划发布更全面的论文,以深入探讨数据集的细节。
与此同时,Dolma不仅仅是一个规模庞大的开放数据集,拥有惊人的30亿标记(AI中内容量的本地度量),而且使用和许可方面也非常简便。AI2采用了“中风险成果的ImpACT许可证”,并鼓励用户:
- 提供联系信息和使用情况
- 披露基于Dolma的衍生创作
- 在相同许可下分发这些衍生创作
- 同意不将Dolma应用于禁止领域,如监视或虚假信息
AI2还为担心个人数据隐私的用户提供了专门的数据删除请求表单,以确保个人数据的保护。
Dolma的发布标志着AI2在透明度和协作方面迈出的重要一步,为AI语言模型的开放和共享知识设立了有力的先例。该数据集的开放为研究人员和开发者提供了更多的资源,将推动AI领域走向更加透明和合作的未来。用户可通过Hugging Face平台访问Dolma,这是一个对AI领域的积极而重要的发展。
中国共享出行第一股正式诞生!嘀嗒出行港交所上市:开盘破发 市值55亿港元
快科技6月28日,今日,滴答出行正式登陆港交所上市,股份代号为02559.HK,成为中国共享出行第一股。根据公告显示,此次嘀嗒出行全球发售39,091,000股股份,其中国际发售19,545,500股,公开发售19,545,500股。最终发定价每股6港元,全球发售净筹约1.82亿港元。该股上市后破发,开盘跌近13%。截稿前,跌7.33%,报5.56港元,总市值55.27亿元。站长网2024-06-28 22:30:2600001.6亿倒手子公司,这家公司赶着在今年扭转亏损
前段时间星辉娱乐表示「2023年是公司积极梳理业务主线、优化公司资源的一年」。用更直白的话来讲,今年终于有扭转亏损的希望了。近期便着手准备着把财报做得更漂亮。前不久星辉娱乐发布公告称,打算将全资子公司汕头星辉娱乐衍生品有限公司(简称为星辉衍生品)100%股权出售给广东星辉控股有限公司(星辉娱乐控股股东陈雁升的控股公司),转让价格合计1.66亿元。站长网2023-11-24 09:24:080002实测ChatGPT插件真香用法!视频一键变脑图,高数作业轻松拿捏
SamAltman诚不我欺:ChatGPT插件和联网功能终于在这两天向尊贵的Plus用户全面开放了。像之前预告的一样,联网可以直接获取2021年9月之后的消息,插件也安排了70多个,购物订餐订机票等日常功能应有尽有,更专业的数学、编程、检索文件等能力更上层楼。像用iPhone一样使用ChatGPT,就是现在!站长网2023-05-19 16:32:210002好用的作图模型推荐:高质量动漫风格模型Counterfeit-V3.0
Counterfeit-V3.0是一个高质量的动漫风格模型。它通过生成逼真的动漫图像来满足用户的需求。Counterfeit-V3.0提供稳定的扩散检查点,并且支持通过Ko-fi进行捐赠。它是Civitai公司的产品,具有以下核心功能:1.高质量动漫风格生成:Counterfeit-V3.0使用先进的技术,生成具有逼真动漫风格的图像,为用户提供高质量的视觉体验。站长网2023-07-21 16:46:400000迪士尼米奇配音演员:AI永远无法捕捉米奇老鼠的精髓
AI是当今好莱坞正在关注的一个话题,推动人工智能的技术确实很了不起,但根据迪士尼吉祥物米老鼠的配音演员的观点,它永远无法捕捉米奇老鼠的精髓。法新社(AFP)在采访动画师、档案保管员和米奇配音演员布雷特·艾万时,谈到了迪士尼即将到来的百年庆典,以及AI在迪士尼的过去和未来中的潜力。站长网2023-07-10 16:49:170000