AI2发布开放数据集Dolma:打破AI语言模型的数据壁垒
站长之家(ChinaZ.com) 8月21日 消息:艾伦人工智能研究所(AI2)发布了名为Dolma的开放式文本数据集,旨在促进AI语言模型的透明度和创新。Dolma作为AI2开放式语言模型(OLMo)计划的核心,将为研究人员和开发者提供免费的数据资源,以支持更广泛的AI研究。
在GPT-4和Claude等语言模型的崛起中,人们对这些模型的强大能力感到惊叹,但模型背后的数据集却笼罩在神秘的面纱之下,引发了对透明度的担忧。为了改变这种现状,AI2决定采取一项突破性举措,向全球发布了Dolma数据集,以推动AI语言模型领域的透明度和协作。
Dolma作为AI2开放式语言模型(OLMo)计划的基石,其名称缩写代表“Data to feed OLMo's Appetite”(供养OLMo食欲的数据)。AI2旨在通过向研究社区提供免费、开放的数据资源,鼓励更多的创新和研究。该数据集的发布不仅是AI2首次共享关于OLMo的“数据成果”,还是AI2在透明度方面迈出的重要一步。
根据AI2的Luca Soldaini在详细的博文中所述,Dolma数据集的来源和处理过程得到了透明记录。AI2团队详细解释了将文本还原为原始英语内容等决策的方法。AI2强调,他们计划发布更全面的论文,以深入探讨数据集的细节。
与此同时,Dolma不仅仅是一个规模庞大的开放数据集,拥有惊人的30亿标记(AI中内容量的本地度量),而且使用和许可方面也非常简便。AI2采用了“中风险成果的ImpACT许可证”,并鼓励用户:
- 提供联系信息和使用情况
- 披露基于Dolma的衍生创作
- 在相同许可下分发这些衍生创作
- 同意不将Dolma应用于禁止领域,如监视或虚假信息
AI2还为担心个人数据隐私的用户提供了专门的数据删除请求表单,以确保个人数据的保护。
Dolma的发布标志着AI2在透明度和协作方面迈出的重要一步,为AI语言模型的开放和共享知识设立了有力的先例。该数据集的开放为研究人员和开发者提供了更多的资源,将推动AI领域走向更加透明和合作的未来。用户可通过Hugging Face平台访问Dolma,这是一个对AI领域的积极而重要的发展。
商汤国产中文大模型全面领先ChatGPT 部分接近GPT-4
快科技6月21日消息,在AI大模型领域,OpenAI的ChatGPT成为当前最火的大模型,也是标杆性的,多个国产大模型都要对标它,今天商汤科技公布了自己的大模型测试结果,三个测试项目中都超越了ChatGPT。商汤科技自研中文语言大模型名为商量SenseChat2.0”,日前公布的测试显示,MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。站长网2023-06-23 23:42:210001从“卖蚊子”到“多巴胺穿搭”,这届年轻人为“情绪”买单
爱因斯坦不会想到,在2023年,他的“脑子”会被标价五毛钱,月售2万个。6月,28岁的淘宝店主悠悠(化名),在自己的鞋店跟风上架了一款“爱因斯坦的脑子”,却意外迎来了开店以来的最爆流量,一个月赚到了1万块的纯利润。从2021年开店至今,悠悠认真选品时没得到结果,没想到无心插柳却踩中了风口。站长网2023-07-27 14:05:400000阿里云大模型“通义千问”将于4月11日发布
今日,阿里云官方宣布将在4月11日召开的2023阿里云峰会上,带来“通义千问”相关的重磅消息。根据官方公布的预热海报显示,"通义千问"大模型与其他工具的组合将会使得这一大模型具备更进一步的应用价值。据悉,通义千问是阿里达摩院自主研发的预训练语言大模型,它能够回答问题、创作文字,也能够表达观点、撰写代码。站长网2023-04-12 12:34:210001视频号卖女装,热销7万件。
各位村民好,我是村长。一个卖女装的账号,在视频号卖出了7.4万单,客单价均在700以上。这是我无意间看到的一个账号,觉得挺有意思的,值得和大家一起来分享。01视频号能不能卖货许多人做了一圈视频号,最终还是回去做抖音。还有一些人还在观望没有入局,因为大家都担心一点,那就是视频号到底能不能出单。关于这一点,我觉得大家不用质疑,视频号肯定能卖出去货。站长网2023-05-19 09:10:480000顶流网红高火火回归快手:没有人一直站得住,所以得一直努力
“梦回2018年”,顶流网红高火火的快手直播首秀上,不少网友发出这样的感慨。4月10日,高火火正式回归快手,包括郭聪明、白小白、大萌等高火火的一众主播朋友相继亮相,并带来了众多精彩节目。他们再次在快手重聚,也让粉丝们直呼“梦幻联动”。站长网2023-04-12 15:24:580000