苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果
苹果最新杀入开源大模型战场,而且比其他公司更开放。
推出7B模型,不仅效果与Llama38B相当,而且一次性开源了全部训练过程和资源。

要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:
许多声称开源的AI模型,实际上在数据和训练方法上并不透明,无法满足真正的科学研究需求。
而苹果这次竟然来真的!!
就连NLP科学家、AutoAWQ创建者也发出惊叹:
Apple发布了一个击败Mistral7B的模型,但更棒的是他们完全开源了所有内容,包括预训练数据集!

也引来网友在线调侃:

至于这次开源的意义,有热心网友也帮忙总结了:
对于任何想要从头开始训练模型或微调现有模型的人来说,数据管理过程是必须研究的。

当然,除了OpenAI和苹果,上周Mistral AI联合英伟达也发布了一个12B参数小模型。
HuggingFace创始人表示,「小模型周」来了!

卷!继续卷!所以苹果这次发布的小模型究竟有多能打?
效果直逼Llama38B
有多能打先不说,先来看Hugging Face技术主管刚“拆箱”的模型基础配置。
总结下来就是:
7B基础模型,在开放数据集上使用2.5T tokens进行训练
主要是英文数据,拥有2048tokens上下文窗口
数据集包括DCLM-BASELINE、StarCoder和ProofPile2
MMLU得分接近Llama38B
使用PyTorch和OpenLM框架进行训练

具体而言,研究团队先是提出了一个语言模型数据比较新基准——DCLM。
之所以提出这一基准,是因为团队发现:
由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据,可能是构建高质量训练集的关键。
因此,团队使用DCLM来设计高质量数据集从而提高模型性能,尤其是在多模态领域。
其思路很简单:使用一个标准化的框架来进行实验,包括固定的模型架构、训练代码、超参数和评估,最终找出哪种数据整理策略最适合训练出高性能的模型。

基于上述思路,团队构建了一个高质量数据集DCLM-BASELINE,并用它从头训练了一个7B参数模型——DCLM-7B。

DCLM-7B具体表现如何呢?
结果显示,它在MMLU基准上5-shot准确率达64%,可与Mistral-7B-v0.3(63%)和Llama38B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama38B相媲美,而所需计算量仅为后者的1/6。

与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama38B。

最后,为了测试新数据集效果,有业内人士用卡帕西的llm.c训练了GPT-21.5B,来比较DCLM-Baseline与FineWeb-Edu这两个数据集。

结果显示DCLM-Baseline取得了更高的平均分,且在ARC(小学生科学问题推理)、HellaSwag(常识推理)、MMLU等任务上表现更好。

“小”模型成新趋势
回到开头,“小”模型最近已成新趋势。
先是HuggingFace推出了小模型家族“SmolLM”,其中包含135M、360M和1.7B型号模型。

它们在广泛的推理和常识基准上优于类似大小的模型。

然后OpenAI突然发布了GPT-4o mini,不仅能力接近GPT-4,而且价格大幅下降。

就在GPT-4o mini发布同日,Mistral AI联合英伟达发布了12B参数小模型——Mistral NeMo。
从整体性能上看,Mistral NeMo在多项基准测试中,击败了Gemma29B和Llama38B。

所以,为啥大家都开始卷小模型了?
原因嘛可能正如smol AI创始人提醒的,虽然模型变小了,但在能力相近的情况下,小模型大大降低了成本。

就像他提供的这张图,以GPT-4o mini为代表的小模型整体比右侧价格更低。

对此,我等吃瓜群众be like:

所以,你更看好哪家呢?(欢迎评论区讨论留言)
模型地址:
https://huggingface.co/apple/DCLM-7B
GitHub:
https://github.com/mlfoundations/dclm
数据集地址:
https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
参考链接:
[1]https://x.com/Yuchenj_UW/status/1813260100192334108
[2]https://x.com/casper_hansen_/status/1814269340100751382
[3]https://x.com/_philschmid/status/1814274909775995087
[4]https://x.com/LoubnaBenAllal1/status/1813252390692303069
ChatGPT上线“论文神器”插件!无需关键字即可搜索2亿文章,链接绝对保真
ChatGPT上新了一个“论文搜索神器”插件,名叫“Consensus”。划重点:不用罗列关键字,只用一句话描述你想了解的问题,比如“xxxx有什么好处”、“xx对xx有何影响”。它就能从2亿篇论文中搜索并整理出来答案:每一个点都附上论文链接。甚至,根据你的问题写一篇简单的综述也行:当然,也是通过总结相关研究的方式,论文链接都会附上。站长网2023-09-06 18:41:480000苹果实体Home键平板下架 苹果官网正式下架iPad 9
随着全新iPadAir和iPadPro的发布,苹果对iPad系列进行了全面更新,并宣布将iPad10的价格全面下调至2999元起,进一步提升了其性价比。同时,苹果也正式下架了老一代的iPad9机型,这款iPad以其独特的实体Home键和Lightning接口,在苹果的历史上留下了深刻的印记。站长网2024-05-08 11:40:180001董宇辉:不会拉黑任何人 心中无敌就没有敌人
快科技1月22日消息,日前,董宇辉在直播时称,直播间不会主动拉黑任何一个人。即使评论区有时候看到很多人可能带着愤怒而来,他也不会去针对,直播间里有40万人,如果他读下你的名字和评论,可能会有很多人向其表达不满。但是他不愿意让人因此而被大家口诛笔伐,心中无敌就没有敌人,所以一些人也没必要发布些过激评论。0000一年注册841家,遍地开花的“俄罗斯商品馆”是一门什么生意?
15元一根的风味牛筋肠,20块一个的俄罗斯大列巴(面包),50块一瓶的小鸟伏特加,近段时间,大家一边citywalk,一边抬眼发现,似乎哪哪儿都能见到有“俄罗斯”元素的实体门店。据网友统计,光北京一个月就开了70多家,几乎每一个商场都会有一家俄罗斯商品馆。其他城市也是遍地开花,有的甚至没有租到门店,在露天广场搭了个棚子就开始运营。也有机构做了不完全的统计,如企查查发现:站长网2025-01-14 09:13:560000董明珠首次回应孟羽童离职:人在格力还去外面做广告 不合规
今年5月,被誉为董明珠接班人的孟羽童离职,此举引发了网络热议。对于离职原因,孟羽童表示是为了准备读研,但董明珠并未对此事进行正面回应。最近,董明珠在接受《财经郎眼》采访时被问及此事,她回应称:“网红不网红看人品质,人在格力去外面做广告是不合规的。”这是董明珠首次对孟羽童离职事件做出正式回应。站长网2023-11-07 21:35:310000