手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦
美东时间10月2日,著名开源平台Stability.ai在官网宣布,推出开源大语言模型StableLM-3B-4E1T。(开源地址:https://huggingface.co/stabilityai/stablelm-3b-4e1t)
据悉,Stable LM3B是一款主要面向手机、笔记本等移动设备的基础大语言模型,在保证性能的前提下,极大降低了算力资源的要求。
Stable LM3B支持生成文本/代码、总结摘要、数据微调、常识推理、解答数学题等功能,全局上下文长度为4096。(简称“Stable LM3B”)

随着ChatGPT的火爆出圈,全球掀起了轰轰烈烈的“大模型开发热潮”。但多数模型皆需要耗费大量算力资源才能预训练、微调,同时对开发的生成式AI应用的运行环境也有很高的要求。高通更是发布了专门针对移动端的生成式AI芯片,以解决算力问题。
Stability.ai希望通过开源Stable LM3B,帮助那些没有庞大算力资源的开发者,也能打造小巧精悍的生成式AI产品,可以安全、稳定地在移动端运行。
Stable LM3B训练数据集
虽然该模型只有30亿参数,却使用了一个包含文本、代码、维基百科、ArXiv、图书、C4等多种数据的1万亿tokens庞大的训练数据集。
该数据集由多个开源的大规模数据集经过筛选混合而成,包括Falcon RefinedWeb、RedPajama-Data、The Pile以及 StarCoder等。
这使得Stable LM3B以更少的资源,性能却超越同等规模模型,甚至比一些70亿、100亿参数的大模型更强。

Stable LM3B训练流程
Stable LM3B以bfloat16精度训练972k起步,全局上下文长度为4096,而不是像 StableLM-Alpha v2那样从2048到4096进行多阶段提升。
Stability.ai使用了AdamW进行性能优化,并在前4800步使用线性预热,然后采用余弦衰减计划将学习率降至峰值的4%。
早期的不稳定性归因于在高学习率区域的长期停留。由于模型相对较小,没有采用dropout。

在训练过程中,Stability.ai评估自然语言基准,并在学习率衰减计划的尾声阶段,观察到训练带来的稳步提升。基于这个原因,开发人员决定将学习率线性降低至0,类似于Zhai等人的做法,以期获得更好的性能。
此外,在预训练的初始阶段依赖于 flash-attention API及其开箱即用的三角因果屏蔽支持。这迫使模型以类似的方式处理打包序列中的不同文档。
在冷却阶段,Stability.ai在并发实验中凭经验观察到样本质量提高(即:减少重复)后,为所有打包序列重置 EOD 标记处的位置ID和注意掩码。

硬件方面,StableLM-3B是在Stability AI的算力集群上训练的。该集群包含256个NVIDIA A10040GB显卡。训练开始于2023年8月23日,大约消耗了30天完成。
性能测试方面,StableLM-3B在零样本的lm-evaluation-harness评估框架中,进行了性能测试。结果显示,性能完全不输70亿参数的模型,甚至比一些100亿参数的更强。

苹果要 all in 智能眼镜?Vision Pro 2 也已准备就绪
苹果已着手开发轻便且低价的AR智能眼镜,同时也在开发第二代头显设备VisionPro。14日,彭博社报道称,苹果正在开发一款可全天佩戴的轻量级AR智能眼镜——这款AR眼镜更轻便、更廉价。与此同时,苹果正在着手开发VisionPro的第二代产品。据悉,苹果轻量级AR智能眼镜的原理与VisionPro类似,即在现实场景之上叠加显示信息或图像。站长网2025-04-14 12:04:290000周鸿祎称360员工不会被GPT淘汰 鼓励使用GPT拿绩效
今日,360集团创始人周鸿祎发布主题为“三六零人工智能总动员”的内部信,周鸿祎表示,360每一位员工、每个产品和业务要全面拥抱人工智能,适应人机协作,着手产品重塑。周鸿祎称,360在国内的搜索份额接近40%,抓取了千亿甚至万亿规模的网页,积累了6亿问答对,搭建了模型训练的基础设施等等。站长网2023-04-21 16:03:210000“ChatGPT的最强竞品”爆火,就这?
当ChatGPT大杀四方,而国内类似的AI产品还没有足够成熟的消息传来时,出现了一个全新AI助手产品——Claude(官网链接:https://www.anthropic.com/product)。站长网2023-04-24 18:04:050009DeepMind新人工智能可直接向人类学习任务
谷歌子公司DeepMind推出了一款突破性的人工智能代理系统,能够直接从人类教师那里学习任务。该系统通过观察和模仿行动来模拟人类任务执行,展示了一种被称为“文化传递”的新型模仿学习形式。在《自然》杂志上发表的研究详细介绍了文化传递的过程,使得人工智能模型能够在不依赖预先收集的人类数据的情况下学习。这种类似观看视频教程的方法不仅使人工智能代理能够复制人类行为,还能随着时间的推移记忆观察到的行为。站长网2023-12-05 10:08:100000网易严选前CEO辞职创业,一年销售额20亿,霸榜类目
“大晶,你从大厂出来创业没多久就要转方向,是不是能力不行?”2019年的一个雨天,郑如晶拖着行李箱,一个人坐在上海的马路牙子上,心情跌到谷底。投资人问出的这个问题让她陷入自我怀疑和重重思考。彼时,郑如晶刚辞去网易副总裁的职位,离开了亲手创办的网易严选,搭建了一个精品垂类电商“够货”。但身兼操盘手的她,洞察到平台的获客成本已然飙升至高点,也就是说,“做平台的天时地利人和过去了”。0000