手机就能运行,1万亿训练数据!StableLM-3B-4E1T来啦
美东时间10月2日,著名开源平台Stability.ai在官网宣布,推出开源大语言模型StableLM-3B-4E1T。(开源地址:https://huggingface.co/stabilityai/stablelm-3b-4e1t)
据悉,Stable LM3B是一款主要面向手机、笔记本等移动设备的基础大语言模型,在保证性能的前提下,极大降低了算力资源的要求。
Stable LM3B支持生成文本/代码、总结摘要、数据微调、常识推理、解答数学题等功能,全局上下文长度为4096。(简称“Stable LM3B”)
随着ChatGPT的火爆出圈,全球掀起了轰轰烈烈的“大模型开发热潮”。但多数模型皆需要耗费大量算力资源才能预训练、微调,同时对开发的生成式AI应用的运行环境也有很高的要求。高通更是发布了专门针对移动端的生成式AI芯片,以解决算力问题。
Stability.ai希望通过开源Stable LM3B,帮助那些没有庞大算力资源的开发者,也能打造小巧精悍的生成式AI产品,可以安全、稳定地在移动端运行。
Stable LM3B训练数据集
虽然该模型只有30亿参数,却使用了一个包含文本、代码、维基百科、ArXiv、图书、C4等多种数据的1万亿tokens庞大的训练数据集。
该数据集由多个开源的大规模数据集经过筛选混合而成,包括Falcon RefinedWeb、RedPajama-Data、The Pile以及 StarCoder等。
这使得Stable LM3B以更少的资源,性能却超越同等规模模型,甚至比一些70亿、100亿参数的大模型更强。
Stable LM3B训练流程
Stable LM3B以bfloat16精度训练972k起步,全局上下文长度为4096,而不是像 StableLM-Alpha v2那样从2048到4096进行多阶段提升。
Stability.ai使用了AdamW进行性能优化,并在前4800步使用线性预热,然后采用余弦衰减计划将学习率降至峰值的4%。
早期的不稳定性归因于在高学习率区域的长期停留。由于模型相对较小,没有采用dropout。
在训练过程中,Stability.ai评估自然语言基准,并在学习率衰减计划的尾声阶段,观察到训练带来的稳步提升。基于这个原因,开发人员决定将学习率线性降低至0,类似于Zhai等人的做法,以期获得更好的性能。
此外,在预训练的初始阶段依赖于 flash-attention API及其开箱即用的三角因果屏蔽支持。这迫使模型以类似的方式处理打包序列中的不同文档。
在冷却阶段,Stability.ai在并发实验中凭经验观察到样本质量提高(即:减少重复)后,为所有打包序列重置 EOD 标记处的位置ID和注意掩码。
硬件方面,StableLM-3B是在Stability AI的算力集群上训练的。该集群包含256个NVIDIA A10040GB显卡。训练开始于2023年8月23日,大约消耗了30天完成。
性能测试方面,StableLM-3B在零样本的lm-evaluation-harness评估框架中,进行了性能测试。结果显示,性能完全不输70亿参数的模型,甚至比一些100亿参数的更强。
研究显示为人工智能生成图像添加水印以打击虚假信息和深度伪造可能毫无意义
站长之家(ChinaZ.com)10月7日消息:今年7月,白宫宣布,七家大型科技公司已承诺采取人工智能安全措施,包括部署水印,以确保算法生成的内容可以与真人作品区分开来。在这些巨头中,亚马逊、谷歌和OpenAI都特别提到了水印技术——即在文本和图像中添加信息以证明内容出处的技术——作为抵御其生成式人工智能模型所产生的错误信息、欺诈和深度伪造的一种方法。站长网2023-10-07 14:19:560000无忧、遥望、谦寻、交个朋友,谁是第一明星直播MCN?
这一次,MCN实现质的飞跃,成为了电视台的买单方。4月16日,无忧传媒的年会“无忧之夜”在浙江卫视播出,而无忧传媒也成为了少数登上星级电视台,搞起品牌定制晚会的MCN。一定程度上,这归结于近几年来,无忧传媒旗下多次出现刘畊宏、张大大等明星在抖音成为现象级顶流的案例。随着网红与明星之间的界限逐渐模糊,背后运营者MCN从中掌握了话语权。站长网2023-04-22 07:31:220007新AI框架DreamSync:结合图像理解模型的反馈 改善文本到图像合成
**划重点:**1.🌐DreamSync是由南加州大学、华盛顿大学、巴伊兰大学和谷歌研究团队引入的新型人工智能框架,致力于提高扩散型文本到图像(T2I)模型的对齐性和审美吸引力,无需人工标注、模型架构修改或强化学习。站长网2023-12-06 11:03:480000GPT Store可能是一个“硅基人才市场”
也许我们都错了,GPTStore可能是一个“硅基人才市场”,而不是APPStore。如果要说在AI领域中最火的一个应用,那么在当下,毫无疑问会是ChatGPT。站长网2024-01-31 09:18:180000英特尔提供34个开源AI参考套件 加速人工智能开发
据intc消息,英特尔现在向社区提供了一套34个开源人工智能参考工具包,这是与埃森哲多年合作的成果,使开发者和数据科学家能够更快、更容易地部署人工智能(AI)。每个工具包都包括模型代码、训练数据、机器学习流程的说明、库和oneAPI组件,以优化AI并使其适用于多架构的本地、云和边缘环境中的组织。站长网2023-07-25 12:20:440000