斯坦福研究人员推出 Sophia 可高效低成本训练大模型
站长网2023-07-26 16:13:050阅
斯坦福大学的研究人员开发了一种名为 Sophia 的新型优化器,可将语言模型的预训练时间缩短一半。相比于 Adam 优化器,Sophia 可以更快地解决语言模型的问题。
Sophia 通过轻量级估计对角 Hessian 矩阵作为二阶优化器的预条件。在更新之后,通过取梯度的平均值除以估计 Hessian 的平均值来进行元素级别的剪切。
这种剪切限制了最坏情况下更新的大小,并减轻了轨迹的非凸性和快速 Hessian 变化的影响。Sophia 的平均每步时间和内存开销都很低,因为它只在每几次迭代中估计对角 Hessian 矩阵。在使用 GPT-2模型进行语言建模时,Sophia 相比于 Adam 的速度提升了一倍,包括步数、计算量和墙上时间。
研究人员还展示了 Sophia 可以适应语言建模任务中的大参数变化。这项工作的运行时限与损失函数的条件数无关。总的来说,Sophia 优化器的实现简单,使用 PyTorch 时只需在梯度之前加上对角 Hessian 的轻量级估计即可。Sophia 还可以确保所有参数
维度上的一致损失减少,通过在尖锐尺寸(具有大 Hessian)上更严厉地惩罚更新,而在平坦维度(具有小 Hessian)上较轻地惩罚更新。学术界即使资源有限,也可以研究语言模型的预训练并开发出新的有效算法。研究人员在研究过程中广泛使用了理论推理,并在明天发布的代码中使用了稍微修改过的学习率的定义。
0000
评论列表
共(0)条相关推荐
清博智能发布大模型“先问” 支持实时联网
站长之家(ChinaZ.com)6月12日消息:6月10日,清博智能发布实时联网大模型“先问”。据了解,该大模型基于2000亿开源数据集、百万级专业人工数据集,具有数据可溯源、实时同步、可视化分析、多参数版本特点,支持本地化部署。目前,“先问”还处在内测状态。据了解,“先问”大模型的出品方,北京清博智能科技有限公司2014年成立,是一家以大数据、人工智能为技术底盘的科技公司。站长网2023-06-12 16:57:340005借助AI风口数据变现!Reddit向企业收取API访问费用
本周三,Reddit宣布将开始对使用其应用程序编程接口(API)的企业收费,该接口提供下载和处理人与人之间对话的数据。该公司计划今年晚些时候在华尔街上市。这意味着,谷歌或OpenAI等大型科技公司将无法再免费使用其API来训练人工智能聊天机器人并增强指导以加速其人工智能服务。站长网2023-04-19 11:16:530000快手双11购物节正式开启预售 “抽免单”活动已上线
10月10日,快手平台正式开启了今年的双11购物节预售活动,以"件件甄选多买多省"为主题,为消费者带来了多样化的优惠活动和低价好物。此次购物节旨在提供丰富的商品选择和连续的促销活动,让消费者在购物过程中享受更多优惠。站长网2024-10-14 18:33:420000Stability AI CEO:五年内将不再有人类程序员 明年年底 ChatGPT 可在手机上离线使用
随着人工智能(AI)日益改变我们的世界,StabilityAI创始人兼首席执行官EmadMostaque做出了一个颇具争议性的预测:「五年内将不再有程序员。」这位具有未来洞察力的CEO似乎展望了一个由AI能力塑造的近未来。站长网2023-07-04 14:43:510004vivo开源蓝心大模型BlueLM-7B系列 后续还将开源13B以及多模态7B-vl模型
近日,vivoAI正式开源了BlueLM-7B基础(base)模型和7B对话(chat)模型,同时开源了支持32K的长文本基础(base)模型和对话(chat)模型。具体特性如下:更大量的优质数据:高质量语料库进行训练,规模达到了2.6万亿的token数,该语料库包含中文、英文以及少量日韩数据;站长网2023-11-09 14:11:270002