斯坦福研究人员推出 Sophia 可高效低成本训练大模型
站长网2023-07-26 16:13:050阅
斯坦福大学的研究人员开发了一种名为 Sophia 的新型优化器,可将语言模型的预训练时间缩短一半。相比于 Adam 优化器,Sophia 可以更快地解决语言模型的问题。
Sophia 通过轻量级估计对角 Hessian 矩阵作为二阶优化器的预条件。在更新之后,通过取梯度的平均值除以估计 Hessian 的平均值来进行元素级别的剪切。
这种剪切限制了最坏情况下更新的大小,并减轻了轨迹的非凸性和快速 Hessian 变化的影响。Sophia 的平均每步时间和内存开销都很低,因为它只在每几次迭代中估计对角 Hessian 矩阵。在使用 GPT-2模型进行语言建模时,Sophia 相比于 Adam 的速度提升了一倍,包括步数、计算量和墙上时间。
研究人员还展示了 Sophia 可以适应语言建模任务中的大参数变化。这项工作的运行时限与损失函数的条件数无关。总的来说,Sophia 优化器的实现简单,使用 PyTorch 时只需在梯度之前加上对角 Hessian 的轻量级估计即可。Sophia 还可以确保所有参数
维度上的一致损失减少,通过在尖锐尺寸(具有大 Hessian)上更严厉地惩罚更新,而在平坦维度(具有小 Hessian)上较轻地惩罚更新。学术界即使资源有限,也可以研究语言模型的预训练并开发出新的有效算法。研究人员在研究过程中广泛使用了理论推理,并在明天发布的代码中使用了稍微修改过的学习率的定义。
0000
评论列表
共(0)条相关推荐
小米申请“小米龙晶”商标 此前小米14 Pro首发龙晶玻璃
小米科技有限责任公司近日申请注册了多个“小米龙晶”商标,这些商标涵盖了科学仪器、橡胶制品和厨房洁具等多个国际分类。目前这些商标的状态为等待实质审查。据了解,小米龙晶玻璃将由小米14Pro首发采用,这种玻璃的抗跌落性能提升了10倍,耐刮性能也提升了1.32倍。站长网2023-11-13 21:42:380000智谱 AI 上线首款生成式AI 助手「智谱清言」 基于ChatGLM2研发
8月31日,智谱AI宣布正式上线首款生成式AI助手「智谱清言」(chatglm.cn)。该助手基于智谱AI自主研发的中英双语对话模型ChatGLM2,经过万亿字符的文本与代码预训练,并采用有监督微调技术,以通用对话的形式为用户提供智能化服务。站长网2023-08-31 08:20:520000失业的互联网人,都想创业
各位村民好,我是村长这几年,互联网行业失业的人特别多。尤其是互联网领域都有一个魔咒,那就是过了35岁,就很难再上升,也很难再找到工作。可想而知的结果,就是被单位裁员优化。但对于大厂员工来说,能在大厂工作五六年,已经能够拿到很不错的待遇了,百万元以上了。然后被裁员的话,还能拿到一个很不错的补偿包,至少10万元以上。而对在普通互联网公司上班的人来说,失业后的压力就很大的。0000撕掉“直男天堂”标签圈粉女性,迪卡侬是如何逆袭的?
过去,迪卡侬总被称之为“直男天堂”,店内清一色的“黑白灰”色衣服,充斥着浓浓工业风的装修风格,粗糙的商品货架,都与“都市丽人”毫不沾边。最近,迪卡侬的社交热度有所上涨,其中“迪卡侬女孩”“迪卡侬穿搭”等话题引起广泛讨论。而在小红书上,有关迪卡侬的笔记数量达到了10万,各种穿搭以及探店内容层出不穷。从最初的“直男天堂”到如今成功圈粉年轻女性群体,迪卡侬是如何逆袭的?站长网2023-08-31 18:18:050001B站上也能卖爆女装?这可能是新的蓝海市场
移动互联网时代,社交媒体的营销价值开始凸显,KOL在营销中逐渐掌握了更多的话语权。而在品牌投放预算缩减的背景下,追求更高的投入产出比成为了品牌共同的诉求。直播带货能为品牌带来曝光度、知名度之外最直接的效益,因此成为众多品牌青睐的营销方式。站长网2023-09-13 18:00:580000