斯坦福研究人员推出 Sophia 可高效低成本训练大模型
站长网2023-07-26 16:13:050阅
斯坦福大学的研究人员开发了一种名为 Sophia 的新型优化器,可将语言模型的预训练时间缩短一半。相比于 Adam 优化器,Sophia 可以更快地解决语言模型的问题。
Sophia 通过轻量级估计对角 Hessian 矩阵作为二阶优化器的预条件。在更新之后,通过取梯度的平均值除以估计 Hessian 的平均值来进行元素级别的剪切。

这种剪切限制了最坏情况下更新的大小,并减轻了轨迹的非凸性和快速 Hessian 变化的影响。Sophia 的平均每步时间和内存开销都很低,因为它只在每几次迭代中估计对角 Hessian 矩阵。在使用 GPT-2模型进行语言建模时,Sophia 相比于 Adam 的速度提升了一倍,包括步数、计算量和墙上时间。
研究人员还展示了 Sophia 可以适应语言建模任务中的大参数变化。这项工作的运行时限与损失函数的条件数无关。总的来说,Sophia 优化器的实现简单,使用 PyTorch 时只需在梯度之前加上对角 Hessian 的轻量级估计即可。Sophia 还可以确保所有参数
维度上的一致损失减少,通过在尖锐尺寸(具有大 Hessian)上更严厉地惩罚更新,而在平坦维度(具有小 Hessian)上较轻地惩罚更新。学术界即使资源有限,也可以研究语言模型的预训练并开发出新的有效算法。研究人员在研究过程中广泛使用了理论推理,并在明天发布的代码中使用了稍微修改过的学习率的定义。
0000
评论列表
共(0)条相关推荐
粉色小海狸Loopy火了 小红书AI绘画二创赞藏数过万
通过AI绘画生成与热门IP相关的二次创作内容已经成为一种趋势,Loopy和玲娜贝儿就是其中的典型案例。Loopy因其呆萌可爱的外表和傲娇的性格而备受喜爱,成为网友们的表情包和联名届的新宠。小红书博主AshY使用AI绘画生成了一只蓝色的Loopy,并配上了谐音梗“我找到了Loopy的蓝朋友”。这条笔记的互动数据非常高,赞藏数已过万,评论超过2000条,是该博主所有笔记中互动数据最高的一条。站长网2023-09-06 17:36:000002投资界传奇大佬芒格去世 享年99岁 巴菲特发文悼念
伯克希尔-哈撒韦发布声明,宣布投资天才、沃伦·巴菲特的得力助手查理·芒格(CharlieMunger)去世,享年99岁。据悉,芒格在周二上午在加州一家医院平静去世,距离他的100岁生日仅剩一个月。同时,巴菲特发布声明表示,没有芒格的灵感、智慧和参与,伯克希尔不可能达到今天的地位。站长网2023-11-29 10:56:130000京东推出20年回忆录活动 查消费金额即可领红包
今年是京东创业的第20周年,今日,京东官方宣布推出20年回忆录活动,只需在京东APP搜索#20年回忆录#,即可查询这些年来的消费总额等数据。值得一提的是,在回忆录的最后,京东还为消费者准备了惊喜,点击即可获得红包等礼物。站长网2023-05-22 14:20:230002抖音为虚拟人直播立规矩!AI生成内容监管正当时
最近,随着ChatGPT的大热,另一个词也频繁出现在大众视野——AIGC。AIGC是一种使用人工智能技术生成内容的方法,它被视为继UGC和PGC之后的新兴内容生产方式。然而任何技术的出现都是一把双刃剑,在人工智能技术使内容生产更加方便时,AIGC生成内容以假乱真、数据泄露以及侵权的风险被进一步放大。数字应用场景的多元化,也给监管体系带来更为复杂的法律挑战。站长网2023-05-10 18:13:5700016美国八家报纸起诉 OpenAI 和微软侵犯版权
划重点:⭐️八家美国报纸起诉OpenAI和微软,指控未经授权使用新闻文章训练AI聊天机器人,侵犯版权。⭐️诉讼凸显对科技巨头未经赔偿利用新闻报道的担忧。⭐️涉案报纸包括《纽约每日新闻》和《芝加哥论坛报》等知名媒体。站长网2024-05-02 21:48:470001