斯坦福研究人员推出 Sophia 可高效低成本训练大模型
站长网2023-07-26 16:13:050阅
斯坦福大学的研究人员开发了一种名为 Sophia 的新型优化器,可将语言模型的预训练时间缩短一半。相比于 Adam 优化器,Sophia 可以更快地解决语言模型的问题。
Sophia 通过轻量级估计对角 Hessian 矩阵作为二阶优化器的预条件。在更新之后,通过取梯度的平均值除以估计 Hessian 的平均值来进行元素级别的剪切。

这种剪切限制了最坏情况下更新的大小,并减轻了轨迹的非凸性和快速 Hessian 变化的影响。Sophia 的平均每步时间和内存开销都很低,因为它只在每几次迭代中估计对角 Hessian 矩阵。在使用 GPT-2模型进行语言建模时,Sophia 相比于 Adam 的速度提升了一倍,包括步数、计算量和墙上时间。
研究人员还展示了 Sophia 可以适应语言建模任务中的大参数变化。这项工作的运行时限与损失函数的条件数无关。总的来说,Sophia 优化器的实现简单,使用 PyTorch 时只需在梯度之前加上对角 Hessian 的轻量级估计即可。Sophia 还可以确保所有参数
维度上的一致损失减少,通过在尖锐尺寸(具有大 Hessian)上更严厉地惩罚更新,而在平坦维度(具有小 Hessian)上较轻地惩罚更新。学术界即使资源有限,也可以研究语言模型的预训练并开发出新的有效算法。研究人员在研究过程中广泛使用了理论推理,并在明天发布的代码中使用了稍微修改过的学习率的定义。
0000
评论列表
共(0)条相关推荐
苹果希望印度免除旧款 iPhone 的 USB-C 充电规则
站长之家(ChinaZ.com)12月6日消息:据报道,苹果正在积极游说印度政府,试图推迟一项规定的实施,该规定要求在印度销售的所有智能手机都必须配备USB-C充电端口。尽管苹果已经在新款iPhone15系列中采用USB-C端口,但这项法规可能会迫使苹果在旧款iPhone上也使用USB-C端口。站长网2023-12-06 14:07:060000华为智界 S7 汽车正式发布 售价 24.98 万起
今日,华为智选车品牌旗下的首款轿车——智界S7已经正式发布。它提供了四款车型,包括智界S7Pro、智界S7Max、智界S7Max和智界S7MaxRS,售价分别为24.98万、28.98万、31.98万和34.98万。外观上,智界S7采用了全新的OneBox造型设计,这种设计大幅提升了舱内空间的利用率。车辆的一体式车身结构和流体黄金曲线赋予了其0.203Cd的超低风阻。站长网2023-11-28 18:44:370000阿里魔搭社区开源 Mistral AI 旗下新模型 Mistral7B
阿里巴巴达摩院模型开源社区ModelScope宣布开源法国人工智能初创公司MistralAI旗下新模型Mistral7B,可免费商用。据悉,Mistral7B在公开提供的指令数据集上进行了微调后的模型Mistral7BInstruct,在MT-Bench上超越了其他7B模型,并可与13B聊天模型相媲美。mistral-7b-instruct模型链接:站长网2023-10-16 08:35:090000美国联邦机构或对OpenAI与微软关系展开反垄断调查
划重点:🔍美国司法部和联邦贸易委员会可能对OpenAI与Microsoft的关系展开反垄断调查。🌐针对合作是否在人工智能市场中形成不公平竞争的担忧。🌍此消息发布不到两周,欧洲委员会已宣布对Microsoft与OpenAI的合作进行审查。站长网2024-01-22 10:10:030000曝拼多多现金储备超2700亿元!近乎小米的两倍
快科技9月2日消息,据国外媒体报道,在美国上市的拼多多控股拥有380亿美元(约合2700亿元人民币)的净现金储备,是紧随其后的特斯拉两倍多。同时根据小米公布的最新财报,截至2024年6月30日,小米的现金储备为人民币1410亿元,简单计算的话,拼多多的现金储备近乎是小米的两倍。0000