Headless语言模型:通过捆绑嵌入提高模型的训练速度
站长网2023-09-20 11:06:292阅
要点:
1. 提出了一种新的预训练方法,称为无预测头语言模型,它移除了对词汇空间概率分布的预测需求,而是关注用对比方式重构表示。
2. 该方法只需要改变目标函数,可以直接应用于经典语言模型预训练目标。
3. 在单语和多语编码器以及单语解码器中实验表明,Headless语言模型预训练相比经典方法在给定运算量下表现更好,计算效率更高。
研究人员发现了一种改进语言模型性能的方法——Headless语言模型,即将输入嵌入与模型的其他嵌入捆绑在一起,并使用对比损失。通常情况下,语言模型的输入和输出嵌入层是分开的,但这种新方法通过捆绑它们,提高了模型的训练速度和准确性。这一创新有望在大规模语言处理任务中取得广泛应用。
Headless语言模型通过移除语言模型预测词汇空间概率分布的需求,改为学习重构输入嵌入的对比方式,提供了一种创新预训练方法。作者提出了一种对比权重绑定损失,可以直接作为经典语言模型的目标函数替代,因此可以轻松集成到已有代码库中。
论文地址:https://arxiv.org/pdf/2309.08351.pdf
在英文和多语言单向编码器以及英文解码器模型的中等规模预训练实验中发现,在类似运算量下,Headless语言模型相比经典方法有显著提升,下游表现更好,数据效率更高,计算效率也更高。
例如,Headless语言模型在GLUE基准测试上的结果比对应的经典模型高1.6分,在LAMBADA数据集上的准确率提高了2.7分。
此外,训练Headless语言模型可以节省高达20倍的运算量。总的来说,这项工作为以对比学习取代交叉熵作为自监督预训练目标开辟了道路,为语言表示学习提供了一种高效可行的替代方案。
0002
评论列表
共(0)条相关推荐
Petey将 ChatGPT引入了iPhone 可通过AI助手快速获得音乐推荐
继将ChatGPT引入AppleWatch之后,Petey又将其功能集带到了iPhone,允许用户更快地访问其AI助手,甚至可以使用Apple的快捷方式将Siri替换为Petey。在最近的更新中,Petey已经可以连接到AppleMusic,因此它可以为您制作播放列表或帮助您将单首歌曲添加到您的AppleMusic库中。站长网2023-04-25 11:17:400000微信内测听一听功能:升级微信音乐音频业务 单设一级入口
快科技1月18日消息,据国内媒体报道,微信对音乐和音频内容的呈现方式上,进行了小范围的体验优化测试,升级了微信音乐音频业务,还单设了一级入口。据悉,微信将之前位于首页下拉页面中的音乐、音频业务,在发现”页中单独设置了一个入口,并更名为听一听”。站长网2024-01-19 08:52:450000北大最强代码大模型CodeShell-7B开源 提供全栈智能编程支持
要点:北大等机构开源了性能卓越的代码基座大模型CodeShell-7B,提供轻量高效的智能代码助手,同时开源IDE插件,支持各种编程语言。CodeShell-7B基于5000亿Tokens的冷启动训练,在代码评估基准上表现出众,超过了竞争对手的模型。支持中英文和代码的编解码,性能优越。站长网2023-10-19 15:01:400000加利福尼亚州设定使用生成式人工智能法律实践指南,更多州将效仿
**划重点:**1.🌐**机密性规定**:律师在使用生成式人工智能解决方案时,不得输入客户的任何机密信息,除非律师知道提供者不会与他人分享信息或将其用于自身,比如用于培训或改进其人工智能产品。站长网2023-12-01 14:04:420001Open LLM榜单再次刷新,比Llama 2更强的「鸭嘴兽」来了
站长网2023-08-17 09:38:320000