Headless语言模型：通过捆绑嵌入提高模型的训练速度

站长网2023-09-20 11:06:292阅

要点:

1. 提出了一种新的预训练方法，称为无预测头语言模型，它移除了对词汇空间概率分布的预测需求，而是关注用对比方式重构表示。

2. 该方法只需要改变目标函数，可以直接应用于经典语言模型预训练目标。

3. 在单语和多语编码器以及单语解码器中实验表明，Headless语言模型预训练相比经典方法在给定运算量下表现更好，计算效率更高。

研究人员发现了一种改进语言模型性能的方法——Headless语言模型，即将输入嵌入与模型的其他嵌入捆绑在一起，并使用对比损失。通常情况下，语言模型的输入和输出嵌入层是分开的，但这种新方法通过捆绑它们，提高了模型的训练速度和准确性。这一创新有望在大规模语言处理任务中取得广泛应用。

Headless语言模型通过移除语言模型预测词汇空间概率分布的需求，改为学习重构输入嵌入的对比方式，提供了一种创新预训练方法。作者提出了一种对比权重绑定损失，可以直接作为经典语言模型的目标函数替代，因此可以轻松集成到已有代码库中。

论文地址:https://arxiv.org/pdf/2309.08351.pdf

在英文和多语言单向编码器以及英文解码器模型的中等规模预训练实验中发现，在类似运算量下，Headless语言模型相比经典方法有显著提升，下游表现更好，数据效率更高，计算效率也更高。

例如，Headless语言模型在GLUE基准测试上的结果比对应的经典模型高1.6分，在LAMBADA数据集上的准确率提高了2.7分。

此外，训练Headless语言模型可以节省高达20倍的运算量。总的来说，这项工作为以对比学习取代交叉熵作为自监督预训练目标开辟了道路，为语言表示学习提供了一种高效可行的替代方案。

Headless语言模型通过捆绑嵌入提高模型的训练速度

0002

评论列表

共(0)条

相关推荐

站长资讯
Faraday Future正式宣布交付首辆FF 91给用户
就在刚刚FF（FaradayFuture）宣布，正式交付首辆FF912.0FuturistAlliance给首位用户，并在8月12日举行了新车首位塔尖用户交付仪式。北京时间8月16日上午9:00，FF将通过官方平台播出首次FF912.0FuturistAlliance交付仪式和首届开发者共创节启动仪式的实况。
站长网2023-08-14 15:52:09
0000
站长资讯
七国集团将同意为发展高级人工智能系统的公司制定行为准则
站长之家(ChinaZ.com)10月30日消息:根据G7的一份文件显示，七国集团（G7）的工业国家将于周一达成一项针对开发先进人工智能系统的公司的行为准则。随着政府寻求缓解该技术的风险和潜在滥用，这项自愿行为准则将为主要国家如何监管AI设定一个里程碑。
站长网2023-10-30 09:06:21
0000
站长资讯
AI日报：公众号接入腾讯元器AI智能体；字节Loopy对口型功能在即梦上线；PixVerse全新UI发布；阿里云魔搭社区上线AIGC专区
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、数字人起飞！字节Loopy对口型功能在即梦上线
站长网2024-09-27 00:41:12
0000
GPT-4.1偷偷开跑？神秘模型上线三天已被玩疯，网友发现大量OpenAI痕迹
上线仅三天的神秘模型，已经鲨疯了!大模型聚合平台OpenRouter新推出的OptimusAlpha，已经处理了772亿Token，平均每天超过200亿。并且这个数字还在上升，日Token处理已超过340亿，排名第二，并在Trending榜单上位列第一。有网友试着用它挑战MC-Bench，生成《我的世界》风格的场景，并对比了4o-mini，结果高下立判:
站长网站长资讯2025-04-14 09:25:04
0000
Sam Altman放豪言：OpenAI训GPT-5不差钱，人类已接近AGI阈值
【新智元导读】前段时间，OpenAICEOSamAltman和CTOMiraMurati在WSJ的专访里，探讨了AGI、未来GPT的发展、以及AI对人类的影响。「OpenAI的最终目标为什么是AGI?什么是AGI?」「ChatGPT以及其他语言模型的用途是什么?」「人类与人工智能的关系在未来会发生什么变化?」
站长网站长资讯2023-11-07 21:49:29
0000