Headless语言模型:通过捆绑嵌入提高模型的训练速度
站长网2023-09-20 11:06:292阅
要点:
1. 提出了一种新的预训练方法,称为无预测头语言模型,它移除了对词汇空间概率分布的预测需求,而是关注用对比方式重构表示。
2. 该方法只需要改变目标函数,可以直接应用于经典语言模型预训练目标。
3. 在单语和多语编码器以及单语解码器中实验表明,Headless语言模型预训练相比经典方法在给定运算量下表现更好,计算效率更高。
研究人员发现了一种改进语言模型性能的方法——Headless语言模型,即将输入嵌入与模型的其他嵌入捆绑在一起,并使用对比损失。通常情况下,语言模型的输入和输出嵌入层是分开的,但这种新方法通过捆绑它们,提高了模型的训练速度和准确性。这一创新有望在大规模语言处理任务中取得广泛应用。
Headless语言模型通过移除语言模型预测词汇空间概率分布的需求,改为学习重构输入嵌入的对比方式,提供了一种创新预训练方法。作者提出了一种对比权重绑定损失,可以直接作为经典语言模型的目标函数替代,因此可以轻松集成到已有代码库中。
论文地址:https://arxiv.org/pdf/2309.08351.pdf
在英文和多语言单向编码器以及英文解码器模型的中等规模预训练实验中发现,在类似运算量下,Headless语言模型相比经典方法有显著提升,下游表现更好,数据效率更高,计算效率也更高。
例如,Headless语言模型在GLUE基准测试上的结果比对应的经典模型高1.6分,在LAMBADA数据集上的准确率提高了2.7分。
此外,训练Headless语言模型可以节省高达20倍的运算量。总的来说,这项工作为以对比学习取代交叉熵作为自监督预训练目标开辟了道路,为语言表示学习提供了一种高效可行的替代方案。
0002
评论列表
共(0)条相关推荐
OpenAI 年收入超160亿元,两月增长五成
据TheInformation报道,OpenAI的聊天机器人ChatGPT付费用户数量快速增长,使其年化收入在两个月内从130亿元飙升至超过160亿元,同比增长超过57倍。数据显示,ChatGPT自2月推出付费服务以来,订阅用户数持续增加,每月为OpenAI带来超过13亿元营收。000011.83亿元!顺丰向极兔转让丰网100%股权
快科技5月12日消息,今晚顺丰控股发布公告称,下属控股子公司深圳市丰网控股有限公司(以下简称丰网控股”)与极兔速递下属子公司深圳极兔供应链有限公司签署了《股权转让协议》。丰网控股拟以人民币11.83亿元转让全资子公司深圳市丰网信息技术有限公司(以下简称丰网信息)100%股权。深圳丰网速运有限公司是丰网信息下属全资子公司,在2020年正式成立,2020年9月丰网速运开始提供快递服务。站长网2023-05-13 09:15:320000Meta翻译大模型可模仿语气语速,AI再也不“莫得感情”了
Meta发布了全新AI翻译大模型,实时语音转换延迟不超过2秒。感受一把这个速度(西班牙语<=>英语):不仅速度快,它的准确率还和离线模型一样高。最重要的是,像什么停顿、语气、语速和情绪……它都可以复刻。例如模仿耳语:原声1,量子位,3秒翻译1,量子位,3秒例如模仿悲伤:原声2,量子位,3秒翻译2,量子位,3秒有了它,再也不用吐槽AI翻译“莫的感情”了。0000丰田训练AI机器人制作早餐,无需编码、通过触觉学习
文章概要:1.丰田研究院(TRI)使用生成式人工智能在“机器人幼儿园”中教机器人制作早餐,无需编码。2.通过触觉感知,机器人模型学会了超过60项挑战性技能,如倒液体、使用工具和操控可变形物体。3.丰田的目标是在2024年底前将这一技术扩展到1000项新技能,使机器人能够根据观察学习和执行未曾教导过的任务。站长网2023-09-20 09:59:490000谷歌VideoPoet负责人蒋路跳槽TikTok!对标Sora,AI视频模型大战在即
谷歌VideoPoet项目ResearchLead,CMU兼职教授蒋路的GoogleScholar资料显示已加入TikTok。最近,有传闻TikTok招募了某篇论文的作者作为北美技术部门负责人,研发能和Sora对抗的视频生成AI。而蒋路3周前在Linkedin上发布了离职谷歌的消息,也向外界揭开了谜底。站长网2024-02-22 09:22:150001