智源研究院推出1bit自然语言理解预训练模型BiPFT
站长网2024-01-11 09:50:030阅
智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。
与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。

另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。
实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。
研究论文
https://arxiv.org/abs/2312.08937
0000
评论列表
共(0)条相关推荐
HeyGen平替?上传一段视频argil即可完成形象+声音克隆
随着社交媒体在个人和品牌推广中的关键作用日益凸显,一种新兴的AI视频短片技术——argil应运而生,为内容创作带来了革命性的变化。这项技术允许用户通过AI克隆生成预编辑的视频短片,无需拿出相机,以几乎零成本扩展在线社交媒体品牌。站长网2024-03-18 16:45:170005AI日报:Llama3.1重磅上线;可灵上线国际版1.0并开启付费计划;腾讯PhotoMaker V2升级
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、最强开源模型来了!Llama3.1以405B参数领先GPT-4o站长网2024-07-25 10:31:180000iPhone16电池或更易更换:采用金属外壳设计
随着欧盟去年通过一项重要法律,要求手机厂商确保到2025年智能手机的电池能够方便用户自行更换,科技巨头苹果正积极响应这一政策,并着手研发新的电池更换技术。据悉,苹果正在开发一种名为电感应粘合剂脱粘技术的创新方案。这一技术允许用户通过施加一小股电流,即可轻松将电池从手机底盘上分离。此举将极大简化电池更换流程,为用户提供了前所未有的便利。站长网2024-06-28 17:21:480000CPU处理器价格越来越贵 笔记本除外:大跌9%
快科技4月30日消息,去年下半年到现在,PC市场也遇到了需求大幅下滑的难题,出货量创造了10多年来新低,AMD及Intel两大CPU厂商的业绩都不太好看,CPU价格反而越来越贵,不过桌面及笔记本情况又不同。Intel上周五发布了Q1季度财报,营收下滑了36%,创造了2010年以来的历史新低,并且连续2个季度亏损。站长网2023-05-12 20:40:350000