智源研究院推出1bit自然语言理解预训练模型BiPFT
站长网2024-01-11 09:50:030阅
智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。
与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。
另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。
实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。
研究论文
https://arxiv.org/abs/2312.08937
0000
评论列表
共(0)条相关推荐
千兆宽带加速普及!我国家庭户均网速出炉:你的上下行速度是多少
快科技10月28日消息,我国千兆宽带用户越来越多,你升级了吗?按照工信部公布情况,截至9月底,1000Mbps及以上接入速率的固定互联网宽带接入用户达1.39亿户,比上年末净增4722万户,占总用户数的22.3%。在高速率用户持续增长拉动下,家庭户均接入带宽达428.3Mbps/户,同比增长26.7%。站长网2023-10-28 18:33:190000销售额破千万,快闪店被挤爆,谁接住了的泼天富贵?
没有人想错过Chiikawa这波流量生意。最先在国内与Chiikawa联名卖周边、开快闪店的名创优品,早已被年轻人挤爆,一个快闪店3天就卖了800万元,又趁热打铁地在全国多个城市开快闪,线上直播间同步卖Chiikawa周边,一场直播最高带货100万-250万元。上海静安大悦城Chiikawa×名创优品联名快闪摄于3月29日营业第一天站长网2024-04-22 15:40:190000英国央行在英国峰会前警告人工智能可能构成金融稳定风险
站长之家(ChinaZ.com)10月12日消息:人工智能风险有可能加剧金融稳定风险,破坏对银行的信任,这是英国央行的一项分析得出的结论。这一结论出现在全球领导人和企业为了应对人工智能问题而筹备的关键峰会之前。英国央行员工博客BankUnderground上发表的一篇论文表示,中央银行需要考虑如何限制金融公司的人工智能风险,并担忧这项技术可能对客户进行歧视。站长网2023-10-12 10:42:530000拼多多,藏着水果版中国地图
越来越多人开始在拼多多买水果。在发现这个现象后,我询问他们同一个问题:“那你收到过烂掉的吗?”几乎所有频繁下单的人都告诉我,收到过。他们在拼多多买全国各地的水果,偶尔收到烂掉的,但依然会继续在拼多多买全国各地的水果。他们中,有的是公司白领,有的甚至自己开公司,便宜这个答案,显然不能解释一切。于是我开始认真探寻这个问题的答案:买到过烂水果的用户,为什么还愿意留在拼多多?水果蔬菜里的中国地理站长网2024-06-17 19:05:510005Meta要求在平台上发布使用AI处理的政治广告需明确披露
划重点:-Meta将要求广告商在其平台上发布的政治广告中是否包含任何使用人工智能生成或数字修改的内容进行披露。-Meta的政策要求广告商披露其广告活动的资金来源,并将广告存储在Meta的公共广告库中长达七年。-Meta将禁止在2024年美国总统选举的最后一周期间播放任何新的政治、选举或社会问题广告,但对其他国家的选举不适用此规定。站长网2023-11-30 12:06:240000