智源研究院推出1bit自然语言理解预训练模型BiPFT
站长网2024-01-11 09:50:030阅
智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。
与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。
另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。
实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。
研究论文
https://arxiv.org/abs/2312.08937
0000
评论列表
共(0)条相关推荐
入口和粘性决定大模型应用成败!小米场景天然,秀技术参数没意义|小米栾剑@MEET2024
小米集团技术委员会AI实验室大模型团队负责人栾剑,在MEET2024智能未来大会上,透露了小米大模型独有的方法论。作为大模型应用的先行者、率先在手机端跑通大模型的小米,早早将轻量化和本地部署作为自身大模型应用突破点。现场栾剑表示将大模型搭载到硬件设备里面去充当大脑,是件很酷的事情。图源备注:图片由AI生成,图片授权服务商Midjourney0001单月涨粉38万,她拿下小红书2024开门红
2024年开年之际,小红书内容生态呈现出了怎样的面貌?让我们一起在春节到来之前,围观下新鲜出炉的一月涨粉榜:本月排名第一的是萌娃账号@刘格格。该账号之所能在本月迅速涨粉,源于格格与剧情博主@晨晨的“网友奔现”。面对漂亮妹妹的热烈欢迎,张典兴奋又害羞的表情令人捧腹;格格撩起刘海cos臻臻后,张典的“痛心疾首”也颇具喜感。奇妙的化学反应下,@刘格格一月涨粉38.2万,在2024年迎来了开门红。站长网2024-02-06 16:22:200000AI视野:百度推视频生成模型UniVG;下一代大模型Llama3正在训练;腾讯推视频模型VideoCrafter2;TikTok测试AI作曲功能
欢迎来到【AI视野】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/🤖📱💼AI应用1、百度推出视频生成模型UniVG可处理各种文本和图像的组合输入【AiBase提要:】⭐UniVG是一种“统一模态视频生成系统”。站长网2024-01-19 15:52:490000发改委:支持民营企业参与重大科技攻关,牵头承担工业软件、云计算、人工智能、工业互联网、基因和细胞医疗、新型储能等领域的攻关任务
国家发展改革委网站今日发布《关于实施促进民营经济发展近期若干举措》的通知,其中提出支持民营企业参与重大科技攻关,牵头承担工业软件、云计算、人工智能、工业互联网、基因和细胞医疗、新型储能等领域的攻关任务。站长网2023-08-01 14:40:430000