智源研究院推出1bit自然语言理解预训练模型BiPFT
站长网2024-01-11 09:50:030阅
智源研究院提出了首个用于自然语言理解任务的1bit 轻量化预训练模型 BiPFT。与传统的 FP32模型相比,BiPFT 模型在推理阶段显著减少了操作数量和内存使用。该模型在 GLUE 标准测试集上的平均性能超过了15.4%。
与以往的1bit 量化方法不同,BiPFT 直接在预训练阶段使用大量的文本数据对模型进行1bit 预训练,而不是在下游任务上进行量化。这种方法使得模型具备了更好的独立学习能力和超参数鲁棒性。
另外,智源团队还创新地采用了一种数据驱动的1bit 量化方法,通过对自注意力操作中的1bit 量化误差进行参数化,减少了量化损失。
实验结果表明,BiPFT 模型在1bit activation 下的计算量和内存消耗相比于全精度32位模型分别降低了56倍和28倍。同时,该模型在不同超参数设定下都能取得更好的效果,具有较好的独立学习能力和超参数鲁棒性。
研究论文
https://arxiv.org/abs/2312.08937
0000
评论列表
共(0)条相关推荐
发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试
【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。不过,还未上线一天,模型权重和公告全被删除了,原因竟是......上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。却没想到发布几小时之后,立马被删除了。站长网2024-04-24 18:10:020001抖音粉丝超1858万成车圈顶流!雷军:应该算小有名气的博主吧
快科技4月21日消息,最近一段时间,车圈掀起一股网红风”,在一众车圈大佬中,雷军称得上网红级人物。日前,雷军在其个人抖音号发视频展示小米SU7的语音控车功能,雷军还称:我在抖音,应该算一个小有名气的博主了吧”。在评论区,有网友调侃道,1800多万粉丝,已经不是小有名气,而是名气很大,建议你接几个广告,可以增加很多收入”重新定义小有名气”等等。0000百度李彦宏:小米、联想、蔚来接入文心大模型
快科技5月16日消息,今日,百度发布2024年第一季度财报,总营收315亿元,同比增长1%,归属百度的净利润70.11亿元,同比增长22%。据媒体报道,在财报电话会上,百度创始人李彦宏透露,继上季度与中国三星、荣耀合作后,本季度,小米、OPPO、vivo等手机厂商均接入文心大模型API。同时,大模型的合作领域还在从手机向PC和电动汽车领域拓展,联想和蔚来汽车也在季度内与达成合作。站长网2024-05-17 08:16:090000爱奇艺CEO龚宇谈AI 称影视行业最后才会被AI取代
在今日的爱奇艺世界大会上,爱奇艺创始人兼CEO龚宇指出,爱奇艺在过去几年经历了一个痛苦阶段,但是影视行业最艰难的时期已经过去了。爱奇艺会坚持长期主义,以作品为唯一价值点,专注于做自己擅长的事,并避免做情怀和野心的事情。公司将奋力追求高质量增长,实现营收利润双增长,持续提升作品数量和质量,而不是一味追求单纯的增长。龚宇认为,对于爱奇艺来说,跑马圈地的增长已经不再适用。站长网2023-05-10 11:15:170000