DeepMind研究人员发现,深度学习模型在图像和音频压缩方面表现出色
文章概要:
1. DeepMind研究人员发现,深度学习模型在文本领域之外,出人意料地在图像和音频数据的压缩方面表现出色。
2. 研究发现,虽然主要训练于文本数据,但这些大型语言模型(LLMs)在图像和音频数据的压缩方面表现出令人瞩目的性能,甚至超过了专门的压缩算法。
3. 将LLMs从压缩的角度看待为数据压缩器,为评估模型性能和规模提供了新的洞察,对模型的大小和性能之间的关系提供了重要见解。
近日,Google旗下的人工智能子公司DeepMind发布的一项研究表明,大型语言模型(LLMs)除了在文本数据处理方面表现出色之外,还具备出色的图像和音频数据压缩能力。这一发现为重新审视LLMs的潜力提供了新的角度。
研究的核心观点是将LLMs视为强大的数据压缩器,而非仅仅是文本生成模型。研究作者提出“通过压缩的角度来看待预测问题”,这为我们理解这些模型的能力带来了全新的视角。

在研究中,DeepMind的研究人员对LLMs进行了一些微小的修改,使其能够执行算术编码,这是一种无损压缩算法。值得注意的是,LLMs的训练过程是基于对文本序列的极大概率和交叉熵的最小化,这使得它们能够生成概率分布,与数据压缩之间存在一对一的等价关系。这种无损压缩算法,如gzip,可以从压缩的数据完美重构原始数据,确保不丢失任何信息。
研究人员对LLMs在文本、图像和音频数据上的压缩能力进行了评估。不出所料,LLMs在文本压缩方面表现出色。例如,Chinchilla模型(拥有700亿参数)将数据压缩到原始大小的8.3%,远远超过gzip和LZMA2,它们分别只能实现32.3%和23%的压缩率。
然而,更引人注目的发现是,尽管LLMs主要在文本数据上进行训练,但它们在图像和音频数据的压缩方面也取得了显著的成功,超过了领域专用的压缩算法,如PNG和FLAC。
尽管取得了令人鼓舞的结果,但与现有的压缩模型相比,LLMs在实际数据压缩中并不实用。这是因为LLMs的体积较大,运行速度较慢。例如,研究人员发现,gzip可以在CPU上在不到一分钟内将1GB的文本数据压缩,而具有320万参数的LLM需要一个小时才能完成相同数量数据的压缩。
研究还发现,LLMs的规模对其性能有重要影响。虽然一直以来,人们普遍认为越大的LLMs性能越好,但研究人员发现,对于较小的数据集,更大的模型并不一定更好。这表明LLMs的性能与数据集的大小有关,压缩率可以作为评估模型对数据集信息学习的指标。
AI搜索引擎Perplexity.ai估值达10亿美元并发布新的企业产品
划重点:⭐️Perplexity.ai近期完成一轮融资,估值达数十亿美元,引领AI搜索引擎领域⭐️推出企业服务“EnterprisePro”,旨在提高工作场所搜索的准确性和效率⭐️部分功能包括增强数据隐私、改善安全性、用户管理、SOC2认证、数据存储和单一登录(SSO)站长网2024-04-26 22:26:050000小米SU7 Ultra创造纽北四门车记录 雷军:赛道20%是湿的 明年再战
小米汽车今日宣布,其小米SU7UltraPrototype(原型车)在纽博格林北环赛道上创下了6分46秒874的惊人成绩,成为全球最快的四门车。10月28日傍晚,纽博格林官方确认了这一圈速成绩,而驾驶这一荣誉的车手是DavidPittard,他也是2023年纽博格林24小时拉力赛的冠军。0000报告称苹果计划终止与高盛的信用卡合作
**划重点:**1.🚫苹果计划终止与高盛的信用卡合作,据《华尔街日报》报道,合同预计将在接下来的12-15个月内结束。2.💳受影响的产品包括苹果卡、苹果储蓄账户和苹果“以后付款”服务。3.🔄高盛或曾考虑将合作转交给美国运通,但目前尚不清楚是否会实现,因为美国运通似乎担心该项目的贷款损失率。站长网2023-11-29 20:45:220000全球独一档!蔚来离车自主换电功能亮相:车辆自动排队换电
快科技4月21日消息,蔚来汽车日前发布一则离车自主换电”功能展示视频,车主只需在换电站旁车位停车,离车后车辆可以自主完成换电。蔚来的展示视频显示,离车自主换电”将蔚来汽车换电的全流程,实现了自动化和智能化。例如,车主到达高速服务区换电站,点击离车自主换电”功能后,就可以离开车辆,去购物或者洗手间,车辆会自动寻找泊位泊入。站长网2024-04-21 10:21:450001王自如发声 回应被强执:案件已重审
王自如,曾被誉为国内评测领域的领军人物,经过一段时间的网络沉寂后,近日在社交媒体上发表了罕见的公开声明。在这份声明中,王自如针对自己被强制执行和限制高消费的情况作出了回应。他公开了律师声明和案件的详细情况,透露自己的案件重审申请已经正式立案,并进入了审查阶段。他表示对国家司法体系充满信心,并期待《民营经济促进法》的尽快出台。0000