这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM)服务
划重点:
- 📌 Atom 是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。
- 📌 Atom 采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。
- 📌 Atom 通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对 LLM 服务需求的不断增长。
大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。
LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。
为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。

研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。
研究人员总结了 Atom 的主要贡献如下:
1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。
2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。
3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。
研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。
对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。
论文地址:https://arxiv.org/abs/2310.19102
为什么缩小大语言模型是生成式人工智能的未来?
本文概要:1.大型语言模型(LLM)在企业使用中存在明显挑战,而较小的语言模型则可以更好地适应企业需求。2.较小的语言模型可以在现有的安全环境中进行操作和训练,速度更快、准确性更高。3.较小的语言模型可以基于企业的敏感数据进行定制,与其他数据集结合使用,为企业提供更有价值的洞察力。站长网2023-08-15 14:50:020000马斯克:SpaceX不使用AI 在太空探索领域几乎没用
快科技5月7日消息,据媒体报道,在一次访谈中,SpaceXCEO埃隆马斯克被问及人工智能是否会加速他在太空探索方面的努力,他表示:还没看到它有什么用。”马斯克称:奇怪的是,太空探索几乎没有使用人工智能。所以SpaceX基本上没有使用人工智能,Starlink也没有使用人工智能,我并不反对使用它。”0000小米 MIX Fold3采用龙骨转轴 轻薄折叠和真旗舰兼得
今日,小米手机宣布,小米MIXFold3折叠屏旗舰铰链处将采用龙骨转轴。官方称这种设计让轻薄折叠和真旗舰可以兼得。转轴采用了创新3级连杆转轴设计,无孔式设计转轴浮板,使得屏幕平整度大幅提升,展开形态薄了8.6%,折叠形态薄了12.5%,转轴宽度窄了8%,转轴区域空间缩小了17%。据悉,小米MIXFold3是一款即将在2023雷军年度演讲中发布的折叠屏手机。站长网2023-08-10 09:52:490000AI模型提早5年预警乳腺癌,MIT研究登Science获LeCun转发
【新智元导读】科学家正在通过AI的力量,改变乳腺癌的现状。在全球范围内,每年有超过60万名女性因乳腺癌而无法存活。美国有八分之一的女性一生中会被诊断出患有乳腺癌。这些数字听起来很可怕,但并非毫无希望。当处于最早的局部阶段时,5年相对生存率为99%。近年来,早期检测和治疗方法的进步显著提高了乳腺癌的生存率,目前美国有超过400万乳腺癌幸存者。AI,就是这项进步背后的一个重要推动性力量。站长网2024-08-07 14:11:020000报告:到今年底全球将有13亿部iPhone活跃设备 超50%为二手设备
10月11日消息,据外媒报道,研究机构CCSInsight发布报告称,到2023年底,全球将有13亿部iPhone活跃设备,其中超过50%是二手设备。早在2021年7月份,苹果CEO蒂姆·库克(TimCook)就表示,iPhone活跃设备量已超过10亿大关。0001