这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM)服务
划重点:
- 📌 Atom 是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。
- 📌 Atom 采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。
- 📌 Atom 通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对 LLM 服务需求的不断增长。
大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。
LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。
为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。
研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。
研究人员总结了 Atom 的主要贡献如下:
1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。
2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。
3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。
研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。
对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。
论文地址:https://arxiv.org/abs/2310.19102
next-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+
【新智元导读】研究人员提出了一种新的大型语言模型训练方法,通过一次性预测多个未来tokens来提高样本效率和模型性能,在代码和自然语言生成任务上均表现出显著优势,且不会增加训练时间,推理速度还能提升至三倍。当前,大型语言模型,例如GPT和Llama,主要是根据「前文的单词序列」对「下一个token」进行预测的方式来训练。但你有没有想过一个问题,为什么不对后文的tokens同时进行预测呢?站长网2024-06-03 20:16:360000外卖加入618大战,餐饮商家在直播间找到增量
“每次618、双11等促销日,我们的线下门店也会设计一些活动,拉些横幅。在外卖货架,也会上线一些低价套餐、给套餐改名......但很难引来额外的流量。”一位实体店外卖商家说道。十五年的618,带动参与线上零售的范围越来越大,但在此前即使本地生活玩家挤破了脑袋,也难挺进大促的大军中。而在今年,受餐饮商家需求的驱动,外卖平台也开始动起来了。站长网2023-06-17 23:47:310000ChatGPT惊艳更新,一个@让三百万GPTs为你打工
ChatGPT悄悄更新个大功能!看起来要把插件系统迭代掉了。部分(灰度)用户已经收到这样的提示:现在可以在对话中@任意GPT商店里的GPTs,就像在群聊中@一个人。体验到的博主DanShipper第一时间录视频激动地分享:一个改变游戏规则的功能。在他的演示中,按过去的工作流程还需要手动把与ChatGPT对话内容复制到笔记软件Notion里。站长网2024-01-29 10:14:350001疯狂的街拍:谁在用你的照片赚钱?
城市街拍再一次走上风口浪尖,缘于一次偶然曝光的“牵手”。不久前,一名中年男子和一名年轻女子身着粉色“情侣装”,在成都太古里牵手逛街的视频在网络上疯传。最开始,这只是驻扎在太古里的摄影师常年“创作”的街拍作品之一,后来,网友扒出照片上两位主人公均供职于中石油,为上下级,并且二人还是婚外情关系。站长网2023-06-13 17:58:250002AWS语音转文本服务推出生成式AI技术 支持100种语言
要点:亚马逊的AWS公司宣布其语音转文本服务AmazonTranscribe现在由生成式人工智能(GenerativeAI)技术驱动,能够识别并转录来自100种语言的语音。AmazonTranscribe使用自监督算法通过数百种语言的数百万小时未标记音频数据进行训练,确保不同语言和口音的准确性。AWS强调在训练数据中平衡使用频率较低的语言,以确保它们与常用语言一样准确。站长网2023-11-28 15:55:580000