这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM)服务
划重点:
- 📌 Atom 是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。
- 📌 Atom 采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。
- 📌 Atom 通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对 LLM 服务需求的不断增长。
大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。
LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。
为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。
研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。
研究人员总结了 Atom 的主要贡献如下:
1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。
2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。
3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。
研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。
对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。
论文地址:https://arxiv.org/abs/2310.19102
TikTok 现在支持从 AI 支持的 Adobe 应用程序、CapCut、Twitch 等直接发布内容
站长之家(ChinaZ.com)10月11日消息:TikTok今天推出了一个新功能,允许用户直接从一系列热门编辑应用程序发布视频到其平台上,包括Adobe的人工智能视频编辑软件PremierePro,以及其AI创意应用AdobeExpress等,还包括Twitch、SocialPilot和字节跳动的CapCut等其他应用。图片来自TikTok站长网2023-10-11 18:20:020000AI视频流编辑工具Capturelab 可自动化抓取直播亮点
Capturelab是一款自动化工具,可以创建游戏亮点片段。它可以协助主播快速找到最佳片段,借助AI技术自动检测,将其分享到社交媒体上,吸引更多观众。体验地址:https://capturelab.gg/站长网2023-08-29 11:43:180001微软新研究引发争议,AI能像人类一样推理?
通用人工智能(AGI)的时代尚未到来,但是AI的推理能力似乎正在逐步得到展现。微软称,最新研究表明,新的AI系统展示出了其具备人类推理能力的迹象。这一言论在业内引发了争议。站长网2023-05-17 16:33:440000金字塔内部竟有“神秘空洞”?科学家是如何发现的?
你知道埃及金字塔的“神秘空洞”是如何被发现的吗?你知道外太空的高能宇宙射线是如何被探测的吗?其中很重要的一种方式,就是利用气体探测器。近日,中国原子能科学研究院核物理研究所团队实现了大面积、低功耗、高位置灵敏光刻一体化微结构探测器的自主可控。站长网2023-05-24 05:44:460000初创公司Reality Defender融资1500万美元 专注检测深度伪造内容
划重点:1.RealityDefender是一家专注于检测深度伪造和合成媒体的初创公司,最近成功融资1500万美元,由DCVC领投。2.该公司提供多种工具,包括针对AI生成的文本、图像、音频和视频的检测工具,主要服务于企业、政府机构等,致力于识别和对抗合成媒体。站长网2023-10-18 22:27:550000