这项AI研究引入 Atom:一种低位量化技术,可实现高效、准确LLM)服务
划重点:
- 📌 Atom 是一种低比特量化技术,旨在提高大型语言模型(LLM)的服务吞吐量,同时保持准确性。
- 📌 Atom 采用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。
- 📌 Atom 通过将服务吞吐量提高多达7.73倍,相比于典型的16位浮点(FP16)和8位整数(INT8)量化方法,从而满足了对 LLM 服务需求的不断增长。
大型语言模型(LLM)是人工智能领域最新的引入,已经席卷全球。这些模型以其令人难以置信的能力,被人们广泛使用,无论是研究人员、科学家还是学生。凭借其仿人潜力回答问题、生成内容、概括文本、完成代码等方面,这些模型已经走过了很长的路程。
LLM 在情感分析、智能聊天机器人和内容创作等多个领域都有所需。由于使用了大量的计算资源,因此为了增加吞吐量,GPU 资源被有效地利用,通过批处理多个用户请求来提高内存效率和计算能力。为了实现这一点,使用了 LLM 量化技术。然而,现有的量化方法,如8位权重 - 激活量化,并没有充分利用新一代 GPU 的能力。由于这些 GPU 上的整数操作符是4位的,当前的量化技术并不是为了实现最大的效率而设计的。
为了解决这个问题,一组研究人员引入了 Atom,一种新的方法,旨在最大化 LLM 的服务吞吐量。Atom 是一种低比特量化技术,通过使用低比特操作符和低比特量化来减少内存使用,从而显著提高吞吐量而不损失准确性。它使用了细粒度和混合精度量化的特殊组合,以保持卓越的准确性。
研究团队表示,Atom 在服务时已经在4位权重 - 激活量化配置方面进行了评估。结果显示,与典型的16位浮点(FP16)方法相比,Atom 可以在保持相同目标范围内的延迟的同时,提高端到端吞吐量最多7.73倍;相对于8位整数(INT8)量化,提高了2.53倍。这使得 Atom 成为满足对 LLM 服务需求不断增长的可行解决方案,因为它保持了所需的响应时间水平,并大大提高了 LLM 处理请求的速度。
研究人员总结了 Atom 的主要贡献如下:
1. 彻底分析了 LLM 服务作为该研究性能分析的第一步。确定了使用低比特权重 - 激活量化方法带来的重要性能优势。
2. 提出了一种独特而精确的低比特权重 - 激活量化技术 Atom。
3. Atom 采用了多种策略来确保最佳性能。它使用了混合精度,对剩余的关键激活和权重使用降低的精度,同时保持前者的准确性。使用细粒度组量化来减少量化过程中的错误。Atom 还采用了动态激活量化,通过适应每个输入的独特分布来减少量化错误。为了进一步提高整体性能,该方法还处理了 KV-cache 的量化。
研究还提出了一个长期管理(LLM)服务的集成框架。该团队共同设计了一个有效的推理系统,构建了低比特 GPU 核心,并展示了 Atom 在实际环境中有用的端到端吞吐量和延迟。
对 Atom 的性能进行了全面评估,结果显示 Atom 极大地提高了 LLM 服务的吞吐量,吞吐量增益最多可达到7.7倍,同时仅有微小的准确性损失。
论文地址:https://arxiv.org/abs/2310.19102
文本到视频生成框架TF-T2V:可显著提升可扩展性与性能
#本文概要-TF-T2V介绍了一种创新性的文本到视频生成框架,通过独特的设计实现了卓越的可扩展性和性能提升。-该框架采用文本无关视频,解决了训练先进模型所需的大规模标注视频文本数据集的困难,为文本到视频生成领域带来新的可能性。-TF-T2V的双分支结构,分别关注空间外观生成和动态运动合成,使其能够生成高质量、连贯的视频,通过引入时间一致性损失进一步提升了视频的流畅性。站长网2024-01-01 14:54:200002独家|美团首个AI产品“Wow”亮相,押注交互伴聊
美团AI产品首发,切入交互聊天赛道Tech星球体验发现,Wow是一款AI伴聊产品,这是AI的一个主流应用场景。目前已经有腾讯音乐的“未伴”、百度的“小侃星球”等类似产品相继面世。Wow的产品设计较为简洁,整个产品由聊天、发现和个人中心三个Tab标签。站长网2023-11-07 08:56:040001小冰公司推出AI数字员工“0元定制” 大模型小样本技术实现声音复刻
小冰公司宣布推出“0元定制计划”,为10000家符合条件的中小企业、领域达人及个体经营者,免费创建自己的AI数字员工,支持高拟真、低门槛、零成本的形象及声音复刻。据悉,目前,小冰小样本AI数字员工只面向企业开放。升级后的AI数字员工能进行语音和文本实时交互,有多种对话模式,可在网页(PC端移动端)、公众号、APP、直播间、VoIP、线下装置落地,几乎覆盖了企业全部应用场景。站长网2023-04-21 14:59:220000人工智能正被用于解读大量生物的声音和身体暗示背后的含义
对于所有宠物主人来说,如果你对你的猫咪发出的意外的「喵」声、特殊的姿势或其胡须的不寻常抽搐感到困惑,不知道它们想要传达什么,人工智能可能很快就能提供翻译了。科学家们正在转向新技术,解读多种动物的声音和身体线索背后的含义。「我们可以使用AI来教我们很多关于动物想要对我们说的事情,」林肯大学兽医行为医学教授丹尼尔·米尔斯说。站长网2023-11-06 15:44:080000特斯拉发布2023第二季度财报 净利润为27.03亿美元
7月19日美股收盘后,特斯拉发布了2023年第二季度财报。根据财报数据,该公司在今年第二季度的收入达到了249.27亿美元,同比增加了47%,超过了市场预测的245.1亿美元;净收益(GAAP)为27.03亿美元,同比上涨了20%,也高于市场预期的23.9亿美元;自由现金流为10.1亿美元,低于市场预期的21.8亿美元。站长网2023-07-20 11:07:560000