英特尔推Extension for Transformers工具包 大模型推理性能提升40倍
要点:
通过该工具包,使用英特尔® 至强® 处理器可实现大型语言模型(LLM)推理性能加速达40倍,满足各种应用需求。
工具包提供轻量级但高效的LLM推理运行时,优化了内核,支持多种量化选择,提供更优的KV缓存访问和内存分配策略,显著提升了性能。
工具包攻克了对话历史、输出长度有限以及效率低下等聊天场景应用难题,通过引入流式LLM技术优化内存使用和推理时延。
在当前技术发展的背景下,英特尔公司推出的Extension for Transformers工具包成为一个重要创新,实现了在CPU上对大型语言模型(LLM)推理性能的显著加速。该工具包通过LLM Runtime技术,优化了内核,支持多种量化选择,提供更优的KV缓存访问和内存分配策略,使得首个token和下一个token的推理速度分别提升多达40倍和2.68倍。这一技术的推出,极大地满足了不同场景对于LLM推理性能的需求。
项目地址:https://github.com/intel/intel-extension-for-transformers
在性能测试方面,通过与llama.cpp进行比较,LLM Runtime在输入大小为1024时能够实现3.58到21.5倍的性能提升,而在输入大小为32时,提升为1.76到3.43倍。同时,工具包还通过验证了多个模型的INT4推理准确性,表明在性能提升的同时准确性损失微小。
然而,不仅仅是性能的提升,工具包还在聊天场景中应用方面取得了显著成果。通过引入流式LLM技术,解决了对话历史、输出长度有限和效率低下等应用难题,使得LLM在聊天场景中更加实用。这一技术的特性,包括对话历史的纳入和输出长度的优化,使得工具包在解决聊天场景难题方面具有先进性和前瞻性。
英特尔® Extension for Transformers工具包在大型语言模型推理性能的提升以及聊天场景应用方面的创新成果,标志着对于人工智能领域的进一步推动。通过不断引入先进的技术和解决实际问题的能力,该工具包展现了英特尔在人工智能领域的领先地位,为未来的发展提供了强有力的支持。
雷军:小米汽车1天增加10万人预约 绝对是心血之作
小米SU7将于3月28日与公众正式见面。今日,小米CEO雷军透露了一个令人振奋的消息:仅仅一天之内,预约到店的人数就激增了10万多人。这一数字不仅彰显了消费者对小米SU7的浓厚兴趣,也反映了市场对小米汽车的热烈期待。站长网2024-03-13 14:09:540001《普通人用AI创作爆款内容指南》
AIGC创作的风潮已经席卷内容领域的各个角落。一边是ChatGPT、Midjourney等明星产品的走红、大量AI创业公司如雨后春笋般涌现,另一边,与AI有关的内容创作也呈现出爆发式增长。需要先说明,这里的AI有关创作,指的是用AI创作爆款内容,或者围绕AI话题创作有趣的内容。站长网2023-07-04 15:58:150000清华系面壁智能给大模型接入16000+真实API,开源ToolLLM效果直逼ChatGPT
【新智元导读】ChatGPT能力解禁,还是加入插件功能后,性能得到了强化。所有大模型皆是如此。面壁智能给大模型接入16000真实API,性能匹敌ChatGPT。这段时间,开源大语言模型(LLM)可谓是进步飞快,像是LLaMA和Vicuna等模型在各种语言理解、生成任务上展现了极佳的水平。然而,当它们面对更高级别的任务,例如根据用户指令使用外部工具(API)时,仍然有些力不从心。站长网2023-08-08 17:27:500000石墨文档回应崩了:故障正在全力排查抢修中
今日,针对服务器宕机一事,在线协同办公平台石墨文档回应称,因技术原因,目前部分石墨文档暂时无法编辑,故障正在全力排查抢修中,服务恢复后,将会在第一时间通知大家。石墨文档是一款支持云端实时协作的企业办公服务软件,4月27日,石墨文档成为百度“文心一言”生态合作伙伴,将通过百度智能云,全面体验并接入“文心一言”的能力。站长网2023-05-15 16:20:380000