英特尔推Extension for Transformers工具包 大模型推理性能提升40倍
要点:
通过该工具包,使用英特尔® 至强® 处理器可实现大型语言模型(LLM)推理性能加速达40倍,满足各种应用需求。
工具包提供轻量级但高效的LLM推理运行时,优化了内核,支持多种量化选择,提供更优的KV缓存访问和内存分配策略,显著提升了性能。
工具包攻克了对话历史、输出长度有限以及效率低下等聊天场景应用难题,通过引入流式LLM技术优化内存使用和推理时延。
在当前技术发展的背景下,英特尔公司推出的Extension for Transformers工具包成为一个重要创新,实现了在CPU上对大型语言模型(LLM)推理性能的显著加速。该工具包通过LLM Runtime技术,优化了内核,支持多种量化选择,提供更优的KV缓存访问和内存分配策略,使得首个token和下一个token的推理速度分别提升多达40倍和2.68倍。这一技术的推出,极大地满足了不同场景对于LLM推理性能的需求。

项目地址:https://github.com/intel/intel-extension-for-transformers
在性能测试方面,通过与llama.cpp进行比较,LLM Runtime在输入大小为1024时能够实现3.58到21.5倍的性能提升,而在输入大小为32时,提升为1.76到3.43倍。同时,工具包还通过验证了多个模型的INT4推理准确性,表明在性能提升的同时准确性损失微小。

然而,不仅仅是性能的提升,工具包还在聊天场景中应用方面取得了显著成果。通过引入流式LLM技术,解决了对话历史、输出长度有限和效率低下等应用难题,使得LLM在聊天场景中更加实用。这一技术的特性,包括对话历史的纳入和输出长度的优化,使得工具包在解决聊天场景难题方面具有先进性和前瞻性。
英特尔® Extension for Transformers工具包在大型语言模型推理性能的提升以及聊天场景应用方面的创新成果,标志着对于人工智能领域的进一步推动。通过不断引入先进的技术和解决实际问题的能力,该工具包展现了英特尔在人工智能领域的领先地位,为未来的发展提供了强有力的支持。
美国成年人中只有 14% 尝试过 ChatGPT:十分之一用于工作
根据皮尤研究中心在三月份进行的一项调查,大约六成美国成年人(58%)熟悉ChatGPT,尽管很少有人亲自尝试过。在那些尝试过ChatGPT的人中,大多数报告认为它至少有些用处。站长网2023-05-25 17:34:010000AI语音公司ElevenLabs B轮融资8000万美元,估值超10亿美元
划重点:🗣ElevenLabs完成8000万美元B轮融资,由AndreessenHorowitz、NatFriedman等领投。🤖ElevenLabs是一家开发AI语音合成工具的初创公司,该轮融资将用于产品开发、扩展基础设施和团队、AI研究以及加强安全措施。💼公司计划通过改进检测工具、与分发平台合作等方式提高AI语音技术的责任和道德发展水平。站长网2024-01-22 16:29:330000京东放不下社区团购
京东终究还是放不下社区团购。近日,京东社区团购业务“京喜拼拼”发布了品牌升级公告。公告称,自7月27日起,京喜拼拼将正式更名为京东拼拼。品牌升级之后,京喜拼拼小程序图标、名称、logo等将逐步更新为“京东拼拼”,小程序原有功能将被保留。这意味着,京东将通过全新的名字重新杀入熟悉的赛道社区团购。这既是京东熟悉的战场,也是京东曾经铩羽而归的赛道。站长网2023-07-28 18:01:400001智源开源最强检索排序模型 BGE Re-Ranker v2.0
智源研究院推出了新一代检索排序模型BGERe-Rankerv2.0,支持100种语言,文本长度更长,并在多项评测中达到了SOTA(state-of-the-art)的结果。该模型是智源团队在BGE(BAAIGeneralEmbedding)系列基础上的新尝试,扩展了向量模型的“文本图片”混合检索能力。站长网2024-03-22 02:31:580002最高可罚3万背后:谁来为送货上门买单?
他知道哪家客户的脾气像炸弹,会同情哪家遭遇了不幸,也记得住友善客户的名字。那座小区的物业出于安全考虑,不许快递员进。刚入行的亮子曾在门口和客户在电话里吵起来,客户要求他必须送货上门:“管你什么办法,必须送上门,我家都是老人,没人能去门口拿。”门口保安指了指摄像头,说没办法通融。最后亮子在电话里骂脏话,被客户投诉到公司,丢了工作。站长网2024-03-04 19:15:260000