阿里魔搭社区开源推理引擎 DashInfer
站长网2024-05-24 11:42:070阅
ModelScope 推出了预训练大语言模型(LLM)推理引擎 DashInfer,支持 C 和 Python 语言接口,可在多种 CPU 架构上高效推理大模型。
DashInfer 采用 C Runtime 编写,支持连续批处理和多 NUMA 推理,能充分利用服务器级 CPU 的算力,为推理14B 及以下的 LLM 模型提供更多硬件选择。该引擎已开源,提供轻量级架构,高精度实现,优化的计算 Kernel,以及行业标准 LLM 推理技术。DashInfer 支持主流 LLM 开源模型和 PTQ 量化技术。
此外,引擎还提供多语言 API 接口,支持多种硬件和数据类型,包括 x86CPU 和 ARMv9CPU,以及 FP32、BF16、InstantQuant 等数据类型。关于模型支持,DashInfer 可以加载和序列化模型,执行推理过程,并采用 DLPack 格式的 tensor 与外部框架交互。在单 NUMA 架构下,推理引擎使用多线程和线程池进行调度;而在多 NUMA 架构下,引擎采用多进程 client-server 架构,实现 tensor parallel 的模型推理。
性能测试结果表明,DashInfer 在 ARM 和 x86CPU 上具有良好的推理性能,能够有效提升大模型推理效率。
代码开源地址:
https://github.com/modelscope/dash-infer
推理体验地址:
https://www.modelscope.cn/studios/modelscope/DashInfer-Demo
0000
评论列表
共(0)条相关推荐
美团、浙大等提出视觉任务统一架构VisionLLAMA
要点:1.VisionLLaMA是一种统一的视觉transformer架构,显著提升了图像生成、分类、语义分割和目标检测等多个主流视觉任务的性能。2.VisionLLaMA架构采用常规transformer和金字塔结构两种设计,有效减少了视觉和语言之间的架构差异,实现了更好的泛化能力和更快的收敛速度。站长网2024-03-07 16:16:09000018个月326项能力,这家大厂猛上新生成式AI,如今纯靠Prompt就搞定企业级应用了
构建生成式AI应用,现在只需要几分钟。「生成式AI的半衰期只有六个月,」亚马逊云科技全球AI产品副总裁MattWood说道。2024开启下半年,人们发现,生成式技术和落地之间的距离,已经不能用「远」或「近」完全概括。站长网2024-07-12 09:19:350000我们决定用50个关键词,来总结2024这AI狂奔的一年。
2024,在AI历史上,注定是个风起的一年。我一直在想,究竟怎么给这一年,做一个有用、有趣、还具有代表性的总结。直到两周前,我去深圳调研,跟@腾讯研究院的朋友一起吃了顿饭,在饭局上,我们聊起这个事,他们说,他们也要做,他们本身就想用50个关键词,给2024年做一个很全面的总结。只花了5分钟,我们就决定,那不如,就一起做吧。于是,两周过去,就有了今天这么一份非常精美的技术图景报告。0000Meta 发布新型「类人」人工智能图像生成模型「I-JEPA」:填补图像缺失部分更准确
Meta周二宣布,将向研究人员提供一种新的「类人」人工智能模型的组件,该模型可以比现有模型更准确地分析和填补未完成的图像。图片来自Meta该名为I-JEPA的模型利用对有关世界的背景知识理解来填补图像中的缺失部分,而不仅仅是像其他生成型AI模型一样只关注图像附近的像素。站长网2023-06-15 09:55:320000极氪计划最早将于5月10日正式在纽交所挂牌上市
极氪智能科技控股有限公司宣布计划于5月10日正式在纽交所挂牌上市,股票代码为“ZK”。本次IPO计划发行1750万股美国存托股票(ADS),发行价格区间设定在每股ADS18美元至21美元之间。若以发行上限计算,极氪预计通过本次IPO最多募集3.675亿美元(未考虑“绿鞋机制”),而执行超额配售权后,募集规模有望达到4.22亿美元。站长网2024-05-06 17:54:070000