阿里魔搭社区开源推理引擎 DashInfer
站长网2024-05-24 11:42:070阅
ModelScope 推出了预训练大语言模型(LLM)推理引擎 DashInfer,支持 C 和 Python 语言接口,可在多种 CPU 架构上高效推理大模型。
DashInfer 采用 C Runtime 编写,支持连续批处理和多 NUMA 推理,能充分利用服务器级 CPU 的算力,为推理14B 及以下的 LLM 模型提供更多硬件选择。该引擎已开源,提供轻量级架构,高精度实现,优化的计算 Kernel,以及行业标准 LLM 推理技术。DashInfer 支持主流 LLM 开源模型和 PTQ 量化技术。

此外,引擎还提供多语言 API 接口,支持多种硬件和数据类型,包括 x86CPU 和 ARMv9CPU,以及 FP32、BF16、InstantQuant 等数据类型。关于模型支持,DashInfer 可以加载和序列化模型,执行推理过程,并采用 DLPack 格式的 tensor 与外部框架交互。在单 NUMA 架构下,推理引擎使用多线程和线程池进行调度;而在多 NUMA 架构下,引擎采用多进程 client-server 架构,实现 tensor parallel 的模型推理。
性能测试结果表明,DashInfer 在 ARM 和 x86CPU 上具有良好的推理性能,能够有效提升大模型推理效率。
代码开源地址:
https://github.com/modelscope/dash-infer
推理体验地址:
https://www.modelscope.cn/studios/modelscope/DashInfer-Demo
0000
评论列表
共(0)条相关推荐
只需2分钟,单视图3D生成又快又好!北大等提出全新Repaint123方法
将一幅图像转换为3D的方法通常采用ScoreDistillationSampling(SDS)的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡国立大学、武汉大学等机构的研究人员提出了Repaint123,以减轻多视角偏差、纹理退化,并加速生成过程。站长网2024-01-08 17:56:500000谷歌Deepmind表示开放式AI是实现超级智能的关键
划重点:-💡AI系统必须具备开放式的能力,以自主产生新知识和改进学习能力。-💡当前基于静态数据训练的基础模型存在局限性,而开放式基础模型则可能成为实现领域通用开放式智能的重要组成部分。-💡虽然存在安全风险,但开放式基础模型有望实现科学和技术领域的重大突破。站长网2024-06-12 00:07:160000OpenAI预告将直播ChatGPT升级内容 GPT-5、AI搜索暂不亮相
站长之家(ChinaZ.com)5月11日消息:OpenAI透露,他们将于太平洋时间5月13日10:00(即北京时间5月14日凌晨1:00)在线直播展示ChatGPT的一系列升级特性。站长网2024-05-11 15:46:320000清华、微软等淘汰提示工程师?LLM与进化算法结合,创造超强提示优化器
【新智元导读】提示工程可以自动化了?EvoPrompt的出现解决了大型语言模型性能依赖高质量提示的挑战,同时展示了LLM在传统算法中的潜在价值。将LLM的能力和传统算法结合起来,会碰撞出怎样的火花?最近清华大学、微软研究院和东北大学的一项新研究表明,利用传统进化算法来处理提示词工程中的问题,可以大大提升效率。站长网2023-10-03 09:59:010001小米 14 Ultra全新专业摄影套装公布 支持 Type-C 连接
今晚7点,备受期待的小米14Ultra手机即将揭开神秘面纱。在发布会前夕,官方为这款新机预热了一款全新的小米专业摄影套装,旨在为用户带来更加卓越的拍摄体验。站长网2024-02-22 14:40:150000