Buddy Compiler打通LLaMA 2端到端推理
要点:
LLaMA2端到端推理打通!结合 MLIR 和 PyTorch 的编译生态,中国团队展示了 Buddy Compiler 的前端部分实现,可以覆盖 LLaMA 计算图,进行 MLIR 转换和部分优化。
Buddy Compiler 基于 PyTorch 和 MLIR 实现了 LLaMA 的端到端推理通路,通过 Buddy Compiler 工具链进行优化和下降,最终生成可执行文件,实现了从 AI 模型到硬件架构的编译流程。
技术路线标准化、上手门槛低和优化上限高是整个软硬件协同设计生态的重要原则,Buddy Compiler 致力于实现这一目标,并将 PyTorch 和 MLIR 作为关键组成部分,提供了简化和解耦的开发流程。
Buddy Compiler 选择使用 TorchDynamo 作为 Trace 工具对接 AI 模型,并使用 Aten IR 作为对接层级,通过 MLIR Python Bindings 实现 Dynamo Compiler 生成 TOSA/Linalg Ops,从而实现了从 PyTorch 到 MLIR 的转换。
Buddy Compiler 是一个结合了 MLIR 和 PyTorch 的编译生态的工具,它实现了 LLaMA 的端到端推理通路。通过 Buddy Compiler,我们可以将 AI 模型从 PyTorch 转换为 MLIR,并进行优化和下降,最终生成可执行文件。
Buddy Compiler 的设计原则是技术路线标准化、上手门槛低和优化上限高。为了实现这一目标,Buddy Compiler 选择使用 TorchDynamo 作为 Trace 工具对接 AI 模型,并使用 Aten IR 作为对接层级。通过 MLIR Python Bindings 实现的 Dynamo Compiler 可以将 PyTorch 的 Aten IR 转换为 MLIR 的 TOSA/Linalg Ops。
Buddy Compiler 的编译通路可以面向通用硬件进行优化。它使用了 MLIR Core Dialect 进行实现,从而实现了最大化的复用,并且与所有 LLVM/MLIR 的工具兼容。在优化方面,Buddy Compiler 采用了针对循环的并行计算优化和针对矩阵乘法的向量化优化。
它还可以生成面向特定加速器的代码,例如 Gemmini 加速器。目前,Buddy Compiler 已经在 X86AVX512平台上进行了测试,同时还在进行 Arm Neon 和 RISC-V Vector Extesion 的广泛测试。未来,Buddy Compiler 还计划支持 GPU 的优化,并增加前端的覆盖程度,以及将多模态大模型编译到多种硬件平台上。
总的来说,Buddy Compiler 通过结合 MLIR 和 PyTorch 的编译生态,实现了 LLaMA 的端到端推理通路。它的设计原则是标准化技术路线、降低上手门槛和提高优化上限。通过 Buddy Compiler,我们可以将 AI 模型从 PyTorch 转换为 MLIR,并进行优化和下降。
Buddy Compiler 的编译通路可以面向通用硬件进行优化,并已在 X86AVX512平台上进行了测试。未来,Buddy Compiler 还计划支持更多的硬件平台,并增加前端的覆盖程度。通过 Buddy Compiler,我们可以更好地利用软硬件协同设计,实现高效的大模型推理。
D-ID Agents:1张照片+声音克隆定制数字分身 能代替你进行视频对话
D-ID上线数字分身功能AgentsBeta版。这是一种新颖的数字分身技术,可以利用用户的照片和克隆声音创建一个虚拟人,并将用户的知识库同步到这个虚拟人身上。通过这种方式,用户可以进行视频对话,实现仅有2秒延迟的效果。体验地址:https://top.aibase.com/tool/d-id-agents然而,一些用户反映在尝试使用该技术时,系统一直提示不在线,无法体验到真实的效果。站长网2024-03-04 17:25:040000问界新M5交付破10000台:24.98万起 全系标配华为最强智驾
鸿蒙智行官方近日宣布,自上市以来,问界新M5的累计交付量已突破10000台。问界新M5自4月23日上市以来,就以其丰富的车型选择和合理的价格定位吸引了众多消费者的目光。其中,增程版两款车型售价分别为24.98万元和27.98万元,而纯电版则售价为26.98万元。无论是价格还是配置,问界新M5都展现出了极高的性价比。站长网2024-06-28 22:30:270000AMD推出最新图形增强技术AMD FSR 3
要点:AMDFSR3是AMD最新推出的图形增强技术,采用超分辨率时域上采样和帧生成相结合的方式提升游戏图形细节和性能。与NvidiaDLSS技术不同,AMDFSR3主要依赖上采样和帧生成技术,兼容AMD显卡,目前已支持《女武神》和《阿温诸神》两款游戏,后续将支持更多游戏。启用AMDFSR3非常简单,更新AMD显卡驱动,在游戏设置中启用AMDFSR3选项,即可获得更流畅的游戏体验。站长网2023-10-09 18:00:550000腾讯回应财付通被罚没近30亿元:诚恳接受、服从整改
财付通支付科技有限公司今晚收到了中国人民银行的行政处罚决定,决定对其进行警告、没收违法所得56612.388789万元并罚款242677.827882万元,合计约29.9亿元。财付通官方微信号随后发布了一份公告,表示诚恳接受、坚决服从和落实该决定,并严格执行相关措施。站长网2023-07-09 23:25:530001腾讯推出“举报违法小卡片”数字解决方案:扫一扫斩断传播链
腾讯近日推出了一项名为“举报违法小卡片”的数字解决方案,旨在根治涉黄小卡片泛滥的问题。用户可以通过微信小程序“腾讯卫士”或微信搜索关键词“举报违法小卡片”来参与举报。一旦发现涉黄小卡片,用户只需扫一扫,便可以提交举报信息。站长网2023-12-27 16:32:530000