昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE
2024年6月3日,昆仑万维宣布开源了一个性能强劲的2千亿稀疏大模型,名为 Skywork-MoE。这个模型是在之前开源的 Skywork-13B 模型的基础上扩展而来的,是首个完整应用并落地 MoE Upcycling 技术的开源千亿级 MoE 大模型。同时,这也是全球首个支持在单台4090服务器上进行推理的开源千亿级 MoE 大模型。
Skywork-MoE 的模型权重、技术报告完全开源,可以免费商用,无需申请。模型的总参数量为146B,激活参数量为22B,共有16个 Expert,每次激活其中的2个 Expert。与其他主流模型相比,在相同的激活参数量下,Skywork-MoE 的性能接近70B 的 Dense 模型,推理成本下降了近3倍。
为了解决 MoE 模型训练困难、泛化性能差等问题,Skywork-MoE 采用了两种训练优化算法:Gating Logits 归一化操作和自适应的 Aux Loss。此外,为了高效进行大规模分布式训练,Skywork-MoE 提出了两个并行优化设计:Expert Data Parallel 和非均匀切分流水并行。
在推理方面,Skywork-MoE 是目前能够在8台4090服务器上进行推理的最大开源 MoE 模型。通过首创的非均匀 Tensor Parallel 并行推理方式,在 FP8量化下,Skywork-MoE 可以实现2200tokens/s 的吞吐。
•模型权重下载:
○https://huggingface.co/Skywork/Skywork-MoE-base
○https://huggingface.co/Skywork/Skywork-MoE-Base-FP8
•模型开源仓库:https://github.com/SkyworkAI/Skywork-MoE
•模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdf
•模型推理代码:(支持8x4090服务器上8bit 量化加载推理) https://github.com/SkyworkAI/vllm
阿里用AI做外贸,有重大提升
2024年,阿里国际站专注AI和买家体验“用户为先、AI驱动”,阿里两大战略重心正在持续推进。近日,阿里国际站行业及商家业务部负责人秦奋表示,2024年阿里国际站的战略重点在于AI电商及围绕买家做确定性。0000UCLA推出Chameleon框架 大模型表格数学推理准确率达98.78%
要点:UCLA推出Chameleon框架,通过多工具融合,包括LLMs、视觉模型、搜索引擎等,解决大型语言模型在实时信息获取和精确数学推理上的不足,在表格数学推理任务上达到98.78%准确率。Chameleon框架核心在于LLM规划器生成自然语言程序,通过灵活组合多工具,如科学问答任务中以86.54%准确率超越现有模型,在表格数学推理任务中更是达到惊人的98.78%准确率。站长网2023-12-12 14:48:480006企业对生成式AI的投资低得惊人 在云支出中占比不到1%
**划重点:**1.📉生成式AI在企业云支出中仅占不到1%,相较之下,传统AI在云市场的份额达到18%。2.🤔企业对生成式AI存在强烈的犹豫和担忧,主要集中在未经验证的投资回报和“最后一英里问题”等方面。3.🚀尽管存在困难,早期采用生成式AI的企业在数据利用和工作流程优化方面取得显著收益,预示着未来市场的潜在机会。站长网2023-11-14 12:03:160000AI入侵播客圈!比真人配音还逼真?实测爆火的微软AI语音角色“晓晓”
AI语音再进化,人耳还能听出AI和真人的差别吗?以上两段音频demo来自微软最近更新的AI语音角色“晓晓”。逼真、情绪到位、语气自然、断句近乎完美,是绝大多数网友听到“晓晓”声音时给出的评价。在播客App小宇宙上,“HackerNews”账号用“晓晓”的声音制作了一期节目,听众在评论区留言表示“想打赏”。实际上,这已经不是AI第一次入侵播客圈了。站长网2024-04-27 18:52:060002小红书618活动规则发布 跨店每满300减50
618年中大促即将到来,小红书也正式发布618活动节奏及活动玩法。活动节奏方面,5月8日-5月23日为蓄水种草期,5月24日-5月31日为预热加购期,6月1日-6月18日为爆发转化期,6月19日之后为返场延续期。活动期间,平台出资,渗透搜索、笔记等各个场域,设计贴合社区用户「种草一拔草」路径的补贴玩法,小红书将从直播、搜索和商城三方面发力。站长网2023-05-23 12:03:120001