一条磁力链接席卷AI圈,87GB种子直接开源8x7B MoE模型
「高端」的开源,往往采用最朴素的发布方式。
昨天,Mistral AI 在 X 平台甩出一条磁力链接,宣布了新的开源动作。
没有长篇官方博客,没有刻意加速的 Demo,这家公司算是当下大模型领域的「一股清流」。
打开一看,发现是接近87GB 的种子:
参数配置什么样?很多人放弃了周末,第一时间下载运行起来。
看上去,Mistral8x7B 使用了与 GPT-4非常相似的架构,但是「缩小版」:
8个专家总数,而不是16名(减少一半)
每个专家为7B 参数,而不是166B(减少24倍)
42B 总参数(估计)而不是1.8T(减少42倍)
与原始 GPT-4相同的32K 上下文
在发布后24小时内,已经有开发者做出了在线体验网站:https://replicate.com/nateraw/mixtral-8x7b-32kseqlen
有研究者称:「闭源大模型走到结局了。」
这周已经引发群嘲的谷歌,也再次被 Cue 到:
专家混合 (MoE) 是 LLM 中常用的一种技术,旨在提高其效率和准确性。这种方法的工作原理是将复杂的任务划分为更小、更易于管理的子任务,每个子任务都由专门的迷你模型或「专家」处理。
具体来说,「专家层」是较小的神经网络,经过训练在特定领域具有高技能,每个专家处理相同的输入,但处理方式与其特定的专业相一致;「门控网络」是 MoE 架构的决策者,能评估哪位专家最适合给定的输入数据。网络计算输入与每个专家之间的兼容性分数,然后使用这些分数来确定每个专家在任务中的参与程度。
我们都知道,OpenAI 团队一直对 GPT-4的参数量和训练细节守口如瓶。早些时候,有人爆料 GPT-4是采用了由8个专家模型组成的集成系统。后来又有传闻称,ChatGPT 也只是百亿参数级的模型(大概在200亿左右)。
传闻无从证明,但 Mistral8x7B 可能提供了一种「非常接近 GPT-4」的开源选项。从模型元数据中可以看出,对于每个 token 的推理,Mistral8x7B 仅使用2个专家。
更让人感觉有趣的是,这是该公司官方账号自开通以来发布的第三条内容,两次重要发布均无文字说明,配图什么的更是不存在:
9月底的那条链接发布的是 Mistral7B,该模型至今仍被称为「最好的7B 模型」,在每个基准测试中都优于 Llama-213B,并且在代码、数学和推理方面优于 LLaMA-134B。
Mistral AI 成立于2023年5月,是一家法国人工智能初创公司,也是为数不多来自欧洲的大模型开源领域的明星团队。
Mistral AI 曾在6月获得了创纪录的1.18亿美元种子轮融资,还是在仅有7页 PPT 的情况下,据说这是欧洲历史上最大的种子轮融资。
公司创始人之一 Arthur Mensch 曾在10月份向《金融时报》表示,Mistral AI 的技术比美国的一些强大竞争对手开发的技术更高效、成本更低。
技术实力的优越,也为这家公司带来了投资者的持续关注。
近日,《金融时报》报道了 Mistral AI 新一轮融资的动态:新一轮融资约4亿欧元,主要由股权组成,可能在下周官宣。目前,公司的最新估值在20亿欧元左右。
知情人士透露,新一轮融资由硅谷著名风投 Andreessen Horowitz 牵头,其他参与者还包括英伟达、Salesforce、General Catalyst、法国巴黎银行等。
Mistral AI 的其他投资者还包括谷歌前 CEO 埃里克・施密特 (Eric Schmidt)、法国电信亿万富翁泽维尔・尼尔 (Xavier Niel) 和法国国家支持的投资银行 Bpifrance。
这篇报道还提到,Arthur Mensch 表示「虽然公司尚未赚到任何钱,但预计这种情况将在年底前发生改变,因为该公司准备了一个新平台,供客户访问其人工智能模型。」
参考链接:https://www.ft.com/content/ea29ddf8-91cb-45e8-86a0-f501ab7ad9bb
竞争压力下的美妆品牌,如何押宝618?|618小红书美妆垂类营销洞察
如今,美妆护肤几乎成为了年轻人日常生活的标配,无论男女老少,美妆产品的目标消费群体在不断扩容,营销方式与内容也越来越多元化。然而,流量红利见顶、消费者愈发清醒等各种客观因素加剧着美妆行业的变化与洗牌。近两年,YES!IC、勃朗圣泉、TooFaced等品牌相继倒在了这个所谓的经济寒冬,美妆行业整体面临着向上增长的压力与挑战。站长网2023-05-26 13:54:430000消息称一加 OnePlus Open将于 8 月 29 日发布
根据博主@MaxJambor爆料,一加首款折叠屏手机将于8月29日在国内发布,预计被命名为“OnePlusOpen”。这是一加进军折叠屏手机市场的又一重要举措。从之前的爆料来看,这款折叠屏手机将配备7.8英寸2KAMOLED内屏和6.3英寸AMOLED外屏,两块屏幕的刷新率均为120Hz。这样的屏幕配置能够提供出色的视觉体验,无论是在内屏还是外屏上使用,都能保证良好的观感和操作体验。站长网2023-07-14 16:20:390000美国加州将监管该地区生成式AI的使用
文章概要:1.加州州长签署行政命令,规范生成式人工智能在政府机构中的使用,引领其他州效仿。2.命令要求风险分析,关注基础设施安全和弱势社区,建立沙箱测试项目,并提供员工培训。3.合作顶尖大学,2024年举办联合峰会,讨论生成式人工智能对州及劳动力的影响。站长网2023-09-08 14:25:070005淘宝推出免单活动 活动时间为5月6日至5月9日
今日,一则关于“淘宝免单bug”的词条迅速登上微博热搜,引发网友的广泛讨论。这一话题的焦点源自多人收到了一条“淘宝免单短信”,通知用户今日下单的商品已被淘宝免单,并附赠了51元免单红包。起初,许多网友猜测这可能是淘宝系统的一个错误,但随后证实这其实是淘宝为庆祝其周年庆而特别推出的免单活动。活动时间为5月6日00:00至5月9日23:59,期间符合条件的用户都有机会享受免单福利。站长网2024-05-06 21:09:240002AWS 首席执行官谈论生成式 AI、亚马逊对 Anthropic 的投资以及云计算成本削减
AdamSelipsky,亚马逊云计算部门AWS的首席执行官,近期在一个关键时刻引领着公司的云业务。Selipsky一直主导着过去几个月亚马逊推出的各种生成式AI产品,旨在与微软等公司在日益增长的AI竞赛中竞争。AWS作为云市场的领导者,是亚马逊深具盈利性的业务。然而,过去几个季度,由于客户削减开支以应对更广泛的经济挑战,部分增长有所放缓。0000