中国开源大模型们纷纷商用免费，这步走对了

站长网2023-07-18 19:42:381阅

在中国对生成式模型的监管落地后第二天，在目前最强开源模型LLaMA 再传出即将允许商用，和GPT4的秘方进一步被“泄露”之际，全球开发社区里最受认可的国产开源大模型ChatGLM宣布了一个重要决定:

其最新单卡可运行的模型ChatGLM2-6B，开放给企业用户免费商用了。

这个消息淹没在Claude2的发布，马斯克xAI的成立等新闻中，缺少讨论。但它其实是中国基础模型开源进程的又一个重要时刻。

7月14日晚间，智谱AI和清华KEG发布公告，称为了更好地支持国产大模型开源生态，经智谱 AI 及清华 KEG 实验室决定，自即日起 ChatGLM-6B 和 ChatGLM2-6B 权重对学术研究完全开放，并且在完成企业登记获得授权后，允许免费商业使用。公告提供了企业登记入口，需要的信息只有姓名，国家，邮箱，机构，用途和要申请的模型（ChatGLM-6B或ChatGLM2-6B）。

据公告，自6月25日发布 ChatGLM2-6B 后，不到一个月这个模型在 Huggingface 上的下载量已经先后超过了120万。

根据智谱AI的官网，GLM2不限实例不限推理或微调工具包的私有化报价此前是一年30万。而据一名在公告发布前刚刚向智谱问价的开发者称，对方回复可以稍等，“会降价”。

“然后直接免费了。”他说。

但事实上这并不突然。

根据近日报道，Meta 准备发布其人工智能模型 LLaMA 的商用版本。而前不久使用了与原始LLaMA完全相同的预处理步骤和训练超参数的开源模型OpenLLaMA已经率先宣布彻底开源商用。同时，此前曾挖到谷歌那封“没有护城河”内部信的作者，又“揭秘”了GPT-4的工程和训练细节，业内的讨论中有不少从业者倾向于相信它的可靠性。

一切都在剧烈演进，基础模型的飞速进化同时意味着越来越少的秘密:

一方面是大模型本身并没有那么神秘，从最初惊艳所有人的光环中走出后，更多人会意识到这点;同时，几个主要公司之间频繁的技术核心人才流转，最终也会让秘密不剩多少;而更重要的，就是开源社区的惊人能量，众多的聪明才智在基于开源社区对模型进行优化，这种长久的后劲是闭源模型达不到的，而这些能力最终会组合到一起。这几个月开源社区就已经出现了让任何人都可以对LLaMa做指令调优的斯坦福Alpaca，100美元就能训练并看到各类模型汇聚一起的GPT4All，性能堪比LLaMA的阿联酋大模型Falcon，更高质量的数据集Redpajama，以及像OpenLLaMA这类“破解”模型们。

而最近的这次“揭秘”，也是让很多人觉得GPT-4不公开并不是安全考量，而是太容易被学会——MoE模型架构等传言都有一些让人冷静下来的意味。于是看起来一个重要的共识已经在形成，那就是模型们在某一个阶段里取得的任何成绩都无法成为护城河。因此对于那些最受瞩目和最受欢迎的开源基础模型来说，允许商用许可就是必须做的事情，因为这样会更进一步吸引开发者，让这些聪明才智基于它的生态生长。

这也意味着很多基于“LLaMa很难允许商用”，以及“开源模型接近GPT4都是被媒体炒作出来的”短期出发点的分析，长期来看没有必要了。

对于模型提供者，这就需要他们快速调整自己的策略。不仅是开源与否上不要纠结，免费商用甚至也要够快够果断。刚刚把最新的6B版本模型免费商用的智谱就是个典型例子。从最初觊觎已久终于找到机会工程化，做出130B的基座版本模型，到发现6B版本的能力甚至可以做到接近老的千亿模型版本，看到一个可以在自己电脑上安装的模型能吸引的开源社区关注如此之多，智谱其实一直在根据变化调整。

据知情人士称，今年2月智谱就曾想发布自己的模型，这更像OpenAI的路线。但后来各种原因选择开源。而在开源后的表现以及开源社区的进展让团队不少人改变思路。3月14日发布后，3月16日就登上了GitHub的榜单第一，后面连续十多天在HuggingFace的热门榜上排名第一。

据内部人士称，这种迅速获得的认可让团队内部感到十分震撼。

而接近ChatGLM技术负责人唐杰的人称，在开源后他在内部表示，更多的开源是为了让中国的科学家和产业界对大语言模型的训练和运行的机理更加了解，而不是就简单把一个别人的模型拿来微调一下。这是开源的要义。

而未来几个月注定会有越来越多的模型向免费商用进发。

其实只要想明白今天生成式人工智能到底改变了什么也会看得更明白:

今天被大模型强化的人工智能，不是要代替人，而是取代过往那种人与机器的交互。过往基于算力的付费模式本质上都可以理解为建立在对人与机器交互的垄断之上的生意，而大模型就是用所有人都会的自然语言方式打破过去一部分算力精英对人与机器交互的垄断，让所有人都能参与进来。

而开源的逻辑显然更符合这个趋势。

“如果在几个小时内，就能在消费级硬件上微调出一个个性化的语言模型，这件事的意义就太重大了。尤其是，它还可以实时整合许多最新的、多样化的知识。”那篇谷歌内部的《没有护城河》里写到。

一名使用过多个开源大模型进行开发的技术负责人对我说，不是所有人都有必要重新训练模型，但大部分要使用模型的开发者有极强意愿做各种优化方案，而最终它们事实上会是集中在为一个或少数几个开源模型做优化。

于是，当闭源的模型与开源生态注定会越来越多的在解决同样的问题时，闭源用一种大力出奇迹的方式证明路线可能性和天花板之后，开源会真正把它变得易用和可用，在大模型的技术原理越来越没有秘密的趋势下，开源的吸引力会继续变强。而开源社区围绕谁的开源模型进行建设就成了关键，提供免费商用是争夺这个核心角色的关键。

目前国产免费商业授权的基础模型也有了一定数量，其中除了智谱，百川智能使用了1.4万亿token训练的的Baichuan13B模型也是商用免费许可，许多开发者在智谱和百川之间做着对比，而免费商用后，对比的效果会更直接准确有意义。

这些国产模型距离全球顶尖的模型水平仍有不少距离，仔细关注这些团队会知道这些开发团队对此是心知肚明的。而商业可用开源可以让国产模型进一步摆脱只论benchmark评分的阶段，进入了是骡子是马拉出来溜溜的阶段，真正的具体的不同的场景，到底推理表现如何，灾难遗忘的问题如何解决，现实环境数据飞轮启动以后是否能提速追逐，将是每个人都能实实在在看到的。

而最终真的凭此吸引来的生态，才是真正的护城河。

中国开源大模型们纷纷商用免费这步走对了

0001

评论列表

共(0)条

相关推荐

站长资讯
奇安信发布奇安信大模型Q-GPT 可降低数据安全风险
8月25日，奇安信集团发布了Q-GPT（奇安信大模型）安全机器人和大模型卫士。大模型卫士集安全风险发现、大模型访问控制、数据泄露管控、违法违规行为溯源、大模型应用分析等为一体，可以帮助企业更安全地向大模型要生产力。据悉，奇安信大模型卫士可为企业在使用大模型过程中提供四重防护:第一是防止数据投喂造成的敏感数据泄露。包括建立内部技术监管手段，防止员工向大模型投喂敏感数据。
站长网2023-08-26 17:01:24
0000
站长资讯
微信音频放大招：免费听周杰伦，下一步做播客
谁能想到，微信竟让数亿网友“薅”到了周杰伦的羊毛。4月20日，微信更新了iOS8.0.36版本，其中最引人关注的莫过于可以在微信免费收听QQ音乐各种付费歌曲，直接让#微信可免费听周杰伦#这一话题登上了微博热搜，截至目前阅读量超过2.2亿次。实际上，不只是音乐，微信还支持用户收听类似播客内容。此次将触角伸向音频，是其发力图文、视频、直播多个领域之后，补足自身内容板块的又一重要动作。
站长网2023-04-23 09:21:50
0000
站长资讯
跳过安卓开屏广告App“李跳跳”宣布将无限期停更
今日凌晨，跳过安卓App开屏广告应用“大小姐李跳跳”公众号宣布，“李跳跳”APP将无限期停止更新，原因是被控涉嫌“不正当竞争”。该公众号发文称，“李跳跳”收到了来自国内互联网大厂的律师函，声称“李跳跳”可用于过滤、屏蔽该公司旗下浏览器的广告服务，并吸引用户下载、使用涉案软件，违反了《反不正当竞争法》第二条、第十二条第二款第四项的规定，构成不正当竞争。
站长网2023-08-25 16:15:58
0000
站长资讯
蚂蚁集团、OpenAI、科大讯飞等联合编制大模型安全国际标准发布
快科技4月17日消息，第27届联合国科技大会在瑞士日内瓦召开。世界数字技术院（WDTA）发布了一系列突破性成果，包括《生成式人工智能应用安全测试标准》和《大语言模型安全测试方法》两项国际标准。据悉，这两项国际标准是由OpenAI、蚂蚁集团、科大讯飞、谷歌、微软、英伟达、百度、腾讯等数十家单位的多名专家学者共同编制而成。其中《大语言模型安全测试方法》由蚂蚁集团牵头编制。
站长网2024-04-18 17:15:15
0000
站长资讯
小红书的年轻人爱上“剩菜盲盒”，他们真薅到羊毛了吗？
近期，消费市场悄然刮起一阵“剩菜盲盒”风潮。在小红书上，不少网友晒出了自己购买剩菜盲盒的感受:“19.9元竟然开出了4盒自助餐菜品，值哭了好吗”、“幸好我是深漂打工人，太快乐了”、“香港酒店剩菜盲盒，份量多到吃不完”、“长沙15.9元的自助餐盲盒，拎着感觉有一斤”。从“消费升级”到“消费降级”，年轻人试图在省钱与品质之间找寻平衡，而“剩菜盲盒”似乎成了这一诉求的完美载体。
站长网2025-02-13 14:59:37
0000