大模型不需要眼前的共识
确定性的机会指向的往往是需求场景,需要实干家,不断优化体验;而不确定的机会往往依托于技术创新,需要冒险家,探索出一条通向应用的路径。这也是为什么人们不会惊讶于雷军下场造车的决心,却很难完全相信杨植麟在月之暗面创业过程中表现出来的技术理想主义。
在大模型领域,并没有形成像新能源车一样的市场共识。企业在确定性和不确定性之间进行的权衡,是引发行业分歧的主要原因。选择确定性还是拥抱不确定性,决定了企业是优先赚到钱,还是优先做好技术;是坚持做闭源大模型,还是赌开源大模型一定会迎头赶上;是要依靠通用模型催生引爆行业的超级应用,还是要通过小模型先占领细分市场。
当前的环境下,企业和投资人都会从更现实的角度去做考量,活下去、挣到钱,比一个不确定的理想愿景更能说服人。但人们对大模型的期待是给行业带来更彻底地改变。从长远来看,现在很多企业的大模型应用,还是在对原有工具进行小修小补,很难产生引爆技术的应用,也很难抵御未来大模型技术迭代带来的洗牌。
泛滥的「智能体」是最明显的一个例子。国产大模型的落地催生出各种被冠以智能体名号的聊天机器人和「XX助手」。百度文心一言中充斥着大量伏地魔、繁花-爷叔这样的模拟对话机器人;kimi 上也出现了公文笔杆子、i人嘴替等个人助理;字节豆包在抖音上的推广也都依靠批改作业、练习英语口语等简单的功能点来吸引用户。
很难想象这样的聊天机器人能有多强大的生命力。如果我们对于大模型的期待仅停留在追求确定性的阶段——利用其提升智能客服的对话体验,提高资料搜集整理的效率以及扩充某些图像或生成某些代码,那么大模型能够产生的实际价值或将远不及我们现在的预期。
大模型杀手级应用的出现一定是要革掉某个现有体验的命。现在来看,没有共识就是最好的消息,至少说明这个市场上,不是所有人都只满足于眼前的利益,还有人在沿着另一条逻辑路线前行,在不确定中寻找更大的可能,去打一场持久战。
大模型的两种逻辑
中局和终局是大模型领域目前比较有代表性的两种发展逻辑。
中局的逻辑以朱啸虎(金沙江创投主管合伙人)为代表,包括一部分聚焦应用层的创业者在内,致力于利用开源大模型快速构建服务于细分需求的小模型,然后通过数据积累和模型迭代,建立竞争门槛;终局的逻辑以月之暗面为代表,倾向继续投入于大模型能力的提升,等待技术迭代引爆超级应用。
在中局的逻辑里,大模型的理解、决策能力被融合到既有的场景中,让这些场景能够应用大模型的生成能力,提升解决方案的性能,从而产生新的商业化可能性。这种逻辑受到青睐的原因是,有确定性需求,可以迅速见到成效,用户付费意愿更强。
在朱啸虎的介绍中,一家利用开源大模型做AI视频面试的企业2023年的收入比2022年翻了一倍;利用开源大模型做AIGC视频广告的公司2023年收入做到了5000多万元,比2022年涨了四五倍。
朱啸虎追求的机会是,利用LLaMA这种快速提升的开源大模型,结合垂直场景的数据积累和人工微调,在几个月内提升某一垂直场景的效率,在大模型发展过程中先赚到第一桶金。
朱啸虎对大模型的发展持悲观预期,对应用场景的开发保持乐观,主张从实际出发,把能赚的钱先赚到。
月之暗面的创始人杨植麟的理念则更具技术理想主义色彩,他相信大模型会逐步完成对世界的建模,并在这个过程中自然涌现出杀手级应用。
杨植麟的终局逻辑下,大模型是一种解释世界的工具,就像人会用语言描述世界、理解世界一样,大模型用数学为语言建模,让AI也能够理解世界,描述世界。AI依靠这种学习能力,逐步实现像人一样使用工具,让AGI成为帮助人链接和管理细分场景的「助理」。
AI能够使用工具,也就意味着很多场景的运作方式将会迎来巨大改变。可能企业未来并不需要有一个专门的视频面试工具,也不需要有独立的AI客服,而是统合到一个大模型主导的企业级智能体中,依靠智能体打通和掌控企业的不同环节。
在即将被OpenAI带火的AI搜索中,真正的难点不是搜索结果到底要以网页列表的形式显示,还是以经过AI整合的一段话来显示,而是如何利用AI的理解能力,把被APP分解的信息重新链接成为一个整体。在Kimi 中,可以看到什么值得买、小红书的相关内容可以借助个人助理「什么值得买」和「美好生活指南」来进行唤醒。
但随着杨植麟2个月套现4000万美元的消息传出,市场对他的这种终局逻辑产生了质疑。月之暗面直接面向C端用户的思路,获客成本高且营收前景低。在没有新的变化出现前,月之暗面商业化前景的不明朗被认为是杨植麟信心不足,急于套现的原因。
聊天机器人发扬不了大模型
从目前来看,国内的大模型应用给到尝鲜者的总体感觉还处于大而无当阶段,提出问题之后获得的答案很难让人满意。这一方面受限于大模型自身的技术能力不足,另一方面则受限于用户对大模型应用使用经验的不足。
很多大模型应用推出之初,都仅有一个对话框,用户可以在对话框中提出任何问题并获得答案。而利用精准的Prompt充分开发大模型的现有能力,成为大部分用户难以在短时间内逾越的门槛。
目前充斥在文心一言、豆包等大模型应用中的智能体,很多都是为了降低大模型的使用门槛而打包的Prompt,也就是将一些用户的使用经验沉淀为可以被分享的智能体,让用户可以按照需求找到不同的智能体,获得更具针对性、更有效的回答。
Prompt门槛的出现本质上还是大模型在语言理解能力上存在欠缺。用户即便利用现成的Prompt获得了有效信息,也依然要面对不成熟的体验。Prompt或者所谓的智能体,可以解决初次沟通的效率问题,但解决不了复杂对话的效果问题,大模型应用往往都不止一轮对话。
这也是为什么智能体面向B端的商业化运作依然停留在客服、营销领域,并没有能推进到其他生产生活领域中。因为客服、营销领域在大模型应用之前就已经实现了基础的智能对话体验,大模型的理解能力可以让互动变得更加灵活、自然。
从李彦宏(百度创始人)演讲中提到的案例可以看到,百度在企业智能体方面的实践是提供了一套结合大模型的无代码客服机器人生成工具。企业可以上传私域知识,自动形成对话语料,也可以过滤不在自己经营范围内的内容,还能关联第三方的工具。
被包装为智能体的客服机器人,会服务于百度的搜索生态。当用户在百度APP搜索「什么时候去新加坡人最少」时,会在最前面显示新加坡旅游局AI分身给到的答案,点击可以进行更多对话。这种智能体本质上和之前的百家号、小程序一样,是百度为售卖搜索营销、云服务等产品的新切入点。
但无论是to B的客服机器人,还是to C的各种Prompt,都不具备独特性,很难成为大模型的引爆应用。现在呈现在用户面前的智能体、大模型应用,都还是只停留在优化工具的阶段,只不过是让搜索变得智能了一点。就像王小川(百川智能创始人兼首席执行官)所说,是在聚焦于搜索如何使用大模型,而不是大模型如何学会用好搜索。
理想状态下,智能体应该能够调用工具,完成更为复杂的任务,而不仅仅是聊天。这里需要提到,无论Rabbit R1是否只是一个安卓App的套壳产品,但其结合大语言模型和所谓大动作模型对APP使用体验的创造性升级,似乎更接近于一个智能体理想中的状态——通过不断学习理解人的复杂意图,模仿人的动作执行复杂操作。
我会比较赞同杨植麟所说的,技术是这个时代唯一新变量。无论是在to B还是to C场景中,在其他变量都没有变的情况下,技术对语言的理解越来越精准,对人类意图、行为的理解越来越精准,其能够处理的任务就会越来越复杂,智能体的能力才会越来越强大。
Kimi的走红,已经证明大模型应用具备了被引爆的市场基础。Kimi于2023年10月上线,2024年2月日活访问量已经在国内排到前三,在3月将无损上下文长度从最初的20多万字增加到200万字后,Kimi关注度继续走高,连续五次扩容,访问量环比增长321.58%。
没有共识就是最好的共识
当下还未解决的是,何时会出现一款让大众用户保持高频使用的超级应用。就大模型的应用现状来看,国内和国外都还处于工具优化阶段,只是取决于大模型不同的性能,效果上会有所不同。比如,Adobe对AI的最新应用仍聚焦于AI图像编辑功能的创新和改进,文生图功能的推出,以及视频内容的换头、延长和辅助镜头的生成。
面向未来,让大模型学会使用工具,而不依赖人工微调,是技术发展的又一个节点。扎克伯格说,「对于Llama-3,当我们开始进入更多这些类似于智能体的行为时,我认为其中一些将是更多手工设计的。我们对Llama-4的目标将是将更多这样的东西纳入模型。」
最终能力的大幅提升,依然有赖于大模型本身的进步。但是,大模型的每一次进步,都需要耗费一笔相当庞大的资金。根据THE DECODER披露,GPT-4一次训练成本为6300万美元。而根据AI Index的估算,OpenAI的GPT-4估计使用了价值7800万美元的计算资源进行训练,谷歌的Gemini Ultra 的计算成本则高达1.91亿美元。
高昂的训练成本也是国内在大模型方面没有形成共识的原因之一。国内大模型的融资额度要低于国外。月之暗面在2月获得了10亿美元A轮投资,Minimax3月被传获得6亿美元战略投资。相较于亚马逊向Anthropic追加的27.5亿美元投资,都不算多。而且国内的环境并不利于大模型的进一步融资。
对大模型技术未来发展的差异化预期是另外一个原因。一部分开源大模型的支持者会认为,开源大模型与闭源大模型的发展会受到大模型技术发展坡度的影响,坡度越陡,闭源的优势越大,一旦坡度变缓,开源会很快追赶上来。
等待开源大模型追赶上来的人,都预期大模型技术发展的坡度会在短时间内变缓。这样闭源大模型与开源大模型的差距就会相对缩小。而提前深耕场景,积累了一定数据的企业则能够利用开源大模型构筑不低于闭源大模型企业的场景壁垒。
对于小企业而言,以应用场景为目标训练小技能,然后不断根据技术进步重新「练号」,可以在这个大技术趋势下不断抓到小风口,甚至在大风口到来时,以插件的形式参与其中。对于巨头企业来说,其优势是多场景的融合,是对核心入口的争抢,「重开新号」的代价太高,技术的迭代往往意味着一场淘汰赛的开启。
基于融资能力的不同、对技术应用前景预期的不同、自身体量的不同,企业之间的共识并没有形成。
这是一个好消息,说明大模型领域还远未像新能源车一样进入到市场成熟阶段。虽然不确定性会增加失败的风险,但其中也蕴藏着的机会也更大,足以说服一部分企业冒险前行,追求技术的高峰。
可以理解中局的无奈,却不应放弃对终局的坚持。
Gemini背后,谷歌真正可怕之处并不在模型本身
谷歌的大语言模型Gemini1.0,一经问世就技惊四座。首先在性能方面,无论是从对文本、图像、音频的理解,还是对57种领域文本以及数学问题的推理,几乎都超过了自然语言界的霸主GPT-4。而且在谷歌Gemini的官网上还有这一段话,内容是“Gemini是第一个在MMLU(海量多任务语言理解)上超过人类专家的模型”。0000英伟达推出”生成式AI专业认证“,帮你成为大模型开发专家!
3月8日,全球AI领导者英伟达(NVIDIA)在官网推出了,生成式AI(AIGC)专业认证,通过考试可获得行业认可的权威证书。同时英伟达也推出了相应的培训课程,包括生成式AI解释,深度学习入门/基础知识,基于Transformer的自然语言处理,使用大语言模型进行定制应用开发,大语言模型的部署、定制、微调等,帮助学员顺利通过考试。站长网2024-03-08 13:36:3700002024福布斯中国杰出商界女性:孟晚舟跃居第二
《福布斯中国杰出商界女性100》是福布斯中国每年发布的榜单,旨在关注女性在商业领域的表现。今年榜单着重关注女性在商业竞争中的角色转换和认知,展示女性领导者的独特魅力与智慧。今年上榜者平均年龄51岁,包括创业者、职业经理人和女性二代接班人。覆盖行业包括科技、大消费等。在职业背景方面,44%的上榜者是白手起家的创业者或早期加入创始团队的成员,44%是职业经理人,而12%则是女性二代接班人。站长网2024-03-08 10:37:410000东方甄选试水小时达背后,即时零售正在成为“新战场”
东方甄选又有了新动作。最近,东方甄选推出「小时达」业务,已经在上海和北京两个城市进行了试点,目前试点的区域包括上海的虹口区和徐汇区的部分街道,以及北京的十里河区域。该业务主要是为消费者提供2小时以内送达的自营产品,如烤肠和南美白虾。在配送方面,东方甄选小时达选择的物流是顺丰或者京东,这也是东方甄选自营产品的主要物流方。据了解,后续东方甄选还将扩大小时达的覆盖区域和产品。站长网2024-02-27 12:06:120000米粉期待值拉满!雷军重回小米手机发布会
快科技7月10日消息,小米产品经理魏思琪与米粉互动时确认,本月小米MIXFold4和小米MIXFlip发布会由雷军主持。在评论区,米粉纷纷表示期待。此前在2月份,小米14Ultra发布会由卢伟冰主持,当时雷军将更多精力放在了小米汽车业务上。雷军还强调,手机业务始终是小米的核心业务,他会持续保持足够的精力投入。站长网2024-07-11 09:24:560000