Manus的发布,是Agent大战的一次抢跑
这是窄播Weekly的第48期,本周我们关注的商业动态是:Manus发布的节点性意义。我们认为,Manus的发布不是又一个DeepSeek时刻,而是对即将到来的AI Agent之争的一次抢跑——虽然一时成为全场焦点,却还没展现出成为冠军的实力。
3月6日凌晨,Manus头顶「全球首款通用型AI Agent产品」的称号登上舞台。在前排观众的高度赞誉和诸多官方案例效果的双重加持下,Manus迅速成为营销号和媒体的宠儿。随后,由于邀请码一码难求,用户测试中出现了卡顿、迟缓、未完成任务,使其口碑迅速两极化,陷入「套壳」质疑中。
与此同时,国内的MetaGPT和开源社区CAMEL-AI两个团队在很短时间里推出了开源的Manus复刻项目。MetaGPT的Open Manus在GitHub上收获了7000多颗星星,CAMEL-AI打造的OWL在智能体测试基准GAIA开源榜单上的得分为57.7%。借势Manus,两个团队各自收获了一次破圈效果。
抛开流量层面的造势、营销、蹭热点等行为不谈,也不在没有邀请码的条件下围绕评判Manus的实际效果,仅从产品思路及影响来看,Manus的这次抢跑会激化AI Agent的竞争,并且让「GPTs类」智能体开始退出历史舞台。
一方面,AI Agent在2024年就已经被公认会成为2025年AI竞争的重头戏。知名投行巴克莱在最新的研报中,将「推理模型」和「Agent」推为新时代的弄潮儿。Manus作为投入这波趋势中的一条鲶鱼,大概率会刺激巨头加速布局AI Agent。
进入2025年,OpenAI已经先后抛出了Operator和Deep Research两个 AI Agent。就在Manus走红的这一周,微软也发布了两个新的AI Agent。Meta也在为Facebook和Instagram推出客服领域的AI Agent。亚马逊的 AWS 被曝组建了一个致力于Agent开发的新团队,旨在帮助人们自动化生活中的部分事务。
另一方面,人们对AI Agent的定位越来越清晰,无论是开发者还是用户,都更加强调AI Agent的任务执行能力,而不是定制化的聊天能力。这也意味着,包括始作俑者OpenAI在内,都会逐渐放弃GPTs类智能体,去探索如何提升AI Agent的执行效率。Manus会让文小言和豆包中的「周易大师」们更快谢幕。
新的AI Agent竞争阶段会呈现出四个趋势:
1、从与AI合作,到监督Agent工作;
2、好的Agent一定是合格的终端消费品;
3、编程平权会带来更灵活的执行;
4、围绕Agent开始建设「统一市场」。
从与AI合作,到监督Agent工作
在2023年,人们还会将GPTs那样的,被高级Prompt搭建起来的,具备专业背景的聊天机器人称作智能体。人人都可以开发的智能体,其实是人人为不同场景定制化不同的聊天机器人,是人与AI合作完成对话任务。当时的OpenAI和百度都希望这些智能体可以成为增加ChatGPT和文心一言使用市场的工具。
事实是,低频的聊天需求聚合,根本带不来用户时长的增长。甚至,用户选择智能体也不是因为它多么有趣,而是希望它能提升自己的效率。当大模型变得足够聪明时,人们召唤算命大师可能只需要一句话,没有人会再去从众多智能体中挑选出最顺眼的算命大师。
GPTs们是在基于技术现状思考产品形态,而Manus是在打造一个载体去承载技术的未来——这也是Manus团队给到的一个避坑指南。
开发AI产品不同于开发互联网产品,后者面对的技术与平台相对稳定,搭建起更好的产品体验,类似有了智能手机,在上面去开发微信,前者强调对技术的预见性,据此来开发产品,是要设计能够让汽油更充分燃烧的发动机。
Manus之所以能够给到很多人震撼的感觉,是因为Manus展现出了人发出命令,不要对话引导,只用监督Agent执行的未来雏形,比Auto-GPT展现的自我思考、自我规划能力要更能发挥未来AI的能力。
而且,Manus也不需要像AI Agent程序员Devin一样,针对不同场景进行针对性设定,而是说一句话就能启动不同领域的任务,让人们使用AI的效率得到了提升。
当然,这样做的风险就在于,面向未来技术能力的载体,往往会在当下露怯。Devin发布后,也遭受过质疑,因为技术需要进一步迭代。而本就是要抢跑Agent比赛的Manus,既没有做好全面开放给用户使用的准备,也缺少让通用AI Agent完美无缺的技术支持。
半黑半红是他们自己早就做出了选择的结果。
好的Agent一定是合格的消费品
Manus的成功之处在于,从C端用户的需求出发,搭建起了一种高度灵活且低门槛的Agent服务模式。
在B端市场,客户只会为好的消费品买单。而且,B端客户对Agent的可靠性有更高的要求。也因此,AI Agent在B端的探索往往都是从某个垂直业务场景的优化切入,所以会有Salesforce旗下Agentforce这样的平台,为企业提供按需搭建AI Agent的服务。
在C端市场,好的消费品不只要好用,还要简单。首先,绝大部分用户甚至对自己的需求都没有一个清晰的认知,脑子里只有一个模糊想法的时候,就会去寻求AI的帮助。其次,用户即便有清晰的需求清单,知道如何分步完成,也很大概率不精通实现任务的工具。
这就导致,像字节扣子、腾讯元器这样需要用户自己搭建工作流的平台,更像是一个服务开发者的平台,而不是解决C端用户需求的平台。豆包 扣子、元器 元宝的组合也一直没能打出这套「需求对话 Agent执行」的组合拳。在OpenAI、Google、Meta的Agent尝试中,我们也还没有看到统一需求入口 多Agent能力的低门槛产品组合。
复旦大学的技术团队推出过一个名为AI2Apps的一站式AI员工开发与端侧服务平台。这个平台有一套基于浏览器的Agent操作系统,提供全套开发工具,能像Devin一样编写代码,是一种高阶版的扣子。开发者能在「建筑师Agent」的主导下完成某个岗位AI员工构建与组合。但这依然没有解决C端用户的简单使用痛点。
但在Manus,用户说出一个需求,就会有Agent先进行分析拆解,然后分配不同的Agent去执行不同的工作,调用不同API完成任务,还会有Agent负责反思和挑错。而且整个过程清晰可见,用户可以介入调整。
这是一个合格的消费品应该具备的素养,把所有用户看做小白,让他们在不懂如何编写网页,如何调用API的情况下,也能高效完成任务。
但是,Manus欠缺的是,执行具体任务的准确度与精细度。这是一个打磨不同能力Agent的过程。
OpenAI也有类似Manus的想法。Deep Research的团队成员Josh Tobin就认为,虽然这些Agent现在是独立的,但人们日后能够使用的终极Agent,不会仅局限于网页搜索、操作电脑或执行人类助手的常规任务,而是能够以更自然的方式融合所有这些功能。
但Open AI选择的是先通过定制化模型,训练出比大语言模型更适合执行具体任务的Agent。其中,Operator是一个偏重执行与操作的Agent,Deep Research更偏重信息的收集、整理、归纳。未来可能还会有其它的Agent出现,但他们最终可能会成为ChatGPT手下的员工。
编程平权会带来更灵活的执行
如果说大模型带来的是在交互灵活性上的提升,那么AI推动的编程平权,会给Agent执行任务带来更灵活的手段。
Deep Research的团队成员Josh Tobin表示,一些公司构建Agent时,会选择由人来搭建整个工作流,而工作流中的重要节点,会由大语言模型掌控,由其来决定下一步的行动。但这种方式构建出来的Agent会比较死板,难以灵活应付可能出现的所有场景。应该是,利用先进的推理模型,赋予它人类工作生活中使用的工具,直接针对期望Agent达成的结果进行优化。
所以Manus会强调「Less structure, more intelligence」,减少对AI的结构化限制,选择了依赖大模型能力来组建工作流。在大模型的指挥下,Agent会在自己的虚拟电脑上使用浏览器、编程工具等完成任务。这样的好处是随着大模型能力的增强,对任务的理解和拆分就会越准确。
在大模型做总指挥的基础上,对编程能力的调用,会带来解决复杂问题的更好方案。在Manus的演示案例中,可以看到根据搜集到的信息创作仪表盘的操作是通过编程解决的,有用户生成PPT也会先依靠编程能力写出H5页面,再把页面转存成图片。编程平权带来了执行任务的更高可控性。
在本周,前谷歌 DeepMind 研究人员Misha Laskin和Ioannis Antonoglou创立的Reflection AI获得1.3亿美元融资,要开发超级智能。他们的第一步就是构建一个自主编程工具,用于扫描代码漏洞和优化应用程序内存使用等场景。具备自主编程能力的Agent是他们构建AI工作团队的重要技术基座。
Agent需要「统一市场」建设
Manus的一个局限是,可以选择使用API调用不同的信息源和能力,但是API无法帮助Agent克服移动互联网的孤岛效应。在一些测试中,Manus能够绕过一部分平台的人机验证机制,但也会在调用其他平台的API时报错,在一些平台上收集信息时也需要人类接管进行登陆。
Agent需要一次「统一市场」的建设。
简单来看,用户在登录了Manus之后,如果想要发挥更好的效用,需要有一个连接范围极广的基于一个账号的联合登陆机制。在国外来看,能够做到这一点的是Google,即便是Meta也还差点儿意思;在国内来看,微信的连接范围广,但也不如Google账号。
即便是在互联互通的口号下,国内的互联网产品想要实现联合登陆机制,也是一个很困难的任务。所以就出现了GUI(图形用户接口)Agent,希望通过让AI读取屏幕信息,在更底层绕过App之间的墙。AutoGLM、computer use等能力的推出,都是在这个方向上做的准备。
与之相比,Manus的AI 虚拟机方案虽然更安全、更易实现,但局限多,不够底层。
一个更长远的目标是,基于GUI Agent形成一套以Agent为核心搭建的操作系统。就像Meta的首席AI专家杨立昆(Yann Lecun)所言,短期内需要让AI系统能够执行一系列行动,长期来看则需要下一代AI系统的支持。
这个操作系统,本质上就是一个融合软硬件能力,能协作不同模型的「大脑」。
FF向首位个人投资者用户交付FF 91 并重启交付第二阶段
FaradayFuture官方发文称,已完成了向资深个人投资者用户何俊先生的新车交付。何先生的美国分公司的首席运营官在FF洛杉矶总部接受了FF912.0。FF创始人、首席产品及用户生态官贾跃亭将车辆交付给了何先生的代表。这标志着公司重启了自去年开始的交付第二阶段(SOD2)。站长网2024-06-14 00:28:450000开源大模型训练框架Megatron-LLaMA来了 32卡训练可加速176%
要点:淘天集团联合爱橙科技正式对外开源大模型训练框架Megatron-LLaMA,以提高大语言模型训练性能,降低训练成本。测试显示,相比HuggingFace代码,Megatron-LLaMA在32卡训练上获得176%的加速;在大规模训练上表现出几乎线性的扩展性。Megatron-LLaMA已在GitHub开源,将持续关注社区发展,与开发者共同推进自适应配置、更多模型支持等方向。站长网2023-09-12 15:20:130002生成式AI走进小学生「编程第一课」:画条线生成音乐、草图一秒变大作
在经典作品《小王子》中,有这样一幕情节:一个小孩子画下了蛇吞象的样子,他向大人们展示自己的作品,并问他们害不害怕。然而,所有的成年人都说:「一顶帽子有什么可怕的?」但对于充满想象力的孩子来说,这并不是一顶帽子,而是一条正在消化大象的蟒蛇:相信每一位读者都曾被这段情节所打动,这就是艺术创作的精髓所在。对于小朋友来说,即使是几笔简单的线条,也代表着最纯真可爱的想象。站长网2023-09-06 18:46:270000QQ浏览器电脑版v12.7上线手机模式 可实现手机和电脑同屏操作
QQ浏览器电脑版v12.7推出了一系列新功能,旨在提升用户的办公和娱乐体验。主要亮点包括:手机模式:用户可以在电脑上下载和安装20多款热门手机App,如微信读书、QQ、斗地主等,实现手机和电脑同屏操作,方便用户在不同设备间切换。PDF转换工具:浏览器内置了PDF侧边栏,提供转换、编辑和提取文字等功能,帮助用户轻松处理PDF文件。站长网2024-07-25 02:34:310000马斯克最新访谈:在全球核战爆发前必须实现殖民火星
快科技6月16日消息,据国外媒体报道,在近期的一次访谈中,特斯拉和SpaceX的CEO埃隆马斯克分享了他对太空探索和人类未来的见解。马斯克强调,SpaceX的使命是将人类意识扩展到地球之外,以应对类似恐龙灭绝的未知挑战,并确保人类文明的长期生存。马斯克认为,尽管地球已有约45亿年的历史,但文明的存在时间仅占其中的极小部分,这表明文明是短暂而脆弱的。0000