国产模型人均「第一」太假？字节扣子模型广场竞技，全民投票！

站长网2024-06-14 16:36:210阅

【新智元导读】每家国产大模型都说自己是第一，该信谁的?最近，字节推出了扣子模型广场，全体国产LLM开启大混战!你一票，我一票，谁是第一，大众说了算。投票连小朋友都能参与，模型生态从此彻底从黑盒到白盒。

只有打开黑盒，大模型应用生态才能从玄学变科学。

从厉害到能用，关键一步是确定性

在过去的半年里，笔者在北京拜访了一百多位人工智能应用开发者，其中最年长的是80多岁的张老。

张老是一位中美混血的华侨，在人工智能这个词诞生的第一届达特茅斯会议召开时，他已经成年，并且从事着与编码相关的工作，甚至还在卡片上打孔进行过编程，后来又在IBM从事研发工作。

可以说，张老一生都是人工智能的忠实拥趸。在这一轮大模型爆发的时候，他表现得非常激动，尽管已经退休很多年，但仍然充满热情地在扣子上开发Bot，之前不仅使用过GPTs，还对工作流了如指掌。

张老在谈论现在大模型的发展时，一方面给予了高度赞扬，另一方面也表达了担忧。

他告诉笔者:「别看舆论上很热闹，似乎一下子出现了很多发明，但实际上真正能被使用的东西很少。」他认为，真正的新发明必须能够提供新的服务，并举例将大模型与计算机的发展进行了类比。

在他年轻的时候，IBM和惠普等公司生产的产品只能说是接近计算机的计算器。而当时，一位名叫王安的华人制造出了现代意义上的第一台移动电脑Wang2200。

Wang2200不仅与IBM、惠普的机器一样支持Basic语言和磁芯存储（顺便说一句，磁芯存储也是王安发明的），而且在计算功能之外还能进行数据处理和文字处理，甚至还配备了CRT显示器，运行着他自己发明的文字处理系统WPS。

他本人也因此入选美国发明家名人堂，与特斯拉、爱迪生等人齐名。在这台移动电脑发布两年多后，微软和苹果才相继成立，并且深受其影响。

然而，Wang2200的发明虽然具有进步意义，但也存在严重的缺陷:

其一，它的稳定性较差，由于设计过于超前，其性能甚至不如当时的计算器;

其二，它是一个黑盒子，虽然机器本身很好，但与主流的IBM路线不兼容。

工程师们不愿意使用这种结果不确定的机器。因此，尽管IBM落后一年才推出5100，但却获得了市场的普遍认可，被认为是PC机的开端。

在张老看来，不稳定和黑盒子这两个问题，也是大模型生态发展面临的两大挑战。

笔者非常认同他的观点，并且在后来对应用创业者的拜访中，更加深刻地验证了这一点。

大模型生态的两大挑战

首先，大模型生态的发展过于超前，一诞生就被说得无所不能，但产出结果的稳定性仍然存在问题。

包括OpenAI在内的各家模型都存在幻觉问题，许多微调垂类微调模型在实际应用中的表现甚至不如知识图谱。

这一点在各家SaaS厂商接入大模型时表现得尤为明显。有多少SaaS接入大模型后发现实际效果并不理想，下面的人面对不稳定的结果，根本不敢依赖它来产生结果。

网上常说的AI写简历、写日报、写周报，在现实中有几个人真的敢依靠AI来写呢?输入信息给AI的时间早就足够自己写完报告了。

其次，黑盒子问题更加严重。

一位应用创业者曾经告诉笔者，如果他描述的问题在大模型中没有得到很好的解决，他的下意识动作就是把问题需求描述得更加详细。但事实上，他写的prompt（提示）越多，得到的结果只会越混乱。

在现实中，大多数对话式大模型产品都需要非常好的prompt工程能力才能使用，而且prompt过程本身就非常复杂。这与使用AI来降低成本、提高效率的初衷背道而驰。

一位在中关村从事AI资源管理系统的创业者对笔者说，他在调用大模型API时，最关心的就是能否给用户一个稳定的结果。他现在拓展新客户非常困难，只有一些小公司愿意免费尝试，因为大客户都很担心模型给出的数据不准确，在关键时刻还得重新编写。

另一位从事AI运营系统的创业者则更加苦恼，因为他提供给付费客户的小红书文案有时好有时坏，总是出现幻觉表述，他们的创业团队为了挽回客户，经常要手动帮客户改稿到半夜。

在B端市场，有趣并不重要，有用才是关键。如何提高输出质量的确定性，对于创业者和开发者来说具有极其重要的价值。

手搓Bot，扣子AI工作坊可能会让大家看到更多真实场景

大众市场不在乎你是否是人工智能，也不在乎你是否是高科技产品，他们只关心你能否解决他们的生活和工作问题。

因此，大模型生态要想被市场广泛接受，就必须做到两件事:一是极大地降低使用门槛，二是极大地提高确定性。

只有做到这两点，大模型生态才能真正融入大众的工作和生活。

在上述两件事中，第一件事，即降低使用门槛，目前各家大模型厂商都已经意识到了，并且主流的解决办法是采用Agent路线。

这里的Agent需要解释一下，目前百度的词条翻译是通用人工智能，这过于科幻，与当前的现状不符。

网上还有另一个被广泛使用的说法是「智能体」，这个说法虽然正确且理想，但笔者觉得不够形象，圈内人想吐槽它叫「智障体」，圈外读者甚至不知道它是什么意思。听说有Saas厂商将其翻译成「AI员工」，只能说他们想多了。

这里想说一个不太准确但肯定能让大家一眼就明白的词——「人设」。无论以后基础模型如何发展，Agent目前的状态就是这样。

举个例子，笔者曾经按照prompt教程，设计了一个哈佛大学教授的Agent来协助日常工作。然而，它除了能用哈佛精英的口吻与我说话之外，其他事情都做不好，文章等等也写得很糟糕。

这样说大家应该能理解「人设」和「智能体」的区别了吧。而且与上文一致，你写的prompt越详细，Agent就越模糊，输出的结果也就越混乱。

那么有没有解决办法呢?目前，在国内平台中，笔者只看到扣子注意到了第二件事——极大地提高确定性。

扣子智能体开发平台

扣子现在给自己的定位是新一代一站式AI Bot开发平台，由此可以看出他们对Bot的重视程度。

为了方便大家区分Agent和Bot，这里还是要做一下翻译，网络直翻是「机器人」。

这里可能还是不好理解，举一个实际运行的例子——根据抖音热点内容创作微信公众号文章。

如果我们给创作大师Agent写prompt，可能会这样写:「你是一个热文创作大师。请根据今天的抖音热点内容XXX，写一篇微信公众号文章。」

如果在扣子平台使用Bot来做这件事，我们输入的提示词可能是一样的，但它可以进行更复杂的任务执行，包括检索、提纲、修改、查询数据库、核定、提升文学性等预动作，然后再输出给你。而且，这些预设的工作流、技能、插件、数据库、长期记忆都是你可以设计的。

不出意外的话，后者输出的文字会比前者好很多。因为这个Bot是根据你的需求量身定制的，它可以存储你日常的数据库，你真的可以放心地让它帮你写日报、周报、简历，在写长文字时，甚至在细节上的它表现比你还好。

Bot和Agent有什么区别?

Bot和Agent并不是两种路线，一些预设简单的Bot甚至就是Agent的套壳，它们最大的区别在于确定性更强。

目前，扣子上最受好评的部分是工作流，其生态玩得非常溜，不久前甚至上线了工作流商店。在开发者中已经有了新的说法——当prompt越多Agent越模糊时，workflow（工作流）越细致Bot越精准好用。

为了方便普通读者理解，这里也要对Bot做一个不准确的解读——「手搓小程序」。因为用户写了Bot并不是用完就结束了，而是可以继续分发到微信、飞书、抖音等多个渠道给别人使用，真的和小程序差不多。

为什么说是「手搓」呢?因为扣子真的把「小程序」的编写门槛降低了太多，哪怕是完全不懂编程的小学生也能像玩拼图一样拼出来。

近期，扣子与Intel联合推出了主题为Bot征集活动的扣子AI工作坊（Coze AI Factory），涵盖了图文创作、实用工具、互动创意三大赛道。

在抖音快速发展的过程中，「降低两个门槛」起到了重要作用，一是降低创作门槛，二是降低分发门槛。

扣子的发展也是如此，现在他们把「小程序」的开发门槛降到如此之低，下一步就是大规模分发。

在大模型应用的发展过程中，扣子正在吸引越来越多的普通人进入创作领域，让开发者生态变成大众创新的生态。

最低门槛的比赛，最能认清生态的时候

在扣子AI工作坊活动开展的同时，扣子模型广场也正式推出。

什么是扣子模型广场?

从字面上看，这是一个拥有众多模型的地方。扣子虽然是字节跳动的平台，但并没有限制Bot只能使用豆包大模型，而是支持Bot接入国内众多主流大语言模型，如通义千问-Max、智谱GLM-4、MiniMax6.5s、Moonshot128k、Baichuan4等。

为什么要这样做呢?

现在看来，主要原因是扣子希望构建的Bot生态是一个场景丰富的超级生态，无论是医疗、金融、汽车、美容、交通等公共领域，还是围棋、电竞、情感、消费、营养等个人领域，所有赛道的人都能在上面开发出符合自己需求的Bot。目前国内模型的技术路线尚未统一，服务能力也各有优劣，扣子必须为开发者开发更好的Bot争取空间。

但在具体开发过程中，对于到底该选择哪家模型，开发者该如何进行比较和选择呢?

对此，扣子在模型广场提供了模型对战功能。所谓对战功能，就是指用户可以通过与两个隐藏了模型的Bot实时对话（注意，这里Bot相同，只是模型不同），然后根据模型的回答进行投票，投票结束后系统才会揭示具体的模型。

在具体操作过程中，用户的使用体验大致如下:

他可以看到一个界面弹出两个分页面，两个页面运行同一个Bot，只是其背后支持的大模型不同;

他在其中一个页面输入提示词，另一个页面也会跟着输入相同的提示词，两边的模型同时支持Bot运算并给出结果，两边的结果同时展示;

他可以根据两边结果的优劣进行投票，投票之后才能看到两边的大模型名称以及相关参数;

他可以多次进行对战，通过这种对战测试来决定自己的Bot以后使用哪个大模型。

模型对战

在扣子上，这个模型对战功能还提供了三种模式:

其一，是指定Bot对战。

用户可以指定一个Bot进行不同模型的对战，操作非常简单，这非常适合开发者测试自己的Bot，最大的好处是可以让开发者决定自己的Bot以后调用谁家的模型。

指定Bot对战

其二，是随机Bot对战。

过程与前面基本相同，唯一的区别是用户不需要指定模型，系统会随机分配模型供你对战使用。这对普通用户来说非常有价值，他不仅可以比较模型的能力，还可以感受扣子上许多有趣Bot的能力。

随机Bot对战

其三，是纯模型对战。

这个过程与前面仍然相同，只是用户不再测试Bot，而是测试评价模型本身。大模型技术仍在高速发展，技术路线也没有完全统一，好坏优劣一直难以评判，各家都在不断自称某项第一。

纯模型对战

前文说大模型Agent输出结果是黑盒状态，其实各家大模型能力评测也是黑盒状态，开发者在选择时非常缺乏测评尺度。因此，Bot的效果好坏很大程度上受到开发者个人审美偏好的影响。

但是要想让大模型应用生态繁荣起来，这种黑盒必须变成直观可见的白盒。

对于开发者来说，扣子模型广场的对战功能无疑是最直观的比较工具，为他们节省了不少投入。

在此之前，开发者在选择模型时，肯定会进行比较和衡量，也少不了找群体做双盲测试，但这既浪费金钱和人力，又麻烦，最关键的是难以控制变量。

各家模型都在不断变化，每隔一段时间整个赛道都会发生变化，如果没有这样的工具，开发者将会在评测上浪费大量时间，而现在时间恰恰是最宝贵的。

对于大模型厂商来说，如此直接的对比，如此公开的投票，确实是一种巨大的鞭策。

在过去的一年里，许多大模型厂商都用尽各种话术来夸耀自己的XXX项第一，以及在哪些测试中获得了多高的评分。

但随着大量的模型们开始针对测试题库进行训练优化，这种评比早已不客观。不过，仍有不少模型沉浸在这种虚幻的排名中。

然而，只有通过实际对比，才能知道谁才是真正的强者。

对于生态来说，扣子模型广场提供了一种最低门槛、最低成本的模型PK方式，即使是小朋友也能参与投票，这一下子将整个模型生态的判断标准拉到了与大众标准相同的水平。

当开发者们为选择大模型而茫然时，大众的选择、普通人的感受可以成为大模型优劣的最佳标尺。

国产模型人均第一太假 字节扣子模型广场竞技全民投票

0000

评论列表

共(0)条

相关推荐

站长资讯
腾讯游戏发布2024年端午节未成年人游戏限玩通知
腾讯游戏近日发布了关于2024年端午节假期未成年人游戏限玩的公告。此公告旨在贯彻国家新闻出版署关于防止未成年人沉迷网络游戏的指导方针，并结合实际放假调休安排，为未成年人提供健康、合理的游戏时间。根据公告内容，2024年端午节假期（包括6月7日至10日，即周五及端午节假期）期间，腾讯游戏旗下在中国大陆地区运营的网络游戏将实行特定的未成年人游戏限玩政策。
站长网2024-06-03 19:25:19
0000
站长资讯
报告称iPhone 15系列会上涨100至200美元起
根据WedbushSecurities的一份报告，iPhone15系列将不可避免地涨价，因为其升级幅度之大，会吸引过去四年未升级的2.5亿iOS用户购买。其中标准版涨价100美元，而Pro版涨价200美元起。这些升级包括更大的电池、更好的相机主摄质量和更强的性能，以及人工智能的新功能。苹果已经开始为生产iPhone15系列做准备，备货量在8900万台到9800万台之间。
站长网2023-07-14 16:20:37
0000
站长资讯
拿货靠抢！义乌“年画大王”卖全球
新春佳节，家里必须带点红。对中国人来说，贴年画是迎接春节的一项重要仪式，腊月里，大家会在房屋正大门贴上“倒福”和春联，年味也就呼之欲出了。卖年画、对联的老板会被喊作“送福气的人”。中国各地被喊作“年画大王”的人不少，他们往往在年画绘制上拥有精湛的手艺，但在义乌，“年画大王”更是这门生意的操盘者:以义乌市文化礼品行业协会会长、义乌市年画挂历商会会长楼宝娟为代表的从业者达六七百家，占全球八成市场。
站长网2024-02-16 10:38:03
0000
站长资讯
怎么劝ChatGPT干活效果最好？我们尝试了100种方法，有图有真相
在ChatGPTAPI中，系统提示是一项很有亮点的功能，它允许开发人员控制LLM输出的「角色」，包括特殊规则和限制。系统提示中的命令比用户输入提示中的命令要有效得多，这让开发人员拥有了更大的发挥空间，而不是像现在使用ChatGPT网页应用程序和移动应用程序那样仅仅使用用户提示。举个例子，一个很有趣的Trick就是「给小费」。
站长网2024-03-10 18:00:29
0001
四五线城市开什么店赚钱？
各位村民好，我是村长。很多人都想回老家开店创业，但几乎都是失败的。不是不会开店，核心原因是选错了店。如果一开始把方向搞错了，不管店铺大小，投入成本如何，都会失败。所以我今天给大家一些建议，回四五线城市创业，开什么店容易成功。当然，这里所谓的成功就是让你赚个养家糊口的钱，不是暴发户。1、回县城能赚钱的10个生意2、回县城千万不能做的8个生意01卤菜店
站长网站长资讯2023-10-27 09:11:30
0000