文心一言VS天工大模型,究竟谁才是国内“首个”ChatGPT?
最近,昆仑万维和百度“杠”起来了,原因还是因为最近大火的大语言模型。
4月17日,昆仑万维正式推出“天工”大模型,并于当日开启测试邀请。彼时,昆仑万维对外的宣传用语是“中国第一个真正实现智能涌现的国产语言大模型。”
有意思的是,百度在发布文心一言的时候,对外输出的宣传用语是“国内首家做出大语言模型产品的科技互联网大厂”。
从表面上看,两家的宣传语中心不一样,话术也有所不同,看似风平浪静,但实则内核都是在争一个“首家”。
为什么要争“首家”,除了能力的对比,市场的争夺外,还有振奋股价,提高市值的作用,百度消息公布当天,港股股价大涨15%,昆仑万维也一样,官宣第二天股价涨幅达到7.68%。
不过,究竟谁是国内首家呢?
从项目披露时间来看,百度是在去年9月份左右开始去内部推进文心一言项目,到今年2月初正式放出项目的消息,并于3月中旬正式对外官宣了文心一言。
昆仑万维官方并没有公布具体的项目开始时间,但是从2020年开始,昆仑万维就已经开始布局AIGC领域。
从技术层面来看,文心一言背后,百度在人工智能领域有四层架构、全栈布局,包括底层的芯片、深度学习框架、大模型以及最上层的搜索等应用。另外,深耕人工智能领域多年的百度,拥有产业级知识增强文心大模型ERNIE,具备跨模态、跨语言的深度语义理解与生成能力。
昆仑万维同样具备大模型四要素:数据、算力、算法以及大参数语言模型。据昆仑万维介绍,天工是双千亿参数训练的结果——千亿预训练基座模型、千亿RLHF模型。
不过,既然两家的底座能力看起来不相上下,那么我们就将这两家放在一起,试试“内功”。
01.
中文语意理解能力
昆仑万维对外展示的技术路径现实,天工团队引入模特卡洛搜索树算法后,在语意理解、转换话题能力上有所提升。
在此背景下,我们首先和天工玩起了成语接龙游戏。不过,天工的完成度并不好,甚至没能理解什么是成语接龙。
文心一言在成语接龙上的表现是优于天工大模型的。
紧接着,我们向文心一言和天工大模型抛出了一个问题——“写一本类似《人世间》一样题材宏大,展现中国历史变迁的小说提纲,字数1000字左右。”对于这个问题,文心一言和天工都将问题的重心放在了“题材宏大”、“历史变迁”这两个关键词上。
于是,两家生成的内容都不符合我们最开始的预期。
上图“天工大模型”,下图文心一言
这个问题,或许是由于我们给出了一定的误导性,所以导致两家生成的答案都不尽人意。但是,天工稍微比文心一言好一些,原因在于,文心一言将“历史变迁”直接解读成了朝代变迁。
尽管天工的回答也是文不对题,但是有人物设定,朝代设定,内容的可操作性和延展性明显是优于文心一言。
将问题拉回《人世间》类似的小说提纲,我们改变了提问角度,连续发文:《人世间》讲了一个什么样的故事、那你能写出类似题材的小说提纲么?大概1000字左右。
在提取重点、联想写作、以及话题的连续性上,天工的表现还是不错的。
但是文心一言就“开了小差”。
文心一言的回答出现了明显的错误。不过,我们再一次将问题抛给文心一言,重新生成答案。这一次,文心一言又重回正轨,给出了相应的答案。
此外,我们还用三个连续性问题,向天工发问。此前,我们在《大评测!ChatGPT 、文心一言和Bard谁更强?》中,将同样的问题给到过文心一言、Bard、以及ChatGPT。
可以说,天工的前两个问题回答和文心一言此前的回答不相上下,但在最后一个藏头诗的理解上,还是存在一定的偏差。
尽管,文心一言的藏头诗回答的也并不好,但好在,文心一言理解了“藏头”的意思。而天工,似乎还并未消化掉“藏头”的意思。
02.
逻辑思辨能力
为了测试“逻辑推理”能力,我们将这样一题抛给了天工和文心一言,即“如果猫会爬树,那么狗也会。”
上图“天工大模型”,下图文心一言
很明显,天工和文心一言也陷入了题目的误区,或者说,并没有完全理解题目意思。不过,这里需要强调的是,在鸡兔同笼问题上,文心一言和天工在发布的视频中都有不错的表现。
在文心一言发布会上,李彦宏询问文心一言“鸡兔同笼”的问题,在题目数据错误的前提下,文心一言通过推理证明了题目存在问题。
这里需要注意的是,在这个逻辑推理上,ChatGPT的回答,是天工、文心一言、bard这四家大模型中唯一正确的,并指出了猫和狗的不同,证明猫会爬树,而狗不会。
除了考验逻辑能力之外,我们还将一个哲学思辨问题,同时向天工和文心一言发文。
上图“天工大模型”,下图文心一言
在哲学问题的理解上,天工和文心一言区别不大,但文心一言略显“人文”一些,在解读之后,更是直接告诉我们该怎么做,更像是和人在对话一样,天工的回答则更是一本正经。
可以这样来说,和天工对话像是和老师对话,老师需要回答这个问题是什么;和文心一言对话则更像是和心理医生对话,医生需要在解释的基础上给出意见。
03.
编程能力
为了测试这两大模型写代码的能力,我们询问了一个非常简单的问题——x 2=5,y-3=7,输出x y等于几,用java做一个简单编程,并得出结果。
上图“天工大模型”,下图文心一言
但是很显然,这两大模型给出的结果都是有问题的。
不过,在其他评测稿件中,文心一言和天工在编程能力的表现上并不差。我们认为,目前来看,这些大模型的能力还并不稳定,还需要在不断的训练中提高准确性。
04.
结语
总结来看,文心一言也好,天工也罢,他们的能力相对来说,差距不大。但更多的问题在于,目前,大模型每一次生成的问题答案都存在一定的误差。
相比于“首家”之争,我们认为,企业们更重要的是在于提升大模型的能力和准确度,并且寻找到更多合适的场景去实现商业化。
大模型赛道愈发热烈,谁都想做风口上的猪,但是能在风口上起飞的猪,往往都是做好了充足的准备。
此外,我们还应该多给国内科技企业更多的信心,和国外ChatGPT4相比,国内大模型还是有一定差距,但是我相信,这个差距在不远的将来,在竞争中,都会逐渐拉小。国内大模型,未来可期。
BBC 正在阻止 OpenAI 数据抓取:计划与企业合作找出生成式 AI 最佳用途
站长之家(ChinaZ.com)10月7日消息:英国最大的新闻机构BBC已经明确了其在评估生成式人工智能使用时将遵循的原则,包括用于新闻研究和制作、档案和「个性化体验」。图片来自BBCBBC国家总监RhodriTalfanDavies在一篇博客文章中表示,该广播公司相信这项技术提供了向「我们的受众和社会提供更多价值」的机会。站长网2023-10-07 09:48:430004日本拟设置「AI 战略会议」:着眼于人工智能潜力和风险推进举措
据共同社消息,日本首相岸田文雄5月9日透露了方针,拟设置磋商制定利用人工智能(AI)相关规则等的「AI战略会议」。当天在官邸与研究人员和创业人才等开会时,岸田文雄称「会着眼于AI的潜力和风险推进举措,速度感将是关键」。据报道,战略会议将由技术人员等专家和相关部门的负责人参加。据称,战略会议将思考在教育现场的利用方法、与著作权的关系,并探讨关于AI的国家战略。站长网2023-05-10 10:54:010000超70%新闻机构认为,生成式AI为新闻业带来新机遇
文章概要:-超过70%的新闻机构认为生成式AI(genAI)如ChatGPT或GoogleBard为新闻业带来新机遇。-超过85%的受访者,包括记者、技术人员和新闻机构管理人员,至少尝试过使用genAI来帮助编写代码、生成图像和撰写摘要。-尽管有机会,但受访者们也认识到AI生成的内容需要经过人工审核,以减轻潜在的偏见和不准确性。站长网2023-09-21 11:49:280000云闪付没大面积推广原因揭秘
云闪付作为一款智能支付产品,自2017年推出以来一直备受关注。相较于其他支付方式,它有着更加便捷快速的使用体验和更加安全可靠的支付方式。但是,尽管云闪付在一些地区和领域内得到了广泛的应用,但是在大面积推广方面仍然存在一些困难。站长网2023-05-24 06:17:400000WPS AI全新升级 宣布推出新组件、新视觉、新能力
今日,WPS办公软件宣布推出全新的AI功能。包括WPSAI智能助手、全新的组件功能、更新的视觉设计和协作功能。WPSAI智能助手是更新的重点之一,它可以根据用户的习惯和需求,智能推荐最常用的功能和操作,提供更加个性化的办公体验。通过与用户的互动学习,WPSAI能够逐渐了解用户的工作习惯,提供更加智能化的办公辅助功能。站长网2023-07-21 16:46:410002