中文大模型比英文更烧钱,这居然是AI底层原理决定的?
ChatGPT等AI工具的使用正越来越普遍。在与AI交互时,我们知道,输入的提示词差异会对输出结果产生影响。那么,如果相同意思的提示词,用不同语言分别表述,结果差异是否较大?另外,提示词的输入和输出是和模型背后的计算量直接挂钩的。因此,不同语言之间在AI输出和成本消耗方面是不是有着天然的差异性或者说是“不公平性”?这种“不公平性”又是如何产生的呢?
据了解,提示词背后其实对应的不是文字,而是token。当接收到用户输入的提示词之后,模型会将输入转换为token列表进行处理和预测,同时将预测的token转换为我们在输出中看到的单词。也就是,token是语言模型处理和生成文本或代码的基本单位。可以关注到,各家厂商会宣称自家模型支持多少token的上下文,而不是说支持的单词或汉字的数量。
影响Token计算的因素
首先,一个token并不对应一个英文单词或一个汉字,token跟单词之间没有具体的换算关系。比如,根据OpenAI发布的token计算工具,hamburger一词被分解为ham、bur和ger,共计 3 个token。另外,同一个词语,如果在两句话中的结构不同,会被记作不同数目的token。
具体token如何计算主要取决于厂商使用的标记化(tokenization)方法。标记化是将输入和输出文本拆分为可由语言模型处理的token的过程。该过程可以帮助模型处理不同的语言、词汇表和格式。而ChatGPT背后采用的是一种称为“字节对编码”(Byte-Pair Encoding,BPE)的标记化方法。
目前来看,一个单词被分解成多少token,跟它的发音和在句子中的结构有关。而不同语言之间的计算差异似乎较大。
拿“hamburger”对应的中文“汉堡包”来说,这三个汉字被计作 8 个token,也就是被分解成了 8 部分。
再拿一段话来进行中英文语言token计算的“不公平性”对比。
下面是OpenAI官网的一句话:You can use the tool below to understand how a piece of text would be tokenized by the API, and the total count of tokens in that piece of text.这段话共计 33 个token。
对应的中文为:您可以使用下面的工具来理解API如何将一段文本标记化,以及该段文本中标记的总数。共计76token。
中英文语言在AI上存在天然“不公平”
可以看到,相同意思的中文token数是英文的两倍多。中文和英文在训练和推理上的“不公平性”,也许是因为中文通常一个词汇可以表达多种含义,语言组成较为灵活,中文还有着深厚的文化内涵,具有丰富的语境意义,这极大增加了语言的歧义性和处理难度;英语语法结构较为简单,这使得英语在一些自然语言任务上比中文更容易被处理和理解。
中文需要处理的token更多,模型所消耗的内存和计算资源也就越多,当然所需要的成本也就越大。
同时,ChatGPT虽然可以识别包括中文在内的多种语言,但它训练使用的数据集大都为英文文本,在处理非英语语言时,可能面临语言结构、语法等方面的挑战,进而影响输出效果。近日的一篇题为《多语言语言模型在英语中表现得更好吗?》(Do Multilingual Language Models Think Better in English?)的论文中提到,当将非英文语言翻译成英文后输出的结果,要好于直接使用非英文语言作为提示词的结果。
对中文用户来说,似乎先将中文翻译成英文,然后再与AI交互,似乎效果更好,也更划算。毕竟使用OpenAI的GPT- 4 模型API,每输入 1 千token至少要收费0. 03 美元。
那由于中文语言的复杂性,AI模型在使用中文数据进行准确训练和推理方面可能面临挑战,并增加了中文模型应用和维护的难度。同时,对开发大模型的公司来说,做中文大模型由于需要额外的资源,或许要承担更大的成本。
初创公司 Dipp使用AI解决营销和设计团队之间的瓶颈问题
本文概要:1.Dipp是一家使用人工智能技术的公司,旨在自动化营销和设计团队的工作流程,提高合作效率。2.Dipp通过批量编辑视觉内容,帮助品牌应对大量在线销售所需的视觉内容生成。3.公司计划将生成式人工智能技术整合到平台中,以进一步解决营销和设计部门之间的差距。站长网2023-08-22 15:41:080000斯坦福开发机器人学习框架UMI 可直接复制人类操作给机器人
UMI是斯坦福开发的一个机器人数据收集和策略学习框架,通过手持式夹持器和精心设计的接口进行数据收集。该框架能够将人类在复杂环境下的操作技能直接转移给机器人,无需人类编写详细的编程指令。通过人类亲自操作演示然后收集数据,直接转移到机器人身上,使得机器人能够快速学习新任务。UMI整合了精心设计的策略接口,包括推理时延匹配和相对轨迹动作表示,使得学习到的策略不受硬件限制,可跨多个机器人平台部署。站长网2024-02-22 17:20:110003大模型都卷麻了,米哈游为啥还来掺一脚
大模型,又添一位新玩家。前不久,米哈游旗下大模型Glossa通过人工智能服务备案,将成为改善用户游戏体验的关键抓手。这意味着,米哈游想吃AI的红利。入局大模型,是米哈游的必由之路?“游戏AI”,为何成为行业的共识?比拼AI硬实力,巨头们更占优?曝光度向上,未解增长乏力困境大模型赛道,愈发拥挤了。0000刘强东章泽天报警 京东官方:有组织造谣抹黑散布谣言
京东发言人今日发表声明,针对近期网络上流传的关于章泽天女士加入所谓“光明会”以及对刘强东和章泽天夫妇家庭和私生活进行恶意造谣的不实信息进行了回应。声明指出,这些谣言由大量水军账号有组织地散布,在短时间内就产生了上万条相关信息。对此,刘强东和章泽天夫妇已经向警方报案,并且警方已经受理此案正在进行调查。站长网2024-10-18 22:15:410000腾讯视频看广告可换《庆余年2》观看时长:不用充会员
5月21日消息,据国内多家媒体报道,多名网友发文称在腾讯视频APP看广告能得VIP观看时长,可观看《庆余年2》等内容。腾讯视频客服称,确有看广告得60分钟VIP观影时长的活动,需要用户不是VIP身份,对于活动是否对全用户开放、内容是否受限不太清楚。据了解,《庆余年2》由腾讯视频全网独播,会员周一到周五19点30分更新2集,周六日19点30分更新1集,首更4集,SVIP用户可以抢先看1集。0000