英语的人工智能使用费比其他语言便宜 15 倍 简体中文成本约为英语的两倍
站长之家(ChinaZ.com) 7月31日消息:研究表明,对于类似 OpenAI 的服务,由于计算成本的计量和计费方式,英语输入和输出比其他语言要便宜得多,其中简体中文的成本约为英语的两倍,西班牙语为英语的 1.5 倍,而掸语则要贵 15 倍。
一项由牛津大学进行的研究发现,让一个大型语言模型处理一句缅甸语句子需要 198 个 tokens,而同样的英语句子只需 17 个 tokens。Token 代表通过 API 访问大型语言模型(如 OpenAI 的 ChatGPT 或Anthropic 的 Claude 2)的计算成本,这意味着使用服务处理缅甸语句子比处理英语句子要贵 11 倍。
这种「标记化」模型意味着在不理想的情况下,访问和训练非英语语言模型会更昂贵。这是因为像中文这样的语言与英语在结构上(无论是语法上还是字符数量上)有所不同,从而导致其标记化的成本更高。
举个例子,根据 OpenAI 的 GPT3 tokenizer,将「your affection」这个词组标记化为英语只需两个 tokens,而在简体中文中则需要八个 tokens。这是因为简体中文的文本虽然只有 4 个字符(你的感情),而英语文本有 14 个字符。
微软自己在解释其 ChatGPT 模型的 API 访问和使用的页面上提供了一个很有用的工具,其中甚至包括了一个标记化工具,您可以用来测试每个提示的标记成本。在那里,我们可以看到在英语中,1 个 token 约等于 4 个字符,100 个 tokens 约等于 75 个英文单词。但是这种数学规则并不能应用于其他任何语言,微软清楚地表明了这一点。
在人工智能相关的成本方面,英语的成本效益无可匹敌;例如,相对于输出而言,中文的成本是英语的两倍。但这只是 AI 公司迄今为止用于训练模型的可用训练数据的反映。人工智能的爆发已经向世界展示了高质量紧急数据(作为生活记录而产生的数据)的价值。
此问题直接关系到 AI 公司希望实现递归训练的愿望,即能够用自己的输出训练 AI 模型。如果实现了这一点,那么未来模型仍将显示英语与其他语言相比的成本效益,其他语言的复杂性和更有限的基础训练数据导致了更高的标记化速率。
为了进一步复杂化问题,似乎除了标记化之外,其他衡量成本的方法最终也会遇到相同的问题。无论是通过位数还是字符计数,显然没有任何一种语言能够超越英语的实际实用性——英语的「可压缩性」较高,因此标记数量较低。
这意味着问题不在于模型的货币化方式;它实际上是技术和基础模型在训练中的一个真实局限。而且不难想象,这个问题会影响到各个版本的多语言模型。毕竟,它们几乎都是以相同方式构建的。
当我们考虑到推出大型语言模型(如 ChatGPT)或生成式图像网络(如 Midjourney)的公司主要位于美国时,这种成本差异已经导致一些国家推出了培训和使用本地语言的大型语言模型的计划。中国和印度都这样做了,而且都声称这样做是为了配合英语为基础的 AI 网络所允许的创新速度。而这种速度主要受到访问和训练成本的限制。
每个人都希望花尽可能少的钱获得尽可能多的东西,这是很自然的。而这些动态直接影响根据基础语言进行 LLM 培训和部署的成本。人工智能业务是如此复杂,其影响如此深远,我们必须非常小心地采取每一个小步骤。
收到自己的“不雅照”?别慌 微信官方科普
近期,有小伙伴收到了自称私家侦探”发来的陌生短信或邮件,内容附带了收件人的不雅内容,并要求对方在收件后与其联系,否则将不雅内容散播到网上。对此,微信官方科普称,其实,这是骗子最近新设计”的骗局,这类骗局的目标受害人主要就是企业家、行业高管,公职人员等社会公众人物。骗子正是看中了这类人群对个人名声更加重视,利用这一点对其进行敲诈勒索。微信提醒大家:1、不要随意向陌生账户转账。站长网2023-08-31 19:52:240003消息称一加 OnePlus Open将于 8 月 29 日发布
根据博主@MaxJambor爆料,一加首款折叠屏手机将于8月29日在国内发布,预计被命名为“OnePlusOpen”。这是一加进军折叠屏手机市场的又一重要举措。从之前的爆料来看,这款折叠屏手机将配备7.8英寸2KAMOLED内屏和6.3英寸AMOLED外屏,两块屏幕的刷新率均为120Hz。这样的屏幕配置能够提供出色的视觉体验,无论是在内屏还是外屏上使用,都能保证良好的观感和操作体验。站长网2023-07-14 16:20:390000波兰酒厂聘任机器人当CEO:没有周末 24小时待命
快科技9月18日消息,波兰一家酒精饮料公司Dictador宣布,将任命人工智能机器人为首席执行官。据悉,去年8月,这家公司任命了名为米卡(Mika)的机器人作为其实验性首席执行官,米卡是人工智能驱动的人形机器人,体型和身高都和人类相似,除了双脚是以轮子来移动。其工作内容很广泛,包括产品开发、品牌传播和战略规划等,如领导该公司的去中心化自治组织项目、帮助寻找潜在客户、挑选酒瓶设计师。0001Siltronic预计未来五年AI和电动汽车将带来销售增长
划重点:-Siltronic预计在未来五年中,受益于人工智能、数字化和电动汽车等巨大趋势,公司的销售额和盈利能力将大幅增长。-该公司计划在2021年至2025年期间,在全球范围内投资约30亿欧元,以满足对硅片和硅片衍生产品的日益增长的需求。-Siltronic还计划提高产能,以满足电动汽车、人工智能和5G等领域的需求增长。站长网2023-11-30 17:03:460000苹果市值两日蒸发万亿元:股价创下今年新低
随着AI技术的蓬勃发展,英伟达、AMD、超微电脑等科技巨头在市场的推动下市值持续攀升。然而,在这股科技浪潮中,苹果公司却似乎未能顺利抓住机遇,其股价在2024年创下新低,目前每股170.12美元,市值约为2.63万亿美元(折合人民币约18.94万亿元),其市值两日累计蒸发1470亿美元(约合10602亿元人民币)。站长网2024-03-06 10:22:190000