英语的人工智能使用费比其他语言便宜 15 倍 简体中文成本约为英语的两倍
站长之家(ChinaZ.com) 7月31日消息:研究表明,对于类似 OpenAI 的服务,由于计算成本的计量和计费方式,英语输入和输出比其他语言要便宜得多,其中简体中文的成本约为英语的两倍,西班牙语为英语的 1.5 倍,而掸语则要贵 15 倍。

一项由牛津大学进行的研究发现,让一个大型语言模型处理一句缅甸语句子需要 198 个 tokens,而同样的英语句子只需 17 个 tokens。Token 代表通过 API 访问大型语言模型(如 OpenAI 的 ChatGPT 或Anthropic 的 Claude 2)的计算成本,这意味着使用服务处理缅甸语句子比处理英语句子要贵 11 倍。
这种「标记化」模型意味着在不理想的情况下,访问和训练非英语语言模型会更昂贵。这是因为像中文这样的语言与英语在结构上(无论是语法上还是字符数量上)有所不同,从而导致其标记化的成本更高。
举个例子,根据 OpenAI 的 GPT3 tokenizer,将「your affection」这个词组标记化为英语只需两个 tokens,而在简体中文中则需要八个 tokens。这是因为简体中文的文本虽然只有 4 个字符(你的感情),而英语文本有 14 个字符。
微软自己在解释其 ChatGPT 模型的 API 访问和使用的页面上提供了一个很有用的工具,其中甚至包括了一个标记化工具,您可以用来测试每个提示的标记成本。在那里,我们可以看到在英语中,1 个 token 约等于 4 个字符,100 个 tokens 约等于 75 个英文单词。但是这种数学规则并不能应用于其他任何语言,微软清楚地表明了这一点。
在人工智能相关的成本方面,英语的成本效益无可匹敌;例如,相对于输出而言,中文的成本是英语的两倍。但这只是 AI 公司迄今为止用于训练模型的可用训练数据的反映。人工智能的爆发已经向世界展示了高质量紧急数据(作为生活记录而产生的数据)的价值。
此问题直接关系到 AI 公司希望实现递归训练的愿望,即能够用自己的输出训练 AI 模型。如果实现了这一点,那么未来模型仍将显示英语与其他语言相比的成本效益,其他语言的复杂性和更有限的基础训练数据导致了更高的标记化速率。
为了进一步复杂化问题,似乎除了标记化之外,其他衡量成本的方法最终也会遇到相同的问题。无论是通过位数还是字符计数,显然没有任何一种语言能够超越英语的实际实用性——英语的「可压缩性」较高,因此标记数量较低。
这意味着问题不在于模型的货币化方式;它实际上是技术和基础模型在训练中的一个真实局限。而且不难想象,这个问题会影响到各个版本的多语言模型。毕竟,它们几乎都是以相同方式构建的。
当我们考虑到推出大型语言模型(如 ChatGPT)或生成式图像网络(如 Midjourney)的公司主要位于美国时,这种成本差异已经导致一些国家推出了培训和使用本地语言的大型语言模型的计划。中国和印度都这样做了,而且都声称这样做是为了配合英语为基础的 AI 网络所允许的创新速度。而这种速度主要受到访问和训练成本的限制。
每个人都希望花尽可能少的钱获得尽可能多的东西,这是很自然的。而这些动态直接影响根据基础语言进行 LLM 培训和部署的成本。人工智能业务是如此复杂,其影响如此深远,我们必须非常小心地采取每一个小步骤。
昆仑万维子公司宣布收购奇点智源Singularity AI
昆仑万维公告称,公司控股子公司StarGroup拟发行股份收购SingularityAI全部股权。经交易双方协商,本次交易中SingularityAI全部股权整体作价1.6亿美元,本次交易后SingularityAI的股东或其指定关联方将获得StarGroup25%股权。交易完成后,公司全资子公司昆仑集团有限公司计划出资4亿美元对StarGroup增资,全力打造全球领先的AGI平台。站长网2023-06-15 12:26:5200002024年诺贝尔经济学奖出炉:3名美国经济学家获奖
快科技10月14日消息,据媒体报道,当地时间10月14日,瑞典皇家科学院宣布2024年诺贝尔经济学奖得主。MIT教授阿西莫格鲁、MIT教授SimonJohnson、芝加哥大学JamesA.Robinson获得2024年诺贝尔经济学奖,表彰其对制度如何形成以及如何影响繁荣的研究”。0000天虹:智能时代购百数字化布局逻辑
在你看不到的地方,购物中心和百货(以下简称购百)行业的数字化需求已经发生了巨大的变化——AI技术正在极大地改变营销和服务模式。在今年的AI浪潮的席卷下,相比过往任何创业浪潮,当进入AI大潮的时候企业主动在付费。这是见实在做完一场AI需求与付费意愿大调研后得到的一个关键结论。这次大潮下,多数企业认同与其被动等待AI浪潮的席卷,不如主动出击拥抱新的革命。0000周鸿祎向小杨哥学直播带货,总裁为何扎堆抖音电商?
“红衣大叔”周鸿祎为自家品牌代言,在直播带货上又迈进一步。7月27日晚,周鸿祎现身抖音电商头部作者@疯狂小杨哥直播间,开播一小时,直播间人数突破300万,最高同时在线人数突破35万,#周鸿祎来三只羊学习直播带货了这一话题登上种草榜TOP5。周鸿祎的这场直播带货有何不一般?克劳锐发现越来越多总裁开始为自家品牌直播带货,这种新型直播方式对行业产生了什么影响?站长网2024-07-30 08:59:470000被AI偷走声音的配音员,靠什么保住饭碗?
“甲方要求我一边配音,一边自拍,以此证明我是真人。”2020年,网络配音员麓雨接到一笔大单,对方请他到北京线下录音,日薪4千,用途保密。考虑到可观的单价,入行两年的麓雨只身北上,进棚一周拿到3万元。3年后,麓雨突然接到朋友的消息:“你听,这是不是你的声音?”站长网2024-05-27 10:11:440001