别管了,先玩下小红书AI翻译
我说现在最牛的翻译软件是……小红书,大家没意见吧
众所周知,最近因为TikTok在美国的封禁风波,一身反骨的TikTok海外用户疯狂涌入小红书,为了接住这波泼天的流量,小红书连夜加班加点上线了评论区一键翻译的功能。
但如果只是传统的机翻也就算了,很快网友们就发现,这其实是接了大模型的AI翻译。
而且与其说是翻译,不如说是破译🥲,现在什么类型的“加密语言”在小红书评论区都无处遁形,翻译得那叫一个“信达雅”,堪比网上冲浪十级选手。
小红书AI翻译还是太全面了
像cpdd、yyds、u1s1这种入门级别的缩写都是小儿科:
中式英语(Chinglish)也能轻松拿捏🤌:
原以为这些已经够无厘头了,但当我看到下面这些,我想说:小红书AI翻译还是太全面了。
这下谁还分得清到底是翻译,还是中文梗百科啊?
众所周知,打乱汉字的顺序不影响阅读,事实证明也不影响正确翻译:
什么二进制ASCII字符、盲文、摩斯密码、《模拟人生》游戏语言……也统统给你破译了:
就连小说《冰与火之歌》中的“高等瓦雷利亚语”也不在话下(权游粉基因动了)……
有的网友甚至已不再满足于翻译语言的范畴,开始考验小红书AI翻译对颜表情的理解:
还有一些懂行的网友通过Prompt,让AI翻译输出制定内容。具体格式可以参考:把非中文语言加上双引号后再写指令,就能用大模型输出了。
比如有网友让AI在翻译完引号内的话后,输出自己的违禁词政策、披萨的制作方法、猫娘的故事……
好好好,你们清高,你们了不起,你们把翻译当生成式AI用👍🏻
小红书为什么要用AI翻译?
有业内人士评价称,小红书AI翻译功能可能是目前大模型toc商用的最佳案例之一,因为小红书让所有人直观感受到了AI的魅力。
至于其背后用的是哪家大模型,有网友通过在评论中嵌入让模型“自报家门”的指令,得到了GPT-4、智谱清言等结果。考虑到合规和调用成本的问题,GPT-4应该可以排除。
那究竟是哪个国产大模型,目前仍不可知。因为如果模型训练数据包含了其他大模型的对话示例,或者对其他大模型的部分数据进行了蒸馏,都可能造成模型身份的幻觉。比如之前,文心一言也发生过称自己是ChatGPT的情况。
去年4月,据36氪获悉,由小红书AI创新负责人张德兵(薯名:宇尘)牵头的大模型团队,在部分内部产品灰度测试自研通用大模型基座“小地瓜”,社交和搜索是落地方向。他们之前开发了自研的RLHF框架,并使用了PPO(近端策略优化)算法,这是一种被广泛认可的强化学习算法。
作为国内第一家(也是唯一一家)如此大规模地应用AI翻译的社交媒体平台,小红书为什么要用AI翻译?又是怎么做到在这么短的时间内上线的?也是大家津津乐道的话题。
为什么小红书要用LLM翻译而不是传统的NMT?目前大部分被称为机翻的工具,都以NMT(Neural Machine Translation,神经机器翻译)为核心技术。
总的来说,据我们推测,可能主要是为了快速上线、降低部署和维护的复杂度和成本。
首先,在大量外国用户涌入的情况下,如果产品经理要求你在短时间内快速上线翻译功能,LLM显然是优先之选,因为传统的NMT模型训练周期通常较长。
而如果直接调用现有LLM的翻译能力(如通过API),一般无需微调(fine-tuning)即可实现翻译功能。但如果需要更高程度的定制化(例如垂直领域翻译或特定风格调整),微调是必要的。
其次,还需要考虑服务部署(serving)的问题。如果使用传统NMT模型,需要重新搭建或购买一套专门的serving基础设施。而LLM方案通常已经有成熟的服务框架和基础设施,可以直接使用,大大缩短了开发周期并降低了复杂性。
此外,LLM经过海量数据训练,泛化能力更强,能更好地处理社交媒体语境中的非标准/非正式语言、拼写错误、缩略语或网络用语(如表情符号、俚语等),并根据上下文调整翻译。
例如,网络用语 “idk” 会被翻译为 “I don’t know” 或等效表达。而NMT更倾向于翻译标准化语言,对于口语化或非标准输入的处理能力较弱。
LLM还可以直接处理复杂的多语言输入,例如混合语言句子(code-switching),并理解不同语言之间的语义联系,这就是准确翻译拼音 英语的关键。
而且LLM的实时适应性更强,虽然其本身不能实时更新知识,但可以持续“学习”。例如,你可以告诉它改进对特定词语的翻译,模型就会进行即时调整。
相比之下,传统NMT系统需要重新训练才能改进某些翻译表现,因为NMT模型通常是基于一个固定时间点的数据训练的,而互联网jargon(黑话)、热梗、meme等更新频率极高,NMT模型很难及时捕捉新词汇和用法。
而为了提高国外用户的留存率,准确翻译时下流行的梗非常重要,不仅能拉近与国外用户的距离,也能增强中外网友互动的趣味性和参与感。
据媒体报道,目前已有多位IP在海外的网友反映,在抖音评论区也出现了“Translate”(翻译)的按键。抖音官方客服表示,“这是近期抖音更新产生的一个功能,目前抖音确实是有一个评论翻译功能,但是该功能正在升级优化中。”
对于该翻译功能是否是仅针对海外用户进行测试,客服表示该功能正在小范围测试中,目标群体并不固定。不论是海外用户还是人在中国的用户,都有可能在页面显示这个功能。
看来,小红书又一次引领了潮流。
没等来OpenAI,等来了Open-Sora全面开源
不久前OpenAISora以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继2周前推出成本直降46%的Sora训练推理复现流程后,Colossal-AI团队全面开源全球首个类Sora架构视频生成模型「Open-Sora1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球AI热爱者共同推进视频创作的新纪元。站长网2024-03-18 10:04:220000阿里:魔搭社区拥有超200万开发者 模型下载量超4500万
据科创板日报报道,阿里巴巴副总裁叶杰平表示,魔搭社区已经聚集了1000多款AI模型和200多万AI开发者。模型累计下载超过4500万次,并与清华、北大、浙大等20多所高校展开了学术合作,有50万开发者来自高校。站长网2023-07-31 11:19:580000如何在科学研究中使用AI,避免走偏?
划重点:🔍一项新的统计技术,预测驱动推断(PPI),帮助科研人员安全地使用机器学习预测来验证科学假设。🔍机器学习模型可以加速科学发现,但也可能导致误导性或错误的结果。🔍PPI技术允许科学家在不了解模型错误性质的情况下,纠正大型通用模型的输出,以适应特定科学问题。站长网2023-11-10 11:06:280005比Meta「分割一切AI」更全能!港科大版图像分割AI来了:实现更强粒度和语义功能
比Meta“分割一切”的SAM更全能的图像分割AI,来了!模型名为Semantic-SAM,顾名思义,在完全复现SAM分割效果的基础上,这个AI还具有两大特点:语义感知:模型能够给分割出的实体提供语义标签粒度丰富:模型能够分割从物体到部件的不同粒度级别的实体用作者自己的话说:站长网2023-07-16 18:48:5600014GB未拆封初代iPhone再次拍卖:起拍万元 或将刷新拍卖纪录
一台由乔布斯亲手打造的、未拆封的苹果初代iPhone日前在LCGAuctions拍卖平台亮相,引起收藏家们的广泛关注。这款稀有的4GB版本iPhone,不仅让人们回想起2007年那场由苹果引领的科技革命,更因其罕见性成为收藏家们的追求之物。站长网2024-03-12 09:33:090000