Meta 发布多语言语音翻译模型 SeamlessM4T:可翻译多达 100 种语言、语音或文本
周二,Meta 宣布推出 SeamlessM4T,一种用于语音和文本翻译的多模态人工智能模型。作为一种能够处理文本和音频的神经网络,它可以执行文本到语音、语音到文本、语音到语音和文本到文本的翻译,支持「最多 100 种语言」,Meta 表示,它的目标是帮助说不同语言的人更有效地交流。
图片来自Meta
继续 Meta 相对开放的人工智能方法,它正在以研究许可(CC BY-NC 4.0)的形式发布 SeamlessM4T,允许开发者在此基础上进行开发。他们还发布了 SeamlessAlign,Meta 称之为「迄今最大的开放式多模式翻译数据集,总共挖掘了 270,000 个小时的语音和文本对齐」。这将有可能启动其他研究人员训练未来翻译人工智能模型的过程。
在 Meta 的博客中宣传的 SeamlessM4T 的特性中,该公司表示该模型能够执行语音识别(将语音转换为文本)、语音到文本翻译(将口语音频翻译为不同语言的文本)、语音到语音翻译(提供语音,输出翻译后的语音)以及文本到文本翻译(类似于 Google 翻译的功能)和文本到语音翻译(提供文本,将其翻译并以另一种语言呈现出来)。每个文本翻译功能支持将近 100 种语言,语音输出功能支持大约 36 种输出语言。
在 SeamlessM4T 的公告中,Meta 提到了 Babel Fish, 一种虚构的鱼,来自道格拉斯·亚当斯经典的科幻小说系列《银河系漫游指南》,它可以立即翻译任何口头语言:
构建一个像银河系漫游指南中虚构的 Babel Fish 一样的通用语言翻译器是具有挑战性的,因为现有的语音到语音和语音到文本系统只覆盖了世界上语言的一小部分。但我们相信,我们今天宣布的工作在这一旅程中是向前迈出的重要一步。
它们是如何训练的?根据 Seamless4MT 研究报告,Meta 的研究人员「创建了一个多模式语料库,其中含有自动对齐的超过 470,000 个小时的语音翻译,称为 SeamlessAlign」(在前面已经提及)。然后,他们「使用人工标注和伪标注数据对这个语料库的一个子集进行了筛选,总计 406,000 个小时」。
与往常一样,Meta 对其训练数据的来源有些含糊。文本数据来自「与 NLLB 中部署的相同数据集」(从维基百科、新闻来源、脚本演讲和其他来源中提取的句子组成,由专业人员翻译)。根据研究论文,SeamlessM4T 的语音数据来自「400 万小时的原始音频,来源于一个公开可用的网络数据库」,其中 100 万小时是英语。Meta 没有具体说明使用哪个存储库或音频剪辑的出处。
Meta 远非第一家提供机器学习翻译工具的人工智能公司。Google 翻译自 2006 年以来就使用机器学习技术,大型语言模型(如 GPT-4)以其在语言之间的翻译能力而闻名。但是,在音频处理方面,最近这项技术变得非常热门。在九月份,OpenAI 发布了自己的开源语音到文本翻译模型,名为 Whisper,它可以在音频中识别语音并将其翻译成文本。
SeamlessM4T 扩展了多语言翻译的趋势,并且 Meta 表示 SeamlessM4T 的「单一系统方法」——一个单一的人工智能模型而不是多个模型组合在一条链上(类似于 Meta 之前的一些音频处理技术)——减少了错误,增加了翻译的效率。
关于 SeamlessM4T 如何运作的更多技术细节可以在Meta 的网站上获得,其代码和权重(实际训练的神经网络文件)可以在 Hugging Face 上找到。
小米SU7全新OTA升级推送:城市NOA可识别公交车道限行时间
快科技7月24日消息,小米汽车官方称已开始推送OTA1.2.3,此次主要包含3大方面:小米智能驾驶功能升级、澎湃智能座舱功能升级和人车家全生态”升级。小米智能驾驶功能升级:城市领航辅助舒适性与效率性功能升级,主要进行了多方面优化,可更从容处理闪烁绿灯和黄灯场景、弯道速度控制更舒适了,同时还优化了绕行能力,支持借路绕行、近距离临停绕行。站长网2024-07-24 21:45:230000Sora新视频只发TikTok:OpenAI 4天涨粉10万
Sora新视频,变成“抖音独占”了。悄无声息,OpenAI正式杀入TikTok,加上洗脑配乐直接让人刷到停不下来,疯狂引流吸粉中:短短4天,涨粉10万,50万赞——这还是不打枪不宣传的情况下。这以后,人类创作者还怎么玩?Sora新视频,只发TikTok在OpenAI刚开的TikTok认证帐号上,悄然更新了不少全新生成视频。每一个都很有特点,同样引发各路热议。来感受一下:站长网2024-02-21 15:06:260000iPhone 16显示屏及尺寸曝光 Pro Max将配备6.9英寸屏幕
据MacRumors报道,iPhone16系列将迎来苹果手机史上最大屏幕。多个消息来源表明,iPhone16/16Pro屏幕将从6.1英寸提升到6.3英寸,而iPhone16Pro/ProMax将从6.7英寸提升到6.9英寸。站长网2023-11-30 11:21:020000英国 AI 领域预计在预算中获得额外1亿英镑资金支持
划重点:-💰财政部计划为英国不断增长的人工智能领域提供财政支持,通过加倍资助艾伦・图灵研究所来实现-🏥额外资金将用于AI在改变医疗保健、保护环境以及加强国防和国家安全方面的研究-🌍英国希望借助科技革命推动经济增长,并使研究人员在医学、航空航天和气候变化等领域取得新的发现0000小红书的双11,从章小蕙破亿开始
2023年,正在迎来第15个双11,一切仿佛又回到了最初的起点,一场围绕“谁是最低价”的争夺战在各大平台与主播的直播间反复酝酿、打响。“将价格打下来”的口号如同砍刀一般,刀刀砍在商家的身上。一位备战双11的品牌负责人告诉刺猬公社(ID:ciweigongshe):“价格战对于商家来说,是一场双输局,头部企业利润见底之时,中小玩家也将面临彻底淘汰的结局。”站长网2023-10-30 11:49:240000