Meta 发布多语言语音翻译模型 SeamlessM4T:可翻译多达 100 种语言、语音或文本
周二,Meta 宣布推出 SeamlessM4T,一种用于语音和文本翻译的多模态人工智能模型。作为一种能够处理文本和音频的神经网络,它可以执行文本到语音、语音到文本、语音到语音和文本到文本的翻译,支持「最多 100 种语言」,Meta 表示,它的目标是帮助说不同语言的人更有效地交流。

图片来自Meta
继续 Meta 相对开放的人工智能方法,它正在以研究许可(CC BY-NC 4.0)的形式发布 SeamlessM4T,允许开发者在此基础上进行开发。他们还发布了 SeamlessAlign,Meta 称之为「迄今最大的开放式多模式翻译数据集,总共挖掘了 270,000 个小时的语音和文本对齐」。这将有可能启动其他研究人员训练未来翻译人工智能模型的过程。
在 Meta 的博客中宣传的 SeamlessM4T 的特性中,该公司表示该模型能够执行语音识别(将语音转换为文本)、语音到文本翻译(将口语音频翻译为不同语言的文本)、语音到语音翻译(提供语音,输出翻译后的语音)以及文本到文本翻译(类似于 Google 翻译的功能)和文本到语音翻译(提供文本,将其翻译并以另一种语言呈现出来)。每个文本翻译功能支持将近 100 种语言,语音输出功能支持大约 36 种输出语言。
在 SeamlessM4T 的公告中,Meta 提到了 Babel Fish, 一种虚构的鱼,来自道格拉斯·亚当斯经典的科幻小说系列《银河系漫游指南》,它可以立即翻译任何口头语言:
构建一个像银河系漫游指南中虚构的 Babel Fish 一样的通用语言翻译器是具有挑战性的,因为现有的语音到语音和语音到文本系统只覆盖了世界上语言的一小部分。但我们相信,我们今天宣布的工作在这一旅程中是向前迈出的重要一步。
它们是如何训练的?根据 Seamless4MT 研究报告,Meta 的研究人员「创建了一个多模式语料库,其中含有自动对齐的超过 470,000 个小时的语音翻译,称为 SeamlessAlign」(在前面已经提及)。然后,他们「使用人工标注和伪标注数据对这个语料库的一个子集进行了筛选,总计 406,000 个小时」。
与往常一样,Meta 对其训练数据的来源有些含糊。文本数据来自「与 NLLB 中部署的相同数据集」(从维基百科、新闻来源、脚本演讲和其他来源中提取的句子组成,由专业人员翻译)。根据研究论文,SeamlessM4T 的语音数据来自「400 万小时的原始音频,来源于一个公开可用的网络数据库」,其中 100 万小时是英语。Meta 没有具体说明使用哪个存储库或音频剪辑的出处。
Meta 远非第一家提供机器学习翻译工具的人工智能公司。Google 翻译自 2006 年以来就使用机器学习技术,大型语言模型(如 GPT-4)以其在语言之间的翻译能力而闻名。但是,在音频处理方面,最近这项技术变得非常热门。在九月份,OpenAI 发布了自己的开源语音到文本翻译模型,名为 Whisper,它可以在音频中识别语音并将其翻译成文本。
SeamlessM4T 扩展了多语言翻译的趋势,并且 Meta 表示 SeamlessM4T 的「单一系统方法」——一个单一的人工智能模型而不是多个模型组合在一条链上(类似于 Meta 之前的一些音频处理技术)——减少了错误,增加了翻译的效率。
关于 SeamlessM4T 如何运作的更多技术细节可以在Meta 的网站上获得,其代码和权重(实际训练的神经网络文件)可以在 Hugging Face 上找到。
南京文投与腾讯云合作 打造国内首个城市级文化行业大模型
近日,南京市文化投资控股集团与腾讯云在国家科技传播中心签署战略合作框架协议。此次合作将充分利用南京作为“世界文学之都”城市IP的丰富场景和数据库资源,以及腾讯云在云计算、人工智能等领域的技术生态优势,开展文化行业大模型训练和相关应用场景的研发合作。双方将共同打造“南京文都智慧大脑”项目,并在此基础上推出更多数字文化城市创新型AI大模型应用场景解决方案。站长网2023-06-29 12:13:340001一加Ace 3 Pro首发冰川电池:支持100W快充
站长之家(ChinaZ.com)6月17日消息:一加科技今日与宁德新能源携手,宣布共同研发的一加冰川电池正式问世,并计划在一加Ace3Pro上首发应用。一加中国区总裁李杰表示,这款电池是专为高性能手机量身打造,旨在为用户带来前所未有的续航体验。站长网2024-06-17 19:05:480000周鸿祎宣布 360 上线 AI 商店:将集成全球人工智能工具
在央视财经频道日前播出的《对话》节目中,360集团创始人周鸿祎表示,这次人工智能是真的,不是假的,它不是像过去做的人工「智障」,是「弱」人工智能,或者是垂类的人工智能,它是通用人工智能。ChatGPT4.0已经是地球上最聪明的「人」了。所有高科技公司都在打造自己的大模型,至少是「千模大战」,不出意外,很快会发展到「万模大战」。站长网2023-05-15 09:24:450001很快OpenAI能证明陶哲轩错了?陶哲轩一句话,被OpenAI高管怼回去
这周,OpenAI连更两弹,又将o1模型推向全网最高潮。就连奥特曼本人激动地预告,「迫不及待期待着下周的Day3发布,感觉周一是那么地遥远」。首更第一天,放出的满血版o1,相较于之前的o1-preview在数学、代码能力上大幅提升,分别暴涨了27%。o1Pro版数学性能更是飙升36%。0000李彦宏:百度目前20%代码由AI完成 文心一言已有800万开发者
在今日的深圳西丽湖论坛上,百度CEO李彦宏在发言中强调了AI原生应用的开发重要性,并指出百度的文心大模型在调用量上超过了其他200个大模型的总量。李彦宏表示,百度已经对旗下各产品线进行了AI原生化重构,这意味着百度在每100行代码中,就有20行是由AI完成的。他强调了大模型作为基础底座的重要性,并认为类似操作系统不会太多,因此重复开发大模型是对基础资源的浪费。站长网2023-11-15 20:52:120000