Meta 发布多语言语音翻译模型 SeamlessM4T:可翻译多达 100 种语言、语音或文本
周二,Meta 宣布推出 SeamlessM4T,一种用于语音和文本翻译的多模态人工智能模型。作为一种能够处理文本和音频的神经网络,它可以执行文本到语音、语音到文本、语音到语音和文本到文本的翻译,支持「最多 100 种语言」,Meta 表示,它的目标是帮助说不同语言的人更有效地交流。
图片来自Meta
继续 Meta 相对开放的人工智能方法,它正在以研究许可(CC BY-NC 4.0)的形式发布 SeamlessM4T,允许开发者在此基础上进行开发。他们还发布了 SeamlessAlign,Meta 称之为「迄今最大的开放式多模式翻译数据集,总共挖掘了 270,000 个小时的语音和文本对齐」。这将有可能启动其他研究人员训练未来翻译人工智能模型的过程。
在 Meta 的博客中宣传的 SeamlessM4T 的特性中,该公司表示该模型能够执行语音识别(将语音转换为文本)、语音到文本翻译(将口语音频翻译为不同语言的文本)、语音到语音翻译(提供语音,输出翻译后的语音)以及文本到文本翻译(类似于 Google 翻译的功能)和文本到语音翻译(提供文本,将其翻译并以另一种语言呈现出来)。每个文本翻译功能支持将近 100 种语言,语音输出功能支持大约 36 种输出语言。
在 SeamlessM4T 的公告中,Meta 提到了 Babel Fish, 一种虚构的鱼,来自道格拉斯·亚当斯经典的科幻小说系列《银河系漫游指南》,它可以立即翻译任何口头语言:
构建一个像银河系漫游指南中虚构的 Babel Fish 一样的通用语言翻译器是具有挑战性的,因为现有的语音到语音和语音到文本系统只覆盖了世界上语言的一小部分。但我们相信,我们今天宣布的工作在这一旅程中是向前迈出的重要一步。
它们是如何训练的?根据 Seamless4MT 研究报告,Meta 的研究人员「创建了一个多模式语料库,其中含有自动对齐的超过 470,000 个小时的语音翻译,称为 SeamlessAlign」(在前面已经提及)。然后,他们「使用人工标注和伪标注数据对这个语料库的一个子集进行了筛选,总计 406,000 个小时」。
与往常一样,Meta 对其训练数据的来源有些含糊。文本数据来自「与 NLLB 中部署的相同数据集」(从维基百科、新闻来源、脚本演讲和其他来源中提取的句子组成,由专业人员翻译)。根据研究论文,SeamlessM4T 的语音数据来自「400 万小时的原始音频,来源于一个公开可用的网络数据库」,其中 100 万小时是英语。Meta 没有具体说明使用哪个存储库或音频剪辑的出处。
Meta 远非第一家提供机器学习翻译工具的人工智能公司。Google 翻译自 2006 年以来就使用机器学习技术,大型语言模型(如 GPT-4)以其在语言之间的翻译能力而闻名。但是,在音频处理方面,最近这项技术变得非常热门。在九月份,OpenAI 发布了自己的开源语音到文本翻译模型,名为 Whisper,它可以在音频中识别语音并将其翻译成文本。
SeamlessM4T 扩展了多语言翻译的趋势,并且 Meta 表示 SeamlessM4T 的「单一系统方法」——一个单一的人工智能模型而不是多个模型组合在一条链上(类似于 Meta 之前的一些音频处理技术)——减少了错误,增加了翻译的效率。
关于 SeamlessM4T 如何运作的更多技术细节可以在Meta 的网站上获得,其代码和权重(实际训练的神经网络文件)可以在 Hugging Face 上找到。
理想 MEGA Max 预计售价 60 万元以内 将于 2024 年 2 月下旬开启交付
理想汽车宣布,理想MEGA将于2023年11月17日9:40开启预订。理想MEGAMax预计售价60万元以内,正式售价将于2023年12月发布会上公布。理想MEGA交付将于2024年2月下旬开启。据了解,理想MEGA是全球风阻系数最低的MPV,风阻系数仅为0.215。站长网2023-11-16 16:40:360000科大讯飞将于5月6日发布讯飞星火大模型
昨日晚间,科大讯飞发布第一季度报告称,2023年一季度实现营业收入28.88亿元,同比下降17.64%;归母净亏损5789.5万元,上年同期净利润1.1亿元。2022年实现营业收入188.2亿元,同比增长2.77%,归母净利润为5.61亿元。站长网2023-04-21 08:43:580000小米双11战报公布:全渠道支付金额破224亿元 创历年大促新纪录
快科技11月12日消息,据小米公司官微消息,小米公布了双11销售业绩。截至2023年11月11日23:59:59,小米双11全渠道支付金额破224亿元,创历年大促新纪录。值得注意的是,在这个双11期间,小米14获四大平台国产手机冠军,销量爆火。站长网2023-11-12 10:15:050000独立开发变现周刊(第126期):治愈恐慌的App月入8.3万美元
目录1、ReplyGuy:帮你推广产品的AI回复工具2、chatnio:开源的一站式AI前端解决方案3、Phoenix:texttovideo创建自己的视频副本4、治愈恐慌:独立开发应用月入8.3万美元,用户破200万1、ReplyGuy:帮你推广产品的AI回复工具站长网2024-03-15 14:13:500000谷歌推AI笔记应用NotebookLM 智能整理综合信息、问题解答
Google最近在今年的GoogleI/O大会上推出了NotebookLM,这个实验性产品由GoogleLabs开发,旨在重新想象笔记软件,将强大的语言模型作为核心。当下,人们面临的信息过载问题,很难提取有意义的见解。Google意识到这一挑战,并与学生、教授和知识工作者进行了对话,以了解他们的困难。其中最常见的问题是从多个来源整理事实和思路是一个耗时过程。站长网2023-07-18 18:29:390001