Meta 发布多语言语音翻译模型 SeamlessM4T:可翻译多达 100 种语言、语音或文本
周二,Meta 宣布推出 SeamlessM4T,一种用于语音和文本翻译的多模态人工智能模型。作为一种能够处理文本和音频的神经网络,它可以执行文本到语音、语音到文本、语音到语音和文本到文本的翻译,支持「最多 100 种语言」,Meta 表示,它的目标是帮助说不同语言的人更有效地交流。
图片来自Meta
继续 Meta 相对开放的人工智能方法,它正在以研究许可(CC BY-NC 4.0)的形式发布 SeamlessM4T,允许开发者在此基础上进行开发。他们还发布了 SeamlessAlign,Meta 称之为「迄今最大的开放式多模式翻译数据集,总共挖掘了 270,000 个小时的语音和文本对齐」。这将有可能启动其他研究人员训练未来翻译人工智能模型的过程。
在 Meta 的博客中宣传的 SeamlessM4T 的特性中,该公司表示该模型能够执行语音识别(将语音转换为文本)、语音到文本翻译(将口语音频翻译为不同语言的文本)、语音到语音翻译(提供语音,输出翻译后的语音)以及文本到文本翻译(类似于 Google 翻译的功能)和文本到语音翻译(提供文本,将其翻译并以另一种语言呈现出来)。每个文本翻译功能支持将近 100 种语言,语音输出功能支持大约 36 种输出语言。
在 SeamlessM4T 的公告中,Meta 提到了 Babel Fish, 一种虚构的鱼,来自道格拉斯·亚当斯经典的科幻小说系列《银河系漫游指南》,它可以立即翻译任何口头语言:
构建一个像银河系漫游指南中虚构的 Babel Fish 一样的通用语言翻译器是具有挑战性的,因为现有的语音到语音和语音到文本系统只覆盖了世界上语言的一小部分。但我们相信,我们今天宣布的工作在这一旅程中是向前迈出的重要一步。
它们是如何训练的?根据 Seamless4MT 研究报告,Meta 的研究人员「创建了一个多模式语料库,其中含有自动对齐的超过 470,000 个小时的语音翻译,称为 SeamlessAlign」(在前面已经提及)。然后,他们「使用人工标注和伪标注数据对这个语料库的一个子集进行了筛选,总计 406,000 个小时」。
与往常一样,Meta 对其训练数据的来源有些含糊。文本数据来自「与 NLLB 中部署的相同数据集」(从维基百科、新闻来源、脚本演讲和其他来源中提取的句子组成,由专业人员翻译)。根据研究论文,SeamlessM4T 的语音数据来自「400 万小时的原始音频,来源于一个公开可用的网络数据库」,其中 100 万小时是英语。Meta 没有具体说明使用哪个存储库或音频剪辑的出处。
Meta 远非第一家提供机器学习翻译工具的人工智能公司。Google 翻译自 2006 年以来就使用机器学习技术,大型语言模型(如 GPT-4)以其在语言之间的翻译能力而闻名。但是,在音频处理方面,最近这项技术变得非常热门。在九月份,OpenAI 发布了自己的开源语音到文本翻译模型,名为 Whisper,它可以在音频中识别语音并将其翻译成文本。
SeamlessM4T 扩展了多语言翻译的趋势,并且 Meta 表示 SeamlessM4T 的「单一系统方法」——一个单一的人工智能模型而不是多个模型组合在一条链上(类似于 Meta 之前的一些音频处理技术)——减少了错误,增加了翻译的效率。
关于 SeamlessM4T 如何运作的更多技术细节可以在Meta 的网站上获得,其代码和权重(实际训练的神经网络文件)可以在 Hugging Face 上找到。
《妈妈咪呀》国际女星一夜被AI端掉饭碗
AI淘汰人类的紧迫感越来越近了!最近,在音乐剧《妈妈咪呀》饰演主角女星,被一封BBC邮件告知:不用来了,AI替代了你。前几天,OpenAI刚宣布进军好莱坞,并放出一波导演艺术家们体验Sora的震撼视频。仅仅几天的时间,已经有国际著名明星,饭碗一夜之间被AI端掉了!她,就是音乐剧《妈妈咪呀》的主演——SaraPoyzer。站长网2024-04-06 14:18:250000gpt crawler:从URL爬取网站生成结构化知识,创建定制GPT
gptcrawler是一款强大的工具,能够将网站内容全面地爬取下来,并将其转换成结构化知识,为GPTs的学习提供了有力支持。站长网2023-11-21 10:49:150005ChatGPT网站流量连续第三个月下降
文章概要:-OpenAI的ChatGPT在2023年8月份经历了连续第三个月的网站流量下降。-指标显示流量下降趋势可能正在趋于稳定。-学校新学年的开始预计将对ChatGPT的网站流量和使用产生积极影响。OpenAI的ChatGPT无疑是一款备受好评的人工智能聊天机器人,报告显示其网站流量在2023年8月份连续第三个月下降。这一下降趋势表明了一些挑战,但也暗示着可能慢慢趋于稳定。站长网2023-09-08 14:29:380000苹果iPhone 15/Plus发售日破发 仅Pro Max溢价
今天,iPhone15系列手机正式发布,但令人惊讶的是,仅仅在发布后的两个小时内,就已经出现了降价的情况。现在,iPhone15和Plus的库存相当充足,价格也全面低于官方网站的价格。即使是升级较大的iPhone15Pro,也仅略微高于官方价格,可以从经销商手中现货购买。目前只有iPhone15ProMax机型仍然保持着溢价,部分颜色的钛合金版本甚至需要加价700元以上才能购买。站长网2023-09-22 11:34:020002美国能源部设立新办公室监督人工智能和其它新兴技术
**划重点:**-美国能源部成立了一个新的办公室,专注于协调政府在人工智能和其他尖端技术方面应对气候变化、防范大流行病以及保护国家安全的支持和使用。-新成立的关键和新兴技术办公室将监督人工智能、生物技术、量子计算和半导体等领域,由前国家安全委员会和能源部的高级技术和安全官员赫莉娜·符担任首席人工智能官员。0000