Meta 发布多语言语音翻译模型 SeamlessM4T:可翻译多达 100 种语言、语音或文本
周二,Meta 宣布推出 SeamlessM4T,一种用于语音和文本翻译的多模态人工智能模型。作为一种能够处理文本和音频的神经网络,它可以执行文本到语音、语音到文本、语音到语音和文本到文本的翻译,支持「最多 100 种语言」,Meta 表示,它的目标是帮助说不同语言的人更有效地交流。

图片来自Meta
继续 Meta 相对开放的人工智能方法,它正在以研究许可(CC BY-NC 4.0)的形式发布 SeamlessM4T,允许开发者在此基础上进行开发。他们还发布了 SeamlessAlign,Meta 称之为「迄今最大的开放式多模式翻译数据集,总共挖掘了 270,000 个小时的语音和文本对齐」。这将有可能启动其他研究人员训练未来翻译人工智能模型的过程。
在 Meta 的博客中宣传的 SeamlessM4T 的特性中,该公司表示该模型能够执行语音识别(将语音转换为文本)、语音到文本翻译(将口语音频翻译为不同语言的文本)、语音到语音翻译(提供语音,输出翻译后的语音)以及文本到文本翻译(类似于 Google 翻译的功能)和文本到语音翻译(提供文本,将其翻译并以另一种语言呈现出来)。每个文本翻译功能支持将近 100 种语言,语音输出功能支持大约 36 种输出语言。
在 SeamlessM4T 的公告中,Meta 提到了 Babel Fish, 一种虚构的鱼,来自道格拉斯·亚当斯经典的科幻小说系列《银河系漫游指南》,它可以立即翻译任何口头语言:
构建一个像银河系漫游指南中虚构的 Babel Fish 一样的通用语言翻译器是具有挑战性的,因为现有的语音到语音和语音到文本系统只覆盖了世界上语言的一小部分。但我们相信,我们今天宣布的工作在这一旅程中是向前迈出的重要一步。
它们是如何训练的?根据 Seamless4MT 研究报告,Meta 的研究人员「创建了一个多模式语料库,其中含有自动对齐的超过 470,000 个小时的语音翻译,称为 SeamlessAlign」(在前面已经提及)。然后,他们「使用人工标注和伪标注数据对这个语料库的一个子集进行了筛选,总计 406,000 个小时」。
与往常一样,Meta 对其训练数据的来源有些含糊。文本数据来自「与 NLLB 中部署的相同数据集」(从维基百科、新闻来源、脚本演讲和其他来源中提取的句子组成,由专业人员翻译)。根据研究论文,SeamlessM4T 的语音数据来自「400 万小时的原始音频,来源于一个公开可用的网络数据库」,其中 100 万小时是英语。Meta 没有具体说明使用哪个存储库或音频剪辑的出处。
Meta 远非第一家提供机器学习翻译工具的人工智能公司。Google 翻译自 2006 年以来就使用机器学习技术,大型语言模型(如 GPT-4)以其在语言之间的翻译能力而闻名。但是,在音频处理方面,最近这项技术变得非常热门。在九月份,OpenAI 发布了自己的开源语音到文本翻译模型,名为 Whisper,它可以在音频中识别语音并将其翻译成文本。
SeamlessM4T 扩展了多语言翻译的趋势,并且 Meta 表示 SeamlessM4T 的「单一系统方法」——一个单一的人工智能模型而不是多个模型组合在一条链上(类似于 Meta 之前的一些音频处理技术)——减少了错误,增加了翻译的效率。
关于 SeamlessM4T 如何运作的更多技术细节可以在Meta 的网站上获得,其代码和权重(实际训练的神经网络文件)可以在 Hugging Face 上找到。
OpenAI、Anthropic、谷歌和微软成立前沿模型论坛 确保 AI 模型安全
OpenAI、Anthropic、Google和Microsoft宣布成立FrontierModelForum(前沿模型论坛),旨在确保全球前沿AI模型的安全和负责任发展。ChrisMeserole被任命为FrontierModelForum的首任执行董事,他将负责推动AI安全研究,促进前沿模型的负责任发展,并减少潜在风险。站长网2023-10-26 08:59:020000无开孔真全面屏!红魔10 Pro系列定档11月13日
红魔品牌今日宣布,其最新旗舰手机红魔10Pro系列将于11月13日与公众见面。随着发布日期的确定,官方也揭晓了新机的宣传海报,首次对外展示了红魔10Pro系列的外观设计。0000IMF 国际货币基金组织官员警告:人工智能可能会「严重破坏」就业市场
IMF高级官员警告称,生成式人工智能可能对劳动力市场造成「重大的干扰」,并呼吁决策者迅速制定规则来管理这项新技术。国际货币基金组织(IMF)副总裁GitaGopinath特在接受《金融时报》采访时表示,基于ChatGPT等大型语言模型的人工智能突破可能提高生产力和经济产出,但她警告称风险「非常大」。站长网2023-06-07 19:12:170000百度与兴业银行签约 推进人机对话AI技术在金融场景应用
近日,兴业银行与百度举行战略合作签约仪式,双方计划在大模型应用、绿色基础设施建设、智慧营销和品牌联合运营等领域展开深入合作。未来,百度与兴业银行计划基于文心千帆大模型平台,共同推进前沿人机对话AI技术在金融场景的应用,大模型能力将在智能搜索、智能风控、智能投顾、智能投研、智能客服等业务场景中落地。双方将探索共建联合创新实验室,作为大模型等前沿技术应用探索的测试基地和产业化基地。站长网2023-06-09 20:57:090000蜜雪冰城们混战2024:谁最赚钱,谁最着急?
奶茶四巨头,活得越来越不像自己。2024年,茶饮市场要变天了。过去两个月,茶饮大小巨头们就像上了发条一样,一个接一个地冲刺IPO。2月23日,茶百道再次向港交所递交招股书,此前(2023年8月)递交的版本已于2月中旬失效;2月14日,沪上阿姨递表港交所;1月2日,蜜雪冰城、古茗同一天向港股递交上市申请。站长网2024-02-28 14:02:300000