Meta发布全新AI翻译大模型,实时语音转换不超2秒
要点:
Meta发布了全新的AI翻译大模型,实现实时语音转换延迟不超过2秒,支持多种语言翻译,并具备模仿语气、语速、情感等特征的能力。
发布的翻译模型系列名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个模型已经开源。
为确保翻译准确性和避免滥用,Meta采用了毒性缓解技术,在训练前过滤“有毒内容”并在翻译生成过程中自动检测和调整生成的有毒单词,同时为音频添加了水印以追踪来源。
Meta最新发布了一系列AI翻译大模型,标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个已经在GitHub上开源。这些模型不仅具备跨语言语音复杂性的保留能力,而且能够模仿语气、语速、情感等细致特征,使得AI翻译更富有表现力。

地址:https://ai.meta.com/blog/seamless-communication/
在技术架构方面,Meta采用了非自回归架构,提高了模型的扩展性和鲁棒性,特别适用于流媒体场景。核心算法EMMA能够智能决定何时已经拥有足够的信息来生成下一个语音片段或目标文本,同时采用了UnitY2等新架构来增强语音生成能力。
为了解决翻译准确性的问题,Meta引入了“毒性缓解”技术,在翻译生成过程中自动检测和调整生成的有毒单词,显著减少了翻译的“毒性”。
为了防止滥用风险,Meta还为音频添加了水印,通过在音频中嵌入不可察觉的信号,可以准确追踪音频的来源,并对抗各种攻击手段。这一系列模型的开源不仅包括模型本身,还涵盖元数据、数据和数据对齐工具,其中元数据包括58.5万小时的语音文本对,是目前容量最大、语言覆盖最广的语音语料库之一。
总体而言,Meta的这一系列翻译模型在实时语音翻译领域取得了显著的突破,不仅提升了翻译速度,还注重模仿语音的表现力和保护用户隐私的技术手段。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。
电视家宣布暂停服务 官方公布快速退款指引
近日,知名电视直播软件“电视家”突然宣布暂停服务,并承诺为已开通会员的用户进行退款。在公告中,“电视家”强调会妥善处理所有退款需求,并承诺“绝对不会跑路”。为了方便用户进行退款,“电视家”在官方微博“电视家助手”上发布了快速退款指引,用户可以通过微信官方公众号“电视团团”点击“申请退款”进行操作。由于人工客服需要进行一对一的核实操作,所以用户需要耐心等待退款。站长网2023-11-21 17:18:440000国内游“挤爆了”,这份五一假期避坑指南值得看
结束六天工作,打工人终于等来2023年首个长假——五一。去淄博吃烧烤、往武汉吃过早、飞长沙夜生活、到成都看大熊猫……半个月前还计划离开浪浪山,幻想去远方吃吃看看,来一场特种兵式旅行的人们,最近却发现自己可能高兴早了。来自携程和飞猪的数据均显示,距离“五一”假期不到10天,两平台国内机票、酒店、景区门票、跟团游等均已超过2019年同期,热度急速蹿升。站长网2023-05-12 20:38:150001SK 电讯推出利用人工智能技术降低云成本的 Cloud Radar 2.0
站长之家(ChinaZ.com)10月18日消息:SK电讯周三宣布,推出CloudRadar2.0,这是一款利用人工智能技术的云管理平台,旨在帮助企业降低其云计算服务成本。站长网2023-10-18 22:32:520000最新GPT-4.5疑似泄露!更强多模态,支持3D,价格飙6倍
大家对于OpenAI产品的关注讨论热度,似乎从没下来过。最近,网上更是传得沸沸扬扬:最新版本的GPT-4.5好像神不知鬼不觉偷偷上线了!根据Reddit网站OpenAI版块的爆料帖子,GPT-4.5被描述为“OpenAI最先进的一款模型”,具备更强大的多模态能力。除了GPT-4V能处理的文本、语音、图片和视频,连3D信息也能轻松拿下,还可以做到跨模态理解。0000魅族科技宣布三款全新AI产品将于本月发布
魅族科技官方今日发布消息称,他们将推出三款全新AI产品。这一举动是魅族在今年2月宣布停止传统智能手机新项目,转向AI领域之后的重要举措。尽管此前发布了魅族21Pro,号称是“魅族首款开放式AI终端”,但具体这次发布的产品是什么尚不得而知。站长网2024-05-06 20:34:470000