Meta发布全新AI翻译大模型,实时语音转换不超2秒
要点:
Meta发布了全新的AI翻译大模型,实现实时语音转换延迟不超过2秒,支持多种语言翻译,并具备模仿语气、语速、情感等特征的能力。
发布的翻译模型系列名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个模型已经开源。
为确保翻译准确性和避免滥用,Meta采用了毒性缓解技术,在训练前过滤“有毒内容”并在翻译生成过程中自动检测和调整生成的有毒单词,同时为音频添加了水印以追踪来源。
Meta最新发布了一系列AI翻译大模型,标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为Seamless Communication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2和Seamless,其中前三个已经在GitHub上开源。这些模型不仅具备跨语言语音复杂性的保留能力,而且能够模仿语气、语速、情感等细致特征,使得AI翻译更富有表现力。
地址:https://ai.meta.com/blog/seamless-communication/
在技术架构方面,Meta采用了非自回归架构,提高了模型的扩展性和鲁棒性,特别适用于流媒体场景。核心算法EMMA能够智能决定何时已经拥有足够的信息来生成下一个语音片段或目标文本,同时采用了UnitY2等新架构来增强语音生成能力。
为了解决翻译准确性的问题,Meta引入了“毒性缓解”技术,在翻译生成过程中自动检测和调整生成的有毒单词,显著减少了翻译的“毒性”。
为了防止滥用风险,Meta还为音频添加了水印,通过在音频中嵌入不可察觉的信号,可以准确追踪音频的来源,并对抗各种攻击手段。这一系列模型的开源不仅包括模型本身,还涵盖元数据、数据和数据对齐工具,其中元数据包括58.5万小时的语音文本对,是目前容量最大、语言覆盖最广的语音语料库之一。
总体而言,Meta的这一系列翻译模型在实时语音翻译领域取得了显著的突破,不仅提升了翻译速度,还注重模仿语音的表现力和保护用户隐私的技术手段。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。
理想汽车6月共计交付新车32575辆 月度交付量首次突破三万
今日,理想汽车公布2023年6月交付数据。2023年6月,理想汽车共计交付新车32,575辆,月度交付量首次突破三万,同比增长150.1%。今年第二季度,理想汽车累计交付量达到86,533辆,同比增长201.6%。理想汽车2023年上半年的交付量已经超过2022年全年的交付量。站长网2023-07-02 10:12:400000实测快手“AI玩评”功能,以后AI也要来抢热评了
以后,AI也要来抢热评了。继8月推出“文生文”大语言模型“快意”(KwaiYii)后,快手又在“文生图”赛道推出了自研大模型“可图”(Kolors)。据了解,从8月下旬开始,快手AI团队就已在公司内部开启了可图大模型的内测,并支持网页版工具和标准化API两种使用方式。依托可图大模型,快手开始在短视频评论区内测“AI玩评”功能,这是继“AI对话”之后,快手在短视频场景内落地的又一AIGC能力。站长网2023-09-25 09:18:380000理想汽车在深圳成立科技公司 含AI应用软件开发业务
天眼查App显示,8月22日,深圳车和家科技有限公司成立,法定代表人为张如良,注册资本100万人民币,经营范围含大数据服务、人工智能基础软件开发、人工智能应用软件开发、云计算装备技术服务、汽车零配件批发、汽车零配件零售、企业管理咨询等。股东信息显示,该公司由北京理想汽车有限公司全资持股。站长网2023-08-24 23:31:49000010万张门票1分钟内售罄,B站和“二次元们”如何占领了7月? | BW现场
没有什么比漫展对二次元的吸引力更大,如果有,那就是“大型漫展”。7月12日至14日,B站在上海国家会展中心举办了BW2024。站长网2024-07-20 00:50:410000消息称在Apple Watch中 最贵的Ultra比最便宜的SE更受欢迎
据外媒报道,最新报告显示,在苹果今年二季度所售的iPhone中,最贵的iPhone15ProMax占比是最高的,达到了22%,其次是iPhone15,占19%。站长网2024-08-17 10:05:220000