仅两秒延迟!新一代AI语言翻译系统Seamless发布,实现跨语言交流新突破
划重点:
🗣️ 实时表达:Seamless首次公开发布,通过SeamlessExpressive和SeamlessStreaming模型,实现语音到语音翻译中的表达保留和低延迟流式处理。
🌍 多语言支持:SeamlessM4T v2基础上构建,覆盖英语、西班牙语、德语、法语、意大利语和中文等语言,实现真实感情和风格的跨语言传递。
🔄 数据工具公开:发布metadata、数据对齐工具,扩展SeamlessAlign语料库,助力研究社区收集更多翻译数据。
在我们日益互联的世界中,语言差异可能成为沟通的障碍。Seamless作为新一代AI语言翻译系统,通过SeamlessExpressive和SeamlessStreaming模型的首次发布,为实时、跨语言交流带来了全新的突破。
SeamlessExpressive是专注于语音到语音翻译的表达保留模型,而SeamlessStreaming则是一种流式翻译模型,以约两秒的延迟提供最先进的结果。这两个模型都基于SeamlessM4T v2,这是在8月份发布的基础模型的最新版本,展现了在自动语音识别、语音到文本、文本到语音等方面的性能提升。
与以往在表达性语音研究方面的努力相比,SeamlessExpressive更加关注韵律的某些未被充分探索的方面,例如语速和节奏停顿,同时保留情感和风格。该模型目前在英语、西班牙语、德语、法语、意大利语和中文之间的语音到语音翻译中保留了这些元素。
SeamlessStreaming的突破性在于实现了与说不同语言的人实时对话。与传统系统在说话者完成句子后进行翻译不同,SeamlessStreaming在说话者仍在说话时进行翻译,使得对话更接近实时。该模型支持近100种输入输出语言的自动语音识别和语音转文本,以及近100种输入语言和36种输出语言的语音到语音翻译。
除了模型本身,Seamless还在今天发布了metadata、数据和数据对齐工具,旨在帮助研究社区收集更多的翻译数据。这包括SeamlessAlign的扩展元数据,涵盖额外115,000小时的语音和文本对齐,以及SeamlessAlignExpressive的元数据,作为表达性焦点版本的数据集。此外,还提供了mExpresso的翻译文本数据,这是Expresso的多语言平行扩展,以及用于收集更多翻译数据的工具。
Seamless作为新一代AI语言翻译系统,在实现表达保留和流式处理方面取得了重要进展,为跨语言交流提供了更加自然和真实的体验。
Suno推出生成式音频AI基础模型 输入文本即可生成30秒音乐
最近,科技公司Suno推出了一款生成式音频AI基础模型,用户只需简单的文本输入,就可以生成两段约30秒带有歌词的音乐。这个玩法跟之前的Midjourney很相似,在Suno的Discord频道里输入“/chirp”命令,再加上提示词,告诉它你想要的音乐风格和歌词即可。官方建议输入的内容不要超过4-8行。体验地址:https://discord.com/invite/QRrnYufqZV站长网2023-08-10 16:52:450001报告发现,许多人工智能治理工具存在“错误修复”
划重点:🚨世界隐私论坛报告指出,超过三分之一的人工智能(AI)治理工具存在“缺陷修复”,对AI系统的公正性和可解释性评估存在问题。🤔一些由微软、IBM和谷歌等公司开发或传播的工具和技术也被发现存在问题,引发关注。🌐尽管存在缺陷,专家表示2024年有望通过国际组织和标准制定机构的合作取得人工智能治理工具的实质性改善。0000Google DeepMind推AI音乐生成模型Lyria:用AI将文本转化为独特音乐作品
**划重点:**1.🎤Lyria是GoogleDeepMind最新的AI音乐生成模型,可以从文本中创作高质量音乐,包括乐器和人声。2.🎹与YouTube合作推出的Lyria将为平台引入创意工具,包括DreamTrack,一个用于YouTubeShorts的语音克隆工具,以及专为艺术家和制作人设计的音乐AI工具。站长网2023-11-17 10:00:010000五角大楼生成 AI 任务部队将发布新的探索工具
划重点:-⭐️五角大楼生成AI任务部队将推出一个数字沙盒,帮助国防社区实验和学习不同的AI工具。-⭐️任务部队Lima的指挥官表示,沙盒的发布备受期待,将为人们提供更多关于技术的教育。-⭐️任务部队Lima的目标之一是推出过渡计划,以帮助部门负责地采纳和推进生成AI的安全性。0000Deepgram推创新文本转语音模型Aura 支持实时文本转语音
要点:Deepgram推出Aura,一款创新的文本转语音模型,提供比所有语音AI替代品更快速、更高效的人类般对话质量。Aura致力于为实时语音AI代理提供真实的声音,包括及时的回应、在思考时使用自然的语音填充词汇(如“嗯”和“啊”),以及根据对话背景调节语调和情感。站长网2023-12-11 11:47:170000