Deepgram推创新文本转语音模型Aura 支持实时文本转语音
要点:
Deepgram推出Aura,一款创新的文本转语音模型,提供比所有语音AI替代品更快速、更高效的人类般对话质量。
Aura致力于为实时语音AI代理提供真实的声音,包括及时的回应、在思考时使用自然的语音填充词汇(如“嗯”和“啊”),以及根据对话背景调节语调和情感。
Deepgram期望通过Aura成为实时、对话式语音AI代理的完整平台,为开发者提供构建未来高吞吐量、实时AI代理所需的基本构件。
深瞳公司推出了一款名为Aura的全新文本转语音模型,旨在满足实时语音AI代理的需求。随着大型语言模型(LLMs)的普及,语音交互成为访问LLMs及其解锁体验的主要手段。Aura的推出旨在解决当前语音AI供应商存在的速度、成本、可靠性和对话质量等方面的问题。相较于当前市场上的主流替代品,Aura在早期版本的盲评试中被评为更贴近人类声音,其开发计划也得到了提前扩展。

官方地址:https://deepgram.com/learn/aura-text-to-speech-api-waitlist
针对语音AI技术的不同应用,Deepgram区分了两个主要领域:高产出和高吞吐量。高产出关注打造完美声音,用于视频游戏或有声读物等项目,强调声音质量。而高吞吐量则着眼于实时对话,如快餐订餐、预约和了解汽车经销商的最新优惠等任务,注重对话流畅性和效率。Deepgram的目标是通过Aura在高吞吐量领域提供高效的文本转语音转换,以实现用户体验的平滑和可靠。
Aura的独特之处在于赋予AI代理更具人类特征的声音,包括及时的回应、在思考时使用自然的语音填充词汇,以及根据对话背景调整语调和情感。早期版本的Aura在盲评试中被评为比其他替代品更贴近人类声音,甚至在某些音频片段中超过了人类演讲者。
多年来,Deepgram一直致力于推动语音识别和口头语言理解技术的可能性。他们的团队不仅发展了能处理对话音频细微差异的新型转换器架构,还在处理各种语言、口音和方言的同时处理了口语中的不流畅和对话中的变化。通过有限约束构建模型,以优化其速度和效率。Deepgram还拥有内部数据标注和数据运营团队,通过构建定制工作流,记录、存储和传输大量音频,并持续扩充其高质量数据库,用于模型训练。
Aura被设计为速度、质量和效率的全能解决方案,旨在成为高质量选项中最快速、快速选项中最高质量的文本转语音模型。Deepgram强调,Aura的发布仅是一个开始,他们期待在与客户和合作伙伴的合作中继续完善和扩展该模型,共同定义AI代理的未来。计划于明年初正式发布,而开发者可以通过加入Aura的等待列表来获取早期体验并提供直接反馈。
图片生成精准动态视频,阿里、港大推出新模型LivePhoto
阿里巴巴、香港大学、蚂蚁集团的研究人员提出了一种全新图片生成动态视频模型——LivePhoto。用户通过LivePhoto,可将一张静态图片快速生成高精准的动态视频。与传统方法不同的是,LivePhoto在开源文生图模型StableDiffusion基础之上,增加了运动强度和文本加权两大创新模块,可精准掌控动态视频生成过程中的运动强度、文本描述。0003高盛:预计到2025年全球人工智能投资将接近2000亿美元
站长网2023-08-06 10:34:420001微信视频号:将回收医疗类认证账号私信和客服功能
微信发布《关于“视频号将回收医疗类认证账号私信和客服功能”的公告》称,为保障视频号用户的生命和财产安全,避免医疗类账号(如个人认证-执业医师、机构认证-医疗相关主体等)被用于违规引流、线上问诊等场景,视频号将于2024年5月28日逐步回收医疗类账号的私信和客服功能。站长网2024-05-28 19:35:450000AirPods 4新增主动降噪版本:售价1399元 9月20日正式发售
在9月10日凌晨的苹果秋季新品发布会上,苹果公司推出了备受期待的全新一代蓝牙耳机——AirPods4。这款耳机以其半入耳式设计,提供了更舒适的佩戴体验,并且特别增加了主动降噪功能,以满足不同用户的需求。AirPods4的发布,标志着苹果在无线耳机领域的进一步创新。标准版AirPods4的售价为999元,而配备主动降噪功能的版本售价为1399元,两款产品都将于9月20日正式发售。站长网2024-09-11 15:25:000000亚马逊与谷歌宣布将扩大在印度投资 人工智能聊天机器人 Bard 将支持更多印度语言
亚马逊宣布将在2030年之前将其在印度的投资增加到260亿美元,其中65亿美元是新计划的投资。此消息是在首席执行官AndyJassy与印度莫迪在美国会面后宣布的。尽管Jassy没有提供详细的细分数据,但这一宣布是在亚马逊的云计算部门亚马逊网络服务(AWS)上个月表示将在2030年底之前在印度投资1.06万亿卢比(129亿美元)之后发布的。站长网2023-06-25 23:21:330000