亚马逊发布其有史以来最大的文本转语音模型 BASE TTS
划重点:
⭐️ 亚马逊 AGI 团队发布了有史以来最大的文本转语音模型,具有最多的参数和最大的训练数据集。
⭐️ 新模型名为 BASE TTS,拥有980亿参数,使用了10万小时的录音数据进行训练,主要是英语。
⭐️ 该团队计划将 BASE TTS 用作学习应用,以改进文本转语音应用的人类声音质量。
亚马逊 AGI 的人工智能研究团队宣布开发了他们所描述的有史以来最大的文本转语音模型。所谓最大,是指拥有最多参数并使用最大训练数据集。他们在 arXiv 预印服务器上发布了一篇论文,描述了该模型的开发和训练过程。

与 ChatGPT 等大型语言模型(LLMs)因其人类化的智能回答问题和创建高水平文档的能力而备受关注不同,人工智能正在逐步应用于其他主流应用。在这一新尝试中,研究人员试图通过增加模型参数的数量和扩充训练基础来改进文本转语音应用的能力。
这一新模型被称为 Big Adaptive Streamable TTS with Emergent abilities(简称为 BASE TTS),拥有98亿参数,并使用了10万小时的录音数据进行训练,其中大部分是英语。该团队还为其提供了其他语言中已知短语的口语单词和短语示例,以使模型在遇到这些短语时能够正确发音,比如 “au contraire” 或 “adios, amigo”。
亚马逊团队还在较小的数据集上对模型进行了测试,希望了解模型何时会出现所谓的新兴特性,即人工智能应用,无论是 LLM 还是文本转语音应用,突然似乎突破到更高层次的智能。他们发现,对于他们的应用程序来说,新兴特性出现在拥有1.5亿参数时。
他们还指出,这种飞跃涉及一系列语言属性,例如使用复合名词,表达情感,使用外语词汇,应用语音附加语和标点,以及在句子中将重点放在正确的单词上提出问题。
该团队表示,他们不会向公众发布 BASE TTS,因为他们担心它可能被不道德地使用,而是计划将其用作学习应用。他们希望应用他们迄今为止所学到的知识,以改进文本转语音应用程序的人类声音质量。
论文网址:https://dx.doi.org/10.48550/arxiv.2402.08093
腾讯云推出语音识别系统ASR 语音识别大模型上线
腾讯云ASR(AutomaticSpeechRecognition)是腾讯云推出的语音识别系统。最新升级后,腾讯云ASR能够更好地处理方言和噪声,提高识别准确率和理解能力。站长网2024-01-05 08:57:220001微软将于 5 月举办一场特别的 Windows 和 Surface AI 活动
微软将于5月20日星期一上午举办一场AI活动,就在Build2024开始之前。微软在向媒体发送的电子邮件邀请中表示,首席执行官萨提亚·纳德拉(SatyaNadella)将谈论该公司的“跨硬件和软件的人工智能愿景”。站长网2024-03-19 17:02:460000ChatGPT工程师年薪曝光:中位数约674万元人民币
快科技11月9日消息,随着ChatGPT的爆火,OpenAI公司也成为了外界关注的焦点。根据美国薪资跟踪网站的数据显示,目前OpenAI软件工程师的中位数年薪高达92.5万美元(约合674万元人民币),包含了30万美元的基本工资和62.5万美元的利润参与单位(PPU)。站长网2023-11-09 21:22:370000为什么普通人「出圈」,都在小红书?
解码小红书推荐系统:为什么在这里普通人更容易被看见?出差期间,我在酒店百无聊赖地打开了小红书。一篇看似平淡无奇的笔记吸引了我的注意——一位ID叫「倚着彩虹看夕阳」的用户发帖,说自己在酒店的床上看西游记时,感觉到前所未有的放松。从标题到配图,这篇发布于去年5月的笔记没有任何明显的爆点,但显然在小红书上引发了广泛的共鸣,收到了大量的点赞、收藏和评论。我也被吸引,陷入了#走不出的评论区。站长网2024-01-16 17:21:520000三星计划使用4nm工艺生产AI推理芯片Mach-1预计年底前完成交付
据韩媒ZDNetKorea消息,三星电子正计划利用其4nm工艺进行AI推理芯片Mach-1的原型试产,采用MPW(多项目晶圆)方式。尽管三星已具备3nm代工技术,但出于项目执行稳定性的考虑,公司决定在Mach-1上采用更为成熟的4nm或5nm工艺。这一选择旨在确保芯片性能和产出稳定性。据站长网2024-05-10 23:51:460000