AI入侵播客圈!比真人配音还逼真?实测爆火的微软AI语音角色“晓晓”
AI语音再进化,人耳还能听出AI和真人的差别吗?
以上两段音频demo来自微软最近更新的AI语音角色“晓晓”。逼真、情绪到位、语气自然、断句近乎完美,是绝大多数网友听到“晓晓”声音时给出的评价。
在播客App小宇宙上,“Hacker News”账号用“晓晓”的声音制作了一期节目,听众在评论区留言表示“想打赏”。
实际上,这已经不是AI第一次入侵播客圈了。
2022年10月,一段美国知名播客主持人乔·罗根(Joe Rogan)与苹果公司已故创始人史蒂夫·乔布斯的对话音频在外网引发热议。长达20分钟的播客节目中,两人探讨了包括乔布斯的大学经历、对计算机的见解和个人信仰在内的多个话题。
这段播客音频由podcast.ai推出,为了生成这段内容,podcast.ai使用了乔布斯的传记和网络上关于他的所有录音,通过Play.ht人工智能语言模型进行了大量训练。此外,节目主持人罗根的语音也是AI生成的。
2023年7月,国内播客节目《大俗小雅》发布了一期完全由AI生成故事情节和语音的播客,在小宇宙上获得了超5000次收听,评论区还有听众留言表示,误把AI生成语音中的不自然当成了两位主播“情绪状态不好”。
从乔布斯“复活”录播客到《大俗小雅》的AI播客实验,AI生成人声面临的一个主要争议是缺乏真人发声时的抑扬顿挫和情感,如声音的单调和机械化,以及在节奏和语调上的不自然。这些都是阻碍AI语音技术进一步落地应用在有声内容创作上的难题。
如今,微软“晓晓”已经正式上线可用。它可以成为中文创作者新的语音生成利器吗?AI 有声内容创作又有哪些新玩法?“头号AI玩家”进行了一番探究。
实测微软“晓晓”:比真人配音还逼真?
“晓晓”是微软云服务平台Azure旗下TTS(文本转语音)语音库中的一个女性语音角色。目前有两个版本:
第一个版本是中文版“晓晓”,它支持21种不同的说话风格,适用于有声书、新闻、AI客户服务以及多情感表达等场景。
在“多情感表达”场景演示中,她能够在多种台词之间自如切换情绪,并精准匹配相应的语气和语调,整体表现既自然又流畅。
第二个版本是多语言版本的“晓晓”,支持91种语言的文本到语音转换,但仅提供默认的说话风格选项。
目前,两个版本的“晓晓”都可以在Azure官网免费体验(链接已同步整理至文末)。
由于申请微软Azure账户和部署语音服务的流程较为复杂,在此先附上详细操作步骤,以供参考:
首先,进入微软Azure官网,创建一个免费账户。
新用户注册后可享12个月免费服务,服务期满后,每月仍可获得50万字符的免费额度。对于大多数创作者而言,这样“量大管饱”的免费额度已然够用。
整个注册和使用过程,无需魔法,但需要提供一张VISA、万事达等信用卡或借记卡进行验证。实测中,我们用国内银行发行的VISA信用卡以及国内手机号完成了注册。
验证成功后,跳转到Azure主页,进入控制台,在“AI 机器学习”类别下,找到“语音”点击“Create”,部署语音服务。
进入创建语音服务页面,定价层选择“Free F0(即免费服务)”,区域选择你想使用的TTS语音支持的地区,因为是测试“晓晓”,在这里我们最后选择了“East Asia(东亚)”。
最后,点击页面下方的“审阅并创建”,就完成了部署。
接着转到“有声内容创作”页面,就可以投喂文本,让AI替你生成语音了。
界面布局主要包括中间的文本操作区和右侧的调音编辑工具栏。用户可以一次性编辑整个文本,也可以对单个句子或词语进行微调。
具体编辑功能涵盖朗读角色切换、停顿设置、朗读规则调整以及语调语速控制等,都支持用户根据需要进行自定义修改。
例如,在下面这段文本中,我们将叙事旁白设置成了中文版晓晓的“新闻”说话风格,并在同一个句子中切换朗读角色,营造出小说中的对话感。
测试1,头号AI玩家,59秒
对比测试中,我们让其用不同情绪说同一句话,也表现出明显的区分度,效果令人惊喜。
测试2,头号AI玩家,12秒
而多语言版本的“晓晓”虽然只支持默认的说话风格,但其生成的声音效果既自然又流畅,并且能够处理文本中的语气词,乍一听根本无法分辨真假。
晓晓多语言版测试1,头号AI玩家,8秒
不过,在我们的测试中,她只有在语言技能选择“中文普通话”时,才可以还原早前微软放出的演示效果,生成的人声自然逼真。
如果选择其他语言或地区方言,如粤语或台湾普通话,声音就又回到“一听即AI”的效果。
晓晓多语言版测试2,头号AI玩家,10秒
据微软官方介绍,包括多语言版晓晓在内的9种声音角色是基于大语言模型训练的,如OpenAI搭建在Azure云上的GPT服务,因此尤其擅长口头对话、日常聊天等对语言自然度和表现力要求较高的场景。
除了使用TTS语音库预设置好的声音,微软Azure还提供了声音定制服务,支持品牌或个人使用有版权的音频样本作为训练数据,创建自定义语音。
从有声书到短视频配音,再到软硬件内随处可见的文本朗读功能,AI生成的有声内容已经成为普通人日常最频繁使用的AI技术之一。
以微软的语音角色“云希”为例,只要你刷过短视频,就一定能认得他的声音。
《注意看这个男人叫小帅》:
,时长00:19视频来源:抖音博主阿莫西木木
由于去除了以往AI的机械式发音和单一腔调,“云希”在影视解说配音中广受欢迎,迅速火遍全网。同时,它在有声书领域也得到了广泛应用,许多网友会借助接入微软TTS服务的软件和API,利用“云希”的声音文本转语音,提升听书体验。
技术快速迭代下, 如今市面上出现了越来越多方便易用的产品。例如,如喜马拉雅旗下的音剪,即支持一站式AI音频创作,提升有声书制作效率、降低创作成本。
具体到AI文本转语音赛道上,国外爆火的产品如ElevenLabs对中文的支持度并不高,而国内的MiniMax、火山引擎等产品,虽然可以生成较为流畅的中文朗读音频,但仍未达到播客声音制作所需的自然度和情感表达水平。
例如,在《大俗小雅》的AI播客实验中,不少网友反馈AI生成的声音“念稿”痕迹很明显。
相较短视频和有声书,AI语音技术在播客场景的应用还很有限。
“头号AI玩家”从多方了解到,目前播客创作者会使用ChatGPT等文本生成模型,来提高前期内容策划、内容大纲以及播客内容摘要(shownotes)等文本内容的生产效率。
但在声音生成上,播客内容制作追求的不仅仅是流畅的朗读,更重要的是通过声音传递情感,增强听众的沉浸感和情感共鸣。
此外,播客声音内容的强IP属性,以及高度人格化的表达,也是创作者在使用AI生成语音时需要谨慎考量的问题。这些特性要求AI不仅要准确传达信息,还要能够模仿人类的情感和语调,与听众建立情感联系。
对于能够自如地通过口语表达自己观点的创作者而言,独特的口音或语调反而可以形成一种差异化优势,有助于塑造创作者的个人风格。
随着AI生成语音、克隆语音越来越真实,也不乏有内容创作者开始利用AI技术来制作更新频率高的资讯类语音播报内容。
例如,播客节目《十字路口》主播就曾在一期节目中透露,得到联合创始人快刀青衣主理的一档AI资讯节目《快刀广播站》,就是只写脚本,语音部分由AI来完成,效果相当自然。
AI语音技术的发展,无疑为内容创作者提供了新的工具和可能性。
尤其是微软最近推出的多语言版晓晓,进一步展示了AI语音技术在播客内容制作中的应用潜力。可以预见,在技术抹平内容创作门槛的同时,内容创作也将前所未有的“卷”,如何打造差异化内容,是每一个创作者都需要思考的问题。
微软TTS语音体验网址:
https://azure.microsoft.com/zh-cn/free/ai-services/
微软声音定制申请网址:
https://speech.microsoft.com/portal/17e48f6eeeff471385a6dd6dc1ac94d2/customvoice/overview
李诞小卖部开张,谁在瓜分李佳琦的流量遗产?
李诞最近很火,不是因为脱口秀综艺回温,是他在小红书开了一间小卖部。近三个月来,李诞以小卖部老板的名义在小红书直播了25场,每场直播必登小红书买手榜TOP1。小卖部既卖跟他一贯酒鬼人设相符的果酒、啤酒、葡萄酒,也卖过跟他八竿子打不着关系的女性内衣、美甲,但无论如何,这些货都让李诞给卖出去了。站长网2024-08-19 09:18:440000谷歌确认裁员数百人,将在人工智能领域投入更多资源
##💡划重点:-谷歌确认将在人工智能领域投入更多资源,导致公司多个部门裁员。-裁员涉及核心工程团队、“语音助手”项目和硬件部门,具体裁员人数尚不明确。-谷歌表示这是为了提高效率、对齐资源,并支持受影响员工寻找新的职位。0002小米14系列三证齐全即将发布 搭载澎湃OS
目前,小米的两款新型号手机——23127PN0CC和23116PN5BC已经通过了工信部的认证,预计分别为小米14和小米14Pro。这标志着小米14系列已经完成了所有必要的认证程序,具备了上市销售的条件。根据此前的消息,小米CEO雷军表示,这次产品将会非常强大。不出所料,小米14系列将首发骁龙8Gen3,这是高通最强的旗舰移动平台,基于台积电N4P工艺,拥有出色的性能表现。站长网2023-10-18 21:20:110000印媒:OpenAI 可能会在 2024 年底破产 ChatGPT 需要巨大的运行成本
ChatGPT去年发布后,成为增长最快的人工智能平台之一。然而,近几个月来,最初的欣喜若狂的人数增长已经停止。OpenAI是把人工智能(AI)带入寻常百姓家的公司,但它可能面临不乐观的未来。根据AnalyticsIndiaMagazine的一份报告,按照目前的速度继续烧钱,由SamAltman领导的公司可能会在2024年底之前破产。站长网2023-08-14 14:15:340000中国移动上线骚扰电话亲情防护功能:一人拉黑 全家屏蔽
快科技6月15日消息,当今社会,诈骗套路层出不穷,老年人常常成为诈骗分子的下手对象。尤其是如今很多年轻人在外打拼,父母老人不在身边,非常容易落入电信诈骗的圈套。对此,中国移动高频骚扰电话防护”最新上线了亲情防护功能,支持将黑白名单、号段拦截等防护设置同步给其他家庭成员使用。家庭成员开通高频后,无需单独设置,防护功能同样生效。同时,自己还能收到家人的拦截通知,掌握全家的骚扰拦截情况。站长网2024-06-16 14:09:420000