10秒,让OpenAI奥特曼为你的视频配音?80岁歌手靠此技术翻红互联网
谁能想到,2023年香港乐坛最火的一首歌,是80岁歌手尹光和AI唱的。
这首《Dear Myself》荣获“叱咤2023年香港乐坛我最喜欢的歌曲”投票榜第1位,由歌手尹光和他的AI分身共创。很多网友都感动于那句“我声线亦折旧,我把这个使命过继给AI”。
值得一提的是,80岁的尹光还成为了首个注册AI声音专利的乐坛歌手。
2023年,“AI孙燕姿”在B站出道,曾一度让声音克隆变得十分热门。
彼时,我们制作声音克隆视频,还需要单独建立一个AI声库,采集大量的人类声音标本制作数据库,后期还得通过人工调试来模拟人声。
另外,还有一种办法是基于Bert VITS等开源项目,借助大量算力支持,直接文本转语音来还原音色。这对于设备、技术要求都比较高,网上可以找到许多教程,像“手把手教大家用GPT- SoVITS(声音克隆开源项目)”,或是部署“OpenVoice和SVC”。
图片来源:B站UP主“痕继痕迹”的GPT- SoVITS教程
但现在,部分AI工具只需要10秒乃至更少的声音样本,就能完美复刻音色。
2月26日,QQ音乐上线了声音克隆功能,1分钟录制原声,即可生成个人专属音色演唱歌曲,为AI声音赛道添了一把火。
我们见识过AI合成视频、动态图片的技术,而现在合成语音也变得轻而易举。对于创作者来说,AI声音克隆究竟进化到了何种程度?还有哪些热门的AI语音合成工具?如何快速复刻出真实声音?
那么AI克隆人声要怎么做?
“头号AI玩家”体验下来,对于很多创作者来说,如果是进行剧情重制、制作游戏二创视频,或是代替个人原声进行解说,目前AI工具中的音色克隆功能其实完全够用。
借AI声音合成的热度,“头号AI玩家”也生成了一版视频:
头号AI玩家,赞2
能够听出来配音来自于哪些明星和角色吗?
视频画面采用了OpenAI最新发布的Sora生成视频,配音工具则用的是近期流行的ElevenLabs和剪映的AI音色克隆功能,依次复刻了海绵宝宝、OpenAI CEO 奥特曼(Sam Altman)、梅西以及懒羊羊的声音。
以AI音频工具ElevenLabs为例,官方表示只要上传1分钟的声音素材,就能够把任意一段音频,快速生成为中文、葡萄牙语、日语等在内的29种语言,还保留声源的音色特征和情感色彩。
具体包括以下几个步骤:
首先,登陆ElevenLabs官网(https://elevenlabs.io/),先选择“Text to Speech”创建一个新项目,然后选择“目标音色”和“声音设置”来确定输出的音色。ElevenLabs预置了十几种不同口音、语气的角色供用户选择。
如果要使用自定义的声音,我们可以点击“Add Voice”按钮,上传已经录制好的音频。
以视频中奥特曼(Sam Altman)和梅西的声音样本为例,实际操作中我们只上传了10秒的清晰音频。上传完声音素材后,就可以等待ElevenLabs进行“克隆”了。
下面可选进一步编辑,点击“说话者Speaker”重新选择声音,或者在“Voice Setting”中对声音细节进行调整。
如果觉得这个声音和原声源并不像,可以点击“Similarity”进行调整,数值越高就越像源声音。而“Style”可以调整语音风格,包括生成的语速、停顿和语气。
实测下来,“Clarity Similarity”数值在60%到75%之间,“Style”风格调整成75%至80%之间,“Stablility”调成55%-60%,音频的稳定性效果最好,声音也不会莫名其妙被改变,或者出现生成音频语速过快的情况。
另外,除了调整具体参数之外,还可以给文本添加标点符合来调整语速。比如视频中的梅西片段,我们就在“prefer”后面加了省略号,生成语速会自动减慢,一定程度上会改变表达的语气。
但实话实说,Elevenlabs的中文效果其实并没有非常出彩。如果中文音频素材只有5至10秒,生成的中文效果就更拉垮。我们上传第一版懒羊羊素材时,ElevenLabs的效果就带有明显的译制腔。
国内目前也推出了效果比较好的语音转换工具,免费可用。MiniMax上线应用“海螺问问”,其中的语音通话功能就可以克隆个人声音。
只需下载应用端,真人朗读一段儿歌就可以实现音色转换。
但相比ElevenLabs可以直接上传干音素材,国内的声音克隆工具大多采用朗读收录的方式进行复刻,暂时都不支持音频文件,一定程度上也避免了声音的滥用。
抖音旗下的视频剪辑工具剪映内置了“声音克隆”的AI功能,方便视频创作者一键实现文本到语音的转换。(相关阅读:《剪映的AI革命,字节的AI狂想》)
“头号AI玩家”此前发布的Sora相关视频,里面的视频配音就用到了AI朗读功能。
头号AI玩家,赞8
不过,这些AI音色都不是凭空而成的,大多需要采集真人声音作为声源,再进行深度学习,合成输出相似的语音音色。
还有一些专业向的声音工具,比如大饼AI、出门问问旗下的魔音工坊等,都支持一键改变创作者的音色,让音视频的创作有了延展发挥的空间。
除了丰富内容创作的形式之外,企业也在让声音变得有利可图。
2月13日,ElvenLabs上线了创作者激励机制,配音爱好者可以在ElevenLabs的语音库中分享自己的声音,并在他人使用时获得声音版权的收益。
该计划需要创作者在Voice Lab上传30分钟以上的个人音频,具体定价和使用途径都由创作者自行决定。
就像OpenAI推出GPTs创作者收益计划一样,ElevenLabs鼓励更多专业的配音演员出售他们的声音,用于更大范围的内容创作中。
评论区不少网友和配音演员都抱有乐观的心态,已经开始留言想听到“Martin Shaw”、“Dan Stevens”的AI声音了。
就现阶段的TTS(Text To Speech)技术而言,已经可以保证部分视频内容产出,比如电商带货、解说短视频、朗读录制播客。
对于内容创作者来说,AI语音克隆的应用方式多种多样,游戏、鬼畜、影视解说都有案例可供参考。从AI复活“塌房”UP主,到克隆音色鬼畜搞笑,什么都能玩。
比如,在苦等UP主更新的日子里,粉丝自己动手用AI制作想看的游戏解说。
不仅让游戏主播AI化,网友们还创造了普京分身、YouTube网红等AI平替,想让谁整活儿就让谁变声。
AI普京和普京视频通话;图片来源YouTube
AI工具大大减轻了创作者手动调音的工作量,鬼畜区UP主变得更高产了。就像UP主“女孩为何穿短裙”鸽了好久,幸亏有了AI,他才能产出这等好活。
图片来源:B站“女孩为何穿短裙”
尽管AI技术还没有完全改变人们的工作方式,但是却先改变了网友整活儿的表现形式。
还有一些中小电商商家会用AI来制作口播素材,像抖音平台流行的AI数字人带货,背后都有音色克隆的身影。
更有甚者,利用AI克隆声音后转成多语言版本,让自己的内容出海。随着AI语音合成技术的门槛逐渐降低,多语言分发成为不少创作者的选择。不少人选择以这种方式开拓更多渠道,笼络更多受众,获得更多流量。
从2023年AI生成披头士的最后一曲,到80岁歌手尹光AI共创,乃至助力创作者的高效产出,我们可以看到AI带来的时间、声音以及内容的延续性。
或许AI无法替代任何人事物,至少在未来,有了AI,你的一切都可以打破边界,开拓出新的内容创意和商业价值。
阿里魔搭社区开源 Mistral AI 旗下新模型 Mistral7B
阿里巴巴达摩院模型开源社区ModelScope宣布开源法国人工智能初创公司MistralAI旗下新模型Mistral7B,可免费商用。据悉,Mistral7B在公开提供的指令数据集上进行了微调后的模型Mistral7BInstruct,在MT-Bench上超越了其他7B模型,并可与13B聊天模型相媲美。mistral-7b-instruct模型链接:站长网2023-10-16 08:35:090000上汽通用汽车与特斯拉中国开启充电网络互联互通合作
上汽通用汽车与特斯拉中国宣布开启充电网络互联互通合作。从2023年底开始,上汽通用汽车旗下的凯迪拉克和别克品牌奥特能纯电车型的车主可以通过相关App,利用充电地图功能在特斯拉开放的超级充电站和目的地充电站进行充电。站长网2023-11-10 16:36:080000胖东来不好惹,同行傻眼了
胖东来出了个不大不小的事情,美食城员工蹲下尝面,未清洗筷子就在锅里搅拌,然后被人拍到发网上了。(新闻来自环球网,转自北京日报)后续胖东来调查发现这个面不是面向客户的,而是针对内部的员工餐。但不重要,胖东来没有一点含糊,迅速就做了回应,开除员工停业惩罚相关管理者,大家可以看一下。站长网2024-02-18 14:09:180000Disney+电影《舞会契约》中AI演员再次被VFX艺术家批评存在更多缺陷
**划重点:**-🎭VFX艺术家对《舞会契约》中的AI背景演员提出批评,质疑数字替身的必要性并暗示可能有掩盖行为。-🤖SAG-AFTRA罢工引发对好莱坞使用AI和替代真实演员的担忧,而《舞会契约》中的效果受到质疑。-📜SAG-AFTRA和AMPTP之间的协议可能会影响电影中AI的使用,但具体细节尚未公开。站长网2023-11-13 17:20:370003昆仑万维:天工大模型支持1万字以上文本对话 将进一步开放插件商店
在近日的交流会上,昆仑万维CEO方汉预测,未来AIGC(又称生成式AI)或将成为下一个对标互联网规模的超级机遇。站长网2023-06-03 10:46:290000