首页站长资讯10秒，让OpenAI奥特曼为你的视频配音？80岁歌手靠此技术翻红互联网

19356

10秒，让OpenAI奥特曼为你的视频配音？80岁歌手靠此技术翻红互联网

站长网2024-02-28 17:58:540阅

谁能想到，2023年香港乐坛最火的一首歌，是80岁歌手尹光和AI唱的。

这首《Dear Myself》荣获“叱咤2023年香港乐坛我最喜欢的歌曲”投票榜第1位，由歌手尹光和他的AI分身共创。很多网友都感动于那句“我声线亦折旧，我把这个使命过继给AI”。

值得一提的是，80岁的尹光还成为了首个注册AI声音专利的乐坛歌手。

2023年，“AI孙燕姿”在B站出道，曾一度让声音克隆变得十分热门。

彼时，我们制作声音克隆视频，还需要单独建立一个AI声库，采集大量的人类声音标本制作数据库，后期还得通过人工调试来模拟人声。

另外，还有一种办法是基于Bert VITS等开源项目，借助大量算力支持，直接文本转语音来还原音色。这对于设备、技术要求都比较高，网上可以找到许多教程，像“手把手教大家用GPT- SoVITS（声音克隆开源项目）”，或是部署“OpenVoice和SVC”。

图片来源:B站UP主“痕继痕迹”的GPT- SoVITS教程

但现在，部分AI工具只需要10秒乃至更少的声音样本，就能完美复刻音色。

2月26日，QQ音乐上线了声音克隆功能，1分钟录制原声，即可生成个人专属音色演唱歌曲，为AI声音赛道添了一把火。

我们见识过AI合成视频、动态图片的技术，而现在合成语音也变得轻而易举。对于创作者来说，AI声音克隆究竟进化到了何种程度?还有哪些热门的AI语音合成工具?如何快速复刻出真实声音?

那么AI克隆人声要怎么做?

“头号AI玩家”体验下来，对于很多创作者来说，如果是进行剧情重制、制作游戏二创视频，或是代替个人原声进行解说，目前AI工具中的音色克隆功能其实完全够用。

借AI声音合成的热度，“头号AI玩家”也生成了一版视频:

头号AI玩家，赞2

能够听出来配音来自于哪些明星和角色吗?

视频画面采用了OpenAI最新发布的Sora生成视频，配音工具则用的是近期流行的ElevenLabs和剪映的AI音色克隆功能，依次复刻了海绵宝宝、OpenAI CEO 奥特曼（Sam Altman）、梅西以及懒羊羊的声音。

以AI音频工具ElevenLabs为例，官方表示只要上传1分钟的声音素材，就能够把任意一段音频，快速生成为中文、葡萄牙语、日语等在内的29种语言，还保留声源的音色特征和情感色彩。

具体包括以下几个步骤:

首先，登陆ElevenLabs官网（https://elevenlabs.io/），先选择“Text to Speech”创建一个新项目，然后选择“目标音色”和“声音设置”来确定输出的音色。ElevenLabs预置了十几种不同口音、语气的角色供用户选择。

如果要使用自定义的声音，我们可以点击“Add Voice”按钮，上传已经录制好的音频。

以视频中奥特曼（Sam Altman）和梅西的声音样本为例，实际操作中我们只上传了10秒的清晰音频。上传完声音素材后，就可以等待ElevenLabs进行“克隆”了。

下面可选进一步编辑，点击“说话者Speaker”重新选择声音，或者在“Voice Setting”中对声音细节进行调整。

如果觉得这个声音和原声源并不像，可以点击“Similarity”进行调整，数值越高就越像源声音。而“Style”可以调整语音风格，包括生成的语速、停顿和语气。

实测下来，“Clarity Similarity”数值在60%到75%之间，“Style”风格调整成75%至80%之间，“Stablility”调成55%-60%，音频的稳定性效果最好，声音也不会莫名其妙被改变，或者出现生成音频语速过快的情况。

另外，除了调整具体参数之外，还可以给文本添加标点符合来调整语速。比如视频中的梅西片段，我们就在“prefer”后面加了省略号，生成语速会自动减慢，一定程度上会改变表达的语气。

但实话实说，Elevenlabs的中文效果其实并没有非常出彩。如果中文音频素材只有5至10秒，生成的中文效果就更拉垮。我们上传第一版懒羊羊素材时，ElevenLabs的效果就带有明显的译制腔。

国内目前也推出了效果比较好的语音转换工具，免费可用。MiniMax上线应用“海螺问问”，其中的语音通话功能就可以克隆个人声音。

只需下载应用端，真人朗读一段儿歌就可以实现音色转换。

但相比ElevenLabs可以直接上传干音素材，国内的声音克隆工具大多采用朗读收录的方式进行复刻，暂时都不支持音频文件，一定程度上也避免了声音的滥用。

抖音旗下的视频剪辑工具剪映内置了“声音克隆”的AI功能，方便视频创作者一键实现文本到语音的转换。（相关阅读:《剪映的AI革命，字节的AI狂想》）

“头号AI玩家”此前发布的Sora相关视频，里面的视频配音就用到了AI朗读功能。

头号AI玩家，赞8

不过，这些AI音色都不是凭空而成的，大多需要采集真人声音作为声源，再进行深度学习，合成输出相似的语音音色。

还有一些专业向的声音工具，比如大饼AI、出门问问旗下的魔音工坊等，都支持一键改变创作者的音色，让音视频的创作有了延展发挥的空间。

除了丰富内容创作的形式之外，企业也在让声音变得有利可图。

2月13日，ElvenLabs上线了创作者激励机制，配音爱好者可以在ElevenLabs的语音库中分享自己的声音，并在他人使用时获得声音版权的收益。

该计划需要创作者在Voice Lab上传30分钟以上的个人音频，具体定价和使用途径都由创作者自行决定。

就像OpenAI推出GPTs创作者收益计划一样，ElevenLabs鼓励更多专业的配音演员出售他们的声音，用于更大范围的内容创作中。

评论区不少网友和配音演员都抱有乐观的心态，已经开始留言想听到“Martin Shaw”、“Dan Stevens”的AI声音了。

就现阶段的TTS（Text To Speech）技术而言，已经可以保证部分视频内容产出，比如电商带货、解说短视频、朗读录制播客。

对于内容创作者来说，AI语音克隆的应用方式多种多样，游戏、鬼畜、影视解说都有案例可供参考。从AI复活“塌房”UP主，到克隆音色鬼畜搞笑，什么都能玩。

比如，在苦等UP主更新的日子里，粉丝自己动手用AI制作想看的游戏解说。

不仅让游戏主播AI化，网友们还创造了普京分身、YouTube网红等AI平替，想让谁整活儿就让谁变声。

AI普京和普京视频通话;图片来源YouTube

AI工具大大减轻了创作者手动调音的工作量，鬼畜区UP主变得更高产了。就像UP主“女孩为何穿短裙”鸽了好久，幸亏有了AI，他才能产出这等好活。

图片来源:B站“女孩为何穿短裙”

尽管AI技术还没有完全改变人们的工作方式，但是却先改变了网友整活儿的表现形式。

还有一些中小电商商家会用AI来制作口播素材，像抖音平台流行的AI数字人带货，背后都有音色克隆的身影。

更有甚者，利用AI克隆声音后转成多语言版本，让自己的内容出海。随着AI语音合成技术的门槛逐渐降低，多语言分发成为不少创作者的选择。不少人选择以这种方式开拓更多渠道，笼络更多受众，获得更多流量。

从2023年AI生成披头士的最后一曲，到80岁歌手尹光AI共创，乃至助力创作者的高效产出，我们可以看到AI带来的时间、声音以及内容的延续性。

或许AI无法替代任何人事物，至少在未来，有了AI，你的一切都可以打破边界，开拓出新的内容创意和商业价值。

10秒让OpenAI奥特曼为你的视频配音80岁歌手靠此技术翻红互联网

0000

评论列表

共(0)条

相关推荐

站长资讯
研究：AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%
文章概要:1.AI模型在回答Java编码问题时，仍存在许多API误用问题。GPT-3.5和GPT-4的API误用率分别达到49.83%和62.09%。2.Llama2API误用率最低，但由于它生成的代码较少，误导性很大。一旦生成更多代码，其误用率也大幅上升。3.添加相关API使用示例能稍微改善结果，但仍有改进空间。代码的可靠性和稳健性仍是难题。
站长网2023-08-30 16:43:28
0000
站长资讯
软银寻求与 OpenAI 合作：孙正义计划在 Arm IPO 后大举交易
站长之家(ChinaZ.com)9月18日消息:据FinancialTimes报道，日本综合企业SoftBank（软银集团）的创始人兼首席执行官孙正义有意投资于人工智能（AI）公司，其中包括OpenAI，此前他已成功将芯片技术公司Arm上市。知情人士称，SoftBank可能会与OpenAI形成战略合作伙伴关系，并考虑投资该公司的竞争对手。
站长网2023-09-18 09:46:19
0000
站长资讯
植物系穿搭热度不减，商家如何在小红书乘上内容趋势的东风？
把自己打扮成一棵树，去自由拥抱旷野，这是年轻人“去除班味”的新晋计划。在最具生活气息的小红书上，近期最流行的放松项目，是穿上一身“植物系穿搭”拥抱大自然。醒目的苔藓绿搭配着大地色系、米色鹅黄，小雏菊、玫瑰花、甜橙竞相在衣摆、裙裾上绽放，“盛夏”扑面而来。
站长网2024-08-15 23:30:59
0001
站长资讯
Rerender A Video源代码放出！解决AI视频闪烁问题
RerenderAVideo是一项令人印象深刻的技术成果，它旨在将大型文本到图像扩散模型的能力扩展到视频领域。该项目提出了一种零训练的文本引导视频到视频翻译框架，能够在视频帧之间确保时间一致性，这一直是一个巨大的挑战。它包括两个主要部分:关键帧翻译和完整视频翻译。第一部分使用适应的扩散模型生成关键帧，通过应用层次交叉帧约束来强化形状、纹理和颜色的连贯性。
站长网2023-09-26 11:44:41
0001
站长资讯
亚马逊 AWS 正在考虑使用 AMD 的新 MI300X 人工智能芯片
亚马逊网络服务（AmazonWebServices，简称AWS）是全球最大的云计算提供商，据一位AWS高管告诉路透社，该公司正在考虑使用来自AMD的新人工智能芯片，但尚未做出最终决定。这一消息是在AMD举办的一次活动上透露的，该活动中该芯片公司概述了其在人工智能市场上的战略，该市场目前由竞争对手英伟达主导。
站长网2023-06-15 07:10:24
0000