三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

站长网2024-10-04 14:42:550阅

今天凌晨，N多人给我发了一张图，说警方通报了，问我到底怎么看三只羊录音是不是AI这事。

还有朋友跟我说，有个号称国内AI第一人的，之前信誓旦旦的说这录音必不可能是AI，AI做不出来。所以这个通报背后，会不会背后是有些阴谋论?

我差点都喷了，国内AI第一人?我第一反应是院士也下场参加这种无聊的事了?

然后查了一下...哦.....算了不提了。

我觉得我有必要科普一下，就是AI到底能不能做到三只羊卢总录音级别?

我可以明确的给你一个回答，是:能。

先简单说下前情提要。

三只羊跟辛巴有一段乱七八糟的风波，反正就是互相掐架，你来我往，好不热闹。

然后风波正甚时，三只羊董事长卢文庆的一段炸裂的录音被全网疯传。

就是这个，我做了删减，其中一些不雅片段我也全部消音处理了。

三只羊卢总的录音AI到底能不能做出来?我的答案是:当然能。

内容炸裂不堪入耳，信量极大且内容十分惊人，其中涉及权斗、出轨等等等，总结一下就是卢总自爆和三只羊所有女主播有过不正当的关系。还点名看不起张一鸣。。。

大概就是这么个事，然后三只羊就举报了，说这录音是AI合成的。

网上就吵得不可开交了，大部分人最大的理解就是，AI做不出来这种级别的录音，为什么?因为那个“国内AI第一人”说的。

这段录音听着很真实对吧，有情绪有方言有杂音，所以问题其实就是两个，这段录音，到底是不是AI做的?以及，AI到底能不能做到这种级别的录音?

第一个问题，今天已经有了答案，我永远无条件相信我们的公安，他们发布的通报，我也相信就是事实，这个没有任何可以争议的。所以第一个问题的答案相当明确，那就是AI做的。

那么第二个问题，最关键的来了，AI到底能不能做到这种级别的录音。

我的答案，当然能。

首先，我需要在这里科普一下，AI是个大类，而在细分里面还有很多赛道。

有语言大模型（GPT、Claude、豆包等等），有AI绘图(MJ、SD、FLUX等等)，有AI音频(11Labs、SVC、GPT-Sovtis、Suno等等)、有AI视频(Runway、可灵、豆包、Pixverse等等)、有AI3D(TripoAI、Meshy等等)。

而AI音频里，又分为AI生成音乐、AI生成音效、声音克隆。

这个录音，属于声音克隆这个赛道里面的。

所以不要说AI能做出来这个就比OpenAI比ChatGPT还要牛逼，都不是一个赛道的，有啥可比的，就像你说哇这个洗衣机洗衣服真牛逼，比那个冰箱还要牛逼。。。

而声音克隆，又分为两种:TTS（文本生成语音）、SVC(AI换声)。

TTS就是给一段一个人的人声，只要几秒几十秒的素材，就能训练一个AI模型，然后直接用文字就能生成特定人声音音频的语音合成，现在最好的开源项目应该是GPT-sovits。

SVC你就可以通俗的理解成AI换声，就是AI时代的变声器。现在AI变声器领域三个扛把子项目:So-vits-svc、RVC、DDSP。

OK，现在清楚在AI声音克隆领域，也有两种手段来实现声音伪造了吧。

TTS项目，优点是数据要求短，5秒的音频素材就行，就能克隆你的声音，后续只要给文本就能生成音频，成本极低效果极快。但是缺点就是，情绪、停顿、真实度的上限都很低，听个几十秒，就能非常轻松的听出来哦这个是AI味道。

而之前，大家觉得AI做不了卢总的音频伪造，都是先入为主的带入了TTS的思路，觉得一定是用TTS做出来的。

非常坦率的讲，TTS做卢总这种级别的音频，就我所知道的市面上公开的产品（不包括各大公司内部实验室的项目），确实有点难。

但是，思路打开，TTS做不了这个，但是SVC呢?

SVC的缺点，就是成本高，需要起步30分钟的音频数据集，然后跑几个小时的炼丹训练这个人的人声模型，最后还需要再找一个人录一段音频，再用SVC换声，把音色替换过去。

而优点就非常的直白了，这玩意能保留说话人的所有情绪、停顿、语气、方言等等等等，质量上限约等于无限，只要模型好，你根本听不出来这到底是不是AI的。

连歌声都可以无缝换声，换你个说话声音，简直就是个小case了好吧。

去年爆火的AI孙燕姿，就是拿svc做的。

三只羊卢总的录音AI到底能不能做出来我的答案是当然能

0000

评论列表

共(0)条

相关推荐

站长资讯
先鹤岗后淄博，下一座年轻人捧红的城市会是谁？
“没人知道，淄博、鹤岗、大理之后，下一座突然爆红的城市会是谁。因为我们不知道年轻人怎么想的，也就无从知道他们会突然爱上哪座城市。”在某旅游平台的运营王蜻看来，现在年轻人喜欢上一座城市，可能并不是景色多优美，或者是气候多宜人，有时候就是一串烧烤，一栋便宜的房子，或者是一片海。
站长网2023-05-09 14:00:15
0000
Stability AI 推出稳定视频扩散 API 插件引起争议
站长之家(ChinaZ.com)12月22日消息:StabilityAI，以其稳定扩散文本到图像生成器而著称的公司，近日宣布推出新的基础图像到视频模型——稳定视频扩散（StableVideoDiffusion，SVD），并已在其开发者平台上通过应用程序编程接口(API)提供。这一举措允许第三方开发者将该模型整合到他们的应用程序、网站、软件和服务中。
站长网站长资讯2023-12-22 10:28:44
0000
站长资讯
智谱的“GPT-4V”来了，CEO张鹏说他们就是奔着AGI去的
时隔仅仅四个月，智谱大模型再度升级。在沈阳举办的2023中国计算机大会CNCC2023上，智谱介绍了新一代ChatGLM3大模型。根据智谱官方的表述，尽管新的大模型名字中带有Chat，但实际上这是一个全新版本的基座模型，它的完全版和上一代一样拥有1300亿参数。这次的升级除了常规的性能部分外，智谱还特别提到了几项新能力，用智谱CEO的话说，这是“瞄向GPT-4V的技术升级”。
站长网2023-10-30 18:09:52
0000
站长资讯
日本研发出开车机器人：时速5公里只能开直线和右转
快科技7月15日消息，据报道，日本东京大学河原塚健人团队研发一款可以驾驶普通汽车的机器人。该机器人名为武藏，有74块肌肉”和39个关节，它每只手有五根手指，手脚上都有压力传感器。它能够执行复杂的任务，例如转动方向盘、踩踏板、使用手刹、转动点火钥匙，甚至使用指示灯。机器人的眼睛，配备了与人工智能系统相连的高分辨率摄像头，这使它能够识别后视镜中的行人，并对交通信号灯变换等做出反应。
站长网2024-07-15 21:36:38
0000
站长资讯
马斯克称推特正在测试一个名为文章的新功能
theverge报道称，埃隆·马斯克透露，推特正在开发一项功能，让你可以在平台上发布文章。马斯克在回复一位用户关于这个正在开发中的工具的推文时说，这个功能将“允许用户发布非常长、复杂的文章，包含混合媒体”。他说，“你想的话，可以发布一本书。”
站长网2023-07-19 19:18:29
0000