三只羊卢总的录音AI到底能不能做出来?我的答案是:当然能。
今天凌晨,N多人给我发了一张图,说警方通报了,问我到底怎么看三只羊录音是不是AI这事。
还有朋友跟我说,有个号称国内AI第一人的,之前信誓旦旦的说这录音必不可能是AI,AI做不出来。所以这个通报背后,会不会背后是有些阴谋论?
我差点都喷了,国内AI第一人?我第一反应是院士也下场参加这种无聊的事了?
然后查了一下...哦.....算了不提了。
我觉得我有必要科普一下,就是AI到底能不能做到三只羊卢总录音级别?
我可以明确的给你一个回答,是:能。
先简单说下前情提要。
三只羊跟辛巴有一段乱七八糟的风波,反正就是互相掐架,你来我往,好不热闹。
然后风波正甚时,三只羊董事长卢文庆的一段炸裂的录音被全网疯传。
就是这个,我做了删减,其中一些不雅片段我也全部消音处理了。
三只羊卢总的录音AI到底能不能做出来?我的答案是:当然能。
内容炸裂不堪入耳,信量极大且内容十分惊人,其中涉及权斗、出轨等等等,总结一下就是卢总自爆和三只羊所有女主播有过不正当的关系。还点名看不起张一鸣。。。
大概就是这么个事,然后三只羊就举报了,说这录音是AI合成的。
网上就吵得不可开交了,大部分人最大的理解就是,AI做不出来这种级别的录音,为什么?因为那个“国内AI第一人”说的。
这段录音听着很真实对吧,有情绪有方言有杂音,所以问题其实就是两个,这段录音,到底是不是AI做的?以及,AI到底能不能做到这种级别的录音?
第一个问题,今天已经有了答案,我永远无条件相信我们的公安,他们发布的通报,我也相信就是事实,这个没有任何可以争议的。所以第一个问题的答案相当明确,那就是AI做的。
那么第二个问题,最关键的来了,AI到底能不能做到这种级别的录音。
我的答案,当然能。
首先,我需要在这里科普一下,AI是个大类,而在细分里面还有很多赛道。
有语言大模型(GPT、Claude、豆包等等),有AI绘图(MJ、SD、FLUX等等),有AI音频(11Labs、SVC、GPT-Sovtis、Suno等等)、有AI视频(Runway、可灵、豆包、Pixverse等等)、有AI3D(TripoAI、Meshy等等)。
而AI音频里,又分为AI生成音乐、AI生成音效、声音克隆。
这个录音,属于声音克隆这个赛道里面的。
所以不要说AI能做出来这个就比OpenAI比ChatGPT还要牛逼,都不是一个赛道的,有啥可比的,就像你说哇这个洗衣机洗衣服真牛逼,比那个冰箱还要牛逼。。。
而声音克隆,又分为两种:TTS(文本生成语音)、SVC(AI换声)。
TTS就是给一段一个人的人声,只要几秒几十秒的素材,就能训练一个AI模型,然后直接用文字就能生成特定人声音音频的语音合成,现在最好的开源项目应该是GPT-sovits。
SVC你就可以通俗的理解成AI换声,就是AI时代的变声器。现在AI变声器领域三个扛把子项目:So-vits-svc、RVC、DDSP。
OK,现在清楚在AI声音克隆领域,也有两种手段来实现声音伪造了吧。
TTS项目,优点是数据要求短,5秒的音频素材就行,就能克隆你的声音,后续只要给文本就能生成音频,成本极低效果极快。但是缺点就是,情绪、停顿、真实度的上限都很低,听个几十秒,就能非常轻松的听出来哦这个是AI味道。
而之前,大家觉得AI做不了卢总的音频伪造,都是先入为主的带入了TTS的思路,觉得一定是用TTS做出来的。
非常坦率的讲,TTS做卢总这种级别的音频,就我所知道的市面上公开的产品(不包括各大公司内部实验室的项目),确实有点难。
但是,思路打开,TTS做不了这个,但是SVC呢?
SVC的缺点,就是成本高,需要起步30分钟的音频数据集,然后跑几个小时的炼丹训练这个人的人声模型,最后还需要再找一个人录一段音频,再用SVC换声,把音色替换过去。
而优点就非常的直白了,这玩意能保留说话人的所有情绪、停顿、语气、方言等等等等,质量上限约等于无限,只要模型好,你根本听不出来这到底是不是AI的。
连歌声都可以无缝换声,换你个说话声音,简直就是个小case了好吧。
去年爆火的AI孙燕姿,就是拿svc做的。
央视点赞国产AI复活召唤术,兵马俑竟与宝石老舅对唱Rap?
沉睡了两千多年的兵马俑,苏醒了?一句秦腔开场,将我们带到了黄土高原。如果不是亲眼所见,很多观众可能难以想象,有生之年还能看到兵马俑和宝石Gem同台对唱《从军行》。「青海长云暗雪山,孤城遥望玉门关。」古调虽存音乐变,声音依旧动人情:站长网2024-07-04 09:16:100000Advisory与ChatGPT开发者合作推出生成式AI工具NoraGPT
**划重点:**1.🤖Advisory与ChatGPT开发者OpenAI合作,推出自定义生成式AI工具NoraGPT。2.💡NoraGPT在Advisory内部安全环境中使用,具有人类般的记忆能力,助力文件管理。3.💼Advisory首席执行官KevinLavin表示,NoraGPT将广泛应用于欺诈检测、安全领域,并预计在各个方面带来显著影响。站长网2024-02-18 11:05:000000当代打工人,被迫患上“文字讨好症”
“文字讨好症”,指为了展示自己的友善,缓和语气,在一句话末尾加上各类语气助词和标点符号,时常发生在线上对话场景,例如公司内部通讯工具和微信对话框里。站长网2023-05-30 11:29:570000史上最贵“蹦迪票”!神秘买家8万拍下椰树直播间蹦迪权:1秒单价2698元
直播带货早已成为如今大大小小商家营销的主要方式,面对同质化的直播风格,椰树集团的直播方式熟悉”又新颖。日前,椰树集团入驻淘宝直播,直播首秀前,椰树在淘宝拍卖上上架直播间蹦迪权”,50元起拍,拍中的粉丝就能在直播间和椰树模特团共舞30秒。目前,这张蹦迪票”拍卖结果已经出炉,由一位神秘买家花80930的价格拍下,堪称史上最贵蹦迪票”。站长网2023-06-03 15:40:240000影视飓风致歉上热搜:之前手机眩光测试中存在规则漏洞
近日,针对vivoX200Pro的眩光评测问题,@影视飓风MediaStorm在10月23日发表视频进行了回应,并额外购买了两台零售版手机进行补充测试。根据本次测试的结果,vivoX200Pro的长焦和超广角镜头在没有强烈光源直射的情况下,不会出现条状眩光问题,但一倍镜在特定条件下会出现这种现象。站长网2024-10-24 15:16:100001