
不寒而栗!AI克隆盗用别人声音 去卖不可描述保健品

前一阵子,我们突然发现了一个很离谱的事儿:
在本人完全不知情的情况下,差评君的声音,被偷去卖不可言说的保健品了。
咱不是啥声优,也不是名人歌手。可现在,逆天的 AI 已经能用 5、6 秒的样本,复刻盗用任何一个普通人的声音了。
看完了这些视频,差评君都有点怀疑自己,是不是真干过这个配音兼职,但这兼职费也没到账啊?
在这细思极恐的时刻,咱是真的很想知道,这玩意儿到底发展到啥地步了???
我们查了不少资料,发现 AI 声音克隆虽然看起来刚成熟不久,变现的赛道上却已经拥挤得很了。
首先,上游的工具准备阶段,卖铲子的老套路依然在赚。
声音克隆的工具其实不少都是免费的,像 ElevenLabs、各种 github 开源模型等等。
材料也是免费的,从各个网站视频里扒名人大 V 的语音就行,只要 10 秒左右的高质量音频,足够后续任何内容的生成了。
教程,还是免费的。视频平台上搜索一下 声音 , 克隆 关键词,相关的教程五花八门。
从复杂的开源部署,到简单的打开网页一键生成,效果看起来一个比一个吊。
把这些免费的工具、素材、教程一块打包,就能轻松卖个几分十几块。
这些技术含量极低的玩意儿,少则卖几十单,多的居然卖了两百多单。
商品详情页普遍打着 只要 x 秒样本、相似度高达 90%+、定制任何语音、情感高度还原 等等宣传语,点进去就是一波焦虑营销,号称是做自媒体必备。
到了下游,用 AI 声音克隆做什么样的 自媒体 ,才是真正赚钱的地方。
靠着这些素材和工具,利用明星的知名度和大伙儿的热情,用 AI 克隆明星声音,成了最快的起号办法。
他们甚至还把防 gank 和吸粉的经验总结起来,整出了声音克隆界的千层套路。
不想被封,就要用 杭州薛之谦 、 东北权志龙 这种擦边账号名;官方人物碰不得;绝对不要声称是本人。
想长期养号,就得多个明星声音混剪、搞点方言,或者用老明星声音钓鱼网友怀旧情怀。
可以说,平台的雷区和爽点都被玩透了。
良心一点的,不拿去盈利倒也还好。像是用明星的声音去翻唱各种歌,每天能发好几首,最高点赞也上万了。
更恶心一点的,就打着明星和家人的旗号,开始直播带烂货圈钱了。
比如前一阵子,央视也报道了声音克隆的乱象。
有的视频开局一张图,再盗用体育明星的声音,就能给 家乡 各种农副产品做代言。
一堆网友以为真是本人,纷纷下单支持,直接卖出去了 4.7 万单。
收益全被灰产吃干抹净,风险却甩锅给明星本人。
粉丝以为是偶像开新号,稀里糊涂就关注了;消费者买到烂货,骂声全冲着正主去。
声音的影响力,一点不比形象差。
最难绷的是,克隆成本极低的另一面,AI;分辨检测成了昂贵、且很难完成的任务。
我们最先找到的是这个叫 AI Voice Detector 的网站,在没有任何免费试用,效果未知的情况下,检测 AI 声音的价格最低是一个月 17.8 美元。
也就是说,别人花五十多终身使用,甚至免费搞出来的东西,我们要想去证明,每个月就要花一百多。
免费的检测倒是也有,我们也找了几个,可免费的 AI 声音克隆各有各的吊,免费的 AI 检测软件各有各的拉。
我们用浏览器插件 Hiya 测了前沿部江江的真人配音和大饼的 AI 配音,结果 AI 得分 96,真人配音 87,小丑竟是我自己啊。
做声音克隆出身的 Elevenlabs,即使有相关的技术积累也听不出是 AI。
所以,为啥现在分辨;AI;声音克隆这么难?;
造成这个局面的,一方面是因为 AI 声音合成技术,已经今非昔比了。
现在的克隆技术,使用了大量的语音数据进行训练,又把音色、情感、语调、节奏等等维度拆开建模,细节都能学得人味十足。
与克隆技术飞速发展相对的另一面,检测工具搞得实在太被动了。
他们要等新的克隆技术出现,花时间采集新数据,重新训练模型,才可能有效。
矛和盾的不均衡发展,让现在;AI;声音克隆正在逐渐失控,背离发展的初心。
本来吧,它是用来帮助我们给自己发声的。
像是咱这种搞媒体的,有了它就不用天天花那么多时间去录音修音了,一键生成,又快又省心。
对于一些发声困难的人,AI 克隆更是他们重新说话的希望。
像是演员李雪健老师,之前就通过 AI 帮助修复声音,继续表演创作。
可惜的是,这项刚刚成熟的技术,还没等来完善的使用规范,就已经被滥用了。
我们也咨询了法务冯律师,他表示,根据 《 民法典 》 第 1023 条明确规定,自然人的声音保护参照肖像权保护的规定。声音作为人格权益的一部分,具有人身专属性,未经许可不得擅自使用、复制或商业化利用。
然而,受害者的自证要比侵权麻烦得多。在这个守不住底线的互联网,你的声线也守不住了。
AI 声音克隆,正在走向和 deepfake 换脸一样的结局。
对于我们这些普通人来说,一些靠声纹识别的安全技术,比如要念出来的验证码,以后还会有效吗?
给银行打的电话,他们还能确定是我本人吗?
虽然现在声音只是被盗去给视频配音,倒是不算啥大事。但可以预见,我们距离这样的电话已经很近了:
是我是我,妈,我现在急需用钱,能先给我打 1 万块吗?