“音色是配音演员立命的根本之一,当你特有的一大杀手锏能被别人擅自使用的时候,会对前途如何有些迷茫和恐惧。”
两年前,谢添天发现自己的声音被一款APP“盗”走——用户输入文本,即可用他的音色生成以假乱真的AI声音。维权半年,因举证难度太高,最终以和解和对方致歉了结。
两年后,一场大规模的联合发声,将AI盗声侵权的乱象彻底推到了公众视野。数十名知名配音演员、头部配音公司于近期发出严正声明,反对未经授权,擅自采集其声音素材用于AI训练、音色合成及商业变现的行为。作为知名配音演员及头部配音公司音熊联萌的CEO,谢添天也加入了这场“声音保卫战”。
近日,南都记者独家专访谢添天及其当时维权的代理律师谢佳佳,从他们的亲身经历一窥维权的艰难,并采访法律人士及语音生成技术专家,试图追问——发声了,然后呢?
A
被盗的声音:
从配音演员到名人,AI盗声乱象频发
谢添天第一次发现自己的声音被盗用,源自一名新人配音演员向他求助——他配过的角色,被篡改为相似的名字,堂而皇之地放在一款未经授权的APP里,任何人输入文字,就能生成这个角色的语音——这让他觉得很不舒服。
“我们点进去一看,结果发现不止他一个人。”谢添天回忆,那款APP里列出了一连串角色名字,包括他自己,同公司的夏磊、柯暮卿,还有不少知名配音演员配过的角色,“基本上有些流量的角色都在里面,只是改了一个近似原版的名字”。
这些用AI合成的声音,直接截取演员过往作品的语音训练而成,和角色原声高度相似。“不仔细听的话,我也需要反应一下:我说过这句话吗?采样足够多的话,AI确实能做到以假乱真。”
听着AI克隆自己的音色,说着自己从未说过的话,谢添天有一种“微妙的感觉”。一方面“有一种自己演绎的角色得到了认可”的黑色幽默感,但更多的是“对未知的恐惧”。“音色是配音演员立命的根本之一,当你特有的一大杀手锏能被别人擅自使用的时候,会对前途如何有些迷茫和恐惧。”
在3月这场集体发声中,众多配音演员的发文也在诉说着这样的恐惧,以及愤怒。知名配音演员史泽鲲在社交平台表示,就AI盗用声音侵权一事已委托律所正式发起诉讼,并附上举报邮箱。“本人不授权任何AI使用我声音进行模型训练以及AI作品。法庭见。”他还在个人账号的简介栏自嘲般写道:“代表作《各种偷我声音生成的动漫》。”透露着抗议与无奈。
谢添天及其公司在社交平台发声。
部分配音演员的发文。
除了配音演员,AI盗声现象早已蔓延至范围更广的名人群体。早在2023年,一批复刻孙燕姿、周杰伦等知名歌手音色的AI翻唱歌曲已引发讨论。2024年,“雷军AI配音”被大量用于恶搞、谩骂视频,短视频平台相关播放量高达1.2亿次。今年2月,杨幂方披露AI伪造声音侵权案胜诉细节,被告未经授权,利用AI合成与杨幂音色、语调、发音风格高度一致的声音。
就在此次配音演员集体发声不久后,霍启刚也发长文讲述自己深受AI盗声、盗样貌的困扰,“事实上,过去半年随着AI技术的普及,这类情况越来越夸张,至今我已经处理了几千条相关的假内容,还要安排同事专职跟进,每天都要投诉反馈,但是每天依然有非常大量类似的新发布。”
霍启刚近期发文。
AI盗声侵权现象不仅发生在内娱,相似的困境也蔓延至全球多个国家和地区。今年2月,中国香港配音从业员工会连同近90名配音员发出联合声明,未经同意不得以任何形式录制、收集、使用、修改、编辑或复制声明人之声音样本,作为生成式人工智能训练、模拟、语音合成。同样在今年2月,数百名德国配音演员集体拒签要求其同意将录音用于AI训练的合约。2024年,日本26名配音演员发起“NOMORE 擅自生成AI”行动,对近年未经授权利用其声音训练AI模型的情况表达抗议。
B
维权有多难:
为了举证,人要反向模仿AI模仿自己的声音
AI盗声侵权现象频发且门槛极低,维权却举步维艰。多位受访者表示,维权过程中面临的举证难、法律适用标准不统一、溯源难等现实问题,是许多被侵权者共同的无奈。
即便像谢添天这样具有行业影响力的配音演员,也在维权进行半年之后,选择与侵权方和解,仅要求对方公开致歉和象征性赔偿。“一方面,考虑对方是创业大学生不容易,初衷可能也没有恶意。”然而谢添天也坦言,“另一方面,当时我们跟律师团队多方了解,法律对AI盗声的事实认定门槛非常高,这件事如果拖很久且没有更好的结果,不如尽快了结,也为行业提供一次借鉴。”
举证难度之大是横亘在维权之路上的首要难题。相比起可看见的具象化的“脸”,“声音”的比对更为抽象。上海融力天闻律师事务所杭州办公室主任、高级合伙人杨阳是近期判决的全国首例动漫配音AI化不正当竞争纠纷案原告方代理律师,他代表知名动漫角色所属公司在该案件中获得胜诉。他向南都记者指出,目前的认定难点主要在于声音的比对,“因为声音不像正常的文字、图片或视频作品,有具象化的表现形式,可以比较直观地进行比对判断。专业的司法鉴定包括了频谱、声纹分析、声学特征比对等一系列流程。”
上海至合律师事务所律师谢佳佳全程参与了谢添天的维权,她对南都记者表示,AI合成声音并非直接使用原声音片段,而是通过对声音样本数据处理后新生成声音,这一AI化的过程会使声音的声学特征发生转变,导致鉴定结果不准确。
于是,为了证明AI合成的声音盗用自本人,一件颇具荒诞感的事情发生了:谢添天要反过来模仿AI模仿自己的声音。他解释,法院通常要求对同一句话进行比对,然而由于配音演员在不同角色、不同剧情中会使用不同状态的声音,且人的声音会随着年岁增长而变化,“我不知道侵权方给AI学习的样本来自我的哪个角色、哪个时期、哪种情绪的声音,只能靠猜,然后我再要还原自己当时的那个声音状态,讲出AI生成的内容。”有时,他甚至还要用不同状态录制好几个版本,从而找出最像AI模仿自己的那一版。举证的繁琐,由此可见一斑。
然而,即使“听上去像”,也未必能找到权威的鉴定机构出具详细的报告。谢佳佳告诉南都记者,由于AI仿声仍是一项新技术,目前市面上能够为此背书的权威鉴定机构不多。“我们去沟通了这样的机构,但它能给出的鉴定结果也非常粗放,对于两个声音是否指向同一人,它只能给出‘是、不是、不确定’三种判断,而无法提供相似度的比例。”
此外,溯源难、维权成本高而收益低的反差,也让很多被侵权者望而却步。“可能隔两三个月又会发现一家,而且你也不知道它背后是同一家换了皮,还是不同家,有一种很无力的感觉。”谢添天说。谢佳佳也指出,“侵权方用AI轻易就能生成声音,就算被发现,侵权内容说下架就下架;而维权方往往需要投入大量的人力物力,也不一定能抓到它。”
还有一类鲜被公开谈及的原因是保密协议的要求。谢添天透露,不少商业价值高的影视和游戏项目,均要求配音演员严格保密角色配音者,“这意味着配音演员一旦维权,某种程度上就等于泄密,因此只能由角色所属公司去起诉。”然而,部分甲方不愿介入或持观望态度,导致配音演员维权陷入两难。
C
技术视角:
侵权治理技术基本可行,但标准不足
香港中文大学(深圳)人工智能与机器人硕士项目主任,国家级青年人才,安菲翁科技创始人武执政是语音交互、语音生成、音频鉴伪领域的专家,他向南都记者详解AI音色克隆的技术原理、在文娱领域的滥用原因及治理建议,为声音权益保护提供了技术层面的思考。
武执政介绍,AI克隆音色涉及语音生成技术,AI通过语音表征学习+声音合成模型,把一个人的声音特征(音色、语气、节奏等)抽取出来,再用这些特征去生成新的语音内容。通常AI利用互联网上数十万小时数据进行学习。
谈及该项技术在文娱领域被滥用导致侵权频发的现象,武执政分析,从技术本身来看,音色克隆并不区分应用场景,但在文娱领域,它与“角色IP、情感表达和商业价值”高度绑定,是直接作用于“声音即IP”的核心资产,因此更容易被放大,也更容易被滥用。“当技术门槛迅速下降、商业激励持续放大,而规则体系尚未完全建立时,滥用现象的集中出现,其实是一个阶段性的必然结果。”
那么,除了商业上的原因,就当前AI语音大模型的训练情况而言,学习名人或具有强辨识度的声音是必要的吗?若将这样的声音排除,是否会导致训练样本缩水,从而造成技术停滞?
武执政解释,从技术角度来看,AI语音大模型的训练并不依赖于某一个具体名人或角色IP的声音,模型真正需要的是多样化的语音分布与声学规律,而不是特定个体本身。因此,学习名人或具有强辨识度的声音,并不是技术发展的“必要条件”。相反,大规模的通用语音数据、合成数据以及经过授权的专业语料,已经足以支撑当前高水平语音模型的训练。从这个意义上说,将“必须使用名人声音”与“技术能否进步”直接挂钩,其实是一种误解。
“但另一方面,我们也需要承认,具有鲜明特征的声音在应用层具有更高的商业价值和用户吸引力,这也是为什么相关争议会集中在文娱领域。因此,问题的关键不在于‘能不能学’,而在于‘如何合规地用’。”
他指出,一方面,不同技术方案之间缺乏统一规范,检测结果难以直接转化为法律认定;另一方面,音色本身具有一定的可变性与主观感知属性,使得“高度相似”的界定天然存在模糊空间。因此,未来真正的突破不只是依赖模型或检测技术的提升,更关键在于建立跨技术、平台与法律的协同体系,包括明确相似性判定标准、强化平台侧责任以及完善司法认定机制,从而在保护创新的同时,更有效地保障声音权利不被滥用。
D
声音“保卫战”:
技术狂奔时,我们可以做什么?
集体发声不是终点,如何规范AI仿声技术在文娱领域的使用,保护声音权益,成为亟待解决的问题。
在个体层面,配音演员应提高权利意识,积极采取措施保护自己的声音。谢佳佳建议,对于不知名的配音演员,要正视自己声音的价值,签合同时避免稀里糊涂“一揽子”转让声音权益;发现侵权时可采用时间戳等低成本方式固定证据,并积极加入行业组织,借助集体力量维权。对于相对更有社会声量的成熟配音演员,则可对声音资产进行固定,例如保存录音干音、申请著作权登记,日常做好侵权监测,甚至参与行业规则和标准的制定。
在行业层面,需加快制定合规标准,给予行业合规指引。谢添天认为,配音行业并非排斥AI,而是反对毫无边界、毫无章法的滥用。“我们拥抱新技术,但必须报价对等、用途清晰、边界明确、规则细化。”
谢佳佳则注意到,有些配音演员不知道合同该如何写,“是否可以推动有关部门或行业组织出一些示范性的合同文本,让一些没有常规法律服务的配音演员可以使用。”
在司法层面,需进一步完善相关举措,优化维权机制。杨阳表示,我国已有《民法典》《互联网信息服务深度合成管理规定》《人工智能生成合成内容标识办法》等法律法规,对声音权益和AI技术使用进行规范。落地上,他建议可参考互联网网站、软件的备案制度,对AI仿声工具进行备案,形成算法数据库,有助于声音比对和分析。同时,规范AI训练和输出中对于个人声音数据的使用,将个人声音纳入敏感个人信息,提升对其的源头性保护。
谢佳佳提出,应优化举证责任分配。“我们依旧面对着如何证明对方用了我们的声音这一难题。当原告尽了初步举证的义务,希望举证责任可以放到被告身上,要求被告打开‘技术黑箱’,披露声音样本来源、算法权重等信息。”此外,她呼吁提高侵权成本,在特定情况下适用惩罚性赔偿,形成震慑效果。
而平台方作为连接技术与用户的关键环节,更应承担第一道防线的责任,包括建立内容审核与拦截机制、完善用户实名与用途约束、保留必要的调用日志以支持溯源,以及在发现侵权行为时具备快速下架与响应能力。
“更重要的是,这类问题本质上不能仅依赖单一主体解决,而需要形成‘技术开发者-平台-法律监管’之间的协同治理机制。只有当模型本身具备可控性、平台具备治理能力、法律具备清晰边界,才能在推动语音AI产业发展的同时,有效保护个人声音权利,避免技术被系统性滥用。”
武执政强调,规范的建立并不会抑制技术进步,反而有助于建立长期健康的产业生态。他认为,可以从三个层面把握技术创新与权利保护的平衡:第一,在训练阶段,应强化数据来源的合规性,优先使用授权数据、合成数据或去标识化的数据集;第二,在生成阶段,应对特定公众人物或角色音色设置明确的使用边界,例如通过平台策略避免高相似度复现;第三,在应用阶段,应建立清晰的授权与收益分配机制,让声音的使用从“被动被复制”转向“可控、可交易的数字资产”。
当技术狂奔,其中涌现的新现象、新问题需要更多地被看见与讨论。谢添天相信,这场集体发声总有意义。“行业的发声可以加速厘清边界在哪里,推动规则建立,这总是好的。”
采写:南都N视频记者 钟欣
图片源自网络
编辑:jojo